Vous êtes sur la page 1sur 82

Module de

Bioinformatique applique
lanalyse des squences
GB3 2012-2013
Karine Robbe-Sermesant
Romain Gautier

Objectifs du module
Bioinformatique applique lanalyse des squences
Comprendre et apprendre utiliser les informations et
les outils disponibles sur internet pour des applications
en biotechnologies

Principales
Bases de donnes
en Biologie

Outils disponibles
pour lanalyse des
squences

Objectifs du module
Bioinformatique applique lanalyse des squences
Avoir du recul sur le contenu dune base de donnes de biologie
Connatre et pouvoir utiliser un certains nombre doutils
bioinformatiques
Savoir rechercher loutil et/ou la base de donnes le/la mieux
appropri(s) pour rpondre un certain nombre de questions
biologiques

Points du module
Principales Base de donnes en Biologie
Nucliques, Protiques, Gene Ontology (GO), domaines protiques..

Alignement de squences 2 2 (global, local)


Recherche de similitude de squences (Blast)
Outils de recherche globaux (SRS)
Alignement multiple (ClustalW)
Navigateurs de gnomes (EnsEmbl, UCSC)
Prdiction de structure protique (2D, 3D)

Cours1
Introduction la bioinformatique et
aux bases de donnes en Biologie
A. Introduction la bioinformatique
B. La squence biologique pour les informaticiens
C. Les bases de donnes en Biologie :
a. Un besoin de stockage et dorganisation : les bases de donnes en biologie
b. Bases de donnes nucliques : Genbank/ EMBL/ DDBJ
c. Bases de donnes protiques : UniprotKB/Trembl et UniprotKB/SwissProt
d. Bases de donnes de domaines protiques
e. Bases de donnes dontologies : Gene Ontology (GO)
f. Bases de donnes de structures : PDB

A.Introduction la bioinformatique
La bio-informatique est un champ de recherche multi-disciplinaire :

Informatique

Mathmatiques

Biologie
Mdecine
Physique

Chimie/
Biochime

A. Introduction la bioinformatique
La bioinformatique recouvre des champs de recherches trs
diffrents regroupant la fois une forte utilisation de linformatique
et des mathmatiques pour rpondre une question biologique.
Stockage et recherche dinformations (base de donnes de squences,
dannotations, outils globaux de recherche)
Analyse de squences (alignements, phylognie, recherche de motifs,
analyse de gnomes)
Analyses omiques (gnome, transcriptome, protome)
Modlisations dinteractions gniques
Modlisations molculaires (Structure des protines, des ARN)
Modlisations physiologiques (cellules, organes, organismes, populations)
Analyse en imagerie mdicale et microscopique

A. Introduction la bioinformatique
La bioinformatique recouvre des champs de recherches trs
diffrents regroupant la fois une forte utilisation de linformatique
et des mathmatiques pour rpondre une question biologique.
Stockage et recherche dinformations (base de donnes de squences,
dannotations, outils globaux de recherche)
Analyse de squences (alignements, phylognie, recherche de motifs,
analyse de gnomes)
Analyses omiques (gnome, transcriptome, protome)
Modlisations dinteractions gniques
Modlisations molculaires (Structure des protines, des ARN)
Modlisations physiologiques (cellules, organes, organismes, populations)
Analyse en imagerie mdicale et microscopique

A. Introduction la bioinformatique
Paradoxe :
La biologie porte une part de variabilit. Elle peut ne pas tre
totalement prvisible et totalement reproductible et est souvent
dynamique
Les Mathmatiques et lInformatique qui sont des sciences exactes
comportent des concepts et des thories prcises
La bioinformatique ncessite souvent de dcomplexifier des
problmes biologiques (modles)

A. Introduction la bioinformatique
Apport de linformatique
Stockage et
organisation des
donnes
Automatisation
de tches
manuelles

Permet de stocker par exemple les squences des protines et dy associer


diffrentes annotations : positions des domaines, des sites actifs, dun propeptide, spcificit dexpression, rle fonctionnel, associations des
pathologies.

Certaines tches simples ne peuvent pas tre ralises la main pour de


nombreuses squences (manque de temps, dintrt et risque derreurs)
et sont donc automatises (traduction, recherche de sites denzymes de
restriction)

Un algorithme est une suite finie et non-ambigu dinstructions


permettant de donner la rponse un problme.

Algorithme

Cas particulier : les heuristiques


Puisque toutes les combinaisons ne peuvent tre essayes dans un temps
raisonnable, certains choix stratgiques doivent tre faits (cf Blast)

A. Introduction la bioinformatique
Apport des mathmatiques

Statistiques

Permet dvaluer des rsultats entre eux en proposant


des calculs de scores et de probabilits (p-value)
=> Aide linterprtation

Modlisation

Permet de faire des prdictions partir dune mise en


quation dun systme et des donnes biologiques

A. Introduction la bioinformatique
Quelques thories et concepts en Biologie :
La thorie de l'volution nonce par Darwin (1859), complte par Kimura avec la
thorie neutraliste de l'volution (1983).
Les lois de Mendel (en 1866 ).
=> Premire thorie biologique partir d'une analyse statistique.
La mise en vidence des chromosomes comme support cellulaire de l'hrdit et
de l'information gntique (Morgan, 1913).
La dcouverte de la structure en double hlice de l'ADN (Watson et Crick, 1953),
puis du mcanisme de la rgulation gntique impliqu dans le dogme central de
la biologie molculaire (1965). Des drogations au dogme ont finalement t
trouves notamment par Temin et Baltimore (1970)

Cours1
Introduction la bioinformatique et
aux bases de donnes en Biologie
A. Introduction la bioinformatique
B. La squence biologique pour les informaticiens
C. Les bases de donnes en Biologie :
a. Un besoin de stockage et dorganisation : les bases de donnes en biologie
b. Bases de donnes nucliques : Genbank/ EMBL/ DDBJ
c. Bases de donnes protiques : UniprotKB/Trembl et UniprotKB/SwissProt
d. Bases de donnes de domaines protiques
e. Bases de donnes dontologies : Gene Ontology (GO)
f. Bases de donnes de structures : PDB

B. La squence biologique pour les informaticiens

Enoncer que l'information gntique de tout organisme vivant est contenue dans
une squence fut un concept rvolutionnaire. La squence devient un lment
essentiel en biologie grce la biologie molculaire (enzyme de restriction, PCR,
vecteur de clonage, volution des techniques de squenage)

La squence devient un objet lmentaire et formel qui manquait la


biologie pour se constituer une branche thorique
C'est une chane de caractres base sur un alphabet simple et fixe.
ADN : 4 nuclotides ATCG
ARN : 4 nuclotides AUCG
Protines : 20 acides amins

La squence est manipulable par des algorithmes !


Rcupration et manipulation de certains lments ou groupes
dlments dans la chaine de caractre

B. La squence biologique pour les informaticiens


Le code gntique : une rgle de traduction !

B. La squence biologique pour les informaticiens


Do viennent les squences ?
Clonage dune squence dADNc dans un laboratoire
Obligation de publier la squence pour pouvoir publier larticle scientifique correspondant
- Avant : publication de la squence dans une des figures de larticle
- De nos jours : Soumission une base de donnes

Squenage dun banque dExpressed Sequence Tag (EST)


Permettait de quantifier lexpression des transcrits dans diffrents tissus en clonant
des fragments de cDNA
(De nous jours, technique remplace par les biopuces et le squenage nouvelle gnration)

Grand projets et consortium


- Squenage de gnomes entiers
- Squenage massif dADNc

Historique des technologies


danalyse qualitative et quantitative des squences

1975 1977
Squenage
-Sanger
-Gilbert
Southern
Blot

1990

1995
puces ADN
(microarray)

Squenage par
mesure de la fluorescence

1999 2000

2006

2011

Evolution puces ADN

Squenage par
Electrophorse capillaire

Next
Next-next
Generation generation
Squencing Sequencing
(NGS)

Squenage Haut dbit !!!


(High Throughput Sequencing HTS)

B. La squence biologique pour les informaticiens


Les squences les plus frquentes :
ARN

ADN

Gnome
Complet
Linaire
ou Circulaire

Fragment
gnomique

ADNc
(entier ou
partiel)

Protine

EST

Contient
0 n gnes
ADN
recombinant

Protine

Fragment

Protine
recombinante

B. La squence biologique pour les informaticiens


Les squences issues de lADN recombinant:

Prsence de squences plasmidiques


Existence de squences muts
Transcrits issus des gnes fusionns avec un tag

Exemples de tag utiliss pour la purification ou la dtection :

B. La squence biologique pour les informaticiens


Les squences issues de lADN recombinant:
Exemple de construction pour un gne de
fusion avec un tag en C-terminal
CDS du gne dintrt
Linker( + Site de Protase)

TAG

Promoteur

Plasmide
Gne de rsistance
un antibiotique

ARNm de fusion

Protine de fusion
N-term

C-term

B. La squence biologique pour les informaticiens


Les squences issues de lADN recombinant:
Exemple de squence nuclotidique contenant la squence codante dun gne de fusion
(ici fusion GST en Ct-terminal)

ATG
Promoter T7

STOP
ARF1

GST

STOP
*

CDS du tag

CDS du gne dintrt


Linker
Vecteur
(plasmide)

Tags :

(avec ou sans
site protase)

Vecteur
(plasmide)

GST(Glutathion-S transferase), GFP (Green fluorescent protein), (his)*6, FLAG

La position du Tag peut tre en N-terminal ou en C-terminal de la protine


dintrt (sur le schma: cot C-terminal)

B. La squence biologique pour les informaticiens


Rappel de biologie : tous les ARN ne codent pas pour des protines !!
Certains ARN sont dit non-codants
ARN

ARN non
codant

ARN codant

ARNm

ARNr

ARNt

ARN nc long

(>250 nt)

Petits ARN

B. La squence biologique pour les informaticiens


Rappel de biologie : convention Brin sens = Brin codant

5'
3'

3'
5'
Transcription

Brin sens= brin codant


5'

3'
ARN
5'

3'

3'
5'

Brin matrice = brin antisens = brin non-codant

B. La squence biologique pour les informaticiens


Rappel de Biologie : maturation des ARNm des eucaryotes
=> Epissage

(Berg, Biochemistry)

B. La squence biologique pour les informaticiens


Reprsentation graphique du gne eucaryote:

Amont

Aval

Exons

5UTR

Promoteur

3UTR

Introns

ATG
Rgion codante (CDS = coding sequence)

Premier exon

codon stop
TGA, TAA, TAG
Dernier exon

B. La squence biologique pour les informaticiens


Diffrences par rapport une squence de rfrence (polymorphisme ou
mutation)
Substitution

SNP

CNV

Insertion/Dltion

B. La squence biologique pour les informaticiens


Effet dune mutation sur la squence nuclotidique selon sa localisation
Exons
5UTR

Promoteur

3UTR

Introns

ATG

*
Effet sur la squence de la protine traduite ?

Rgulation ?

Protine
tronque

-Mutation faux-sens (Substitution dacide amin)


-Mutation synonyme (mme acide amin)
-Mutation non-sens (introduction dun codon STOP)
-Insertion(s)
-Dltion(s)
-Dfaut dpissage (jonction intron/exon)

Rgulation ?

Exon
Protine
plus longue

B. La squence biologique pour les informaticiens


Insertion/dltion d1, 2 ou nuclotides groups dans la rgion codante
1 nuclotide

2 nuclotides

Dcalage de phase
(= Frameshift)

3 nuclotides

Pas de Dcalage de phase

1 insertion/dltion

Pas de Dcalage de phase

1 insertion/dltion
+ 1 substitution

B. La squence biologique pour les informaticiens


Exemples danalyse bioinformatique dune squence :
> Description
MASEQUENCE

Le format fasta est un format de squence nuclotidique couramment utilis


dans les outils bioinformatiques

B. La squence biologique pour les informaticiens

B. La squence biologique pour les informaticiens


Exemples danalyse bioinformatique dune squence :
Cration de linverse complmentaire (reverse complementary) outil RevSeq

B. La squence biologique pour les informaticiens


Exemples danalyse bioinformatique dune squence :
traduction dans les 6 phases de lecture (= 6-frames translation)

Codon 1 Codon 2 Codon3 Codon4 Codon5

Phase 1+ :

B. La squence biologique pour les informaticiens


Exemples danalyse bioinformatique dune squence :
traduction dans les 6 phases de lecture (= 6-frames translation)

Phase +3
Phase +2
Phase +1

Phase -1
Phase -2
Phase -3

B. La squence biologique pour les informaticiens


Exemples danalyse bioinformatique dune squence :
traduction dans les 6 phases de lecture (= 6-frames translation) : Transeq

B. La squence biologique pour les informaticiens


Exemples danalyse bioinformatique dune squence :
traduction dans les 6 phases de lecture (= 6-frames translation)

Phase +1
Phase +2
Phase +3
Phase -1
Phase -2
Phase -3

Cours1
Introduction la bioinformatique et
aux bases de donnes en Biologie
A. Introduction la bioinformatique
B. La squence biologique pour les informaticiens
C. Les bases de donnes en Biologie :
a. Un besoin de stockage et dorganisation : les bases de donnes en biologie
b. Bases de donnes nucliques : Genbank/ EMBL/ DDBJ
c. Bases de donnes protiques : UniprotKB/Trembl et UniprotKB/SwissProt
d. Bases de donnes de domaines protiques
e. Bases de donnes dontologies : Gene Ontology (GO)
f. Bases de donnes de structures : PDB

C. Bases de donnes : a) les bases de donnes en biologie


Historique : Un besoin de stockage !
Dans les annes 80 :
Le nombre de squences publies augmente considrablement grce aux avances
technologiques et un accs facile pour la communaut des biologistes doit tre
propos.
Les changes de donnes informatiques commencent tre facilits par le
dveloppement de rseaux informatiques
Un consensus apparat : il faut disposer de centres de rfrences dans lesquels toutes
les squences connues seront dposes. Des serveurs "mondiaux" naissent :
1988 : NCBI aux USA / Base de donnes Genbank
1986 : DDBJ au Japon / Base de donnes DDBJ
1980 : EBI en Europe / Base de donnes EMBL
1986 : SIB en Suisse / Base de donnes SwissProt

Squences nucliques
Squences protiques

C. Bases de donnes : a) les bases de donnes en biologie

1995 Haemophilus influenzae


1,8. 106 pb
1700 gnes
1997 Saccharomyces cerevisiae
1,3. 107 pb
6 400 gnes
1999 Caenorhabditis elegans
9,7. 107 pb
19 000 gnes
2000 Drosophila melanogaster
1,37. 108 pb
13 000 gnes
2001 (2004) Homme
3,4. 109 pb
25000 gnes

(Gregory, 2005)

39

C. Bases de donnes : a) les bases de donnes en biologie

Organisation des donnes :


Notion didentifiant unique
Un identifiant permet de retrouver un lment dans un base de donnes de faon non ambigu

Fichiers Textes
Les informations peuvent tre prsentes dans une fiche (= un fichier texte) avec une fiche pour
chaque lment de la base. Cette fiche peut tre prsente ensuite sous format html avec des
hyperliens, des illustrations.

Base de donnes relationnelles


Souvent, les bases de donnes en biologie utilisent des outils informatiques de
stockage de linformation = Systme de gestion de Base de donnes relationnelles (SGBD)
Organisation des informations sous forme de tables ayant des liens entre elles
Efficacit de stockage et de recherche dinformations croises ( requtes )

Rfrences Croises
Liens entre les diffrentes bases de donnes pour permettre aux biologistes de trouver un
maximum dinformations

C. Bases de donnes : a) les bases de donnes en biologie


PubMed

PMID
PubMed IDentifiant

Cours1
Introduction la bioinformatique et
aux bases de donnes en Biologie
A. Introduction la bioinformatique
B. La squence biologique pour les informaticiens
C. Les bases de donnes en Biologie :
a. Un besoin de stockage et dorganisation : les bases de donnes en biologie
b. Bases de donnes nucliques : Genbank/ EMBL/ DDBJ
c. Bases de donnes protiques : UniprotKB/Trembl et UniprotKB/SwissProt
d. Bases de donnes de domaines protiques
e. Bases de donnes dontologies : Gene Ontology (GO)
f. Bases de donnes de structures : PDB

C. Bases de donnes : b) Squences nucliques


NCBI / Genbank (USA)
Format Genbank des fiches
Il existe des subdivisions spcifiques :

Genbank

Expressed Sequence Tag (dbEST)


Genome Survey Sequence (GSS)

EMBL (Europe)
Format EMBL des fiches
ENA : EMBL nucleotide Archive

ENA : EMBL nucleotide


Archive

DDBJ (Japan)
Genbank comme EMBL et DDBJ sont des bases de donnes de soumission
et contiennent donc de nombreuses redondances.
=> Des bases de donnes comme RefSeq (NCBI) ont t cre pour regrouper les
squences similaires de transcrits et limiter la redondance.

C. Bases de donnes : b) Squences nucliques


Echange des nouvelles soumissions toutes les 24h !

Genbank

ENA : EMBL nucleotide


Archive

C. Bases de donnes : b) Squences nucliques


Echange des nouvelles soumissions toutes les 24h !

Genbank

ENA : EMBL nucleotide


Archive

En une journe, la squence soumise par le chercheur franais lEMBL va se retrouver dans
les 3 banques de donnes avec un reformatage spcifique chaque banque.

C. Bases de donnes : b) Squences nucliques


Soumission dune squence et suite :
Le chercheur est lauteur de la squence, il soumet :
La squence nuclotidique
Attention, cette squence peut contenir des erreurs de squences :
- erreur de squenage
- erreur de manipulation informatique (envoie de linverse
complmentaire, squence de vecteurs de clonage )
Les informations supplmentaires = des annotations
Organisme, position des gnes si ADN gnomique, du CDS si ARNm..
Elle peut aussi contenir des erreurs dannotations souvent dues au manque de
connaissances biologiques la date de soumission

Chaque banque rorganise linformation (identifiant, format spcifique)


Mise

jour

Les annotations vont voluer avec les nouvelles connaissances en biologie =>
Beaucoup dannotations sont automatiques
!
Des liens vers dautres bases de donnes seront rajoutes
Rfrences croises (= Cross-References)

C. Bases de donnes : b) Squences nucliques

C. Bases de donnes : b) Squences nucliques

Projets de
Mtagnomique

C. Bases de donnes : b) Squences nucliques


Format EMBL

Rfrences
Identifiants
permettant de faire un
lien vers dautres
banques de donnes

C. Bases de donnes : b) Squences nucliques


Format EMBL (fichier texte)

P53 humain

PMID
PubMed IDentifiant

C. Bases de donnes : b) Squences nucliques


Format EMBL (fichier texte)

Position du CDS

Identifiants
permettant de faire un
lien vers dautres
banques de donnes

C. Bases de donnes : b) Squences nucliques


Format EMBL (fichier texte)
Lien vers Uniprot
Traduction du CDS

Squence nuclique

C. Bases de donnes : b) Squences nucliques

Fiche au format
Genbank
(ici version html)

Cours1
Introduction la bioinformatique et
aux bases de donnes en Biologie
A. Introduction la bioinformatique
B. La squence biologique pour les informaticiens
C. Les bases de donnes en Biologie :
a. Un besoin de stockage et dorganisation : les bases de donnes en biologie
b. Bases de donnes nucliques : Genbank/ EMBL/ DDBJ
c. Bases de donnes protiques : UniprotKB/Trembl et UniprotKB/SwissProt
d. Bases de donnes de domaines protiques
e. Bases de donnes dontologies : Gene Ontology (GO)
f. Bases de donnes de structures : PDB

C. Bases de donnes : UniProtKB


http://www.uniprot.org
UniProt Knowledgebase: Collaboration entre EBI, SIB et PIR
Dcrire dans une fiche unique les produits derivs dun gne dans une espce donne.
-

UniProtKB/Swiss-Prot
Non-redondante, annotation manuelle.

- UniProtKB/TrEMBL
Traduction automatique de la base de donnes EMBL selon les annotation de CDS
Redondante, annotation automatique
!

C. Bases de donnes : c) UniProtKB

TrEMBL
Ensemble des squences protiques conceptuelles
obtenues par traduction automatique des squences codante
contenues dans EMBL, avec des annotations non vrifies, mais
avec lobjectif dobtenir une couverture maximale

C. Bases de donnes : c) UniProtKB

Les annotations :











Nom de la protine, Nom du gne


Fonction
Activit enzymatique
Composition en domaines
Localisation cellulaire
Spcificit dexpression (tissus, stade de dveloppement)
Implication dans des pathologies
Effet des mutations
Interactions molculaires
Liens vers dautres base de donnes = Rfrences croises
(EMBL, SMART,GO, PDB,OMIM.)

C. Bases de donnes : c) UniprotKB


Statistiques pour UniprotKB/TrEMBL
Release 2011_12 of 14-Dec-2011 of UniProtKB/TrEMBL contains 18510272 sequence entries

Total number of species represented in this release of UniProtKB/TrEMBL: 406001

C. Bases de donnes : c) UniprotKB


Statistiques pour UniprotKB/SwissProt
Release 2011_12 of 14-Dec-11 of UniProtKB/Swiss-Prot contains 533657 sequence entries

C. Bases de donnes : c) UniprotKB


Statistiques pour UniprotKB/TrEMBL

C. Bases de donnes : c) UniprotKB


Statistiques pour UniprotKB/Swissprot

C. Bases de donnes : c) UniprotKB


Statistiques pour UniprotKB/Swissprot

C. Bases de donnes : c) UniprotKB

C. Bases de donnes : c) UniprotKB

REVIEWED !
ACC
ID

1 seul organisme par fiche

C. Bases de donnes : c) UniprotKB

C. Bases de donnes : c) UniprotKB

1 seul organisme par fiche

C. Bases de donnes : UniprotKB

Cours1
Introduction la bioinformatique et
aux bases de donnes en Biologie
A. Introduction la bioinformatique
B. La squence biologique pour les informaticiens
C. Les bases de donnes en Biologie :
a. Un besoin de stockage et dorganisation : les bases de donnes en biologie
b. Bases de donnes nucliques : Genbank/ EMBL/ DDBJ
c. Bases de donnes protiques : UniprotKB/Trembl et UniprotKB/SwissProt
d. Bases de donnes de domaines protiques
e. Bases de donnes dontologies : Gene Ontology (GO)
f. Bases de donnes de structures : PDB

C. Bases de donnes : d) Domaines protiques


Les domaines sont les pices lgos de lvolution
Diffrentes base de donnes de domaines :
Rpertorie les diffrents domaines protiques
Annote les protines avec ses domaines
Egalement : analyse de motifs, de familles protiques, de sites de
phosphorylations

INTERPRO

C. Bases de donnes : d) Domaines protiques


Exemple : base de donnes SMART
IGF1R_HUMAN

Furin-like
Repeats
Domain
Faible
complexit

Fibronectine
Type 3
Domain

Tyrosine kinase
Domain
Transmembrane
domain

C. Bases de donnes : d) Domaines protiques


IGF1R_HUMAN

EGFR_HUMAN

FYN_HUMAN

FGFR1_HUMAN

Cours1
Introduction la bioinformatique et
aux bases de donnes en Biologie
A. Introduction la bioinformatique
B. La squence biologique pour les informaticiens
C. Les bases de donnes en Biologie :
a. Un besoin de stockage et dorganisation : les bases de donnes en biologie
b. Bases de donnes nucliques : Genbank/ EMBL/ DDBJ
c. Bases de donnes protiques : UniprotKB/Trembl et UniprotKB/SwissProt
d. Bases de donnes de domaines protiques
e. Bases de donnes dontologies : Gene Ontology (GO)
f. Bases de donnes de structures : PDB

C. Bases de donnes : e) Gene Ontology


Notion dontologie :

Une ontologie est l'ensemble structur des termes et concepts reprsentant le


sens d'un champ d'informations d'un domaine de connaissances.

L'ontologie constitue en soi un modle de donnes reprsentatif d'un


ensemble de concepts dans un domaine, ainsi que des relations entre ces
concepts.

=> Un recensement des concepts sous la forme d'un vocabulaire contrl.


Liaison de ces concepts par des relations qui modlisent notre
connaissance. Exemple Gene Ontology (is_a , part_of_a)

C. Bases de donnes : e) Gene Ontology


Exemple :
Meuble
is_a

is_a

Meuble de
rangement

Siege
is_a

is_a

is_a

Chaise

fauteuil

Part_of_a

Part_of_a

Dossier

Tabouret

is_a

Placard

C. Bases de donnes : e) Gene Ontology


Impossible d'afficher l'image. Votre ordinateur manque peut-tre de mmoire pour ouv rir l'image ou l'image est endommage. Redmarrez l'ordinateur, puis ouv rez nouv eau le fichier. Si le x rouge est toujours affich, v ous dev rez peut-tre supprimer l'image av ant de la rinsrer.

Exemple doutil dannotation : la Gene Ontology

Gene Ontology (GO)


Gene Ontology Annotation (GOA)

http://geneontology.org/
http://www.ebi.ac.uk/ego

Utilisation dun vocabulaire control


Lien entre les termes sous forme de graphes
Directed Acyclic Graph (DAG)

3 composants dans GO :
Cellular component
Endosome, Mitochondrion, Apoptosome, Centriole
Biological process
Notch signaling pathway, G1 phase, Serotonin biosynthesis
Molecular function
Inositol 3-kinase activity, clathrin binding

http://www.ebi.ac.uk/ego

http://www.ebi.ac.uk/ego

!
Automatique

Cours1
Introduction la bioinformatique et
aux bases de donnes en Biologie
A. Introduction la bioinformatique
B. La squence biologique pour les informaticiens
C. Les bases de donnes en Biologie :
a. Un besoin de stockage et dorganisation : les bases de donnes en biologie
b. Bases de donnes nucliques : Genbank/ EMBL/ DDBJ
c. Bases de donnes protiques : UniprotKB/Trembl et UniprotKB/SwissProt
d. Bases de donnes de domaines protiques
e. Bases de donnes dontologies : Gene Ontology (GO)
f. Bases de donnes de structures : PDB

C. Bases de donnes : f) Structures protiques

Protein Data Bank ou PDB est une collection mondiale de donnes sur la structure
tridimensionnelle (ou structure 3D) de macromolcules biologiques : protines,
essentiellement, et acides nucliques.

Ces structures sont essentiellement dtermines par cristallographie aux rayons X ou


par spectroscopie RMN.

As of 18 January 2012 the PDB contains 78628 entries and EMDB contains 1242 entries
Identifiant de la structure: code 4 lettres/chiffres

C. Bases de donnes : f) Structures protiques

PDBe

(PDB in Europe)

Cours1
Introduction la bioinformatique et
aux bases de donnes en Biologie
Conclusion : Bioinformatique mais Interprtation biologique !

De nombreuses informations sont mises la disposition de le communaut


scientifique en biologie par le mise en place de bases de donnes spcifiques.

Il existe des rfrences croises entre les diffrentes bases de donnes.

Les banques de donnes biologiques sont trs souvent le point de dpart pour
raliser une analyse, il est cependant essentiel de garder lesprit que des
erreurs (manuelles ou automatiques) sont parfois prsentes