Vous êtes sur la page 1sur 76

Introduction la biologie

molculaire
et la bio-informatique
Cours de Master Recherche M2, 2004/2005
Jean-Philippe Vert
Jean-Philippe.Vert@mines.org

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.1/76


Master Recherche M2

Plan
Organismes et cellules
Molcules de la vie
Gnes et gnomes
Technologies et donnes
Challenges en bio-informatique

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.2/76


Master Recherche M2

Organismes et cellules

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.3/76


Master Recherche M2

Cellules
Tout organisme vivant est compos de cellules
Une cellule est une solution contenant diffrentes
molcules entoure dune membrane
Il y a des organismes unicellulaires (bactries, levure...)
ou multicellulaires.
Exemple: il y a environ 6 1023 cellules dans un humain,
de 320 types diffrents (peau, muscles, neurones...)

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.4/76


Master Recherche M2

Cellules

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.5/76


Master Recherche M2

Classification des organismes


On distingue gnralement les eukaryotes des
prokaryotes
Les prokaryotes (eux-memes subiviss en bactries et
archens) sont unicellulaires, de petite taille
(typiquemet 1m), et ont une structure simple
Les eukaryotes sont uni- ou multicellulaires, plus
grands, et ont une structure plus complexes
La vie est apparue il y a 3, 8 milliards dannes, tous les
organismes proviennent dun anctre commun

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.6/76


Master Recherche M2

La cellule eukaryote

Diffrents organelles. Un noyau qui contient lADN (chromosomes).

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.7/76


Master Recherche M2

Caractristiques de la cellule
La plupart des cellules sont capables de grossir et de
se diviser (exception: neurones)
Elles ont un mtabolisme, i.e., importent des nutriments
et les convertissent en molcules utiles et nergie
Elles peuvent ragir leur environnement

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.8/76


Master Recherche M2

Les molcules de la vie

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.9/76


Master Recherche M2

Types de molcules
On les regroupe en 4 grandes familles:
les petite molcules
les protines
lADN
lARN

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.10/76


Master Recherche M2

Dans la cellule

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.11/76


Master Recherche M2

Petites molcules
Petites molcules ayant un rle: AT P , N ADP H
stockent lenergie
Sucres, lipides (sources denergie, structure des
membranes)
Acides amins et nuclotides, qui sont les blocs de
base pour former les protines et lADN/ARN.

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.12/76


Master Recherche M2

Protines
Les protines reprsentent 20% du poids de la cellule
(eau=70%). Elles ont de multiples fonctions:
Structurale : ex: le collagene relie les os et les tissus
Catalytique: les enzymes catalysent une multitude de
ractions biochimique (formant le mtabolisme). Ex: la
bexokinase permet la conversion du glucose au
glucose-6-phosphate
Les protines membranaires maintiennent
lenvironnement cellulaire, rgulent le volume de la
cellule, crent des gradients ioniques pour les muscles
et le systeme nerveux...

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.13/76


Master Recherche M2

Protine = polymre dacides amins

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.14/76


Master Recherche M2

Structure primaire
Il y a 20 acides amins. On peut donc reprsenter la
structure chimique dune protine comme un texte sur un
alphabet de 20 lettre.
Exemple: linsuline:
FVNQHLCGSHLVEALYLVCGERGFFYTPKA

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.15/76


Master Recherche M2

Structure secondaire
Hlice

Feuillet

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.16/76


Master Recherche M2

Structure tertiaire

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.17/76


Master Recherche M2

Structure quaternaire

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.18/76


Master Recherche M2

ADN
Lacide desoxyribonuclique (ADN) est la molcule,
prsente dans toutes les cellules, qui contient
linformation gntique transmise entre gnrations.
LADN peut tre en simple brin ou double brin.
Un brin simple (aussi appel polynuclotide) est un
polymre linaire compos de 4 nuclotides: adnosine
(A), cytosine (C), guanine (G) et thymine (T)
On reprsente un polynuclotide par une squence
oriente de lettres:
5 -A-T-T-C-A-G-G-C-A-T-T-A-G-C- 3

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.19/76


Master Recherche M2

ADN double brin

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.20/76


Master Recherche M2

Structure de lADN (Watson et Crick, 1953)

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.21/76


Master Recherche M2

ADN et information
La double hlice est stable, quelle que soit la squence
de nuclotides
Parfait pour stocker 2 bits/base
Distance entre 2 bases = 0.34nm, donc 6.107 bits/cm =
75ko/cm
Par repliement de lADN en 3D, on peut thoriquement
monter 2.1021 bits/cm3

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.22/76


Master Recherche M2

ARN

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.23/76


Master Recherche M2

ARN
LARN (acide ribonuclique) ressemble beaucoup lADN
mais:
Le sucre de lADN (dsoxyribose) est remplac par une
autre sucre dans lARN (ribose)
La thymine (T) de lADN est remplace par luracile (U)
dans lARN.
LARN peut sapparier avec un ARN complmentaire,
mais les ARN sont gnralement simple brin et sont
donc le sige dappariements intramolculaires.
On connait depuis longtemps 3 types dARN: ARN
messagers (ARNm), ARN ribosomiques (ARNr), ARN
de transfert (ARNt). Mais on en dcouvre de nouveaux
depuis quelques annes...
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.24/76
Master Recherche M2

Gnes et gnomes

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.25/76


Master Recherche M2

ADN et chromosomes

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.26/76


Master Recherche M2

Gnome
Toutes les cellules dun organisme ont ( peu prs) le
mme ADN, appel gnome
Organisme Chromosomes Taille du gnome (bp)
Bactries
1
400,000 a 10,000,000
Levure
12
14,000,000
Mouche
4
300,000,000
Homme
46
6,000,000,000

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.27/76


Master Recherche M2

Gnomes humains

22 paires de chromosomes + chromosomes X/X ou X/Y =


46 chromosomes.

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.28/76


Master Recherche M2

Squencage
Squencer = dterminer la squence des lettres dun
ADN
1995: premier gnome bactrien squenc
levure (1997), mouche (2000), homme (2003)...
Approche shotgun: les plus grands problmes pour le
squencage des eukaryotes suprieurs sont
informatique (assemblage)!

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.29/76


Master Recherche M2

Gne
Une partie continue dun brin dADN, partir de laquelle une
machinerie molculaire complexe peut lire de linformation
(encode dans les lettes A,C,G,T) et crer une protine particulire

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.30/76


Master Recherche M2

Dogme central
DNA

transcription

1 nucleotide to 1 nucleotide

mRNA

translation

Protein

1 codon (3 nucleotides) to 1 amino acid


according to the genetic code

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.31/76


Master Recherche M2

ARN messager

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.32/76


Master Recherche M2

De lADN aux protines

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.33/76


Master Recherche M2

Gnes

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.34/76


Master Recherche M2

Code gntique

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.35/76


Master Recherche M2

De lADN la protine

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.36/76


Master Recherche M2

Contrle de lexpression (induction)

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.37/76


Master Recherche M2

Contrle de lexpression (rpression)

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.38/76


Master Recherche M2

Exemple: B-globine humaine

La B-globin joue un rle important dans le dveloppement des cellules rouges du sang. Certaines protines rgulatrices, comme CP1, sont prsentes dans de nombreuses cellules,
mais dautres, comme GATA-1, ne se trouvent que dans quelques types de cellules, dont les
prcurseurs des cellules rouges.
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.39/76
Master Recherche M2

Coordination du contrle

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.40/76


Master Recherche M2

Rseau de rgulation

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.41/76


Master Recherche M2

Autres contrles: du gne la protine active

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.42/76


Master Recherche M2

Epissage
promoter

transcribed region
intron

transcription
factor binding
sites

intron

exon
exon

spliced mRNA
5'UTR
start
codon

C DS

3'UTR
stop
codon

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.43/76


Master Recherche M2

Epissage alternatif

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.44/76


Master Recherche M2

Nouveau dogme
Avant: 1 gene = 1 ARNm = 1 protine
Maintenant: 1 gene = x ARNm = xy protines
Rappel: 30,000 genes (?) chez lhomme

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.45/76


Master Recherche M2

Technologies et donnes

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.46/76


Master Recherche M2

Squenceur

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.47/76


Master Recherche M2

Microarrays

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.48/76


Master Recherche M2

Transcriptome

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.49/76


Master Recherche M2

Protome

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.50/76


Master Recherche M2

Interactome

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.51/76


Master Recherche M2

Mtabolome

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.52/76


Master Recherche M2

Data types and representations


Data Type and Details

Representation

Sequences

- DNA: genome (hereditary information)


- full length mRNAs:
spliced
gene copies
- ESTs (expressed sequence
tags): partial mRNAs
- proteins

string over nucleotides


{A,C,G,T}
string over ribonucleotides
{A,C,G,U}
string over ribonucleotides
{A,C,G,U}
string over amino acids
(size 20)

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.53/76


Master Recherche M2

Data types and representations


Data Type and Details

Representation

Structures

- metabolites: positions and


bonds of atoms
- macromolecules
(proteins,
RNAs, DNA)

labeled graph embedded


into 3D-space
labeled graph embedded
into 3D-space

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.54/76


Master Recherche M2

Data types and representations


Data Type and Details

Representation

Interactions

- proteins with metabolites: receptors or enzymes binding


ligands
- proteins with DNA: transcription factors; etc.
- proteins with proteins: complexes; etc.

real vectors (binding energies)


binary (bipartite graph)
binary (graph); Petri-net

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.55/76


Master Recherche M2

Data types and representations


Data Type and Details

Representation

Expression / Localization Data

- gene expression:
abundances of mRNAs
- protein expression:
abundances of proteins
- metabolite (small molecule) expression:
concentrations of
metabolites
- protein localization: compartment of presence

real vectors or matrices


real vectors or matrices
real vectors or matrices

categorical

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.56/76


Master Recherche M2

Data types and representations


Data Type and Details

Representation

Cell / Organism Data

- genotype: single nucleotide


polymorphisms
- phenotype: cell type; size;
gender; eye color; etc.
- state / clinical data: disease;
blood sugar; etc.
- environment: nutrients; temperature; etc.

vector
of
nucleotides
{A,C,G,T}
vector of real and categorical attributes
vector of real and categorical attributes
vector of real and categorical attributes

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.57/76


Master Recherche M2

Data types and representations


Data Type and Details

Representation

Population Data

- linkage disequilibrium: LODscores


- pedigrees
- phylogenies:
pedigree of
species

real numbers
certain (tree-like) graphs
trees or generalizations of
trees

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.58/76


Master Recherche M2

Data types and representations


Data Type and Details

Representation

Scientific Texts

- Texts:
articles, abstracts, natural language texts (in
web-pages
English)

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.59/76


Master Recherche M2

Sequence sources
Database

URL (http://. . . )

Remark

Nucleotide sequence databases

- DDBJ

www.ddbj.nig.ac.jp

- EMBL

www.ebi.ac.uk/embl/

Gen- www.ncbi.nlm.nih.gov
Bank

these
three
databases . . .
. . . synchronize
their . . .
. . . contents
daily

Protine sequence databases

Swis- www.expasy.org/sprot/
sProt
- TrEMBL www.expasy.org/sprot/

curated
not curated

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.60/76


Master Recherche M2

Sequence sources
(Some) Sequence motif databases

- eMotif

motif.stanford.edu/emotif/ protein regular


expression patterns
smart.embl-heidelberg.de/ protein domain
SMART
HMMs
transfac.gbf.de/TRANSFAC/ transcription
TRANSfactor binding
FAC
sites

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.61/76


Master Recherche M2

Sequence sources
General portals

- EBI

European
Bioinformatics
Institute
- Entrez www.ncbi.nlm.nih.gov/Entrez/ U.S. National
Bioinf. Institute
Ex- www.expasy.org
Expert
ProPASy
tine Analysis
System
- SRS
srs.ebi.ac.uk
Sequence Retrieval System
www.ebi.ac.uk

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.62/76


Master Recherche M2

Expression sources
Database

URL (http://. . . )

Remark

General databases

ArrayEx- www.ebi.ac.uk/arrayexpress/ by the EBI


press
- GEO
www.ncbi.nlm.nih.gov/geo/
by
the
NCBI
Organism specific databases

- MGI GXD
www.informatics.jax.org
- TAIR Mi- www.arabidopsis.org
croarray
- WormBase www.wormbase.org

mouse
arabidopsis
C. elegans

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.63/76


Master Recherche M2

Protine properties sources


Database URL (http://. . . )

Remark

Protine structures

- PDB

3D
structures
- SCOP scop.mrc-lmb.cam.ac.uk/scop/
structural
classification
- CATH www.biochem.ucl.ac.uk/bsm/cath/structural
classification
www.rcsb.org/pdb/

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.64/76


Master Recherche M2

Protine properties sources


Molecular interactions and networks

- BIND

www.bind.ca

- KEGG www.genome.ad.jp/kegg/
- DIP

dip.doe-mbi.ucla.edu

interaction
network
metabolic
pathways
interacting
proteins

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.65/76


Master Recherche M2

Protine properties sources


Protine functions

- GO
- EC
- MIPS

controlled
vocabulary
www.chem.qmul.ac.uk/iubmb/enzyme/
enzyme
numbers
mips.gsf.de/proj/yeast/
yeast gene
catalogs/funcat/
functions
www.geneontology.org

Protine expression

us.expasy.org/ch2d/
2DPAGE

2D gel electrophoresis
data

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.66/76


Master Recherche M2

Challenge en bio-informatique

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.67/76


Master Recherche M2

Gnomique

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.68/76


Master Recherche M2

Protomique

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.69/76


Master Recherche M2

Pharmacognomique

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.70/76


Master Recherche M2

Caractristiques
Beaucoup de donnes...
mais beaucoup de bruit
Donnes htrogenes (squences, structures,
vecteurs, graphes...)
Small n large p
problmes souvent mal poss (data mining)

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.71/76


Master Recherche M2

Pour vous motiver


discipline nouvelle (les donnes nexistaient pas il y a
10 ans)
application (therapeutique, biologie fondamentale)
besoin de math/info de plus en plus pointu (voir
volution rcente du domaine)
peu de spcialistes...

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.72/76


Master Recherche M2

But du cours
Proposer une thorie et des outils pour
reprsenter les donnes dans un cadre mathmatique
cohrent...
...avec des mthodes danalyse performantes...
...en pleine expansion actuellement.

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.73/76


Master Recherche M2

Contenu du cours
Introduction la biologie molculaire et la gnomique
Noyaux positifs: dfinition, proprits, espaces de
Hilbert noyau reproduisant, kernel trick, thorme du
representant
Mthodes noyau: kernel PCA, SVM, LS-SVM, kernel
CCA
Noyaux: pour squences, pour graphes, noyau de
diffusion, noyau de convolution, noyau de semi-groupe
Applications: classification de squences, infrence sur
des graphes, slection de genes

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.74/76


Master Recherche M2

Crdits

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.75/76


Master Recherche M2

Source des images et tables


Alex Zien, A primer on molecular biology, Kernel

Methods in Computational Biology (B. Scholkopf,


K. Tsuda, J.-P.
Vert ed.), MIT Press, 2004

Image gallery:
http://www.accessexcellence.org/AB/GG/

A quick introduction to elements of biology - cells,


molecules, genes, functional genomics, microarrays, by
Alvis Brazma, Helen Parkinson, Thomas Schlitt,
Mohammadreza Shojatalab
http://www.ebi.ac.uk/microarray/biology_intro.ht
.. et quelques images trouves sur le web

c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.76/76


Master Recherche M2