Cours Sequences

1.
LADN et linformation gntique

lADN
linformation gntique est contenue dans lADN
(ARN) (ADN)
A G T C U
traduction
linformation gntique est organise par triplets (codons)
1 triplet
= 1 codon
= 3 lettres
= 1 acide amin
le code gntique
le code gntique est dgnr : 4
3
= 64 > 20 !
le gne
unit de linformation
gntique
gne
introns : non codants exons : codants
le gne
gne
unit de linformation
gntique
le gnome
organisation de linformation
gntique
chez la bactrie :
Escherichia Coli
4938920 bps
4732 gnes
le gnome
organisation de linformation
gntique
codant
squences rptes
non codant
pseudognes
chez lhomme :
3 milliards de pbs
~20000 gnes
< 2 % dADN codant !

le gnome
pourcent dADN non
codant et complexit
des organismes
quantit dADN codant en
fonction de la taille du gnome
ADN codant et non codant
ADN poubelle
exons
introns
pourquoi autant dADN non codant ?
peut-on en comprendre le rle ?
en rsum :
2. tudier les squences dADN
comparaison entre squences / alignement de squences :
recherche de gnes
recherche de similarits entre espces - volution
recherches de motifs rpts - rgulation, organisation

la recherche de caractristiques globales :
diffrencier les rgions codantes et non codantes
rechercher un ordre dans le dsordre apparent

approche dterministe :
approche statistique :
analyse statistiques des squences
mesurer lordre dans lADN
quest-ce qui diffrencie les squences dADN
de simples squences alatoires ?
1. information mutuelle
2. fonction de corrlation / densit spectrale de puissance
3. techniques bases sur la marche ADN
4.
de la squence symbolique
une squence numrique
choisir un code binaire : par exemple
A
T
G
C
A
G
T
C
double liaison
hydrogne

triple liaison
hydrogne
ou
purines

pyrimidines
+1
-1
+1
-1
n=1 2 3 4 5 6 7 8 9 10
A T C G G T C A T A
+ + + + + + + + + +
n
= +1 +1 -1 -1 -1 +1 -1 +1 +1 +1
on peut donc tudier la
variable numrique binaire
n
= 1 o n = position

on obtient :
le signal
n
(ADN)
signal alatoire
signal dterministe
signal corrl
3. fonction de corrlation et
densit spectrale de puissance (DSP)

xx
(t) S
xx
( f )
t
T
1/T
fonction de corrlation
soit (t) signal alatoire fonction du temps t, stationnaire :
1. on peut dfinir la fonction de corrlation de (t)
2. si ergodique , on peut remplacer la moyenne densemble
par une moyenne sur le temps :

chaque t
0
initial considr comme une nouvelle ralisation

(t) = (t)
( )
(t +t)
( )
ensemble

(t) = (t
0
+t)
( )
(t
0
+t +t)
( )
t
0
Signal temporel
Priodicits caches
Signal musical (Strauss) :
La fonction de corrlation
prsente de pics pour des
retards t
multiples du tempo
t
(msec)
t (sec)
fonction de corrlation Signal temporel
Signaux persistants : la fonction de corrlation dcrot plus lentement pour des
signaux qui ont tendance varier lentement
Une mesure de la mmoire du signal
(bruit blanc)
Signal sans mmoire : chaque valeur est indpendante de la prcdente

bb
(t) = o(t)

do o
b
2
=
bb
(t) = +
b(t)
b(t) signal stationnaire,
(b(t)) = 0 (centr),
t

effet du bruit
densit spectrale de puissance (DSP)
3. on peut passer la reprsentation en frquence par
transforme
de Fourier (TF) : on obtient la densit spectrale de puissance
4. Thorme de Wiener-Khintchine :

S
( f ) =
def
TF
(t )
| |
= lim
T
1
T
TF
T
(t)
| |
2

S
( f ) =
def
TF
(t)
| |

T
(t) =(t) o limite lintrvalle [0, T]
5. On peut alors valuer S
( f ) directement partir du signal :

estimateur de la DSP dun signal rel :

S
( f ) ~
1
T
TF
T
(t)
| |
2
ensemble

(t) ~ exp(-t /a)

exponentielle

S

( f ) ~ 1/( 1+(2 t a f )
2
)

lorentzienne
t
f
largeur de bande
2. chelle de mmoire = a largeur de bande 1/a
1. priodicit cache = T pic la frquence 1/T

xx
(t)
S
xx
( f )
f t
T
1/T
Fonction de corrlation et DSP

(t) dt
0
}
~ a
4. corrlation longue porte
http://www.scholarpedia.org/article/1/f_noise
si lchelle de mmoire est infinie (
xx
(t) nest pas intgrable)
on parle de corrlation longue porte.
Typiquement, loi de puissance :
corrlation longue porte

0 < | s1
0 <o s1
| = 1o

lim
t
(t)
1
t
o

lim
f
S
( f )
1
f
|
t (chelle log)
(
t
)

(
c
h
e
l
l
e

l
o
g
)

pente 1/o
f (chelle log)
S
(
f
)

(
c
h
e
l
l
e

l
o
g
)

pente 1/|
5. corrlation et ADN
ADN : rsultat 1 priodicit 3
priodicit dans la fonction de corrlation
positions n = 3i
positions n = 3i+1, 3i+2
d
C
(
d
)

li la structure en triplets (codons) du code gntique ;
mais comment ? pourquoi ?
rsultat 2 corrlation longue porte
R
.

F
.

V
o
s
s
,

P
R
L
,

1
9
9
2

(variation de la mthode :
construction de 4 sous-squences
0/1 pour A, T, C, G)
rsultat 1 : pic f = 1/3
cytomgalovirus, 230000 pbs
(codant)
rsultat 2 : DSP 1/f
|
0<|<1
|
le rsultat
semble
plutt
gnral

(non codant)

chelle log-log : log(DSP) -| log(f)
f=1/3
pour lADN codant
des rsultats controverss :
pas de corrlation ?
(Stanley group, 1992-1995)
LADN codant est sans doute moins corrl que le non codant
positions n = 3i
positions n = 3i+1, 3i+2
d
C
(
d
)

revenons la fonction de corrlation
pour bien analyser les rsultats obtenus :

comment volue lamplitude des pics en position 3i ?
on la reporte en chelle log : dcroissance en d
o
!
corrlation longue porte pour une base sur trois ?
d
C
(
d
)

squence codante
dgnrescence
sur la troisime
lettre du codon

squences codantes :
la dgnrescence du code laisse passer
un peu de corrlation longue porte

H

c
a
l
c
u
l

s
u
r

d
i
f
f
r
e
n
t
e
s

c
h
e
l
l
e
s

q

introns : H0.6
position 1 du codon : H0.55
Arnodo group, 1995-1996
la position 3
du codon,
plus libre,
peut suivre
la contrainte
globale
pourquoi une mmoire tendue ?
procaryotes (bactries et archea)
ADN : un filament hautement compact
4 600 000 bps ~ 2 cm dADN
taille de la cellule 1 m
ratio = 5 10
-5

pourquoi une mmoire tendue ?
eucaryotes : CHROMATINE !
Goodsell
nuclosomes

DNA

histones
nuclosomes
fibre de chromatine
chromatine
DNA
fibre de chromatine
boucles
noyau cellulaire
parties verrouilles
parties transcrites
une structure fonctionnelle hautement organise
dautres images
un rle pour les squences non codantes
les squences non codantes
montrent toujours
une corrlation longue porte

lADN poubelle participe ltablissement dun arrangement
fonctionnel de lADN dans le noyau/la cellule !
la corrlation longue porte
indique
la prsence dun ordre global ;
interprtation
rle de la fonction biologique :
codage dune protine :
reprsente une
contrainte sur le choix
des bases, li la
bonne squence da.a.
corrlation longue porte :
en gnral,
reflet dune contrainte
sur lordre global
de lADN
squences non codantes
squences codantes
soumises deux contraintes :
peut-on les simuler ?
signal discret fonction de corrlation de
n

n = 1 2 3 4 5 6 7 8 9 10 11
A T C G G T C A T A C
+ + + + + + + + + + +
n
= +1 +1 -1 -1 -1 +1 -1 +1 +1 +1 -1
n
signal alatoire discret
fonction de la position n plutt que du temps t :

si <
n
>=0 (autrement, on soustrait la moyenne)

alors la fonction de corrlation scrit
d = distance entre 2 sites le long de la squence
moyenne densemble moyenne sur n
C(d) =
n

n+d
=
1
N

n

n+d
n=1
N
fonction de corrlation de
n

en pratique :
sur un ordinateur, le signal est toujours discret !
z(t) (z
1
, z
2
, z
3
, z
4
, z
N
) = z
pour nous, le signal est intrinsquement discret (pas=1), car
cest la squence.
sous scilab, il donc dutiliser la fonction :

corr : corr(z, d
max
) = fonction de corrlation de x,
en fonction de la distance d,
pour d = 0, 1, 2, d
max
-1

sous scilab, corr soustrait automatiquement la moyenne de z
DSP de
n
1. calculer la TF :
x(t)
t
|X(f)|
f
Spectre Signal
Signal chantillonn t Spectre priodique de priode
e
=
1/t

Signal echantillonn :
x
k
= k At
de 0 T
e
= N T
t
k

x
k

f -f
e
f
e
/2

0

FFT du signal :
n
= n A
de 0
e
= N
Transforme de Fourier Rapide :
FFT
DSP de
n
2. dduire la DSP:
Wiener-Khintchine : estimateur DSP =
do |fft(z)|
2
/ N DSP de z

1
T
TF
T
(t)
| |
2
ensemble
sous scilab, commencer par soustraire la moyenne de z
FFT = transforme de Fourier Rapide
sous scilab :

fft : fft(z, -1) = fft(z) = TF de z
donne la TF pour f = 0, f, 2f, f
e
-1

fin

Cours Sequences

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Sequences

Transféré par

Droits d'auteur :

Formats disponibles

1.

LADN et linformation gntique

( f ) directement partir du signal :

Vous aimerez peut-être aussi