Vous êtes sur la page 1sur 7

Alex Martnez Ascensin

GA 2 BIOINFORMTICA
1. LUGAR 5 DE CORTE Y EMPALME DE EXONES
1. Los pasos de la PSSM se muestran a continuacin:
a. Recuento:
La tabla original es:
Posicin
Sec 1
Sec 2
Sec 3
Sec 4
Sec 5
Sec 6
Sec 7
Sec 8
Sec 9
Sec 10

1
T
T
C
A
T
T
A
C
T
A

2
A
C
A
C
A
A
T
A
G
A

3
C
C
G
A
G
G
G
G
T
G

4
G
G
G
G
G
G
G
G
G
G

5
T
T
T
T
T
T
T
T
T
T

6
A
A
T
C
C
A
A
A
G
A

7
A
A
G
A
A
C
A
T
A
A

8
A
G
G
G
T
T
G
A
G
G

9
C
T
A
T
T
C
T
C
T
T

2
6
1
2
1

3
1
1
2
6

4
0
0
0
10

5
0
10
0
0

6
6
1
2
1

7
7
1
1
1

8
2
2
0
6

9
1
6
3
0

4
1
1
1
11
14

5
1
11
1
1
14

6
7
2
3
2
14

7
8
2
2
2
14

8
3
3
1
7
14

9
2
7
4
1
14

Y la tabla recuento es:


Posicin
A
T
C
G

1
3
5
2
0

b. Pseudocuentas (sumar 1 a todo):


Posicin
A
T
C
G
Total

1
4
6
3
1
14

2
7
2
3
2
14

3
2
2
3
7
14

Total
35
36
21
34
126

c. Probabilidades observadas ( ):
Posicin
A
T
C
G

1
2
3
4
0,286 0,5 0,143 0,071
0,429 0,143 0,143 0,071
0,214 0,214 0,214 0,071
0,071 0,143 0,5 0,786

Esperado
5
6
7
8
9
0,25
0,071 0,5 0,571 0,214 0,143
0,25
0,786 0,143 0,143 0,214 0,5
0,25
0,071 0,214 0,143 0,071 0,286
0,25
0,071 0,143 0,143 0,5 0,071

Alex Martnez Ascensin


d. Odds ( / )
Posicin
A
T
C
G

1
2
3
4
1,143
2
0,571 0,286
1,714 0,571 0,571 0,286
0,857 0,857 0,857 0,286
0,286 0,571
2
3,143

5
6
7
8
9
0,286
2
2,286 0,857 0,571
3,143 0,571 0,571 0,857
2
0,286 0,857 0,571 0,286 1,143
0,286 0,571 0,571
2
0,286

1
2
3
4
0,193 1 -0,81 -1,81
0,778 -0,81 -0,81 -1,81
-0,22 -0,22 -0,22 -1,81
-1,81 -0,81 1 1,652

5
6
7
8
9
-1,81
1 1,193 -0,22 -0,81
1,652 -0,81 -0,81 -0,22
1
-1,81 -0,22 -0,81 -1,81 0,193
-1,81 -0,81 -0,81
1
-1,81

e. Log2 odds:
Posicin
A
T
C
G

2. Los pasos de la PSSM son iguales hasta el momento de contar las probabilidades
a. Probabilidades observadas ( ):
Posicin
A
T
C
G

1
2
3
4
0,286 0,5 0,143 0,071
0,429 0,143 0,143 0,071
0,214 0,214 0,214 0,071
0,071 0,143 0,5 0,786

Esperado
5
6
7
8
9
0,071 0,5 0,571 0,214 0,143 0,278
0,286
0,786 0,143 0,143 0,214 0,5
0,071 0,214 0,143 0,071 0,286 0,167
0,27
0,071 0,143 0,143 0,5 0,071

b. Odds ( / )
Posicin
1
2
3
A
1,029 1,8 0,514
T
1,5
0,5
0,5
C
1,286 1,286 1,286
G
0,265 0,529 1,853

4
0,257
0,25
0,429
2,912

5
6
7
0,257 1,8 2,057
2,75 0,5
0,5
0,429 1,286 0,857
0,265 0,529 0,529

8
0,771
0,75
0,429
1,853

9
0,514
1,75
1,714
0,265

5
6
7
8
-1,96 0,848 1,041 -0,37
1,459 -1
-1 -0,42
-1,22 0,363 -0,22 -1,22
-1,92 -0,92 -0,92 0,89

9
-0,96
0,807
0,778
-1,92

c. Log2 odds:
Posicin
A
T
C
G

1
2
3
4
0,041 0,848 -0,96 -1,96
0,585 -1
-1
-2
0,363 0,363 0,363 -1,22
-1,92 -0,92 0,89 1,542

Alex Martnez Ascensin


3. Para Calcular la probabilidad, sumamos los valores de los logs de odds obtenidos en la tabla. La suma ms
elevada corresponder a la secuencia ms probable de hallarse, teniendo en cuenta las frecuencias observadas:
- GTGGTAAGC
Posicin
A
T
C
G

1
2
3
4
0,041 0,848 -0,96 -1,96
0,585 -1
-1
-2
0,363 0,363 0,363 -1,22
-1,92 -0,92 0,89 1,542

5
6
7
8
-1,96 0,848 1,041 -0,37
1,459 -1
-1 -0,42
-1,22 0,363 -0,22 -1,22
-1,92 -0,92 -0,92 0,89

9
-0,96
0,807
0,778
-1,92

5
6
7
8
-1,96 0,848 1,041 -0,37
1,459 -1
-1 -0,42
-1,22 0,363 -0,22 -1,22
-1,92 -0,92 -0,92 0,89

9
-0,96
0,807
0,778
-1,92

La suma de logs da 4,528


-

CCGGTAGTC
Posicin
A
T
C
G

1
2
3
4
0,041 0,848 -0,96 -1,96
0,585 -1
-1
-2
0,363 0,363 0,363 -1,22
-1,92 -0,92 0,89 1,542

La suma de logs da 4.903. Por tanto, es ms probable encontrar esta secuencia que la anterior.
Si ahora realizamos el ejercicio teniendo en cuenta que la frecuencia de aparicin es la misma:
-

GTGGTAAGC
Posicin
A
T
C
G

1
2
3
4
0,193
1
-0,81 -1,81
0,778 -0,81 -0,81 -1,81
-0,22 -0,22 -0,22 -1,81
-1,81 -0,81
1
1,652

5
6
7
8
9
-1,81
1
1,193 -0,22 -0,81
1,652 -0,81 -0,81 -0,22
1
-1,81 -0,22 -0,81 -1,81 0,193
-1,81 -0,81 -0,81
1
-1,81

La suma de logs da 5.07


-

CCGGTAGTC
Posicin
A
T
C
G

1
2
3
4
0,193
1
-0,81 -1,81
0,778 -0,81 -0,81 -1,81
-0,22 -0,22 -0,22 -1,81
-1,81 -0,81
1
1,652

5
6
7
8
9
-1,81
1
1,193 -0,22 -0,81
1,652 -0,81 -0,81 -0,22
1
-1,81 -0,22 -0,81 -1,81 0,193
-1,81 -0,81 -0,81
1
-1,81

La suma de logs da 4.02. En este caso, la suma de logs es menor, por lo que es ms probable encontrar la
primera secuencia.

Alex Martnez Ascensin


4. La secuencia es: GTAGTAGAAGGTAAGTGTCCGTAG.
Para solucionar este ejercicio tenemos que realizar una ventana deslizante de longitud de secuencia igual a la
secuencia origen (n=9) e ir calculando las probabilidades. La tabla de la suma de los logs de probabilidades,
teniendo en cuenta frecuencia equiprobable de bases y frecuencia de bases observadas es:

Secuencia B. equip.
GTAGTAGAA
-1
TAGTAGAAG
-2,5
AGTAGAAGG
-3,7
GTAGAAGGT
-1,4
TAGAAGGTA
-3,5
AGAAGGTAA
-7,7
GAAGGTAAG
-3,4
AAGGTAAGT
9,69
AGGTAAGTG
-5,1
GGTAAGTGT
-6,7
GTAAGTGTC
-8,7
TAAGTGTCC
1,04
AAGTGTCCG
-6,7
AGTGTCCGT
2,85
GTGTCCGTA
-7,3
TGTCCGTAG
-8,1

logs
-2,3
-3,8
-4,9
-2,7
-4,8
-9
-4,7
8,37
-6,3
-8
-9,3
1,11
-6,5
2,96
-7,2
-8

# Sec VS log odds


15
10
5
0
-5

10

15

20

-10
-15
Series1

Series2

Como podemos observar, los logs no difieren mucho segn el mtodo de estudio. Sin embargo, si que se
observa que hay una secuencia clara como candidata para ser el sitio 5 de corte para el splicing: AAGGTAAGT.
Si hacemos la comparacin con la secuencia consenso, el parecido es razonable:
Observada A A G G T A A G T
Consenso X A G G T A A G T

Alex Martnez Ascensin


B) SEAL DE POLIADENILACIN

1.

Los pasos de la PSSM se muestran a continuacin:


a. Recuento:
La tabla original es:
Posicin
Sec 1
Sec 2
Sec 3
Sec 4
Sec 5
Sec 6
Sec 7
Sec 8
Sec 9
Sec 10
Sec 11

1
C
A
A
T
A
T
T
C
T
T
G

2
T
C
T
A
A
T
G
C
T
C
A

3
A
C
A
G
G
T
C
T
T
C
A

4
A
A
A
A
A
A
A
A
A
A
A

5
A
A
A
A
A
A
A
A
A
T
A

6
T
T
T
T
T
T
T
T
T
T
T

7
A
A
A
A
A
A
A
A
A
A
A

8
A
A
A
A
A
A
A
A
A
A
A

9
A
A
A
A
A
A
A
A
A
A
A

10
A
C
A
A
G
T
A
G
T
G
C

11
C
A
C
T
C
G
G
A
G
A
T

12
C
T
A
A
C
T
T
G
A
C
C

3
3
3
3
2

4
11
0
0
0

5
10
1
0
0

6
0
11
0
0

7
11
0
0
0

8
11
0
0
0

9
11
0
0
0

10
4
2
2
3

11
3
2
3
3

12
3
3
4
1

6
1
12
1
1
15

7
12
1
1
1
15

8
12
1
1
1
15

9
12
1
1
1
15

10
5
3
3
4
15

11
4
3
4
4
15

12
4
4
5
2
15

Total
85
43
29
23
180

6
0,07
0,86
0,07
0,07

7
0,86
0,07
0,07
0,07

8
0,86
0,07
0,07
0,07

9
0,86
0,07
0,07
0,07

10
0,36
0,21
0,21
0,29

11
0,29
0,21
0,29
0,29

12
0,29
0,29
0,36
0,14

esperada
0,28
0,29
0,17
0,27

Y la tabla recuento es:


Posicin
A
T
C
G

1
3
5
2
1

2
3
4
3
1

b. Pseudocuentas (sumar 1 a todo):


Posicin
A
T
C
G
Total

1
4
6
3
2
15

2
4
5
4
2
15

3
4
4
4
3
15

4
12
1
1
1
15

5
11
2
1
1
15

c. Probabilidades observadas ( ):
Posicin
A
T
C
G

1
0,29
0,43
0,21
0,14

2
0,29
0,36
0,29
0,14

3
0,29
0,29
0,29
0,21

4
0,86
0,07
0,07
0,07

5
0,79
0,14
0,07
0,07

Alex Martnez Ascensin

d. Odds ( / )
Posicin 1
2
3
4
5
6
7
A
1,03 1,03 1,03 3,09 2,83 0,26 3,09
T
1,5 1,25
1
0,25 0,5
3
0,25
C
1,29 1,71 1,71 0,43 0,43 0,43 0,43
G
0,53 0,53 0,79 0,26 0,26 0,26 0,26

8
3,09
0,25
0,43
0,26

9
3,09
0,25
0,43
0,26

10
1,29
0,75
1,29
1,06

11
12
1,03 1,03
0,75
1
1,71 2,14
1,06 0,53

e. Log2 odds:
Posicin
A
T
C
G
2.

1
2
3
4
0,04 0,04 0,04 1,63
0,58 0,32
0
-2
0,36 0,78 0,78 -1,2
-0,9 -0,9 -0,3 -1,9

5
1,5
-1
-1,2
-1,9

6
7
8
9
10
11
12
-2 1,63 1,63 1,63 0,36 0,04 0,04
1,58 -2
-2
-2
-0,4 -0,4
0
-1,2 -1,2 -1,2 -1,2 0,36 0,78 1,1
-1,9 -1,9 -1,9 -1,9 0,08 0,08 -0,9

La secuencia es: 5-CGTTAATAAAGCCCATAGAATAAAGCC-3


Para solucionar este ejercicio tenemos que realizar una ventana deslizante de longitud de secuencia igual a la
secuencia origen (n=12) e ir calculando las probabilidades. La tabla de la suma de los logs de probabilidades,
teniendo en cuenta la frecuencia de bases observadas es:

Secuencia
logs
CGTTAATAAAGC
-0,22
GTTAATAAAGCC 10,95
TTAATAAAGCCC
3,19
TAATAAAGCCCA
-2,13
AATAAAGCCCAT
-2,71
AAAGCCCATAGA -5,35
GCCCATAGAATA
3,82
CCCATAGAATAA
1,58
CCATAGAATAAA
0,46
CATAGAATAAAG -1,11
ATAGAATAAAGC
0,82
TAGAATAAAGCC 11,84

# Sec VS log odds


14,00
12,00
10,00
8,00
6,00
4,00
2,00
0,00
-2,00 0
-4,00
-6,00
-8,00

10

12

Como podemos observar, tenemos dos candidatos a la secuencia de poli adenilacin:


5-CGTTAATAAAGCCCATAGAATAAAGCC-3
5-CGTTAATAAAGCCCATAGAATAAAGCC-3
Sin embargo, si nos extendemos a las dems partes de la secuencia consenso, la segunda secuencia no nos da
ms informacin. Sin embargo, la primera secuencia s que presenta fragmentos que se encuentran en la
secuencia consenso:
5-CGTTAATAAAGCCCATAGAATAAAGCC-3
5-XXXXAATAAAXXXCAXXXX...-3

Observada
Consenso
6

Alex Martnez Ascensin


En la primera secuencia podemos observar el sitio poli A (5-CA-3), mientras que en la segunda secuencia no.
Para cerciorarnos deberamos extender ms la secuencia observada, y entonces valoraramos cul de las dos es
ms probable.

Vous aimerez peut-être aussi