Académique Documents
Professionnel Documents
Culture Documents
GA 2 BIOINFORMTICA
1. LUGAR 5 DE CORTE Y EMPALME DE EXONES
1. Los pasos de la PSSM se muestran a continuacin:
a. Recuento:
La tabla original es:
Posicin
Sec 1
Sec 2
Sec 3
Sec 4
Sec 5
Sec 6
Sec 7
Sec 8
Sec 9
Sec 10
1
T
T
C
A
T
T
A
C
T
A
2
A
C
A
C
A
A
T
A
G
A
3
C
C
G
A
G
G
G
G
T
G
4
G
G
G
G
G
G
G
G
G
G
5
T
T
T
T
T
T
T
T
T
T
6
A
A
T
C
C
A
A
A
G
A
7
A
A
G
A
A
C
A
T
A
A
8
A
G
G
G
T
T
G
A
G
G
9
C
T
A
T
T
C
T
C
T
T
2
6
1
2
1
3
1
1
2
6
4
0
0
0
10
5
0
10
0
0
6
6
1
2
1
7
7
1
1
1
8
2
2
0
6
9
1
6
3
0
4
1
1
1
11
14
5
1
11
1
1
14
6
7
2
3
2
14
7
8
2
2
2
14
8
3
3
1
7
14
9
2
7
4
1
14
1
3
5
2
0
1
4
6
3
1
14
2
7
2
3
2
14
3
2
2
3
7
14
Total
35
36
21
34
126
c. Probabilidades observadas ( ):
Posicin
A
T
C
G
1
2
3
4
0,286 0,5 0,143 0,071
0,429 0,143 0,143 0,071
0,214 0,214 0,214 0,071
0,071 0,143 0,5 0,786
Esperado
5
6
7
8
9
0,25
0,071 0,5 0,571 0,214 0,143
0,25
0,786 0,143 0,143 0,214 0,5
0,25
0,071 0,214 0,143 0,071 0,286
0,25
0,071 0,143 0,143 0,5 0,071
1
2
3
4
1,143
2
0,571 0,286
1,714 0,571 0,571 0,286
0,857 0,857 0,857 0,286
0,286 0,571
2
3,143
5
6
7
8
9
0,286
2
2,286 0,857 0,571
3,143 0,571 0,571 0,857
2
0,286 0,857 0,571 0,286 1,143
0,286 0,571 0,571
2
0,286
1
2
3
4
0,193 1 -0,81 -1,81
0,778 -0,81 -0,81 -1,81
-0,22 -0,22 -0,22 -1,81
-1,81 -0,81 1 1,652
5
6
7
8
9
-1,81
1 1,193 -0,22 -0,81
1,652 -0,81 -0,81 -0,22
1
-1,81 -0,22 -0,81 -1,81 0,193
-1,81 -0,81 -0,81
1
-1,81
e. Log2 odds:
Posicin
A
T
C
G
2. Los pasos de la PSSM son iguales hasta el momento de contar las probabilidades
a. Probabilidades observadas ( ):
Posicin
A
T
C
G
1
2
3
4
0,286 0,5 0,143 0,071
0,429 0,143 0,143 0,071
0,214 0,214 0,214 0,071
0,071 0,143 0,5 0,786
Esperado
5
6
7
8
9
0,071 0,5 0,571 0,214 0,143 0,278
0,286
0,786 0,143 0,143 0,214 0,5
0,071 0,214 0,143 0,071 0,286 0,167
0,27
0,071 0,143 0,143 0,5 0,071
b. Odds ( / )
Posicin
1
2
3
A
1,029 1,8 0,514
T
1,5
0,5
0,5
C
1,286 1,286 1,286
G
0,265 0,529 1,853
4
0,257
0,25
0,429
2,912
5
6
7
0,257 1,8 2,057
2,75 0,5
0,5
0,429 1,286 0,857
0,265 0,529 0,529
8
0,771
0,75
0,429
1,853
9
0,514
1,75
1,714
0,265
5
6
7
8
-1,96 0,848 1,041 -0,37
1,459 -1
-1 -0,42
-1,22 0,363 -0,22 -1,22
-1,92 -0,92 -0,92 0,89
9
-0,96
0,807
0,778
-1,92
c. Log2 odds:
Posicin
A
T
C
G
1
2
3
4
0,041 0,848 -0,96 -1,96
0,585 -1
-1
-2
0,363 0,363 0,363 -1,22
-1,92 -0,92 0,89 1,542
1
2
3
4
0,041 0,848 -0,96 -1,96
0,585 -1
-1
-2
0,363 0,363 0,363 -1,22
-1,92 -0,92 0,89 1,542
5
6
7
8
-1,96 0,848 1,041 -0,37
1,459 -1
-1 -0,42
-1,22 0,363 -0,22 -1,22
-1,92 -0,92 -0,92 0,89
9
-0,96
0,807
0,778
-1,92
5
6
7
8
-1,96 0,848 1,041 -0,37
1,459 -1
-1 -0,42
-1,22 0,363 -0,22 -1,22
-1,92 -0,92 -0,92 0,89
9
-0,96
0,807
0,778
-1,92
CCGGTAGTC
Posicin
A
T
C
G
1
2
3
4
0,041 0,848 -0,96 -1,96
0,585 -1
-1
-2
0,363 0,363 0,363 -1,22
-1,92 -0,92 0,89 1,542
La suma de logs da 4.903. Por tanto, es ms probable encontrar esta secuencia que la anterior.
Si ahora realizamos el ejercicio teniendo en cuenta que la frecuencia de aparicin es la misma:
-
GTGGTAAGC
Posicin
A
T
C
G
1
2
3
4
0,193
1
-0,81 -1,81
0,778 -0,81 -0,81 -1,81
-0,22 -0,22 -0,22 -1,81
-1,81 -0,81
1
1,652
5
6
7
8
9
-1,81
1
1,193 -0,22 -0,81
1,652 -0,81 -0,81 -0,22
1
-1,81 -0,22 -0,81 -1,81 0,193
-1,81 -0,81 -0,81
1
-1,81
CCGGTAGTC
Posicin
A
T
C
G
1
2
3
4
0,193
1
-0,81 -1,81
0,778 -0,81 -0,81 -1,81
-0,22 -0,22 -0,22 -1,81
-1,81 -0,81
1
1,652
5
6
7
8
9
-1,81
1
1,193 -0,22 -0,81
1,652 -0,81 -0,81 -0,22
1
-1,81 -0,22 -0,81 -1,81 0,193
-1,81 -0,81 -0,81
1
-1,81
La suma de logs da 4.02. En este caso, la suma de logs es menor, por lo que es ms probable encontrar la
primera secuencia.
Secuencia B. equip.
GTAGTAGAA
-1
TAGTAGAAG
-2,5
AGTAGAAGG
-3,7
GTAGAAGGT
-1,4
TAGAAGGTA
-3,5
AGAAGGTAA
-7,7
GAAGGTAAG
-3,4
AAGGTAAGT
9,69
AGGTAAGTG
-5,1
GGTAAGTGT
-6,7
GTAAGTGTC
-8,7
TAAGTGTCC
1,04
AAGTGTCCG
-6,7
AGTGTCCGT
2,85
GTGTCCGTA
-7,3
TGTCCGTAG
-8,1
logs
-2,3
-3,8
-4,9
-2,7
-4,8
-9
-4,7
8,37
-6,3
-8
-9,3
1,11
-6,5
2,96
-7,2
-8
10
15
20
-10
-15
Series1
Series2
Como podemos observar, los logs no difieren mucho segn el mtodo de estudio. Sin embargo, si que se
observa que hay una secuencia clara como candidata para ser el sitio 5 de corte para el splicing: AAGGTAAGT.
Si hacemos la comparacin con la secuencia consenso, el parecido es razonable:
Observada A A G G T A A G T
Consenso X A G G T A A G T
1.
1
C
A
A
T
A
T
T
C
T
T
G
2
T
C
T
A
A
T
G
C
T
C
A
3
A
C
A
G
G
T
C
T
T
C
A
4
A
A
A
A
A
A
A
A
A
A
A
5
A
A
A
A
A
A
A
A
A
T
A
6
T
T
T
T
T
T
T
T
T
T
T
7
A
A
A
A
A
A
A
A
A
A
A
8
A
A
A
A
A
A
A
A
A
A
A
9
A
A
A
A
A
A
A
A
A
A
A
10
A
C
A
A
G
T
A
G
T
G
C
11
C
A
C
T
C
G
G
A
G
A
T
12
C
T
A
A
C
T
T
G
A
C
C
3
3
3
3
2
4
11
0
0
0
5
10
1
0
0
6
0
11
0
0
7
11
0
0
0
8
11
0
0
0
9
11
0
0
0
10
4
2
2
3
11
3
2
3
3
12
3
3
4
1
6
1
12
1
1
15
7
12
1
1
1
15
8
12
1
1
1
15
9
12
1
1
1
15
10
5
3
3
4
15
11
4
3
4
4
15
12
4
4
5
2
15
Total
85
43
29
23
180
6
0,07
0,86
0,07
0,07
7
0,86
0,07
0,07
0,07
8
0,86
0,07
0,07
0,07
9
0,86
0,07
0,07
0,07
10
0,36
0,21
0,21
0,29
11
0,29
0,21
0,29
0,29
12
0,29
0,29
0,36
0,14
esperada
0,28
0,29
0,17
0,27
1
3
5
2
1
2
3
4
3
1
1
4
6
3
2
15
2
4
5
4
2
15
3
4
4
4
3
15
4
12
1
1
1
15
5
11
2
1
1
15
c. Probabilidades observadas ( ):
Posicin
A
T
C
G
1
0,29
0,43
0,21
0,14
2
0,29
0,36
0,29
0,14
3
0,29
0,29
0,29
0,21
4
0,86
0,07
0,07
0,07
5
0,79
0,14
0,07
0,07
d. Odds ( / )
Posicin 1
2
3
4
5
6
7
A
1,03 1,03 1,03 3,09 2,83 0,26 3,09
T
1,5 1,25
1
0,25 0,5
3
0,25
C
1,29 1,71 1,71 0,43 0,43 0,43 0,43
G
0,53 0,53 0,79 0,26 0,26 0,26 0,26
8
3,09
0,25
0,43
0,26
9
3,09
0,25
0,43
0,26
10
1,29
0,75
1,29
1,06
11
12
1,03 1,03
0,75
1
1,71 2,14
1,06 0,53
e. Log2 odds:
Posicin
A
T
C
G
2.
1
2
3
4
0,04 0,04 0,04 1,63
0,58 0,32
0
-2
0,36 0,78 0,78 -1,2
-0,9 -0,9 -0,3 -1,9
5
1,5
-1
-1,2
-1,9
6
7
8
9
10
11
12
-2 1,63 1,63 1,63 0,36 0,04 0,04
1,58 -2
-2
-2
-0,4 -0,4
0
-1,2 -1,2 -1,2 -1,2 0,36 0,78 1,1
-1,9 -1,9 -1,9 -1,9 0,08 0,08 -0,9
Secuencia
logs
CGTTAATAAAGC
-0,22
GTTAATAAAGCC 10,95
TTAATAAAGCCC
3,19
TAATAAAGCCCA
-2,13
AATAAAGCCCAT
-2,71
AAAGCCCATAGA -5,35
GCCCATAGAATA
3,82
CCCATAGAATAA
1,58
CCATAGAATAAA
0,46
CATAGAATAAAG -1,11
ATAGAATAAAGC
0,82
TAGAATAAAGCC 11,84
10
12
Observada
Consenso
6