Fasta Conocimiento General

Bioinformatica y modelacion de protenas por
homologa: un tutorial para principiantes

Exploracion de los pigmentos visuales humanos
Un tutorial de Gale Rhodes

adaptado por Leon Martnez Castilla
(castilla@miranda.ecologia.unam.mx)
0.1. Introduccion
Este tutorial te ayuda explorar las opsinas las protenas que atrapan la luz para
nuestros ojos y los genes que codifican para las opsinas. Sin embargo, de lo que
realmente se trata este ejercicio es de que te familirices con la bioinformatica el
uso de computadoras de buscar para buscar, explorar y utilizar la informacion sobre
genes, genomas, acidos nucleicos, y protenas. Al mismo tiempo que aprendes sobre
las opsinas humanas, utilizaras algunas de las herramientas de mayor alcance en la
bioinformatica actual, e incluso construiras un modelo de una protena cuya estruc-
tura detallada es desconocida (lo que se llama modelacion por homologa). Despues
podras continuar este tutorial con un estudio de las opsinas de otros organismos, o
explorando cualquier clase de biomoleculas que te interesen.
Toma en cuenta que este tutorial apenas toca la superficie de lo que necesitas sa-
ber para utilizar la bioinformatica con pericia en tu investigacion. Si quieres aprender
mas, incluyendo orientacion sobre como juzgar la calidad de tus resultados, te re-
comiendo leer, por ejemplo Bioinformatics for dummies, por Claverie y Notredame,
Wiley Publishing, Inc., 2007.
Voy a dar por sentado que estas familiarizad@ con bioqumica y biologa mo-
lecular. Si ves terminos desconocidos referentes a los genes, a los mRNAs, y a las
protenas usadas como ejemplos aqu, sacale jugo a tus textos de la bioqumica, echale
un ojo al ndice, y revisa, revisa, revisa.
0.2. Los recursos que exploraremos

A medida que sigues este tutorial encontraras estas bases de datos y herramientas
de software . Usa esta pagina como referencia si no recurdas el significado de unas
siglas o del nombre de un programa.
0.2.1. I. Las bases de datos

Genbank
Operado por el NCBI (el Centro Nacional Estadounidense para la Informacion sobre
Biotecnologa). Contiene todas las secuencias de DNA disponibles publicamente,
con anotaciones, que constantemente estan siendo extendidas y actualizadas. Las
anotaciones incluyen la identificacion de los genes, los productos de los genes (si se
conocen), y conexiones extensas a toda clase de informaciones sobre el gen en otras
bases de datos. NCBI contiene el mismo informacion sobre secuencias de DNA que
1
EMBL (el Laboratorio Europeo de Biologa Molecular) y DDBJ (el Banco de Datos
de DNA de Japon)
OMIM (Enciclopedia en Lnea de la Herencia Mendeliana en el Hombre y

la mujer, tambien)
Una enciclopedia de genes humanos y de desordenes geneticos, ligada a las entradas

de genes en GenBank y a la literatura cientfica en PubMed. Da una informacion
muy completa y de ultima hora sobre muchos genes humanos.
PDB (el Banco de Datos de Protenas)
Contiene todos los modelos estructurales de protenas y de acidos nucleicos, expe-

rimentalmente resueltos (por cristalografa de Rayos X y por RMN) y que estan
disponibles publicamente. No contiene modelos derivados por homologa u otros tipos
de modelos teoricos.
PubMed
Descrito en Wikipedia como un motor de busqueda gratuito para tener acceso a la

base de datos de MEDLINE de citas y de extractos de los artculos de investigacion
biomedica. El tema de base es medicina, y PubMed cubre tambien los campos rela-
cionados con la medicina, como la enfermera y otras disciplinas de la salud aliadas.
Tambien proporciona cobertura muy completa de las ciencias biomedicas relaciona-
das, tales como biologa celular y bioqumica. Es ofrecido por la Biblioteca Nacional
de Medicina de Estados Unidos en los Institutos Nacionales de la Salud como parte
del sistema Entrez de obtencion de informacion.
Base de conocimiento de UniProt (Swiss-Prot y TrEMBL)
Operada por el SIB (instituto Suizo de Bioinformatica) y el EBI (Instituto Europeo

de Bioinformatica). Contiene la mayor parte de las secuencias de protenas dispo-
nibles publicamente (no se especializa en DNA o ARN). Las secuencias en Swiss-Prot
se anotan manualmente, y te proporcionan directamente o te ligan a practicamente
toda la informacion publicada sobre una secuencia dada. Las secuencias en TrEMBL
se recogen y se anotan automaticamente de bases de datos de secuencias, y even-
tualmente llegan al Swiss-Prot, pero solamente despues que se anotan manualmente
para cumplir con los estandares de Swiss-Prot.
2
0.2.2. II. Las herramientas
BLAST (Basic Local Alignment Search Tool, herramienta basica de busqueda
por alineamiento local)
Sirve para encontrar genes o protenas con secuencias similares a las que estas estu-
diando en las bases de datos de secuencias.
ClustalW
Para comparar mediante el alineamiento la secuencia que te interesa con otras, o
muchas secuencias unas con otras.
DeepView (tambien conocido como Swiss-PdbViewer)
Para ver y explorar modelos macromoleculares en tres dimensiones, y para el mode-
lado por homologa manual y semiautomatizado.
ExPASy (sistema de analisis experto de protenas)
No tanto una herramienta como una caja de herramientas un sistema muy completo
de herramientas de analisis de protenas.
Navegador de mapas del NCBI
Para encontrar genes y productos de genes (RNAs y protenas) de interes para t, y
para ver donde se encuentran en el sistema de cromosomas de cada organismo.
PubMed
Para buscar TODA la literatura de las ciencias de la vida.
Phylip
Para hacer arboles filogeneticos rigurosos cuando quieres controlar todos los parame-
tros.
Phylodendron
Para imprimir arboles filogeneticos usando datos.
PhyML
Para hacer arboles filogeneticos rigurosos automaticamente por un metodo de maxi-
ma verosimilitud... el mejor, pero el mas lento.
3
Swiss-Model y el espacio de trabajo de Swiss-Model
Para los modelos estructurales teoricos construdos automaticamente a partir de su

secuencia y basandose en las estructuras conocidas (modelado por homologa).
Tcoffee
Como ClustalW, una herramienta para el alineamiento y las comparaciones de se-

cuencias, pero con un mayor alcance, puede utilizar las estructuras conocidas para
mejorar las comparaciones
0.3. Empecemos a buscar genes

Resumen de lo que viene
En esta seccion utilizaras el navegador de mapas de NCBI y la palabra clave opsin
para conseguir una lista de genes de opsinas o genes relacionados con opsinas en el
genoma humano.
0.3.1. Opsinas humanas

El tema de este tutorial son las opsinas humanas, que se encuentran en las celulas
de tu retina. Las opsinas atrapan la luz y echan a andar la secuencia de senales que
da lugar a la vision. Procederemos haciendo preguntas acerca de las opsinas y los
genes que codifican para las opsinas, y usaremos la bioinformatica para contestarlas.
Cuando proporcione una direccion de la web, copiala y pegala en tu navegador para
ir al sitio en una nueva ventana de navegador. Si quieres, agegala a tu lista de paginas
favoritas para que puedas encontrarla otra vez.
ADVERTENCIA: Las herramientas de la bioinformatica se desarrollan rapida-
mente, mas rapidamente que puedo realizar cambios a esta clase particular. As que
si una pagina no se ve exactamente como yo estoy diciendo que debe verse, o si su
ttulo es diferente, mirada alrededor e intenta hacer lo que sera equivalente a lo que
dice el tutorial. Debes encontrar las mismas ligas, pero los nombres pueden ser leve-
mente diferentes, o muchos nuevas ligas pudieron haber sido agregadas (las paginas
de bioinformatica nunca se vuelven mas simples). Si las diferencias son tan grandes
que no puedes continuar, llamame (si estamos en el mismo salon) o envame un email,
y hare los cambios necesarios a las instrucciones tan pronto como sepa sobre ellos.
4
0.3.2. Donde estan los genes de opsinas en el genoma hu-
mano?
Lleva tu navegador a http://www.ncbi.nlm.nih.gov/mapview/. Te encontraras
una lista de organismos para los cuales la informacion de sus genomas esta disponible.
Los botoncitos que estan en las columnas a mano derecha las columnas derechas al
lado de cada organismo hay ligas a las herramientas. Sosten el apuntador del raton
sobre cada smbolo de la herramienta para una breve descripcion de lo que lo hace.
Encuentra al Homo sapiens (humano), y haz clic en la herramienta de la lupa
que esta al lado de la construccion (Build) con el numero menor (una construccion
o build es un ensamblaje de un genoma, algo que se hace en varias ocasiones).
Utilizaremos la mas vieja estructura porque a veces no todas las herramientas de
busqueda y de vision estan conectadas con la construccion mas nueva, que esta en
curso. La herramienta de la lupa te lleva a la pagina de busqueda para el organismo,
que muestra un diagrama de cromosomas, y proporciona las cajas de la entrada de
texto (en la parte superior de la pagina) para las busquedas.
En la caja que esta al lado de Search for, escribe opsin.
Haz clic en Find.
Veras el diagrama de nuevo, con marcas rojas en tus hits(las secuencias que
pescaste), o sea, las localizaciones de los genes cuyas entradas contienen op-
sincomo palabra completa o como parte de una palabra. Debajo del diagrama hay
una lista de los genes indicados. Si la lista es muy larga, simplifcala usando la caja
Quick Filter a la derecha hasta arriba de la lista; pon una palomita caja que dice
gene, y despues haz clic en Filter. Si ya estas viendo la lista filtrada, la caja Quick
Filter no estara presente.
En la lista de genes relacionados con el termino de busqueda opsin, esta el gene de
la rhodopsina (rhodopsin (RHO)), y tres pigmentos de los conos, opsinas sensibles a
las longitudes de onda cortas, medias y largas (para la deteccion de la luz azul, verde,
y roja respectivamente). Cuatro de los hits parecen ser pigmentos visuales, lo que no
es de sorprender. A la izquierda de cada entrada esta el numero de cromosoma, lo
que te permite saber que marca roja corresponde a cada entrada. Observa que varios
hits estan en el cromosoma X, uno de los cromosomas de determinacion sexual.
NOTA: En las listas humanas del genoma, veras a menudo los duplicados mar-
cados como reference o Celera, lo que se refiere a los resultados obtenidos a partir
de diferentes dos esfuerzos importantes para ordenar el genoma humano. Al princi-
pio, estos dos esfuerzos eran separados, pero eventualmente juntaron muchos de sus
resultados. Cuando tengas que elegir una opcion, elije el referencepara que sigas
la misma trayectoria que segu al hacer el tutorial.
5
Puedes conseguir mas detalles sobre lo que pasa cuando hay hits multiples en el
mismo cromosoma con la liga All Matches para ese cromosoma. Haz clic en All
Matches al lado del X. Se paciente: la pagina siguiente puede cargar lentamente
esta llena de informacion. Veras una figura muy complicada muy complicada (no
te asustes vamos a utilizar solamente una parte de esto). A la izquierda esta un
diagrama del cromosoma de X, con las marcas rojas en las posiciones de los genes
que ahs venido siguiendo hasta esta pagina en nuestro caso, las dos opsinas, la de
onda media y la de onda larga, que estan situados cerca de la extremidad inferior
del cromosoma X. A la derecha hay varias representaciones del cromosoma X, con
los listados de las areas que ya estan anotadas. Los dos genes opsinas se destacan
en color de rosa. Si pasas tu cursor sobre esta pagina sin hacer clic, encontraras que
algunos smbolos proporcionan breve informacion, sobre todo sobre las regiones que
todava no se caracterizan lo bastante bien como para tener una entrada completa.
Como puedes ver, hay una cantidad enorme de informacion en esta pagina, con
ligas hacia mucha mas. Si quieres la informacion completa sobre lo que quieren decir
las abreviaturas y los smbolos en esta pagina, as como las clases de informacion li-
gadas a la pagina, puedes utilizar la ayuda del visualizador del mapa (Map Viewer
Help) en la parte de arriba de la pagina. Encontraras informacion abundante sobre
el visualizador de mapas, explicaciones de todos los smbolos y ligas, e incluso tuto-
riales sobre como formular y contestar toda clase de preguntas sobre los genomas.
El visualizador de mapas es como el Google Earth del genoma, y como con Google
Earth, la cantidad de informacion a veces puede resultar abrumadora. Por ahora,
observa la informacion proporcionada para el gene OPN1LW de opsina (lo que se
llama el smbolo del genegene symbol). Veras que esta es el gen de la opsina sensi-
ble a la longitud de onda larga (rojo), y que es un gen implicado en la acromatopsia
o ceguera del color o daltonismo (un rasgo ligado al sexo ninguna sorpresa, porque
encontramos el gen en el cromosoma de X).
0.4. Todo sobre un gen

En esta seccion, exploraras algunas ligas a la extensa informacion disponible sobre
genes especficos.
0.4.1. Que saben los cientficos sobre las opsinas?

En la pagina de MapViewer, haz clic en OPN1LW.
6
Acabas de entrar en la pagina OPN1LW opsin 1 de Entrez Gene, que es una
especie de glorieta de caminos con salidas hacia toda clase de informaciones sobre
este gene. Revisa rapidamente de arriba a abajo la pagina. Algo de la informacion
es muy llana y comprensible, mientras que hay otra que es muy crptica. Una de
las ligas mas accesibles va hacia la OMIM (Herencia Mendeliana en el Hombre en
Lnea), un catalogo de genes humanos y desordenes geneticos.
Ve a la parte de abajo de la pagina y encuentra la seccion sobre fenotipos
(Phenotypes), y observa las ligas llamadas MIM. Estas son ligas a las entradas de
OMIM. Haz clic en uno de ellos.
Cada entrada de de la ficha OMIM te habla de este gen y de los tipos de ceguera
del color, desordenes geneticos asociados a mutaciones en este gene. Lee todo lo que
quieras. Sigue las ligas hacia otras fuentes de informacion. Para mas informacion
sobre OMIM en s mismo, haz clic en la insignia de OMIM en la parte de arriba de
la pagina. Con OMIM, tienes disponible una gran cantidad de informacion para los
genes que se encuentran en el genoma humano, y toda la informacion es sostenida
por referencias a los ultimos artculos de investigacion.
Una vez que hayas satisfecho tu apetito intelectual, regresa a la pagina de Entrez
Gene (utiliza el boton de regreso de tu navegador o la lista de la historia del mismo).
Al lado del boton Display, tira hacia abajo el menu y selecciona las ligas (calculadas)
de PubMed (PubMed (Calculated) Links). Acabas de entrar a PubMed, una base
de datos gratuita de literatura cientfica, para ver los resultados de una busqueda
completa de los artculos asociados directamente con este locus genico. Haciendo clic
en los autores de cada artculo, puedes ver los resumenes (abstracts) del artculo. Si
estas en un area de la Universidad donde hay acceso en lnea a las revistas especficas,
puede ser que tambien veas ligas a los artculos completos. PubMed es un punto de
entrada a una gran variedad de literatura en las ciencias de la vida. En el lado
izquierdo de cualquier pagina de PubMed, encontraras ligas a una descripcion de la
base de datos, a las secciones de ayuda, y a tutoriales sobre como hacer busquedas
eficientes. Ahora vuelve a la pagina de Entrez Gene para OPN1LW opsin 1.
0.5. Encontrar secuencias

En esta seccion, aprenderas como obtener la informacion de las secuencias de
acidos nucleicos o de protenas, en un formato llamado FASTA, que es un formato
sencillo y muy util para iniciar consultas con las herramientas de la bioinformatica.
7
0.5.1. Cual es la secuencia de nucleotidos de este gen?
Recuerda que ahora estas viendo la informacion sobre el gen para la opsina sen-
sible al rojo en la vision humana, y que este esta situado cerca de la extremidad
inferior del cromosoma X. En la pagina de Entrez Gene para OPN1LW opsin 1
avanza hacia abajo (muy abajo!) hasta llegar a las secuencias de referencia de NC-
BI (NCBI Reference Sequences (RefSeq)). En la primera subdivision, mRNA
and proteins, todo esto esta disponible:
la secuencia del mRNA (secuencia de bases nucleotdicas del ARN mensajero),
aqu la veras enlistada como NM 020061.3 (la M indica que se trata de un
registro de mRNA);
la secuencia de la protena (secuencia del producto de este gen: la opsina del

rojo), aqu enumerada como NP 064445.1 (P para la protena);
las secuencias fuente (secuencias enteras de los todos los fragmentos sobrelapa-
dos en el genoma en los que se encontro a esta secuencia, de GenBank).
Observa que las dos ligas a la secuencia del mRNA y a la secuencia de la protena
estan dados como NM 020061.3 NP 064445.1, la flecha quiere decir que la se-
cuencia de la ficha NM es traducida (durante la sntesis de la protena) para dar la
secuencia de la ficha NP.
Haz clic en el numero de la ficha para la secuencia del mRNA: NM 020061.3
Esto es un archivo de nucleotidos tpico de GenBank, y es difcil de leer, pero
algunas cosas estan claras. Primero fjate que, bajo las referencias, estan las citas a
la publicacion de esta secuencia en la literatura cientfica. Para ver un abstract del
artculo en el cual este gen fue descrito, haz clic en la liga de PubMed (un numero)
debajo de la primera referencia y leelo.
Desplazate hasta la parte inferior de esta larga pagina. La ultima cosa, etiquetada
como ORIGIN, es la secuencia de este ARN mensajero. Estas viendo la lista real
de las As, las Ts, las Gs, y las Cs que componen el mensaje para la sntesis de
esta opsina. Pero Que pasa aqu?! Tu sabes bien que el ARN no contiene ninguna
T. En la mayora de las bases de datos de nucleotidos, el uracilo U del ARN se
representa como T, para facilitar la comparacion de las secuencias de DNA y RNA.
Esta informacion de la secuencia no esta en la forma en la que es mas util para
buscar en las bases de datos, por ejemplo, para buscar genes emparentados entre s.
Mostremos la informacion de esta ficha en un formato que sea mas util para buscar.
En la parte de arriba de la pagina, al lado del boton Display, tira hacia abajo
el menu desplegable que dice GenBank (el formato de representacion por defecto
8
para cada entrada o ficha), y selecciona FASTA (nota que tambien estan disponibles
varias otras opciones de visualizacion ). Ahora puedes ver la lnea descriptiva o lnea
comment, que comienza con el >, seguida por la secuencia de nucleotidos. Este
pequeno texto (la descripcion de la secuencia y la propia secuencia de nucleotidos)
es todo lo que necesitas para buscar las bases de datos de nucleotidos secuencias
similares a esta. Guardalo para el uso futuro, como sigue: haz clic en y arrastra en la
pagina Web para seleccionar todo desde el >hasta los utlimos nucleotidos (CCAA).
Ten cuidado de no seleccionar todo lo demas. Con el menu Edit o Editar de
tu navegador, selecciona copiar para hacer una copia de esta informacion en el
portapapeles, para que luego la puedas pegar en otra parte. Ahora echa a andar
un procesador de textos simple (usa TextEdit en una Mac, Notepad en Windows,
emacs o vi en linux o UNIX es importante usar editores o procesadores de texto
que trabajen con el formato texto simple a fin de evitar cambios inadvertidos en
el formato de los archivos de la secuencia o la introduccion de caracteres invisibles
que en realidad no tienen lugar en el formato fasta), haz un nuevo documento, y
pegalo. Tanto el comentario como la secuencia FASTA deben aparecer. En caso de
necesidad, selecciona todo el texto y cambia la fuente a Courier o a Monaco estas
fuentes monotipo o de maquina de escribir facilitan el alinear letras en columnas,
porque todas las letras son del mismo ancho. Guarda este archivo, eligiendotexto
o texto simple como formato de tipo de archivo. Llamalo mrnaroja.txt (para la
secuencia del mRNA de la opsina roja). Guardalo en un lugar conveniente en el que
puedas encontrar este y otros archivos con los que hagas busquedas posteriores (otra
opcion es que te los enves a tu cuenta de correo).
Haz clic en el boton de regreso de tu navegador hasta que vuelvas a la pagina de
Entrez Gene para este gen.
0.5.2. Cual es la secuencia de aminoacidos de este gen?

Bajo NCBI Reference Sequences (RefSeq), haz clic en el numero NP 064445.1
de la ficha para la secuencia de la protena.
Las cosas se ven como antes, pero esta es una entrada de protena (la vision
clasica es que los productos de genes son protenas, pero muchos no lo son), que
contiene la secuencia de aminoacidos en abreviaturas de una letra. Igual que como
hiciste con la ficha del mRNA, convierte esto en una visualizacion FASTA, y copialo
en un nuevo documento con el programa de edicion de textos. Salvalo en formato de
texto como protroja.txt (para la secuencia de protena de la opsina roja). Vuelve a
Entrez Gene.
9
0.5.3. Como se ve la vecindad de este gen?
(Preparate para una sorpresa. Aqu te va una pista: OPN1LW es un gen
humano, y los seres humanos son eucariontes. Cuando la gente comenzo a
secuenciar genes eucarioticos, les esperaba una gran sorpresa).
Ahora echa una ojeada a la region del cromosoma que contiene el gen de opsina roja.
Desplazate hasta la parte de arriba de la pagina de Entrez Gene para OPN1LW,
a la seccion llamada Genomic Context. El diagrama lmuestra que el gen de la
opsina roja esta en el cromosoma X, dentro de un segmento de los pares de bases
(bps) que van de la posicion 152 929 151 a la posicion 153 114 725 (una distancia
de185 574 pares de bases). [No te preocupes si estos numeros no son exactamente los
que ves; estos recursos estan siendo constantemente actualizados.] La localizacion de
OPN1LW, indicada con la flecha roja, esta cerca del tercer cuarto de este segmento.
Ahora observa en el diagrama en la seccion precedente, las secciones de Genomic
regions, transcripts, y products. Este diagrama te permite ver con mas detalle el
segmento de OPN1LW, representando solamente las posiciones 153 629 39 a 153 077
701 (14 762 bps). La lnea mas baja muestra regiones codoficantes como bloques
rojos, y las regiones no codificantes como lneas rojas. Aqu esta la sorpresa: Tu ya
sabas, aunque a lo mejor lo habas olvidado, que los genes eucarioticos son interrum-
pidos a menudo por regiones no codificantes llamadas secuencias de intervencion o
intrones. Las regiones codificantes se llaman exones. Con este diagrama, puedes ver
que el gen de OPN1LW consiste de 6 exones y 5 intrones, y que los intrones son
mucho mas grandes que los exones. De los 14 762 bps en del gen, solamente 1095
bps codifican para la protena, as que significa que menos del 8 % de los pares de
bases contienen el codigo para la protena. Cuando este gen se expresa en celulas de
la retina humana, una copia del ARN del gen entero se sintetiza. Entonces las regio-
nes de intrones se cortan, y las regiones de exones se ensamblan juntas para producir
el mRNA maduro (un proceso llamado empalmar o splicing). el cual sera traducido
por los ribosomas para hacer hacer la protena de opsina roja. En este caso, el 92 %
de la transcripcion inicial del ARN se tira, dejando solo el codigo puro de la protena.
Parece derrochador, pero no olvides que nuestra comprension de como funciona todo
esto, si bien es impresionante, sigue siendo bastante fragmentaria.
El manana nos dira lo que no entendemos hoy, pero no lo que no enten-
deremos manana.
En los extremos de la lnea mas baja en el diagrama, hay ligas a NM 020061.3
y a NP 064445.1, las entradas para el mRNA y secuencias de la protena para este
gene. Ya visitaste estas paginas en las dos secciones anteriores. Haz clic en CCDS
10
14742.1 en la extrema derecha del diagrama para ir a la pagina de la Secuencia
Codificante Consenso para este gen. Esta p;agina muestra como el transcrito del
gen OPN1LW se divide en exones. Bajo el letrero Chromosomal locations for
CCDS 14742.1 hay una tabla que enlista las posiciones de inicio y fin apara cada
exon. Debajo de eso esta la secuencia de nucleotidos completa del mRNA maduro,
con secciones azules y negras alternantes que indican los lmites de los exones. Mas
abajo esta la secuencia de aminoacidos, dividida otra vez en exones alternando azul
y negro, indicando con rojo los residuos cuyos codones estan en parte en un exon y
en parte en el exon siguiente. Esto hace ver claramente como el mRNA se ensambla
de los exones.
Pero todava no has visto las secuencias reales de los intrones. Vuelve a la pagina
de Entrez Gene para OPN1LW. Bajo el letrero Genomic regions, Transcripts
and Products haz clic en Go to reference sequence details. Esto te lleva a
NCBI Reference Sequences. Ya habas estado aqu, para conseguir las secuen-
cias de mRNA y protena. Esta vez, haz clic en la secuencia de cuatro numeros de
entrada (los cuatro forman una sola liga) al lado de Source Sequences. Esto te
lleva a la pagina de Entrez nucleotide que contiene la informacion sobre los cuatro
de los fragmentos genomicos del Proyecto del Genoma Humano que contienen todo
o parte del gen de la opsina roja, junto con la informacion sobre como cada clona
fue producida. Esta entrada muestra as al gen en el contexto mas grande de los
fragmentos clonados en los cuales el gene fue encontrado. Estas secuencias permiten
que explores las regiones que flanquean el gen, lo que puede ser util en el diseno de los
cebadores, o primers de la polimerizacion en cadena para hacer copias de esta region
en cantidades utiles. En esta pagina, tambien podras encontrar secuencias vecinas
si quieres mirar mas lejos. Como antes, puede visualizar esta entrada en formato
FASTA. Vas a obtener una serie de entradas, cada una corresponde a una de las
diferentes clonas que fueron utilizadas para construir esta region del genoma.
0.6. Primera busqueda con BLAST

En esta seccion, utilizaras una secuencia FASTA como query (consulta) para usar
BLAST, un programa que busca en una base de datos genomicos secuencias similares
(hits o correspondencias). Tambien aprenderas como juzgar si una correspondencia
se presenta por casualidad o por ancestra comun.
11
0.6.1. Que protenas en los seres humanos son similares a
la opsina roja?
Ahora vuelve al visualizador de mapa de NCBI. Vas a buscar en el genoma hu-
mano secuencias similares a la de la opsina roja. Haz clic en el smbolo de BLAST
(una B encerrada en un crculo) junto al letrero Homo sapiens (human). Este
es la herramienta de busqueda con BLAST de NCBI. BLAST es un programa am-
pliamente utilizado para encontrar secuencias similares a un query en el que estas
interesad@. Escoje estas opciones de los varios menus:
Base de datos: Protenas del ensamblaje (build) ANTERIOR (lo puedes ver
hasta abajo del menu de la base de datos). Esto significa que buscaras las
secuencias de protena en la construccion anterior de la base de datos. (a veces
no todas las herramientas estan disponible en el mas reciente ensamblaje, que
esta actualmente bajo construccion.)
Programa: BLASTP (la version de BLAST que compara secuencias de protena,

a diferencia de BLASTN, que compara secuencias de nucleotidos.)
Otros parametros: No realices ningun cambio.
Despues, copia los datos FASTA del archivo protroja.txt a tu portapapeles, y pegalos
en la caja de captura de texto de BLAST, sobre la cual dice, Enter an accession...
Comprueba que el primer caracter en la caja es el > al principio de los datos de
FASTA. Entonces haz clic en Begin search.
La pagina siguiente es para dar formato a tus resultados de busqueda. Acepta
todos los ajustes por defecto, y solo haz clic en el boton View results. Cuando tus
resultados esten listos, aparece la pagina results of BLAST. Observa el resumen
grafico, una caja que contiene porciones de lneas coloreadas. Cada lnea represen-
ta una correspondencia de tu busqueda BLAST. Si pasas el cursor del raton sobre
una lnea roja, laparece una breve descripcion del hit. Veras que la primera corres-
pondencia es la opsina roja. Eso es bueno, porque la mejor correspondencia de una
secuencia tomada de una base de datos debera ser la propia secuencia. El segundo
hit es la opsina verde recuerda que la entrada de PubMed reporto que los pigmen-
tos rojos y verdes son los mas similares. Los tercero y cuarto hits son la opsina azul
y la rhodopsina del pigmento de las celulas baston. Otros hits tienen numeros mas
bajos de residuos que corresponden, y estan coloreados cifrado segun un puntaje de
correspondencias. Si haces clic en cualquiera de las lneas coloreadas unas de los,
saltaras a mas informacion sobre ese hit, y puedes evaluar cuanto semejanza tiene
cada una con la opsina roja, tu secuencia original de consulta. Mientras vas hacia
12
abajo de la lista, cada secuencia sucesiva tiene menos en comun con la opsina roja.
Cada secuencia se demuestra en comparacion con la opsina roja en lo que se llama
alineamientos pareados de secuencia. Mas adelante, haras alineaciones multiples de
secuencia con las cuales puedes discernir relaciones entre genes. Trata de imaginarte
lo que significan las numeros. Las identidades son los residuos que son identicos en el
hit y la secuencia de consulta (opsina roja), cuando los dos se alinean optimamente.
Los positivos son los residuos que son muy similares en uno y otro (vease el residuo
numero 1 en la opsina azul, es treonina en la opsina roja, y serina, que es muy simi-
lar, en la azul). Los huecos o gaps se introducen a veces en un hit para mejorar su
alineacion con la secuencia de consulta. Entre mas identidades y positivos, y menos
los huecos, mas alta es la cuenta. Observa que la opsina azul y la rhodopsina son
solamente cerca de 45 % identicas a la opsina roja. Otras protenas, que no son al
parecer pigmentos visuales, tienen incluso cuentas mas bajas.
0.6.2. Interludio: los valores de expectativa y los puntajes

de BLAST
Estas visualizaciones contienen dos medidas prominentes de la significancia del
hit, 1) la cuenta de la BLAST BLAST Score [etiquetada como Score (bits) ], y 2)
el valor de expectativa (etiquetado como Expect o E). El puntaje de BLAST indica
la calidad de la mejor alineacion entre la secuencia de consulta y la secuencia encon-
trada (hit). Cuanto mas alta es la cuenta, mejor es la alineacion. Las cuentas son
reducidas por las correspondencias inadecuadas y los huecos en la mejor alineacion.
El calculo de la cuenta es complejo, implicando una matriz del substitucion, que es
una tabla que asigna una cuenta a cada par de residuos alineados. La matriz mas
ampliamente utilizada para la alineacion de protenas se conoce como BLOSUM62.
El valor de expectativa E de un hit dice si es probable que una correspondencia
sea resultado de la semejanza azarosa entre el hit y la secuencia de consulta, o de
la ancestra comun del hit y de la de consulta. (Si E es mas pequeno que 10100 ,
se da a veces como 0.0.) El valor de expectativa es el numero de hits que esperas
obtener simplemente por casualidad si buscaste una secuencia en un genoma al azar
del tamano del genoma humano. E = 25 significa que podras esperar encontrar 25
correspondencias en un genoma de este tamano, puramente por casualidad. As que
un hit con E = 25 es probablemente una correspondencia azarosa, y no implica que la
secuencia del hit comparta ascendencia comun con la secuencia con la que iniciaste
la busqueda. Los valores de expectativa de alrededor 0.1 pueden o no ser biologi-
camente significativos (otras pruebas seran necesarias para decidir). Pero valores
muy pequenos de E significan que el hit es biologicamente significativo; es decir, la
13
correspondencia entre tu secuencia de busqueda y este hit debe ser consecuencia de
la ancestra comun de ambas secuencias, porque las probabilidades son simplemente
demasiado bajas de que el hit pueda presentarse por casualidad. Por ejemplo, E =
1018 para un hit en el genoma humano significa que esperas que solamente un hit
asi de bueno por casualidad en un billon de millones de diversos genomas del mismo
tamano del genoma humano.
La razon por la que creemos que todos venimos de antepasados comunes

es que la enorme semejanza de las secuencias en todos los organismos
es simplemente demasiado poco probable como para ser una ocurrencia
azarosa. Cualquier familia de secuencias similares a traves de muchos
organismos debe haberse desarrollado a partir de una secuencia comun
en un antepasado remoto.
Un lugar para descubrir mas sobre busquedas y estadsticas de BLAST es la he-

rramienta de analisis de la secuencia de BLAST (http://www.ncbi.nlm.nih.gov/
books/bv.fcgi?rid=handbook.chapter.ch16) en el manual de NCBI (http://
www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=handbook). Ahora vamos a ver donde
se encuentran todas estas secuencias hit en los cromosomas humanos.
0.6.3. Donde (en el genoma humano) estan todos los genes

para estas otras protenas?
Justo arriba del resumen grafico (Graphic View), haz clic en Human Geno-
me View. Ahora estas de regreso en el diagrama de los cromosomas humanos y
puedes ver todos los hits que encontraste con colores que corresponden a los sco-
res de BLAST tal como los viste en el resumen grafico. Fjate en que hay alrede-
dor de 100 protenas con 40 % o mas de positivos al alinearlas con la opsina roja.
Las opsinas son miembros de una familia aun mas grande que se llama familia de
Receptores acoplados a protenas G que juegan un papel clave en la transduccion de
senales.
0.7. Relaciones familiares

En esta seccion, aprenderas como recolectar un grupo de secuencias emparentadas
en formato de FASTA, y despues usarlas como entradas para el programa ClustalW.
14
El resultado es un alineamiento multiple de secuencias (MSA), con el cual usted
puedes deducir muchas cosas sobre la forma en que las secuencias se asemejan y
se diferencian entre s. Luego utilizaras el MSA como entrada a los programas que
sirven para dibujar arboles filogeneticos, que son resumenes visuales de las relaciones
de genealoga entre los genes.
0.7.1. Como se relacionan entre s los diferentes genes de

las opsinas?
Para contestar esta pregunta necesitamos hacer un alineamiento multiple de
secuencias y luego usarlo para construir un arbol filogenetico. Para estas tareas
nos vamos a ir a una base de datos diferente, en la que es un poco mas facil reunir
muchas secuencias diferentes en un solo archivo FASTA.
Lleva tu navegador a http://www.expasy.ch/.
Veras la pagina de entrada de ExPASy, el sistema de analisis experto de pro-
tenas. Como ya mencionamos, ExPASy es toda una caja de herramientas para es-
tudiar protenas. Con ExPASy, puedes hacer casi cualquier analisis o comparacion
imaginable de las secuencias y de las estructuras de las protenas. En mi humilde
opinion, las herramientas suizas de la base de datos suiza de secuencias estan entre
las mas faciles de usar. Haz clic en UniProt Knowledgebase (SwissProt and
TrEMBL) debajo del letrero que dice Databases. Lee la introduccion de estas ba-
ses de datos. Son bases de datos de muy alta calidad de secuencias de protenas (no
de acidos nucleicos) y estan abundantemente anotadas, sufren de muy poca redun-
dancia y tienen muchas conexiones a otras bases de datos. Haz clic en New UniProt
Website. La nueva (2008) pagina de UniProt contiene ligas a la informacion sobre
este recurso. Haz clic ah para aprender mas sobre el sitio, y despues vuelve a esta
pagina. Pon esta pagina (UniProt Welcome) en tu lista de paginas favoritas como
buen punto de partida para el uso futuro de UniProt, de Swiss-Prot, o de TrEMBL.
Hasta arriba de la pagina hay una herramienta de busqueda enganosamente simple
pero de gran alcance. Un menu te permite elegir entre conjuntos de datos a explorar.
Echa una ojeada la lista del menu, y regresa a la base de conocimiento de protenas
(UniProtKB). En la caja de captura de texto Query, escribe opsin y haz clic
en Search. La busqueda produce mas de 4000 entradas, que son las entradas de
protena que son opsinas o incluyen la palabra o el fragmento de palabra -opsin-.
Obviamente, necesitas ser mas especfico.
Limita la busqueda a las opsinas humanas, como sigue: haz clic en Fields, al
lado de la caja Query. El area de busqueda Search se ampla para incluir un
menu con operadores logicos (con el operador por defecto Y (en ingles, AND)), un
15
menu del campo de ficha al que te refieres al especificar una busqueda Field, y una
caja para el termino que buscas Term. Bajo Field, escoge Organism. En la caja
Term, empieza a mecanografiar human. A medida que escribes, la herramienta de
busqueda te muestra todos los terminos de busqueda permitidos que encajan con lo
que has escrito hasta ese momento En el momento en que aparezca human [9606],
hazle clic para ponerlo en na caja Term y haz clic en Add and Search.
Fjate que ahora la caja Query dice opsin AND organism: human [9606]. Esto
quiere decir que has limitado tu busqueda a las entradas relacionadas con opsi-
nas que ademas (AND) son protenas humanas. Tambien observa que la liga Links
esta de nuevo disponible, de manera que puedes agregar mas terminos adicionales
a tu busqueda , con los operadores logicos Y, O, y NO (AND, OR y NOT) para
especificar como utilizar los terminos adicionales. Pero la busqueda es ya bastante
especfica como para hacer nuestra tarea facil: hay solamente 25 resultados para esta
busqueda.
Antes de mirar los resultados, observa los otros campos que puedes buscar. Las
entradas de UniProt son archivos que se dividen en secciones, llamados campos,
que contienen de clases especficas de informacion. Puedes limitar las busquedas a
los terminos que residen en campos especficos, o puedes buscar simplemente en las
entradas enteras, o sea en todos los campos de las fichas.
Ahora mira los resultados. En 2008/09/19, esta busqueda dio 25 hits, incluyendo
la rhodopsina del pigmento de las celulas de bastones (OPSD), junto con los tres
pigmentos del cono (OPSB, OPSG, OPSR). Hay tambien un receptor de pe-
ropsina similar a pigmentos visuales(visual pigment-like receptor peropsin) OPSX,
que aun, mas de diez anos despues de su descubrimiento en el genoma, es de funcion
desconocida. En el resto de este tutorial, incluiras esta protena misteriosa en tus
investigaciones sobre los pigmentos visuales de la retina humana.
0.7.2. Una pequena digresion

Ahora ahora una breve digresion sobre la cuestion de como estas protenas se
relacionan evolutivamente, y descubriras mas sobre la peropsina. En el proceso, te
haras una idea de la abundancia de la informacion dentro de , y ligada a, una entrada
tpica de UniProt.
En la columna Accesion, haz clic en O14718, al lado de OPSX HUMAN.
A proposito, un numero de accesion tal como O14718 se puede utilizar

como input para casi cualquier herramienta de ExPASy para el analisis
de la secuencia correspondiente.
16
Ahora puedes ver la visualizacion de UniProtKB de la entrada O14718 [nota: ese
primer caracter es la mayuscula O, no el numero cero (0)]. Lee esta entrada e intenta
averiguar que es lo que se piensa que hace esta protena similar a la rhodopsina. Bajo
General Annotation (comments), aprenderas que se encuentra en la retina (en el
RPE o epitelio pigmentario retinal), y que puede detectar la luz, o quizas monitorear
los niveles de retinoides, la clase general de compuestos que son los que propiamente
absorben la luz en las opsinas. Ademas, bajo Similarity en la misma seccion, veras,
segun lo mencionado anteriormente, que esta protena es un miembro de la familia
grande de receptores acoplados a protena G (GPCRs). Si haces clic en G-protein
coupled receptor 1 Family, estaras lanzando una busqueda de miembros de esta
familia- cuyo resultado es cerca de 10.000 hits en UniProt. Limita esta busqueda a los
seres humanos (cerca de 1200 hits). De regreso en la pagina de O14718 la pagina, haz
clic en Opsin subfamily para encontrar una lista de todos los presuntos miembros
de esta subfamilia en UniProt (cerca de 220). Limita la busqueda a los seres humanos
(menos de 20).
De nuevo, regresa a la pagina de la entrada de UniProtKB para O14718.
Bajo References encuentra la cita de revista, Peropsin, a novel visual pigment-
like protein located in the apical microvilli of the retinal pigment epithelium. Haz
clic en la liga PubMed con esa referencia para ver un extracto (abstract) del artcu-
lo. En la pagina del resumen, haz clic en las ligas Free Full, Text Article para
obtener el artculo completo desde el sitio de la revista (PNAS) o el de PubMed
Central, que distribuye muchos artculos. Como muchas revistas, PNAS pone los
artculos completos en lnea tan solo 6 a 12 meses despues de su publicacion. Vuelve
a O14718, y mira alrededor en la pagina de la entrada. Usted encontrara referencias
recprocas (Cross References) a esta protena o a su gen en otras bases de datos,
caractersticas estructurales predichas de la protena, y la secuencia, que puedes to-
mar en formato de FASTA si quieres buscar mas de sus parientes. Observa tambien
las ligas a un numero de herramientas de ExPASy para el analisis adicional de esta
secuencia. Prueba con una de ellas: bajo Cross-references, encuentra PROSITE,
y haz clic en Graphical view, la visualizacion grafica.
Ahora tienes una forma que te permita buscar las firmas de funcion o los sitios
funcionales en la peropsina. Deja todos los ajustes como estan, y haz clic en scan al
lado de la imagen grafica (verde) de la protena. Aqu hay otra forma, con el numero
de accesion O14718 ya incorporado. Una vez mas deja el resto de los ajustes como
estan (pero nota que hay muchas maneras de modificar esta busqueda), y haz clic
en START THE SCAN.
PROSITE encuentra tres cosas identificables sobre esta secuencia. Un hit by
profiledentifica a la peropsina como un receptor acoplado a protena G. Tambien se
17
muestran dos hits by pattern . Uno es una secuencia corta que ademas permite
identificar a la peropsina como una GPCR, mientras que el segundo hit identifica un
sitio de enlace para retinal. PROSITE indica tan que, al igual que sus parientes las
opsinas visuales, la peropsinA tambien une especficamente al retinal, el pigmento
visual que nosotros fabricamos a partir de la vitamina A. Observa tambien que,
por semejanza con otras protenas relacionadas, PROSITE predice la presencia de
un enlace disulfuro, entre los residuos 98 y 175. (Mas adelante, descubriras mas
sobre la estructura tridimensional de la peropsina construyendo un modelo de esta.
Utilizaras una protena relacionada de estructura conocida como plantilla para hacer
este modelo. Este proeceso se llama modelado por homologa.)
0.7.3. Final de la digresion

Ahora contestaras la pregunta principal de esta seccion: como se relacionan unos
con otros los pigmentos visuales (y la peropsina)? Al parecer, divergieron de una op-
sina ancestral comun, pero puedes conseguir un cuadro mucho mas claro de cual de
estas opsinas vino primero, y cuales son las mas estrechamente vinculadas. Para con-
testar a esta pregunta, alinearas todas tus secuencias (lo que se llama una alineacion
multiple de secuencias) y despues produciras un pequeno arbol de la familia. Uni-
Prot proporciona un facil acceso a ClustalW, un programa que hace las alineaciones
multiples de secuencia super rapido, as como tambien la informacion necesaria para
imprimir un arbol filogenetico a partir de la informacion de la alineacion.
Regresa a los resultados de la busqueda de UniProt, con sus 25 hits para las
entradas del genoma humano que incluyen la descripcion opsins. Tu tarea siguiente
es comparar las secuencias de peropsina y de cuatro pigmentos visuales. Comienza
haciendo clic para poner palomitas en la columna izquierda de la tabla de resultados,
al lado de las primeras cuatro opsinas de las entradas (rhodopsina y las opsinas
sensibles al azul, al rojo y al verde) y tambien en la fila para la peropsina, O14718.
Mientras que pones en la primera palomita, una banda verde aparece en la parte
inferior de la ventana, proveyendo una barra de herramientas con opciones para
manejar multiples secuencias. Despues de que hayas comprobado las entradas segun
lo indicado, haz clic en el boton de alinear (Align) en la barra verde de herramientas.
Esto es una peticion de utilizar ClustalW para hacer una alineacion de multiples
secuencias usando las entradas seleccionadas.
La pagina de los resultados de Clustalw aparece. En la parte de arriba, en la caja
Sequences, estan los listados en formato FASTA de todas las secuencias compa-
radas. Tomate un momento para corregir este listado para hacer alineaciones y los
arboles subsecuentes mas faciles interpretar. En las secuencias FASTA enumeradas
18
en la caja Sequences, haz los cambios siguientes:
1. Cambia P03999 a azul
2. Cambia P08100 a Rhodopsina
3. Cambia P04001 a verde
4. Cambia P04000 a rojo
5. Cambia O14718 a Peropsina
Despues de corregir, haz clic en Align para hacer de nuevo la alineacion con los
nuevos encabezados.
Para guardar esta alineacion en el formato necesario para la seccion siguiente,
haz clic en el boton anaranjado TEXTO a la derecha de Clustalw Results. Copia
el archivo de texto que se exhibe, pegalo en un nuevo archivo de texto, y nombralo
OpsinMSAEditado.txt. Ahora regresate a los resultados de Clustalw. Debajo de la
tabla que nombra cada opsina con sus nuevos ttulos esta la alineacion multiple de
secuencias. En bloques de 60 residuos, Clustalw ha alineado cinco secuencias. Debajo
de cada columna de cinco residuos, los smbolos indican que tan bien se emparejan
los residuos de las cinco protenas. * significa que las 5 protenas alineadas tienen el
mismo residuo de aminoacido en esta posicion (residuos completamente conservados,
dentro de este grupo); : significa que todos los residuos en esta posicion son muy
similares de tamano, carga, y polaridad (los reemplazos son muy conservadores); .
significa que son clase de aminoacidos similares (los reemplazos algo conservadores);
y la ausencia de smbolo significa que los residuos en esa posicion varan grandemente
en las caractersticas (residuos no conservados). (Que sugiere cada smbolo sobre la
importancia de ese residuo en la funcion de esta familia de protenas?)
En la parte inferior de la pagina de resultados hay varias barras de herramientas.
Juega con las primeras dos para ver lo que hacen. Encontraras que modifican la visua-
lizacion del alineamiento de secuencias multiples para destacar tipos de los residuos
o las firmas de la protena. Usando estas herramientas, puedes conseguir una vison
general de semejanzas y de diferencias entre las protenas. Pero la comparacion se
puede hacer mucho mas explcita usandola para hacer un arbol filogenetico para este
grupo de protenas. La anterior barra de herramientas proporciona un arbol de Clus-
talW. Aprenderas mas sobre el significado de varios tipos de arboles mas adelante.
Como puedes ver en la parte inferior, esta pagina tambien proporciona la informacion
necesaria para imprimir un arbol con mas flexibilidad, y una herramienta en la Uni-
versidad de Indiana puede utilizar esa informacion. Desafortunadamente, este arbol
19
no es un arbol filogenetico verdadero; es un arbol simple que demuestra el orden en
que ClustalW realizo las alineaciones pareadas mientras que construa la alineacion
multiple de secuencias . Este arbol demostrara los pares que son mas estrechamente
vinculados el uno al otro, pero debes utilizar un programa de generacion de arboles
de mayor alcance para obtener un arbol mas riguroso.
NOTA: Este tipo de archivo de trabajo del arbol de ClustalW tiene siem-
pre un sufijo o terminacion de .dnd. Para los arboles filogeneticos real-
mente buenos, no utilices los archivos de .dnd.
De todas formas, podemos utilizar este arbol simplemente para aprender como im-
primir arboles una vez que usted tenemos uno confiable de cualquier fuente (seccion
siguiente). Este procedimiento funcionara si tienes archivos de descripcion del arbol
en el formato Newick, y ese es precisamente el caso para el archivo del arbol propor-
cionado en esta pagina. Consigue el archivo que necesitas para hacer un arbol yendo
a la parte superior de la pagina y haciendo clic en el boton anaranjado TREE. Tu
navegador mostrara un archivo de texto muy pequeno, que debe de estar lleno de
parentesis. Copia y salva este archivo como ClustalwTreeData.txt. Este es los datos
en el formato de Newick, un formato de descripcion de arboles ampliamente utilizado
por los programas de impresion de arboles. Utilizaras los datos en este archivo para
imprimir tu primer arbol. Un impresor de arboles bastante bueno, Phylodendron,
esta situado en http://iubio.bio.indiana.edu/treeapp/treeprint-form.html.
Cuando llevas tu navegador a este URL, encuentras la forma de entrada para este
impresora de arboles filogeneticos. Pega el contenido de tu ClustalwTreeData.txt en
la caja de los datos del arbol cerca de la parte superior de la forma. Escribe un ttulo
en la caja de ttulo, algo como Arbol de la Familia de Opsinas;. Para conseguir un
arbol que se parezca al mo (abajo, figura 0.7.3), escoge Phenogram de los estilos
del arbol en la parte superior. Luego bajo Extra options, selecciona: Format: GIF
image; anchura y altura: 400 pixeles, Font: Helvetica; Estilo: llano; Tamano: 12. Deja
el resto de los ajustes como los encontraste, y escribe Submit.
Tu arbol debe aparecer en tu navegador. Guardalo como OpsinTree.gif. Asegurate
de quitar el .cgidel nombre por default, de modo que tu archivo sea reconocible
como archivo del GIF normal. Puedes pegar estos archivos en los documentos para
los informes y las publicaciones. Juega con otras opciones en Phylodendron, y ve
como afectan a la imagen del arbol. Con los ajustes dados arriba, mi arbol es como
el que se ve en la figura 0.7.3.
En un arbol filogenetico verdadero (este no lo es), la dimension representada en
el eje horizontal puede ser el tiempo (si se cumplen ciertas condiciones sobre la evo-
lucion de las secuencias) y la longitud de las ramas representa que tan diferentes son
20
Figura 1: Un fenograma de las opsinas
21
las secuencias entre s. La dimension vertical no tiene una interpretacion especial.
Cada extremidad representa una secuencia actualmente existente. Cada bifurcacion
representa una secuencia ancestral (casi siempre hipotetica), y un acontecimiento de
divergencia entre los linajes a los que pertenecen dos secuencias actuales. La distan-
cia horizontal entre una bifurcacion y las extremidades de la bifurcacion representa
el tiempo desde esa divergencia. Como este arbol, la mayora de los arboles produci-
dos por las herramientas de la bioinformatica son arboles no enraizados; es decir, el
arbol demuestra las distancias, basadas en diferencias de la secuencia, entre las ex-
tremidades, pero no intenta demostrar el orden en que ocurrieron las ramificaciones;
por ejemplo, parece que la figura indica que la divergencia entre la opsina azul y la
rhodopsina ocurrio antes que la divergencia entre la opsina roja y la verde pero no
se vale sacar este tipo de conclusiones de un arbol no enraizado. Los programas de
comparacion de secuencias no pueden imaginar la orden o la direccion de la evolu-
cion. Pueden determinar solamente la magnitud de diferencias entre secuencias. Si tu
sabes que secuencia es el progenitor de todas las otras o bien que secuencia represen-
ta al grupo hermano de todas las demas secuencias includas en un arbol(en este
caso nosotros no lo sabemos), puedes arraigar el arbol con esa secuencia. El resultado
sera que la primera rama separara esa secuencia de las otras. Resulta que nuestro
arbol puede ser arraigado con la peropsina, y por eso muestra la primera rama como
la divergencia de la peropsina del progenitor del resto de las opsinas. Programas mas
avanzados de construccion de arboles permiten que elijas la secuencia de la raz para
un arbol, pero recuerda que la pura informacion de la secuencia no te dira donde
poner la raz.
0.7.4. Cuidado!
Las conclusiones del parrafo anterior se basan en el examen de este arbol impre-
so. Veremos mas adelante que este arbol es muy similar a un arbol hecho por un
metodo mas riguroso. Esto significa simplemente que este arbol particular es facil de
determinar. La mayora de los arboles no son as de faciles, y metodos mas rigurosos
daran resultados que son substancialmente diferentes de los que se obtienen con el
archivo de trabajo .dnd de ClustalW.
Recuerda tambien que la verdad de cualquier conclusion extrada de un arbol
depende de la exactitud de la alineacion multiple de secuencias y de los scores de la
alineacion. En este tutorial estas utilizando ajustes por defecto en muchos parame-
tros ocultos en los procesos de comparar y de alinear secuencias. Si quieres extraer
conclusiones sobre las relaciones filogeneticas que sobrevivan al escrutinio cientfico,
necesitas aprender mucho mas sobre los funcionamientos internos de las herramien-
22
tas de alineacion como Clustalw. En la seccion siguiente, haras este arbol otras dos
veces, usando herramientas mas rigurosas para calcular distancias filogeneticas.
0.8. Relaciones mejoradas

En esta seccion, aprenderas a utilizar algunas herramientas del programa Phylip
de analisis filogenetico para hacer un arbol filogenetico por un metodo mas riguroso,
llamado neighbor joining.
0.8.1. Construccion de arboles con el metodo de neighbor

joining a partir de alineaciones multiples de secuencia
hechas con ClustalW
Lleva tu navegador a http://bioweb2.pasteur.fr/intro-en.html y haz clic
en la filogenia. Este es el hogar del programa Phylip, una de las herramientas mas
rigurosas para construir arboles filogeneticos a partir de secuencias alineadas.
Bajo Computation of distance, Phylip haz clic en protdist. Vas a usar
protdist, un programa que calcula la distancia, o la medida cuantitativa de di-
ferencia, de las secuencias de protena entre s. Estas matrices de distancia supues-
tas seran utilizadas por Phylip para construir el arbol. Lo que le das de entrada
a protdist es la alineacion multiple de secuencias que hiciste usando Clustalw (ar-
chivo: OpsinMSAEdited.txt) Pon tu email en la caja superior. En la caja del
archivo de la alineacion, pega tu alineacion corregida de secuencias de ClustalW
(OpsinMSAEdited.txt).
Bajo Bootstrap options, haz estos ajustes:
Pon palomita en la caja Perform a bootstrap before analysis
Escribe cualquier numero impar para una semilla del generador de numeros
aleatorios
Solicita 100 replicas
Deja los otros ajustes como los encontraste, y haz clic en Run. Protdist construye
matrices de distancia por un proceso llamado bootstrapping. El bootstrapping es
un procedimiento de en el cual el protdist construye una alineacion de pseudose-
cuencias escogiendo posiciones de residuos al azar en el alineamiento que les diste
23
y concatenando los residuos en esas posiciones hasta tener un alineamiento que sea
la misma longitud que la alineacion original de ClustalW, y esto lo hace 100 veces
(las 100 replicas). De estas alineaciones de pseudosecuencias, protdist determina el
numero relativo de diferencia entre las cinco secuencias. El resultado del proceso es
una matriz llamada de distancia, y la veras pronto. Se repite este proceso, 100 veces
en nuestro caso, de hacer la matriz de distancia. El arbol que produciremos en ultima
instancia representa un consenso de las 100 matrices.
En la pagina de resultados, mira en la ventana outfile para ver las 100 matrices
que contienen los numeros que representan el numero relativo de diferencias entre las
cinco secuencias. Cada matriz tiene los nombres de la secuencia en la primera colum-
na, y debes imaginarte que estos nombres de secuencias son tambien los ttulos para
las columnas restantes. El numero en la interseccion de la fila Blue y la columna con
el ttulo (imaginario) Peropsin da la magnitud relativa de las diferencias de secuencia
entre la opsina azul y la peropsina. Las matrices tienen ceros en la diagonal porque
cada pseudosecuencia es identica a s mismo (tiene cero diferencias consigo misma).
Haz clic en el boton Save para guardar el archivo entero de 100 matrices. El archivo
se transfiere automaticamente con el nombre protdist.outfile.txt . Transfiere el
archivo a un lugar conveniente.
Haz clic en el boton de regreso de tu navegador para ir de nuevo a la pagi-
na Phylogeny. Bajo Distance Matrix Method programs, Phylip haz clic en
neighbor. Lee las listas cuidadosamente: no vayas a escoger weighbor.
En la ventana Distance Matrix file, pega el contenido del archivo protdist.outfile.txt.
Bajo Bootstrap options haz estos ajustes:
Pon palomita en Analyze multiple Datasets
Incorpora 100 conjuntos de datos (usando todas las replicas que nos dio prot-
dist)
Pon un numero impar para la semilla de numeros aleatorios
Pon palomita en Compute a consensus tree
Recorre al pagina hasta llegar a Other options.

Esta area de entrada te da la opcion de senalar un grupo externo o outgroup para
la raz de tu arbol. Un outgroup es la secuencia que piensas que es la mas distante
de las otras, posiblemente aquella cuyo linaje divirgio primero. Nosotros no sabemos
eso en este caso, as que deje el valor por defecto de 1. En la parte superior de la
pagina, haz clic en Run.
24
En la pagina de resultados, el archivo de Newick que necesitas para hacer el arbol
se llama neighbor.outtree. Copialo y guardalo como como PhylipTreeData.txt.
Recorriendo hacia abajo en la ventana consense.outfile, puedes ver el arbol de
consenso, impreso en un formato de texto simple. Este arbol se esta etiquetado como
unrooted , significando que no conocemos al antepasado de todas estas secuencias.
Con este arbol aprendemos que las secuencias son las mas semejantes y cuales son
las mas diferentes entre s. Tambien aprendemos cuantas veces las conexiones de este
arbol faparecieron de la misma manera en los 100 arboles hechos de las matrices de
diferencias. Los numeros en que las ramas indican el numero de veces que la particion
de especies en los dos grupos separados por esa rama ocurrio en los 100 arboles. Por
ejemplo, la separacion de rojo y de verde de los otros tres, (que indica que el rojo
y el verde son mas similares el uno al otro que a los otros tres) ocurrio en los 100
arboles. La separacion del grupo formado por azul y por la Peropsina de los otros
tres ocurrio en solamente 53 de los 100 arboles. En los otros 47 arboles, Rhodopsina
y Peropsina fueron separados de los otros tres. (Pueds extraer esta informacion de
este archivo?) En la ramificacion mostrada, la mayora es quien decide, y por lo tanto
los resultados de 47 de los arboles se desechan.
Nota: Tus resultados pueden ser levemente diferentes de los mos. Debido
a las decisiones al azar tomadas al construir el arbol, los porcentajes en
el parrafo anterior pueden variar. Me han salido valores de consenso tan
altos como 82 % en la separacion de azul y de Peropsina de los otros tres.
Usando a lo que uaprendiste en la seccion anterior, ve a http://iubio.bio.

indiana.edu/treeapp/treeprint-form.html y produce un arbol de datos a partir
de tu archivo PhylipTreeData.txt. En la figura 2 esta mi arbol:
La interpretacion de un arbol no es tan simple como interpretar los tipos de arbo-
les que se ven en libros de texto. El arbol de Phylip parece decir que la divergencia
de la azul a partir de la Rhodopsina vino antes de la divergencia entre Rhodopsina y
Peropsina. Pero recuerda que este arbol no esta enraizado; no especificamos que pro-
tena pensamos que sea el progenitor de las otras. El programa de dibujo del arbol
pone automaticamente una pequena raz en el arbol, pero esa lnea no es necesaria-
mente el principio o el fondo del arbol. Podramos partir de cualquier rama y leer
el arbol como si esa fuera el primer acontecimiento de ramificacion en el arbol. Lo
que el arbol nos dice es que secuencias son las mas similares. Claramente, las opsinas
roja y verde son el par mas similar, y la azul es mas similar a la rhodopsina que a la
peropsina.
25
Figura 2: La filogenia hecha por phylip
26
0.8.2. Jugar con las races del arbol
Ahora usaras algunas de las ultimas herramientas para hacer una alineacion multi-
ple de secuencias (Tcoffee) y un arbol (PhyML). Estos programas son de alcance aun
mayor, pero con mayor poder viene algo menos de transparencia, y un costo en velo-
cidad. Los expertos dicen que los resultados son mejores, pero muchos solo podemos
creerles. PhyML tambien utiliza un acercamiento de bootstrap, pero con mayor re-
dundancia que Phylip. La cosa realmente buena de PhyML es que te deja jugar con
el arbol de muchas maneras, incluyendo el cambio de raz interactivo. Para hacer una
alineacion multiple de secuencia con Tcoffee, necesitas archivos crudos de FASTA.
Para conseguirlos,
Vuelve a UniProt, y repite tu busqueda para las opsinas humanas.
Selecciona las cuatro opsinas visuales mas la peropsina, y haz clic en Retrieve
en la parte inferior de la pagina.
Haz Clic en OPen bajo FASTA en la pagina de trabajos de UniProt.
Selecciona el texto que aparece. Puede ser que quieras guardarlo en un archivo
de texto, pero usted puedes simplemente pegarlo en Tcoffee directamente. El
archivo que tienes aqu es simplemente las cinco secuencias de opsina, una tras
otra, en el formato FASTA, que es justo lo que necesita Tcoffee.
Lleva tu navegador a http://tcoffee.vital-it.ch/cgi-bin/Tcoffee/tcoffee_

cgi/index.cgi?stage1=1&daction=TCOFFEE::Regular Pega tus datos FASTA en
el espacio proporcionado. Incorpore tu direccion de email. Haz clic en Submit. Eso
es todo. Despues de lo que generalmente es un tiempo corto, una pagina de resultados
aparece. Proporciona ligas a tu alineacion multiple de secuencias en varios formatos.
(puede ser que encuentres interesante comparar la alineacion de Tcoffee con la de
ClustalW. Esto es la mas facil de hacer con el archivo clustalw aln de Tcoffee.)
El archivo que quieres para producir un arbol se llama phylip, y te proporciona la
alineacion en el formato de Phylip, que es el que PhyML puede leer (poco a poco te
vas a dar cuenta de que la mitad del trabajo de bioinformatica consiste en pasar de un
formato de archivo a otro). Haz clic en phylip para ver este archivo, selecciona todo
el texto exhibido, y copialo. Pegalo en un archivo de texto, 5Opsins4PhyML.txt.
LLeva tu navegador a http://atgc.lirmm.fr/phyml/
PhyML utiliza los metodos de maxima verosimilitud, que se basan en las muy
poderosas (pero relativamente difciles de entender) estadsticas Bayesianas, para cal-
cular el arbol que tiene la probabilidad mas alta de demostrar la relacion filogenetica
27
correcta entre las secuencias alineadas. Los metodos de lmaxima verosimilitud estan
entre los medios mas respetados de hacer decisiones cuando debes navegar en un
campo de minas de opciones basadas en probabilidad para llegar una sola mejor de-
cision, o a un pequeno grupo de decisiones casi igual de buenas (los cristalografos de
rayos X tambien la utilizan para decidir que datos utilizar, y cuales excluir, al inten-
tar construir un modelo de una protena a partir de datos de difraccion). A medida
que la disponibilidad de tales metodos ha crecido, tambien ha crecido el numero de
personas para quien son cajas totalmente negras. Cuando usted utiliza un metodo
que es para t una caja negra, debes tener cuidado de comparar los resultados con
todo lo que sabes sobre el tema. Un resultado asombroso puede ser un descubrimien-
to genuino, o puede ser que sea simplemente incorrecto. Es un resultado que luego
hay que probar con mas cuidado, no algo que hay que aceptar ciegamente.
Ahora pon esta caja negra a trabajar.
En la forma de PhyML, haz estos ajustes:
Secuences: tu archivo; entonces haz clic enChoose File, y escoge el archivo
de phylip que guardaste de la salida de Tcoffee.
Data type: Aminoacidos
Sequence file: Interleaved
Number of datasets: 1, tambien haz clic en Perform bootstrap
Number of bootstrap datasets: 100 (no hagas clic en Print bootstrap

info)
Incorpora tu nombre, pas, email, y el tipo de computadora que estas utilizando.

Entonces haz clic en Execute and email results. Puede ser que tome tanto
como una hora para que los resultados lleguen.
Tu email contendra una liga a tu arbol. Haz clic en la liga, lee sobre el visualizador
del arbol, y haz clic en View tree.
Si tu computadora esta configurada correctamente para correr los applets de Java,
el visualizador ATV aparecera con tu arbol, junto con muchas herramientas para
controlar su visualizacion. Cada extremidad del arbol contiene el numero de accesion
de UniProt de una secuencia de opsina. Puedes exhibir la informacion adicional sobre
el arbol haciendo clic uno de los cuadrados en el menu derecho. haz clic en Branch
lenght values para agregar las distancias relativas a lo largo de las ramas. Haz clic
en Editable para permitir que juegues con la visualizacion. Bajo Click on node
to: haz clic en display/edit information. Entonces haz clic en el nodo (cuadrado
28
azul) en spO14718 y cambia el nombre de la secuencia a peropsina, y haz clic en
Write to tree. Cambia los otros nombres de secuencia (vease la seccion anterior) a
opsina roja, opsina verde, opsina azul, y rhodopsina.
Luego, bajo Click on node to: haz clic root/reroot. Ahora fijaras un outgroup
para el arbol. Como la peropsina es el unico miembro de este grupo que no se sabe
que este implicado directamente en la vision, haz la suposicion (arbitraria) de que
fue la primera cuyo linaje se separo del grupo arraigando el arbol con la peropsina.
Conviertela en el outgroup del arbol haciendo clic en el nodo (cuadrado azul) al lado
de la peropsina. Puedes tambien escoger Swap children y hacer clic en los nodos
de rama para cambiar las posiciones de visualizacion para una rama, una operacion
puramente cosmetica, pero una que a veces hace mucho mas facil interpretar el
arbol. Ajusta el tamano de la ventana o los ajustes del zoom para exhibir toda la
informacion claramente. Utiliza un comando de guardar imagenes de la pantalla para
tener una imagen del arbol. Para capturar cuadros en mi computadora Macintosh,
utilizo el shift-command-4 muy practico (y muy viejo), que permite que selecciones
un rectangulo en la pantalla y despues salva un archivo de .png de mi seleccion al
escritorio con el nombre Picture1. En la figura 3 se ve el arbol que hice segun estas
instrucciones:
Figura 3: La filogenia de las opsinas hecha con PhyML y visualizada con ATV
Si es verdad (y nosotros no lo sabemos) que la base apropiada para este arbol

es la divergencia del gene de peropsina de los de las otras opsinas, entonces el arbol
29
cuenta la siguiente historia superficialmente plausible de que un gen ancestral pro-
dujo los genes de opsinas que encontramos hoy. La peropsina primero divergio de un
progenitor que iba a ser el padre de todos las opsinas visuales (el progenitor pudo ya
haber sido un pigmento visual primitivo). Mas adelante, una opsina color-especfi-
ca divirgio de a rhodopsina primitiva (rama etiquetada con 100). Despues, le linaje
(75) de la rhodopsina, se separo, en ultima instancia produciendo la opsina azul y la
rhodopsina actual. Mas Recientemente, la primera opsina cromosensible dio lugar a
las opsinas rojas y verdes, que siguen siendo en gran medida los pares mas similares
de opsinas. Cada rama representa probablemente una duplicacion de gen, y una de
las copias conservo la funcion original, mientras que la otra se fue transformado gra-
dualmente para producir una protena de nueva funcion. Las duplicaciones de genes
son comunes, pero la evolucion de una copia en algo util es probablemente menos
comun; la mayora de los duplicados terminan como pseudogenes no funcionales. Una
vez mas recuerda que usted estas rasgunando apenas la superficie de las herramientas
introducidas en este tutorial. Para tomar y defender decisiones sobre relaciones filo-
geneticas. necesitas saber mas sobre estas herramientas y los computos subyacentes.
Ve a la ultima seccion del tutorial para averiguar mas sobre este tema.
0.9. Buscando estructuras

En esta seccion, aprenderas como utilizar una secuencia en formato FASTA co-
mo dato de entrada (consulta o query) al Protein Data Bank, el deposito de casi
todos los modelos de protenas que se han deducido por cristalografa de rayos X
o resonancia magnetica nuclear (RMN). Tu busqueda te dira si cualquier persona
ha producido un modelo experimental de la protena para la que estas haciendo la
consulta, o si hay modelos disponibles para cualquier protena de secuencia similar.
Tambien visualizaras el modelo usando una herramienta en lnea de graficos mole-
culares. Finalmente, aprendera como convertir una larga lista de /emphhits en un
informe interactivo a la medida que haga que los detalles de cada uno de los hits
sean faciles de encontrar.
0.9.1. Cual es la estructura de una opsina?

Para este momento, quizas tengas curiosidad sobre la estructura de la peropsina,
pero es poco probable que la estructura de una protena de funcion desconocida
haya sido determinada. Por otro lado SI que es probable que todas las opsinas sean
30
similares en estructura, as que puedes intentar encontrar un modelo de una secuencia
similar en la base de datos de estructuras macromoleculares, el Banco de Datos
de Protenas (PDB). Esto te dara una idea de que clase de molecula de protena
es la opsina.
De hecho, el PDB no contiene estructuras moleculares en absoluto. Es mas co-
rrecto decir decir que contiene modelos de macromoleculas. Estos modelos son inter-
pretaciones de datos a partir uno de los dos metodos principales de determinacion de
la estructura macromolecular: Cristalografa de rayos X y espectroscopia de RMN.
Cuando los investigadores hacen un modelo, o, como dicen ellos, determinan la
estructurade una macromolecula, depositan un archivo que contiene las coordena-
das tridimensionales de todos los atomos del modelo. Este archivo de coorde-
nadas visualizado con una herramienta de graficas moleculares en lnea (como el
Jmol, hecho por la gente del PDB) o un programa de graficos de computadora co-
mo DeepView (para el cual puedes ver un tutorial en http://spdbv.vital-it.ch/
TheMolecularLevel/SPVTut/index.html que te explica muchas cosas, incluyendo
como bajar e instalar el programa) es todo que necesitas para ver y estudiar el
modelo en tu computadora. Recuperaras un modelo del PDB y lo veras despues con
una herramienta de graficos en lnea. Tambien visitaras el hogar de un programa muy
bueno de graficos de computadora que se puede descargar LIBREMENTE y usar en
tu compu.
Lleva tu navegador a http://www.rcsb.org/pdb/.
La pagina de entrada del PDB contiene en la parte de arriba un simple campo de
captura de texto para iniciar busquedas. Puedes buscar los modelos usando palabras
claves simples o codigos de identificacion del PDB. Un codigo del PDB tiene cua-
tro caracteres, como 1CYO. Pero, como podras saber de que se trata un modelo
simplemente por su codigo? Cuando se publica una nueva estructura, los autores
dan generalmente el codigo del PDB en la ultima referencia de su bibiografa. Con
ese codigo, puedes ir derecho al modelo que quieres ver. Pero mas a menudo, lo que
ellos quieren saber, igual que nosotros, es algo mas general. Para tales casos, el PDB
tambien proporciona formularios para busquedas mas sofisticadas. Por ahora, vea-
mos solamente si estan disponibles algunos modelos de la opsina. Escribe opsin
en la caja o campo de captura de texto para iniciar busquedas, cerciorate de que la
opcion PDB ID or Keyword (identificacion por codigo PDB o por palabra clave)
este seleccionada en el menu desplegable que esta al lado del campo de captura de
texto, y haz clic en Search.
El 16 de noviembre de 2009, esta busqueda dio por resultado solamente tres
modelos, lo cual es bastante desconcertante, porque una busqueda con la palabra
clave rhodopsin nos da por resultado 82 modelos (y, depues de todo, las rhodopsinas
31
son un subconjunto de las opsinas). As que parece que la herramienta de busquedas
rapidas del PDB todava necesita algunos ajustes. Pero resulta que de momento esta
limitacion nos va a ser de utilidad. Acabas de encontrar un modelo experimental
de una opsina: el PDB contiene unicamente modelos obtenidos experimentalmente
ya sea por cristalografia de rayos X o por espectroscopa de resonancia magnetica
nuclear. Veamos este modelo. Haz clic en el codigo que dice 3CAP sobre la imagen
pequenita de uno de los modelos. Eso te llevara a la pagina de resumen (Structure
Summary) de este modelo, que es como su portal en el PDB. Esta pagina esta
conectada con todo lo que querrias hacer con este modelo. Cuando estas en el PDB
tu primer objetivo es siempre llegar a la pagina de resumen estructural del modelo
que estas buscando.
NOTA: La expresion Structure Summary no es muy evidente en esta

pagina. Lo que te indica que estas en la seccion de resumen estructural
es una pestana que dice Structure en la parte superior de la ficha del
archivo 3CAP, abajo del recuadro del nombre de la pagina web del PDB y
del recuadro donde esta el campo de captura de texto para las busquedas;
otras pestanas te llevan, por ejemplo a las secciones Derived Data ,
Sequence , Sequence Similarity o Methods .
Uno de los recuadros dentro de la ficha 3CAP tiene una ilustracion de la molecula
y puede ser que se intitule Assymetric Unit o Biological Molecule (de hecho,
puedes alternar entre estas dos opciones haciendo clic en la flechita que estaen el
cintillo azul de ese recuadro). Dentro de ese recuadro hay un boton que dice View
in Jmol (visualizar usando el programa Jmol). Vamos a hacer clic en ese boton para
usar el visualizador Jmol que es muy facil de usar y no necesita instalacion puesto
que trabaja dentro de tu navegador, pero no se te olvide que tambien es posible
usar otros visualizadores y que tienes la opcion de bajar el archivo de la molecula
3CAP y visualizarla con un programa que tengas instalado en tu compu (como, por
ejemplo, DeepView). Si tu computadora tiene instalado y actualizado el programa
Java, tu navegador cargara el Jmol, con el archivo 3CAP. Debes de poder ver un
modelo con dos moleculas de rhodopsina, con los esqueletos de la cadena principal
de aminoacidos dibujados como dos listones, uno verde y uno azul, y los modelos de
varias moleculas mas pequenas dibujados como palos y bolitas. Acaso la rhodopsina
es un dmero? No, pero los cristales de rhodopsina de los que se obtuvo este modelo
contenan dos moleculas de rhodopsina por unidad asimetrica (la unidad minima
que se requiere para poder construir la celda unitaria del cristal). Los archivos del
PDB generalmente muestran la totalidad del contenido de la unidad asimetrica. Si
32
estapresente mas de una molecula, a cada molecula se le llama una cadena en el
modelo.
UNA NOTA SOBRE LOS VISUALIZADORES: Jmol, el visualizador in-

sertado en la pagina de resumen estructural del PDB es muy ampliamente
usado y encontraras que se usa como visualizador en muchas paginas web.
Si te familiarizas bien con el le podras scar mas provecho a los sitios que
los usan. Sin embargo, Jmol es relativamente limitado en su capacidad
de analizar la estructura de protenas .
En mi humilde opinion, de las herramientas de analisis de estructura de
protenas listadas en al pagina del PDB, la mas poderosa es DeepView
(tambien conocida como Swiss PDBviewer). Quiza sea la unica herra-
mienta de analisis y visualizacion de protenas que tengas que usar . En
la seccion de modelacion por homologa aprenderas mas sobre DeepView.
Estas son algunas de las cosas que puedes hacer para familiarizarte con los mo-
delos desplegados en una ventana de Jmol:
Haz clic y arrastra sobre la imagen para rotar la estructura (usando el boton
izquierdo si tu raton tiene dos o mas botones). Puedes darte cuenta de que
3CAP tiene muchas helices alfa.
Para hacer zoom (acercamientos) haz clic y arrastra hacia abajo la imagen
mientras oprimes la tecla ALT en windows (o la tecla OPTION en Macintosh).
Para hacer alejamientos, haz lo mismo pero arrastrando hacia arriba. Para
rotar las moleculas pero arrastrando hacia la izquierda o hacia la derecha.
Haz clic en la imagen mientras oprimes la tecla CTRL (o haz clic con el boton
de recho del raton): aparecera un menu emergente que te mostrara muchas de
las otras cosas que puedes hacer con Jmol. Intenta las siguientes cosas para
darte una idea:
En el menu emergente escoge Seleccionar: Protena: Todo (o, si tu navegador

esta configurado en ingles Select: Protein: All). Esto quiere decir que cuando
aparezca el menu emergente deslices tu apuntador hasta Seleccionar, luego,
en el submenu que aparece te vayas hasta Protena y luego, en el siguiente
submenu te vayas hasta Todo. Al parecer no pasa nada, pero acabas de selec-
cionar parte del modelo (la parte que corresponde a las protenas, pero no a
las moleculas pequenas). Los comandos subsecuentes solo afectaran a la parte
del archivo que corresponde a las protenas.
33
En el menu emergente selecciona Color: Estructuras: Esquematico: Patron:
Por estructuras secundarias (en ingles: Color: Structure: Cartoon: By
Scheme: Secondary Structure). Los listones se volveran magenta en las re-
giones de helice alfa y amarillos en las regiones de hebra beta. Probablemente
ya habas notado antes la hebra beta en los modelos. Observa con cuidado una
de las cadenas para que te familiarices con la estructura. Cuantas helices estan
presentes? Cuantas hebras beta? Las hebras son paralelas o antiparalelas en-
tre s?
Sabes como visualizar pares estereoscopicos? (Si no, vete a a http://spdbv.

vital-it.ch/TheMolecularLevel/0Help/StereoView.html para aprender a
hacerlo). Selecciona Estilo: Estereografa: y luego tu modo favorito de vision
estereografica, vision bizca o vision paralela (en ingles: Style:Stereographic:y
tu modo favorito, cross-eyed o wall eyed viewing)
Trabaja usando la visualizacion en estereoscopa o no, como prefieras. Para

limpiar la pantalla haz: Seleccionar: No (Select: None en el caso de la
configuracion en ingles) y luego Seleccionar: Mostrar solo lo seleccionado
(Select: Display selected only en ingles). La pantalla se pondra negra; no
hay nada seleccionado y solo se esta mostrando lo que esta seleccionado (Muy
logico!)
Escoge Seleccionar: Protena: Todo (Select: Protein: All en ingles) (esto

selecciona tanto al esqueleto como a las cadenas laterales) y luego Estilo:
Patron: Esferas CPK (Style:Scheme:CPK Spacefilling en ingles. CPK
son las siglas de Corey, Pauling y Koltun, los primeros en proponer este estilo de
visualizacion). Ahora la porcion que corresponde a la protena se muestra como
un modelo de esferas que llenan el espacio que ocuparan los atomos. Con
esta forma de interpretar los datos de las coordenadas atomicas te puedes dar
una idea de la forma general de la protena. Desafortunadamente, el menu de
Jmol no te permite colorear las dos cadenas de manera separada o mostrar solo
una de ellas.
Escoge Estilo: Patron : Alambre (Style: Scheme: Wireframe en ingles).

Ahora puedes ver a las partes que corresponden a la protena en la representa-
cion de alambre. Esta no se ve tan bonita como algunos de los otros estilos
pero en realidad es la mas util cuando empiezas a explorar los modelos con
detalle porque los alambres no se ocultan unos a otros como sucede con el
esquema de palos y bolitas o con el esquema de esferas CPK.
34
Para aprender mas sobre Jmol consulta las ligas que se pueden ver cuando haces
clic en la pestana que esta en la parte de abajo de la pagina. Pero si esta planeando
hacer trabajo serio de analisis de estructura de protenas, especialmente juzgar la
calidad de los modelos y comparar modelos superponiendolos, por favor familiarzate
con DeepView.
0.9.2. Como encontrar homologos de las opsinas en el PDB

Ahora, intentaras encontrar otros modelos en el PDB que sean homologos a las
opsinas humanas. Como quien dice, le pediras al PDB que enumere todos los mo-
delos cuyas secuencias se puedan alinear con la de la opsina roja humana, ordenados
por similitud de secuencia. En la terminologa del PDB, la secuencia de la opsina
roja es es la secuencia de consulta (query), y los modelos similares encontrados
(los hits o coincidencias) se llaman sujetos.
Primero, abre el archivo protroja.txt (secuencia de consulta FASTA de la opsina
roja humana), y copia solamente la porcion que corresponde a la secuencia al por-
tapapeles; omite toda la lnea de comentario que comienza con el >. En la columna
de la izquierda de cualquier pagina del PDB, haz clic en Sequence Search den-
tro del recuadro Search. De la lista de tipos de busquedas, haz clic en Sequence
(Blast/Fasta). En la pagina resultante, haz clic en el boton que esta junto a a
Use Sequence, y pega tu secuencia de opsina roja en la caja que esta justo abajo.
Fjate que la herramienta de busqueda es, de hecho, tu nuevo amigo, BLAST, y que
el valor de corte para el valor E de 10 esta dado por defecto. De lo que aprendiste
anteriormente, sabes que esto no es un criterio de busqueda muy restrictivo, as que
tu busqueda debe pescar cualquier cosa con secuencia incluso remotamente similar
a la opsina roja humana. Haz clic en el boton Submit Query. La herramienta de
busqueda ahora esta buscando los modelos del PDB cuyas secuencias son similares
a la secuencia de la opsina roja humana. Los hits en UniProt son simplemente otras
protenas, la mayor parte de cuyas estructuras no se conocen. Los hits en el PDB
son modelos, de manera que estos hits te dicen que hay modelos experimentales para
una o mas protenas con secuencias similares a tu secuencia de consulta. El 17 de
noviembre de 2009, consegu 29 sujetos, o 29 modelos del PDB cuyas secuencias son
homologas a la secuencia de consulta. Cada uno se enumera con un valor E, que
es la probabilidad que la semejanza de secuencia entre la de consulta y el sujeto sea
una coincidencia. El primer resultado o sujeto es el modelo PDB 1F8, un modelo de
al rhodopsina bovina. El valor E es 7.3 1074 (este valor puede cambiar si se han
includo nuevas secuencias en el PDB). Es decir mientras que la probabilidad de que
le atines a un volado por casualidad es 0.5, la probabilidad de que la semejanza entre
35
la opsina roja humana y la rhodopsina bovina sea una casualidad es de
0.000000000000000000000000000000000000000000000000000000000000000000000000073,
lo cual significa, para cualquier QFB o biolog@ que este en su sano juicio, que estas
dos moleculas descendieron de un antepasado comun. No hay manera de que, en la
historia del universo, dos protenas puedan llegar a tener secuencias as de similares
por casualidad. Esto tambien significa que puedes apostar a que la estructura de la
rhodopsina bovina va a ser muy similar a la de la opsina roja humana, cuya estructura
es desconocida (si si se conociera, esta busqueda la habra encontrado). Ahora mira
abajo de la lista de los modelos que encontraste. La mayora son modelos de la misma
sustancia: rhodopsina bovina (la lumirhodopsina, la bathorhodopsina, y algunos otros
son las formas alteradas que representan a la rhodopsina en diversas etapas del ciclo
visual, pero observa que todas estas vienen de Bos taurus, o sea la vaca. Algunos
hits son el recientemente publicado receptor beta-2-adrenergico, el primer modelo de
receptor acoplado a protena G, aparte de la rhodopsina. Quizas para el momento en
que tomes este tutorial, habra mas. Usa la pagina de resultados para contestar a estas
preguntas sobre la comparacion entre la opsina roja humana y la rhodopsina bovina
en el archivoPDB 1F88: Cuantos residuos correspondientes, y que porcentaje de
los residuos, las dos protenas tienen en comun (coincidencias exactas)? Cuantos y
que porcentaje de residuos correspondientes son similares en cuanto a caractersticas
qumicas? Cuantos huecos provocados por inserciones y deleciones (gaps) introdujo
el programa de alineamiento para conseguir la mejor alineacion entre la opsina roja
humana y 1F88, y cuantos residuos hay en cada gap? Encuentre el trozo de secuencia
mas largo de coincidencias excatas entre las dos protenas. Cuantas coincidencias
exactas contiene, y cuales son los numeros de residuo del principio y de la conclusion?
0.9.3. Informes: La simplificacion de una busqueda con mu-

chos hits
Las paginas de resultados son difciles de tratar de si lo que quieres es revisar
en una larga lista de sujetos (hits) (cualquier cosa con mas de 10). Para exhibir la
informacion de una manera que sea mas facil de navegar, en el menu desplegable que
dice Generate Reports, escoge: Summary Reports: Custom Report. Puede
utilizar este formulario de informe tabular a la medida para generar una lista
de tus sujetos que incluya cualquier caracterstica de interes. Por ahora, generaras
una lista muy simple, pero vera rapidamente que puede ser muy poderosa.
En el formulario, poner palomitas en estas casillas: Descriptor (en la seccion
Structure Summary), y Source (en la seccion Biological Details). Entonces
36
haz clic en Create Report en la parte inferior de la forma. El informe a la medida
aparece, con tres columnas, el codigo de identificacion del PDB, una descripcion del
modelo, y la fuente biologica de la protena. La forma contiene muchos artculos en
los que puedes hacer clic. Si haces clic en un codigo de identificacion esto te lleva a
la pagina de resumen de la estructura para ese modelo. Hacer clic en un ttulo de
columna ordena la lista con base en ese ttulo. Intenta esto haciendo clic sobre el
ttulo de la tercera columna, Source. Ahora mira la columna de la fuente. Esto hace
facil encontrar las entradas que no son de Bos taurus, que incluyen a ese receptor
adrenergico (para ver todos los registros tal vez tengas que escoger un numero mas
grande que 15 en el menu desplegable que hay hasta abajo de la tabla). Algo mas?
Ahora ya sabes buscar en el PDB los modelos cuyas secuencias son similares a un
blanco o secuencia de consulta. Los biologos estructurales utilizan tales busquedas
cuando tienen una nueva secuencia de protena y quieren saber su estructura. Si se
sabe la estructura, una busqueda como esta debe de encontrarla, as que si estas
interesad@ en la estructura de un producto de gen particular, busca en el PDB con
esa secuencia para ver si la estructura se sabe ya. Si no, cualquier hit con alta seme-
janza de secuencia puede decirte generalidades sobre el plegamiento de esa protena.
Usted tambien viste como usar la herramienta de informes por encargo, que puede
faciliatarte el organizar y revisar una gran cantidad de hits de cualquier busqueda. Y
ahora, como obtener un modelo cuando no se conoce ningun modelo experimental.
0.10. Construyendo modelos

Esta seccion del tutorial es para l@s que esten particularmente interesad@s en
la estructura de protenas, y en la obtencion de modelos de las protenas cuyas
estructuras todava no se saben. Si tu interes en bioinformatica es sobre todo en el
analisis y comparacion de secuencias, puedes saltar a la seccion SIGUIENTE.
Para esta parte del tutoral, debes estar familairizad@ con el programa de graficas
moleculares DeepView. Si usted no lo estas, primero aprende como utilizarlo tra-
bajando con por lo menos lassecciones 1-6 y 11 del tutoral de DeepView (http://
spdbv.vital-it.ch/TheMolecularLevel/SPVTut/index.html). Si eres nuevo para
DeepView o para los graficos moleculares, esto requerira que inviertas por lo menos
algunas horas. Si haces esa inversion, ganaras una herramienta muy amistosa, de gran
alcance, y GRATUITA para estudiar modelos de protenas, as como para analizar-
los, comparar, construirlos, y juzgar su calidad. Cuando hayas terminado el tutoral
de DeepView, vuelve aqu.
37
En esta seccion, obtendras un modelo estructural de la peropsina misteriosa desde
un servidor automatizado que prepara modelos de homologa, y lo visualizaras con
DeepView.
0.10.1. Como obtener modelos de protenas cuya estruc-

tura no esta resuelta y por lo tanto no estan en el
PDB?
Cuando hiciste la busqueda en el PDB con la secuencia FASTA de la opsina roja,
no encontraste ninguna estructura de opsina roja, ni de ninguna otra opsina, inclu-
yendo la peropsina. Pero si quisieras intentar deducir tanto cuanto sea posible sobre
la estructura de la peropsina, sera razonable pensar que es similar a la rhodopsina,
la unica opsina con estructura conocida. Si una secuencia que te interesa tiene aun-
que sea un solo homologo en el PDB, puedes construir un modelo de esa protena
desconocida si se asume que su estructura es similar a la de la protena conocida. Si
dos secuencias comparten el 25 o 30 por ciento de similitud, sus estructuras tridimen-
sionales (es decir, sus conformaciones) son seguramente muy similares. El construir
un modelo de una protena desconocida a partir un modelo de un homologo se llama
modelado por homologa. La protena cuya secuencia se sabe, pero cuya estructura
es desconocida, es el blanco, y el modelo conocido es el molde o la plantilla. Los
procesos de modelado rigurosos emplean plantillas dos o mas moldes unicos si estan
disponibles, y el proceso de modelado, en cada region de la construccion del modelo,
favorece al molde que es mas parecido en secuencia a la protena blanco . Los mode-
los de homologa se pueden construir automaticamente, y un numero de servidores
de modelado proporcionan los modelos de homologa para todas las secuencias de la
base de datos para las cuales existan plantillas (homologos) en el PDB.
Ahora visitaras un servidor de modelado automatizado, y descargaras un mo-
delo estructural de la peropsina. Utilizaras el flexible y poderoso SWISS-MODEL,
que permite la cosntruccion de modelado para los usuarios de todos los niveles de
conocimiento, desde el principiante al experto. Como principiante, puedes producir
un modelo de la peropsina por un metodo completamente automatizado. Todo lo
que necesitas son los codigos de laregistro de UniProt, O14718. Lleva tu navegador
a http://swissmodel.expasy.org/workspace/, el hogar del espacio de trabajo de
SWISS-MODEL. Lee la introduccion sobre este recurso, y despues haz clic en [login]
en la parte de arriba de la pagina. Si esta es tu primera visita, necesitaras abrir una
cuenta (si tienes ya una cuenta, solo conectate y brncate el resto de este parrafo).
38
Debajo de las cajas para la identificacion de login y la contrasena, haz clic en create
your workspace, para comenzar a configurar tu cuenta del espacio de trabajo. Sigue
las instrucciones, y entonces tendras un espacio de trabajo protegido con contrasena
para usar SWISS-MODEL. Conectate a tu espacio de trabajo.
Cada peticion de modelado que sometas sera enlistada como una Workunit nu-
merada en la tabla principal de tu espacio de trabajo. Haz clic en [modelling] cerca
de la parte superior de la pagina. En la pagina resultante, haz clic en Automated
Mode. Escribe tu direccion de correo electronico (la misma con la que abriste tu
cuenta) y un ttulo de proyecto (en este caso, usa Peropsina automatizado) en los
campos de captura de texto apropiados. En la caja marcada Provide a protein
sequence or a UniProt AC Code: introduce el codigo de UniProt para la pe-
ropsina: O14718. Observa que podras tambien especificar un molde, para conseguir
la plantilla del PDB que alinea mejor con esta secuencia de peropsina, pero deja ese
espacio en blanco de momento. Haz clic en Submit Modelling Request. Para ver
el estado de tu solicitud, haz clic en [My workspace] en la parte superior de la
ventana. Cuando la tabla del espacio de trabajo indica que tu Workunit esta termi-
nada, haz clic en el numero de Workunit para ver los resultados. De la pagina de
los resultados, puedes examinar muchos aspectos del modelo y del proceso que lo
produjo. Lo mas notable es el propio modelo resultante y la plantilla o molde. Para
descubrir mas sobre la protena que sirvio de molde, haz clic en el codigo de cuatro
caracteres al lado de donde dice Based on template, y veras una entrada en
la BIBLIOTECA DE MOLDES DE SWISS-MODEL, con breve informacion
sobre la protena molde. Para aprender aun mas, haz clic en donde dice PDB en la
pagina de la biblioteca.
Para obtener tu modelo y poder verlo y analizarlo, justyo debajo de la imagen
del modelo, en la lnea que dice Download model: as pdb - as Deepview
project- as text, haz clic en Deepview project. Guarda el archivo transferido,
que se llama Model 1 project.pdb, a un lugar conveniente. Inicia el programa
DeepView, y utiliza el comando de menu: File: open PDB file. . . para abrir el
archivo.
En el resto de esta seccion, estare suponiendo que estas familiarizado con Deep-
View, y uso a las mismas convenciones para especificar operaciones que se ven en el
tutorial de DeepView (http://spdbv.vital-it.ch/TheMolecularLevel/SPVTut/
index.html). Si las instrucciones parecen incompletas, puede ser que necesites pasar
mas tiempo con el titorial de DeepView.
Los archivos de proyecto de SWISS-MODEL contienen tanto el modelo que se
genero como la plantilla (o plantillas), sobrepuestos uno sobre el otro. El nombre de
la capa que corresponde al modelo generado modelo es TRAGET (BLANCO), y el
39
nombre de la capa de la plantilla es el codigo del PDB de la plantilla. Centellea o
parpadea (o sea, manten presionada la tecla Ctrl y presiona la tecla de tabulador
repetidamente) para comparar los modelos. Cuando este activa la capa de BLANCO,
despliega solamente los listones, y observa los colores del modelo de listones. El
verde indica las areas que alinearon bien con la plantilla; el esqueleto del modelo en
las regiones verdes es practicamente identico al de la plantilla. El rojo significa las
areas que no se pudieron alinear bien con la plantilla. Si centelleas para comparar
el modelo de listones de la peropsina con la plantilla, veras que algunas areas rojas
corresponden a los lazos o bucles (loops) superficiales que sonde longitud muy diversa
en los dos modelos. Estas areas del modelo de la peropsina fueron construidas por
varios metodos que no son el simple enhebrado sobre la plantilla (si quieres saber
que es la modelacion de protenas mediante enhebrado puedes empezar revisando
http://en.wikipedia.org/wiki/Protein_threading). Uno de estos metodos es
buscar en las bibliotecas del bucles aquellos bucles (en el PDB) que contienen el
mismo numero de residuos y la misma distancia entre los puntos de sus extremos,
y despues tratar de hacerlos entrar. Independientemente de con que metodo metodo
se construyen las areas rojas, debes de confiar menos en su exactitud.
NOTA: Los datos que tienen que ver con que tan bien se ajusta el modelo
a la plantilla estan en la columna que corresponde al factor B del archivo
de coordenadas. Puedes aplicar el mismo esquema de color a cualquier
aspecto del modelo (tal como el esqueleto o la superficie) con color: B-
Factor.
Si piensas utilizar un modelo basado en homologa para usarlo de gua en tu
investigacion (por ejemplo, para decidir donde puede encontrarse un sitio activo, o
donde intentar una mutagenesis sitio-dirigida para alterar caractersticas) es obliga-
torio que aprendas como determinar la calidad de un modelo. Ese tema esta mas
alla del alcance de este tutorial, pero se cubre a profundidad en la seccion Judging
the Quality of Models Homology Models, en el tutorial de DeepView. Apenas
acabas de rascar la superficie del ESPACIO DE TRABAJO de SWISS-MODEL en
este tutorial. Encontraras el material adicional y ayuda en el sitio del espacio de
trabajo, incluyendo indicaciones sobre como controlar la eleccion de la protena que
se usa de plantilla y muchos otros aspectos del modelado. Algunas secciones del tuto-
rial de DeepView preceptorales y los tutoriales adicionales en la pagina de DeepView
(http://spdbv.vital-it.ch/index.html) proporcionan mucha mas informacion
sobre el modelado por homologa.
NOTA: El 25 de septiembre del 2008 (para mi sorpresa!) la plantilla
seleccionada por SWISS-MODEL para esta tarea de modelado era el ar-
40
chivo PDB 2z73, una rhodopsina de calamar recientemente depositada
en el PDB. Recuerda que tu busqueda de secuencias en el PDB esco-
gio (y todava lo hace!) a la rhodopsina bovina, 1f88, como la mejor
coincidencia, pero las estadsticas sobre 2z73 hacen que sea un segundo
lugar muy cercano. Esto debe de decirte que las herramientas de busque-
da no utilizan todas los mismos criterios para ordenar los resultados.
Recuerda que SWISS-MODEL te da la opcion de seleccionar una plan-
tilla en el modo automatizado, as que si prefieres basar su eleccion en
una busqueda hecha en otro sitio, puedes hacerlo. En los modos menos
automatizados, SWISS-MODEL permite que utilices plantillas multiples,
as como que utilices tus propias alineamientos de la protena blanco y de
la plantilla. Con DeepView, puede puede hacer alineamientos con multi-
ples plantillas; ajustar los alineamientos (por ejemplo, teniendo en cuenta
informacion sobre otros residuos homologos obtenida de datos experimen-
tales); enviar al blanco, las plantillas, y los alineamientos como Workunit
a SWISS-MODEL; y recuperar los resultados, todos sin tener que salir
de DeepView.
Si planeas utilizar la modelacion por homologa en tu investigacion, asegurate de

aprender a juzgar la calidad de los modelos (lo que a veces se llama validacion del
modelo). En la seccion 9 del tutorial de DeepView te muestran como validar todos
los tipos de modelos de protena, y te indica como llegar usted a tutoriales avanzados
para este tema.
0.11. Resumen
En este tutorial has utilizado estas categoras de herramientas:
1. Las bases de datos como GenBank, UniProt, y el PDB almacenan secuen-

cias y datos estructurales bajo la forma de entradas (cada una con un codigo
unico) que corresponden a un solo gen o a su producto protenico. Las bases
de datos proporcionan informacion extensa sobre cada entrada, desde breve
informacion en menus emergentes, hasta ligas que lanza a la entrada a la va-
rias herramientas de busqueda y analisis (abajo), a enciclopedias que contienen
informacion sobre la entrada, o a los resultados de busquedas automatizadas
en PubMed para las publicaciones relacionadas con la entrada. Las bases de
datos tambien proporcionan secuencias en formatos (como FASTA) que sirven
como consultas de busquedas en esas mismas u otras bases de datos.
41
2. Las herramientas de busqueda pueden ser partes integrantes de las bases
de datos, o de programas independientes. Hay herramientas de busqueda inte-
grales que te permiten ques busque con palabras claves, con secuencias FASTA,
o con numeros de entrada de otras bases de datos. Las herramientas indepen-
dientes de busqueda como BLAST permiten que encuentres las secuencias
(hits) similares a las secuencias que te interesa (las queries o secuencias de
consulta).
3. Las Herramientas de analisis (por ejemplo: PROSITE) usan solo las se-
cuencias para determinar caractersticas o para identificar funciones de genes y
de sus productos. Las herramientas de comparacion de secuencias como Clus-
talW y Tcoffee realizan alineamientos multiples de secuencias y producen
arboles filogeneticos, que muestran vvidamente como los genes se relacionan
unos con otros. Las herramientas de construccion de arboles de consenso como
Phylip y PhyML construyen arboles basados en muchas iteraciones de mues-
treo al azar y de re-alineacion de las secuencias que son comparadas, reduciendo
as la posibilidad de sesgos derivados de una sola alineacion de la secuencias.
Phylodendron te permite imprimir arboles a tu gusto, usando datos de arbol
en el formato Newick de cualquier herramienta de construccion de arboles.
4. Las Herramientas de modelacion como Swiss-Model te proporcionan, o

te asisten en la construccion de, modelos de homologa de protenas de estructu-
ra desconocida. El programa de modeladoDeepView (tambien conocido como
Swiss-PdbViewer) te ayuda a construir modelos de homologa, as como a
estudiar y juzgar la calidad de todos los tipos de modelos (homologa, rayos
X, RMN). DeepView y SWISS-MODEL estan integrados entre ellos, as que
puede moverte entre ellos en cualquier momento en un proyecto de modelado.
0.11.1. Mas complicado de lo que parece a primera vista

Todas las herramientas que has utilizado aqu son mucho mas complejas y pode-
rosas, y requieren mas juicio para utilizarlas correctamente, de lo que puedes pensar
por haberlas usado hasta ahora. Apenas has rasgado la superficie. Por ejemplo, los
programas como BLAST y ClustalW tienen muchos ajustes que permitan que el
usuario controle muchos aspectos del analisis. Cuando haces clic en una liga que te
lleva a ClustalW y obtienes un alineamiento sin problema, has utilizado los ajustes
por defecto que puede que no sean los mejores para tu tarea. Para el trabajo cientfi-
co serio, necesitas visitar sitios que te proporcionen imlemetaciones completas de las
herramientas de busqueda, de alineacion, y de analisis, dandote el pleno control de la
42
tarea, pero que tambien requieren que tengas una comprension mas profunda de la
clase de analisis que estas haciendo. Esta clase de conocimiento es crucial al juzgar
la calidad de tus resultados (un aspecto en el cual este tutorial es muy debil ). Para
aprender mas sobre las herramientas especficas, ve directamente a cualquier servicio
en red, tal como ExPASy o NCBI, que proporcionan la herramienta que quieres uti-
lizar. Primero, encontrara ligas a los manuales de usuario in extenso que dicen como
funcionan las herramientas de analisis. Puede ser que tambien encuentres listas de
preguntas frecuentes (FAQ) sobre la herramienta. Finalmente, a menudo encontraras
una liga directa a un formulario para controlar la herramienta, en la cual puedes ha-
cer todos los ajustes, hacer una consulta, y lanzar un analisis. El unico problema es
que, como principiante, a menudo no sabes que ajustes introducir.
En mi opinion, los mejores servicios para principiantes son los que proporcionan
ajustes en los menus desplegables que te muestran todos los ajustes permitidos. Co-
mo ejemplo, ve a EMBL-EBI (http://www.ebi.ac.uk/), otro gran servicio en lnea,
y haz clic en Sequence Similarity and Analysis. En la columna izquierda, bajo
Sequence analysis, haz clic en ClustalW2. El formulario que aparece muestra to-
dos los ajustes posibles de ClustalW bajo la forma de menus desplegables, de manera
que no tienes que saber de memoria todos los ajustes y escribirlos-todos ajustes per-
mitidos se muestran en los menus, as que no te puedes equivocar. Los ajustes que se
muestran cuando tu llegas (llamados los ajustes por defecto) son probablemente los
mismos ajustes aplicados a tu analisis cuando usted hiciste clic en la liga de tu tabla
de entradas de opsinas en UniProt para obtener tu analisis de secuencias multiples
con Clustalw. De hecho, si vuelves a esa pagina, veras que el campo de captura de
texto que esta hasta arriba contiene todos los archivos FASTA en orden. Si quiere
ver como usar otros ajustes afecta al analisis, puedes utilizar pegar este conjunto de
archivos, como un bloque de texto, en la forma de Clustalw de EMBL-EBI, juega con
los ajustes, y consigue analisis de la secuencias multiple que te satisfaga. Esta es una
buena manera de aprender mas sobre una herramienta que quieras utilizar apropia-
damente. EMBL-EBI proporciona la mayor parte de las herramientas bioinformatica
comunes en esta clase de ambiente amistoso con el principiante.
0.11.2. Que sigue?

Has tenido una introduccion muy basica a la bioinformatica. Con las herramientas
que has probado, puedes explorar las vastas bodegas de informacion genetica y es-
tructural disponible en Internet. Cada pagina que has visitado tiene muchas mas ligas
a otras herramientas. Usted darte cuenta de muchas cosas simplemente visitandolas
y jugando, y hay generalmente un monton de ayuda incorporada. Ojala que este tu-
43
torial te estimule a aprender mas sobre como utilizar la bioinformatica en tu trabajo.
Para un examen mas riguroso y sistematico, pero a la vez legible y claro, de la
gama completa de la bioinformatica, consigue la ultima l edicion de Bioinformatics
for Dummies, por Claverie y Notredame, Wiley Publishing, Inc. O algun otro libro
similar.
0.12. Pon a prueba tus habilidades

Prueba tus nuevas habilidades Aqu hay un problema que debes poder solucionar
usando lo que aprendiste en esta clase.
Los seres humanos no podemos sintetizar la vitamina C (ascorbato), as que
debemos obtenerla de nuestra dieta. Muchos mamferos, incluyendo los ratones,
s pueden hacer ascorbato. En el tiempo que ha pasado desde que nuestra linaje
divirgio del de los roedores, hemos perdido una enzima, la gulonolactona oxida-
sa, la enzima final en la ruta de la sntesis del ascorbato (si estas interesad@, lee
mas aqu: http://www.seanet.com/~alexs/ascorbate/197x/stone-i-orthomol_
psych-1972-v1-n2-3-p82.htm).
Esto significa que los seres humanos tienen un antepasado evolutivo que posea
un gen funcional de la gulonolactona oxidasa. Parece razonable pensar que los seres
humanos deben poseer un remanente no funcional de ese gene (llamado un pseudo-
gen).
Puedes encontrar un remanente del gen de la gulonolactona oxidasa
en el genoma humano?
Feliz cacera!
44

Fasta Conocimiento General

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Fasta Conocimiento General

Transféré par

Droits d'auteur :

Formats disponibles

Bioinformatica y modelacion de protenas por

homologa: un tutorial para principiantes

Un tutorial de Gale Rhodes

0.2. Los recursos que exploraremos

0.2.1. I. Las bases de datos

OMIM (Enciclopedia en Lnea de la Herencia Mendeliana en el Hombre y

Una enciclopedia de genes humanos y de desordenes geneticos, ligada a las entradas

PDB (el Banco de Datos de Protenas)

Contiene todos los modelos estructurales de protenas y de acidos nucleicos, expe-

Descrito en Wikipedia como un motor de busqueda gratuito para tener acceso a la

Base de conocimiento de UniProt (Swiss-Prot y TrEMBL)

Operada por el SIB (instituto Suizo de Bioinformatica) y el EBI (Instituto Europeo

Para los modelos estructurales teoricos construdos automaticamente a partir de su

Como ClustalW, una herramienta para el alineamiento y las comparaciones de se-

0.3. Empecemos a buscar genes

0.3.1. Opsinas humanas

0.4. Todo sobre un gen

0.4.1. Que saben los cientficos sobre las opsinas?

0.5. Encontrar secuencias

la secuencia de la protena (secuencia del producto de este gen: la opsina del

0.5.2. Cual es la secuencia de aminoacidos de este gen?

0.6. Primera busqueda con BLAST

Programa: BLASTP (la version de BLAST que compara secuencias de protena,

Otros parametros: No realices ningun cambio.

0.6.2. Interludio: los valores de expectativa y los puntajes

La razon por la que creemos que todos venimos de antepasados comunes

Un lugar para descubrir mas sobre busquedas y estadsticas de BLAST es la he-

0.6.3. Donde (en el genoma humano) estan todos los genes

0.7. Relaciones familiares

0.7.1. Como se relacionan entre s los diferentes genes de

0.7.2. Una pequena digresion

A proposito, un numero de accesion tal como O14718 se puede utilizar

0.7.3. Final de la digresion

1. Cambia P03999 a azul

2. Cambia P08100 a Rhodopsina

3. Cambia P04001 a verde

4. Cambia P04000 a rojo

5. Cambia O14718 a Peropsina

0.8. Relaciones mejoradas

0.8.1. Construccion de arboles con el metodo de neighbor

Pon palomita en la caja Perform a bootstrap before analysis

Solicita 100 replicas

Pon palomita en Analyze multiple Datasets

Pon un numero impar para la semilla de numeros aleatorios

Pon palomita en Compute a consensus tree

Recorre al pagina hasta llegar a Other options.

Usando a lo que uaprendiste en la seccion anterior, ve a http://iubio.bio.

Vuelve a UniProt, y repite tu busqueda para las opsinas humanas.

Haz Clic en OPen bajo FASTA en la pagina de trabajos de UniProt.

Lleva tu navegador a http://tcoffee.vital-it.ch/cgi-bin/Tcoffee/tcoffee_

Data type: Aminoacidos

Sequence file: Interleaved

Number of datasets: 1, tambien haz clic en Perform bootstrap

Number of bootstrap datasets: 100 (no hagas clic en Print bootstrap

Incorpora tu nombre, pas, email, y el tipo de computadora que estas utilizando.

Si es verdad (y nosotros no lo sabemos) que la base apropiada para este arbol

0.9. Buscando estructuras

0.9.1. Cual es la estructura de una opsina?

NOTA: La expresion Structure Summary no es muy evidente en esta

UNA NOTA SOBRE LOS VISUALIZADORES: Jmol, el visualizador in-

En el menu emergente escoge Seleccionar: Protena: Todo (o, si tu navegador

Sabes como visualizar pares estereoscopicos? (Si no, vete a a http://spdbv.

Trabaja usando la visualizacion en estereoscopa o no, como prefieras. Para

Escoge Seleccionar: Protena: Todo (Select: Protein: All en ingles) (esto