Académique Documents
Professionnel Documents
Culture Documents
Operado por el NCBI (el Centro Nacional Estadounidense para la Informacion sobre
Biotecnologa). Contiene todas las secuencias de DNA disponibles publicamente,
con anotaciones, que constantemente estan siendo extendidas y actualizadas. Las
anotaciones incluyen la identificacion de los genes, los productos de los genes (si se
conocen), y conexiones extensas a toda clase de informaciones sobre el gen en otras
bases de datos. NCBI contiene el mismo informacion sobre secuencias de DNA que
1
EMBL (el Laboratorio Europeo de Biologa Molecular) y DDBJ (el Banco de Datos
de DNA de Japon)
PubMed
2
0.2.2. II. Las herramientas
BLAST (Basic Local Alignment Search Tool, herramienta basica de busqueda
por alineamiento local)
Sirve para encontrar genes o protenas con secuencias similares a las que estas estu-
diando en las bases de datos de secuencias.
ClustalW
Para comparar mediante el alineamiento la secuencia que te interesa con otras, o
muchas secuencias unas con otras.
DeepView (tambien conocido como Swiss-PdbViewer)
Para ver y explorar modelos macromoleculares en tres dimensiones, y para el mode-
lado por homologa manual y semiautomatizado.
ExPASy (sistema de analisis experto de protenas)
No tanto una herramienta como una caja de herramientas un sistema muy completo
de herramientas de analisis de protenas.
Navegador de mapas del NCBI
Para encontrar genes y productos de genes (RNAs y protenas) de interes para t, y
para ver donde se encuentran en el sistema de cromosomas de cada organismo.
PubMed
Para buscar TODA la literatura de las ciencias de la vida.
Phylip
Para hacer arboles filogeneticos rigurosos cuando quieres controlar todos los parame-
tros.
Phylodendron
Para imprimir arboles filogeneticos usando datos.
PhyML
Para hacer arboles filogeneticos rigurosos automaticamente por un metodo de maxi-
ma verosimilitud... el mejor, pero el mas lento.
3
Swiss-Model y el espacio de trabajo de Swiss-Model
Tcoffee
4
0.3.2. Donde estan los genes de opsinas en el genoma hu-
mano?
Lleva tu navegador a http://www.ncbi.nlm.nih.gov/mapview/. Te encontraras
una lista de organismos para los cuales la informacion de sus genomas esta disponible.
Los botoncitos que estan en las columnas a mano derecha las columnas derechas al
lado de cada organismo hay ligas a las herramientas. Sosten el apuntador del raton
sobre cada smbolo de la herramienta para una breve descripcion de lo que lo hace.
Encuentra al Homo sapiens (humano), y haz clic en la herramienta de la lupa
que esta al lado de la construccion (Build) con el numero menor (una construccion
o build es un ensamblaje de un genoma, algo que se hace en varias ocasiones).
Utilizaremos la mas vieja estructura porque a veces no todas las herramientas de
busqueda y de vision estan conectadas con la construccion mas nueva, que esta en
curso. La herramienta de la lupa te lleva a la pagina de busqueda para el organismo,
que muestra un diagrama de cromosomas, y proporciona las cajas de la entrada de
texto (en la parte superior de la pagina) para las busquedas.
En la caja que esta al lado de Search for, escribe opsin.
Haz clic en Find.
Veras el diagrama de nuevo, con marcas rojas en tus hits(las secuencias que
pescaste), o sea, las localizaciones de los genes cuyas entradas contienen op-
sincomo palabra completa o como parte de una palabra. Debajo del diagrama hay
una lista de los genes indicados. Si la lista es muy larga, simplifcala usando la caja
Quick Filter a la derecha hasta arriba de la lista; pon una palomita caja que dice
gene, y despues haz clic en Filter. Si ya estas viendo la lista filtrada, la caja Quick
Filter no estara presente.
En la lista de genes relacionados con el termino de busqueda opsin, esta el gene de
la rhodopsina (rhodopsin (RHO)), y tres pigmentos de los conos, opsinas sensibles a
las longitudes de onda cortas, medias y largas (para la deteccion de la luz azul, verde,
y roja respectivamente). Cuatro de los hits parecen ser pigmentos visuales, lo que no
es de sorprender. A la izquierda de cada entrada esta el numero de cromosoma, lo
que te permite saber que marca roja corresponde a cada entrada. Observa que varios
hits estan en el cromosoma X, uno de los cromosomas de determinacion sexual.
NOTA: En las listas humanas del genoma, veras a menudo los duplicados mar-
cados como reference o Celera, lo que se refiere a los resultados obtenidos a partir
de diferentes dos esfuerzos importantes para ordenar el genoma humano. Al princi-
pio, estos dos esfuerzos eran separados, pero eventualmente juntaron muchos de sus
resultados. Cuando tengas que elegir una opcion, elije el referencepara que sigas
la misma trayectoria que segu al hacer el tutorial.
5
Puedes conseguir mas detalles sobre lo que pasa cuando hay hits multiples en el
mismo cromosoma con la liga All Matches para ese cromosoma. Haz clic en All
Matches al lado del X. Se paciente: la pagina siguiente puede cargar lentamente
esta llena de informacion. Veras una figura muy complicada muy complicada (no
te asustes vamos a utilizar solamente una parte de esto). A la izquierda esta un
diagrama del cromosoma de X, con las marcas rojas en las posiciones de los genes
que ahs venido siguiendo hasta esta pagina en nuestro caso, las dos opsinas, la de
onda media y la de onda larga, que estan situados cerca de la extremidad inferior
del cromosoma X. A la derecha hay varias representaciones del cromosoma X, con
los listados de las areas que ya estan anotadas. Los dos genes opsinas se destacan
en color de rosa. Si pasas tu cursor sobre esta pagina sin hacer clic, encontraras que
algunos smbolos proporcionan breve informacion, sobre todo sobre las regiones que
todava no se caracterizan lo bastante bien como para tener una entrada completa.
Como puedes ver, hay una cantidad enorme de informacion en esta pagina, con
ligas hacia mucha mas. Si quieres la informacion completa sobre lo que quieren decir
las abreviaturas y los smbolos en esta pagina, as como las clases de informacion li-
gadas a la pagina, puedes utilizar la ayuda del visualizador del mapa (Map Viewer
Help) en la parte de arriba de la pagina. Encontraras informacion abundante sobre
el visualizador de mapas, explicaciones de todos los smbolos y ligas, e incluso tuto-
riales sobre como formular y contestar toda clase de preguntas sobre los genomas.
El visualizador de mapas es como el Google Earth del genoma, y como con Google
Earth, la cantidad de informacion a veces puede resultar abrumadora. Por ahora,
observa la informacion proporcionada para el gene OPN1LW de opsina (lo que se
llama el smbolo del genegene symbol). Veras que esta es el gen de la opsina sensi-
ble a la longitud de onda larga (rojo), y que es un gen implicado en la acromatopsia
o ceguera del color o daltonismo (un rasgo ligado al sexo ninguna sorpresa, porque
encontramos el gen en el cromosoma de X).
6
Acabas de entrar en la pagina OPN1LW opsin 1 de Entrez Gene, que es una
especie de glorieta de caminos con salidas hacia toda clase de informaciones sobre
este gene. Revisa rapidamente de arriba a abajo la pagina. Algo de la informacion
es muy llana y comprensible, mientras que hay otra que es muy crptica. Una de
las ligas mas accesibles va hacia la OMIM (Herencia Mendeliana en el Hombre en
Lnea), un catalogo de genes humanos y desordenes geneticos.
Ve a la parte de abajo de la pagina y encuentra la seccion sobre fenotipos
(Phenotypes), y observa las ligas llamadas MIM. Estas son ligas a las entradas de
OMIM. Haz clic en uno de ellos.
Cada entrada de de la ficha OMIM te habla de este gen y de los tipos de ceguera
del color, desordenes geneticos asociados a mutaciones en este gene. Lee todo lo que
quieras. Sigue las ligas hacia otras fuentes de informacion. Para mas informacion
sobre OMIM en s mismo, haz clic en la insignia de OMIM en la parte de arriba de
la pagina. Con OMIM, tienes disponible una gran cantidad de informacion para los
genes que se encuentran en el genoma humano, y toda la informacion es sostenida
por referencias a los ultimos artculos de investigacion.
Una vez que hayas satisfecho tu apetito intelectual, regresa a la pagina de Entrez
Gene (utiliza el boton de regreso de tu navegador o la lista de la historia del mismo).
Al lado del boton Display, tira hacia abajo el menu y selecciona las ligas (calculadas)
de PubMed (PubMed (Calculated) Links). Acabas de entrar a PubMed, una base
de datos gratuita de literatura cientfica, para ver los resultados de una busqueda
completa de los artculos asociados directamente con este locus genico. Haciendo clic
en los autores de cada artculo, puedes ver los resumenes (abstracts) del artculo. Si
estas en un area de la Universidad donde hay acceso en lnea a las revistas especficas,
puede ser que tambien veas ligas a los artculos completos. PubMed es un punto de
entrada a una gran variedad de literatura en las ciencias de la vida. En el lado
izquierdo de cualquier pagina de PubMed, encontraras ligas a una descripcion de la
base de datos, a las secciones de ayuda, y a tutoriales sobre como hacer busquedas
eficientes. Ahora vuelve a la pagina de Entrez Gene para OPN1LW opsin 1.
7
0.5.1. Cual es la secuencia de nucleotidos de este gen?
Recuerda que ahora estas viendo la informacion sobre el gen para la opsina sen-
sible al rojo en la vision humana, y que este esta situado cerca de la extremidad
inferior del cromosoma X. En la pagina de Entrez Gene para OPN1LW opsin 1
avanza hacia abajo (muy abajo!) hasta llegar a las secuencias de referencia de NC-
BI (NCBI Reference Sequences (RefSeq)). En la primera subdivision, mRNA
and proteins, todo esto esta disponible:
la secuencia del mRNA (secuencia de bases nucleotdicas del ARN mensajero),
aqu la veras enlistada como NM 020061.3 (la M indica que se trata de un
registro de mRNA);
las secuencias fuente (secuencias enteras de los todos los fragmentos sobrelapa-
dos en el genoma en los que se encontro a esta secuencia, de GenBank).
Observa que las dos ligas a la secuencia del mRNA y a la secuencia de la protena
estan dados como NM 020061.3 NP 064445.1, la flecha quiere decir que la se-
cuencia de la ficha NM es traducida (durante la sntesis de la protena) para dar la
secuencia de la ficha NP.
Haz clic en el numero de la ficha para la secuencia del mRNA: NM 020061.3
Esto es un archivo de nucleotidos tpico de GenBank, y es difcil de leer, pero
algunas cosas estan claras. Primero fjate que, bajo las referencias, estan las citas a
la publicacion de esta secuencia en la literatura cientfica. Para ver un abstract del
artculo en el cual este gen fue descrito, haz clic en la liga de PubMed (un numero)
debajo de la primera referencia y leelo.
Desplazate hasta la parte inferior de esta larga pagina. La ultima cosa, etiquetada
como ORIGIN, es la secuencia de este ARN mensajero. Estas viendo la lista real
de las As, las Ts, las Gs, y las Cs que componen el mensaje para la sntesis de
esta opsina. Pero Que pasa aqu?! Tu sabes bien que el ARN no contiene ninguna
T. En la mayora de las bases de datos de nucleotidos, el uracilo U del ARN se
representa como T, para facilitar la comparacion de las secuencias de DNA y RNA.
Esta informacion de la secuencia no esta en la forma en la que es mas util para
buscar en las bases de datos, por ejemplo, para buscar genes emparentados entre s.
Mostremos la informacion de esta ficha en un formato que sea mas util para buscar.
En la parte de arriba de la pagina, al lado del boton Display, tira hacia abajo
el menu desplegable que dice GenBank (el formato de representacion por defecto
8
para cada entrada o ficha), y selecciona FASTA (nota que tambien estan disponibles
varias otras opciones de visualizacion ). Ahora puedes ver la lnea descriptiva o lnea
comment, que comienza con el >, seguida por la secuencia de nucleotidos. Este
pequeno texto (la descripcion de la secuencia y la propia secuencia de nucleotidos)
es todo lo que necesitas para buscar las bases de datos de nucleotidos secuencias
similares a esta. Guardalo para el uso futuro, como sigue: haz clic en y arrastra en la
pagina Web para seleccionar todo desde el >hasta los utlimos nucleotidos (CCAA).
Ten cuidado de no seleccionar todo lo demas. Con el menu Edit o Editar de
tu navegador, selecciona copiar para hacer una copia de esta informacion en el
portapapeles, para que luego la puedas pegar en otra parte. Ahora echa a andar
un procesador de textos simple (usa TextEdit en una Mac, Notepad en Windows,
emacs o vi en linux o UNIX es importante usar editores o procesadores de texto
que trabajen con el formato texto simple a fin de evitar cambios inadvertidos en
el formato de los archivos de la secuencia o la introduccion de caracteres invisibles
que en realidad no tienen lugar en el formato fasta), haz un nuevo documento, y
pegalo. Tanto el comentario como la secuencia FASTA deben aparecer. En caso de
necesidad, selecciona todo el texto y cambia la fuente a Courier o a Monaco estas
fuentes monotipo o de maquina de escribir facilitan el alinear letras en columnas,
porque todas las letras son del mismo ancho. Guarda este archivo, eligiendotexto
o texto simple como formato de tipo de archivo. Llamalo mrnaroja.txt (para la
secuencia del mRNA de la opsina roja). Guardalo en un lugar conveniente en el que
puedas encontrar este y otros archivos con los que hagas busquedas posteriores (otra
opcion es que te los enves a tu cuenta de correo).
Haz clic en el boton de regreso de tu navegador hasta que vuelvas a la pagina de
Entrez Gene para este gen.
9
0.5.3. Como se ve la vecindad de este gen?
(Preparate para una sorpresa. Aqu te va una pista: OPN1LW es un gen
humano, y los seres humanos son eucariontes. Cuando la gente comenzo a
secuenciar genes eucarioticos, les esperaba una gran sorpresa).
Ahora echa una ojeada a la region del cromosoma que contiene el gen de opsina roja.
Desplazate hasta la parte de arriba de la pagina de Entrez Gene para OPN1LW,
a la seccion llamada Genomic Context. El diagrama lmuestra que el gen de la
opsina roja esta en el cromosoma X, dentro de un segmento de los pares de bases
(bps) que van de la posicion 152 929 151 a la posicion 153 114 725 (una distancia
de185 574 pares de bases). [No te preocupes si estos numeros no son exactamente los
que ves; estos recursos estan siendo constantemente actualizados.] La localizacion de
OPN1LW, indicada con la flecha roja, esta cerca del tercer cuarto de este segmento.
Ahora observa en el diagrama en la seccion precedente, las secciones de Genomic
regions, transcripts, y products. Este diagrama te permite ver con mas detalle el
segmento de OPN1LW, representando solamente las posiciones 153 629 39 a 153 077
701 (14 762 bps). La lnea mas baja muestra regiones codoficantes como bloques
rojos, y las regiones no codificantes como lneas rojas. Aqu esta la sorpresa: Tu ya
sabas, aunque a lo mejor lo habas olvidado, que los genes eucarioticos son interrum-
pidos a menudo por regiones no codificantes llamadas secuencias de intervencion o
intrones. Las regiones codificantes se llaman exones. Con este diagrama, puedes ver
que el gen de OPN1LW consiste de 6 exones y 5 intrones, y que los intrones son
mucho mas grandes que los exones. De los 14 762 bps en del gen, solamente 1095
bps codifican para la protena, as que significa que menos del 8 % de los pares de
bases contienen el codigo para la protena. Cuando este gen se expresa en celulas de
la retina humana, una copia del ARN del gen entero se sintetiza. Entonces las regio-
nes de intrones se cortan, y las regiones de exones se ensamblan juntas para producir
el mRNA maduro (un proceso llamado empalmar o splicing). el cual sera traducido
por los ribosomas para hacer hacer la protena de opsina roja. En este caso, el 92 %
de la transcripcion inicial del ARN se tira, dejando solo el codigo puro de la protena.
Parece derrochador, pero no olvides que nuestra comprension de como funciona todo
esto, si bien es impresionante, sigue siendo bastante fragmentaria.
El manana nos dira lo que no entendemos hoy, pero no lo que no enten-
deremos manana.
En los extremos de la lnea mas baja en el diagrama, hay ligas a NM 020061.3
y a NP 064445.1, las entradas para el mRNA y secuencias de la protena para este
gene. Ya visitaste estas paginas en las dos secciones anteriores. Haz clic en CCDS
10
14742.1 en la extrema derecha del diagrama para ir a la pagina de la Secuencia
Codificante Consenso para este gen. Esta p;agina muestra como el transcrito del
gen OPN1LW se divide en exones. Bajo el letrero Chromosomal locations for
CCDS 14742.1 hay una tabla que enlista las posiciones de inicio y fin apara cada
exon. Debajo de eso esta la secuencia de nucleotidos completa del mRNA maduro,
con secciones azules y negras alternantes que indican los lmites de los exones. Mas
abajo esta la secuencia de aminoacidos, dividida otra vez en exones alternando azul
y negro, indicando con rojo los residuos cuyos codones estan en parte en un exon y
en parte en el exon siguiente. Esto hace ver claramente como el mRNA se ensambla
de los exones.
Pero todava no has visto las secuencias reales de los intrones. Vuelve a la pagina
de Entrez Gene para OPN1LW. Bajo el letrero Genomic regions, Transcripts
and Products haz clic en Go to reference sequence details. Esto te lleva a
NCBI Reference Sequences. Ya habas estado aqu, para conseguir las secuen-
cias de mRNA y protena. Esta vez, haz clic en la secuencia de cuatro numeros de
entrada (los cuatro forman una sola liga) al lado de Source Sequences. Esto te
lleva a la pagina de Entrez nucleotide que contiene la informacion sobre los cuatro
de los fragmentos genomicos del Proyecto del Genoma Humano que contienen todo
o parte del gen de la opsina roja, junto con la informacion sobre como cada clona
fue producida. Esta entrada muestra as al gen en el contexto mas grande de los
fragmentos clonados en los cuales el gene fue encontrado. Estas secuencias permiten
que explores las regiones que flanquean el gen, lo que puede ser util en el diseno de los
cebadores, o primers de la polimerizacion en cadena para hacer copias de esta region
en cantidades utiles. En esta pagina, tambien podras encontrar secuencias vecinas
si quieres mirar mas lejos. Como antes, puede visualizar esta entrada en formato
FASTA. Vas a obtener una serie de entradas, cada una corresponde a una de las
diferentes clonas que fueron utilizadas para construir esta region del genoma.
11
0.6.1. Que protenas en los seres humanos son similares a
la opsina roja?
Ahora vuelve al visualizador de mapa de NCBI. Vas a buscar en el genoma hu-
mano secuencias similares a la de la opsina roja. Haz clic en el smbolo de BLAST
(una B encerrada en un crculo) junto al letrero Homo sapiens (human). Este
es la herramienta de busqueda con BLAST de NCBI. BLAST es un programa am-
pliamente utilizado para encontrar secuencias similares a un query en el que estas
interesad@. Escoje estas opciones de los varios menus:
Base de datos: Protenas del ensamblaje (build) ANTERIOR (lo puedes ver
hasta abajo del menu de la base de datos). Esto significa que buscaras las
secuencias de protena en la construccion anterior de la base de datos. (a veces
no todas las herramientas estan disponible en el mas reciente ensamblaje, que
esta actualmente bajo construccion.)
Despues, copia los datos FASTA del archivo protroja.txt a tu portapapeles, y pegalos
en la caja de captura de texto de BLAST, sobre la cual dice, Enter an accession...
Comprueba que el primer caracter en la caja es el > al principio de los datos de
FASTA. Entonces haz clic en Begin search.
La pagina siguiente es para dar formato a tus resultados de busqueda. Acepta
todos los ajustes por defecto, y solo haz clic en el boton View results. Cuando tus
resultados esten listos, aparece la pagina results of BLAST. Observa el resumen
grafico, una caja que contiene porciones de lneas coloreadas. Cada lnea represen-
ta una correspondencia de tu busqueda BLAST. Si pasas el cursor del raton sobre
una lnea roja, laparece una breve descripcion del hit. Veras que la primera corres-
pondencia es la opsina roja. Eso es bueno, porque la mejor correspondencia de una
secuencia tomada de una base de datos debera ser la propia secuencia. El segundo
hit es la opsina verde recuerda que la entrada de PubMed reporto que los pigmen-
tos rojos y verdes son los mas similares. Los tercero y cuarto hits son la opsina azul
y la rhodopsina del pigmento de las celulas baston. Otros hits tienen numeros mas
bajos de residuos que corresponden, y estan coloreados cifrado segun un puntaje de
correspondencias. Si haces clic en cualquiera de las lneas coloreadas unas de los,
saltaras a mas informacion sobre ese hit, y puedes evaluar cuanto semejanza tiene
cada una con la opsina roja, tu secuencia original de consulta. Mientras vas hacia
12
abajo de la lista, cada secuencia sucesiva tiene menos en comun con la opsina roja.
Cada secuencia se demuestra en comparacion con la opsina roja en lo que se llama
alineamientos pareados de secuencia. Mas adelante, haras alineaciones multiples de
secuencia con las cuales puedes discernir relaciones entre genes. Trata de imaginarte
lo que significan las numeros. Las identidades son los residuos que son identicos en el
hit y la secuencia de consulta (opsina roja), cuando los dos se alinean optimamente.
Los positivos son los residuos que son muy similares en uno y otro (vease el residuo
numero 1 en la opsina azul, es treonina en la opsina roja, y serina, que es muy simi-
lar, en la azul). Los huecos o gaps se introducen a veces en un hit para mejorar su
alineacion con la secuencia de consulta. Entre mas identidades y positivos, y menos
los huecos, mas alta es la cuenta. Observa que la opsina azul y la rhodopsina son
solamente cerca de 45 % identicas a la opsina roja. Otras protenas, que no son al
parecer pigmentos visuales, tienen incluso cuentas mas bajas.
13
correspondencia entre tu secuencia de busqueda y este hit debe ser consecuencia de
la ancestra comun de ambas secuencias, porque las probabilidades son simplemente
demasiado bajas de que el hit pueda presentarse por casualidad. Por ejemplo, E =
1018 para un hit en el genoma humano significa que esperas que solamente un hit
asi de bueno por casualidad en un billon de millones de diversos genomas del mismo
tamano del genoma humano.
14
El resultado es un alineamiento multiple de secuencias (MSA), con el cual usted
puedes deducir muchas cosas sobre la forma en que las secuencias se asemejan y
se diferencian entre s. Luego utilizaras el MSA como entrada a los programas que
sirven para dibujar arboles filogeneticos, que son resumenes visuales de las relaciones
de genealoga entre los genes.
15
menu del campo de ficha al que te refieres al especificar una busqueda Field, y una
caja para el termino que buscas Term. Bajo Field, escoge Organism. En la caja
Term, empieza a mecanografiar human. A medida que escribes, la herramienta de
busqueda te muestra todos los terminos de busqueda permitidos que encajan con lo
que has escrito hasta ese momento En el momento en que aparezca human [9606],
hazle clic para ponerlo en na caja Term y haz clic en Add and Search.
Fjate que ahora la caja Query dice opsin AND organism: human [9606]. Esto
quiere decir que has limitado tu busqueda a las entradas relacionadas con opsi-
nas que ademas (AND) son protenas humanas. Tambien observa que la liga Links
esta de nuevo disponible, de manera que puedes agregar mas terminos adicionales
a tu busqueda , con los operadores logicos Y, O, y NO (AND, OR y NOT) para
especificar como utilizar los terminos adicionales. Pero la busqueda es ya bastante
especfica como para hacer nuestra tarea facil: hay solamente 25 resultados para esta
busqueda.
Antes de mirar los resultados, observa los otros campos que puedes buscar. Las
entradas de UniProt son archivos que se dividen en secciones, llamados campos,
que contienen de clases especficas de informacion. Puedes limitar las busquedas a
los terminos que residen en campos especficos, o puedes buscar simplemente en las
entradas enteras, o sea en todos los campos de las fichas.
Ahora mira los resultados. En 2008/09/19, esta busqueda dio 25 hits, incluyendo
la rhodopsina del pigmento de las celulas de bastones (OPSD), junto con los tres
pigmentos del cono (OPSB, OPSG, OPSR). Hay tambien un receptor de pe-
ropsina similar a pigmentos visuales(visual pigment-like receptor peropsin) OPSX,
que aun, mas de diez anos despues de su descubrimiento en el genoma, es de funcion
desconocida. En el resto de este tutorial, incluiras esta protena misteriosa en tus
investigaciones sobre los pigmentos visuales de la retina humana.
16
Ahora puedes ver la visualizacion de UniProtKB de la entrada O14718 [nota: ese
primer caracter es la mayuscula O, no el numero cero (0)]. Lee esta entrada e intenta
averiguar que es lo que se piensa que hace esta protena similar a la rhodopsina. Bajo
General Annotation (comments), aprenderas que se encuentra en la retina (en el
RPE o epitelio pigmentario retinal), y que puede detectar la luz, o quizas monitorear
los niveles de retinoides, la clase general de compuestos que son los que propiamente
absorben la luz en las opsinas. Ademas, bajo Similarity en la misma seccion, veras,
segun lo mencionado anteriormente, que esta protena es un miembro de la familia
grande de receptores acoplados a protena G (GPCRs). Si haces clic en G-protein
coupled receptor 1 Family, estaras lanzando una busqueda de miembros de esta
familia- cuyo resultado es cerca de 10.000 hits en UniProt. Limita esta busqueda a los
seres humanos (cerca de 1200 hits). De regreso en la pagina de O14718 la pagina, haz
clic en Opsin subfamily para encontrar una lista de todos los presuntos miembros
de esta subfamilia en UniProt (cerca de 220). Limita la busqueda a los seres humanos
(menos de 20).
De nuevo, regresa a la pagina de la entrada de UniProtKB para O14718.
Bajo References encuentra la cita de revista, Peropsin, a novel visual pigment-
like protein located in the apical microvilli of the retinal pigment epithelium. Haz
clic en la liga PubMed con esa referencia para ver un extracto (abstract) del artcu-
lo. En la pagina del resumen, haz clic en las ligas Free Full, Text Article para
obtener el artculo completo desde el sitio de la revista (PNAS) o el de PubMed
Central, que distribuye muchos artculos. Como muchas revistas, PNAS pone los
artculos completos en lnea tan solo 6 a 12 meses despues de su publicacion. Vuelve
a O14718, y mira alrededor en la pagina de la entrada. Usted encontrara referencias
recprocas (Cross References) a esta protena o a su gen en otras bases de datos,
caractersticas estructurales predichas de la protena, y la secuencia, que puedes to-
mar en formato de FASTA si quieres buscar mas de sus parientes. Observa tambien
las ligas a un numero de herramientas de ExPASy para el analisis adicional de esta
secuencia. Prueba con una de ellas: bajo Cross-references, encuentra PROSITE,
y haz clic en Graphical view, la visualizacion grafica.
Ahora tienes una forma que te permita buscar las firmas de funcion o los sitios
funcionales en la peropsina. Deja todos los ajustes como estan, y haz clic en scan al
lado de la imagen grafica (verde) de la protena. Aqu hay otra forma, con el numero
de accesion O14718 ya incorporado. Una vez mas deja el resto de los ajustes como
estan (pero nota que hay muchas maneras de modificar esta busqueda), y haz clic
en START THE SCAN.
PROSITE encuentra tres cosas identificables sobre esta secuencia. Un hit by
profiledentifica a la peropsina como un receptor acoplado a protena G. Tambien se
17
muestran dos hits by pattern . Uno es una secuencia corta que ademas permite
identificar a la peropsina como una GPCR, mientras que el segundo hit identifica un
sitio de enlace para retinal. PROSITE indica tan que, al igual que sus parientes las
opsinas visuales, la peropsinA tambien une especficamente al retinal, el pigmento
visual que nosotros fabricamos a partir de la vitamina A. Observa tambien que,
por semejanza con otras protenas relacionadas, PROSITE predice la presencia de
un enlace disulfuro, entre los residuos 98 y 175. (Mas adelante, descubriras mas
sobre la estructura tridimensional de la peropsina construyendo un modelo de esta.
Utilizaras una protena relacionada de estructura conocida como plantilla para hacer
este modelo. Este proeceso se llama modelado por homologa.)
18
en la caja Sequences, haz los cambios siguientes:
Despues de corregir, haz clic en Align para hacer de nuevo la alineacion con los
nuevos encabezados.
Para guardar esta alineacion en el formato necesario para la seccion siguiente,
haz clic en el boton anaranjado TEXTO a la derecha de Clustalw Results. Copia
el archivo de texto que se exhibe, pegalo en un nuevo archivo de texto, y nombralo
OpsinMSAEditado.txt. Ahora regresate a los resultados de Clustalw. Debajo de la
tabla que nombra cada opsina con sus nuevos ttulos esta la alineacion multiple de
secuencias. En bloques de 60 residuos, Clustalw ha alineado cinco secuencias. Debajo
de cada columna de cinco residuos, los smbolos indican que tan bien se emparejan
los residuos de las cinco protenas. * significa que las 5 protenas alineadas tienen el
mismo residuo de aminoacido en esta posicion (residuos completamente conservados,
dentro de este grupo); : significa que todos los residuos en esta posicion son muy
similares de tamano, carga, y polaridad (los reemplazos son muy conservadores); .
significa que son clase de aminoacidos similares (los reemplazos algo conservadores);
y la ausencia de smbolo significa que los residuos en esa posicion varan grandemente
en las caractersticas (residuos no conservados). (Que sugiere cada smbolo sobre la
importancia de ese residuo en la funcion de esta familia de protenas?)
En la parte inferior de la pagina de resultados hay varias barras de herramientas.
Juega con las primeras dos para ver lo que hacen. Encontraras que modifican la visua-
lizacion del alineamiento de secuencias multiples para destacar tipos de los residuos
o las firmas de la protena. Usando estas herramientas, puedes conseguir una vison
general de semejanzas y de diferencias entre las protenas. Pero la comparacion se
puede hacer mucho mas explcita usandola para hacer un arbol filogenetico para este
grupo de protenas. La anterior barra de herramientas proporciona un arbol de Clus-
talW. Aprenderas mas sobre el significado de varios tipos de arboles mas adelante.
Como puedes ver en la parte inferior, esta pagina tambien proporciona la informacion
necesaria para imprimir un arbol con mas flexibilidad, y una herramienta en la Uni-
versidad de Indiana puede utilizar esa informacion. Desafortunadamente, este arbol
19
no es un arbol filogenetico verdadero; es un arbol simple que demuestra el orden en
que ClustalW realizo las alineaciones pareadas mientras que construa la alineacion
multiple de secuencias . Este arbol demostrara los pares que son mas estrechamente
vinculados el uno al otro, pero debes utilizar un programa de generacion de arboles
de mayor alcance para obtener un arbol mas riguroso.
NOTA: Este tipo de archivo de trabajo del arbol de ClustalW tiene siem-
pre un sufijo o terminacion de .dnd. Para los arboles filogeneticos real-
mente buenos, no utilices los archivos de .dnd.
De todas formas, podemos utilizar este arbol simplemente para aprender como im-
primir arboles una vez que usted tenemos uno confiable de cualquier fuente (seccion
siguiente). Este procedimiento funcionara si tienes archivos de descripcion del arbol
en el formato Newick, y ese es precisamente el caso para el archivo del arbol propor-
cionado en esta pagina. Consigue el archivo que necesitas para hacer un arbol yendo
a la parte superior de la pagina y haciendo clic en el boton anaranjado TREE. Tu
navegador mostrara un archivo de texto muy pequeno, que debe de estar lleno de
parentesis. Copia y salva este archivo como ClustalwTreeData.txt. Este es los datos
en el formato de Newick, un formato de descripcion de arboles ampliamente utilizado
por los programas de impresion de arboles. Utilizaras los datos en este archivo para
imprimir tu primer arbol. Un impresor de arboles bastante bueno, Phylodendron,
esta situado en http://iubio.bio.indiana.edu/treeapp/treeprint-form.html.
Cuando llevas tu navegador a este URL, encuentras la forma de entrada para este
impresora de arboles filogeneticos. Pega el contenido de tu ClustalwTreeData.txt en
la caja de los datos del arbol cerca de la parte superior de la forma. Escribe un ttulo
en la caja de ttulo, algo como Arbol de la Familia de Opsinas;. Para conseguir un
arbol que se parezca al mo (abajo, figura 0.7.3), escoge Phenogram de los estilos
del arbol en la parte superior. Luego bajo Extra options, selecciona: Format: GIF
image; anchura y altura: 400 pixeles, Font: Helvetica; Estilo: llano; Tamano: 12. Deja
el resto de los ajustes como los encontraste, y escribe Submit.
Tu arbol debe aparecer en tu navegador. Guardalo como OpsinTree.gif. Asegurate
de quitar el .cgidel nombre por default, de modo que tu archivo sea reconocible
como archivo del GIF normal. Puedes pegar estos archivos en los documentos para
los informes y las publicaciones. Juega con otras opciones en Phylodendron, y ve
como afectan a la imagen del arbol. Con los ajustes dados arriba, mi arbol es como
el que se ve en la figura 0.7.3.
En un arbol filogenetico verdadero (este no lo es), la dimension representada en
el eje horizontal puede ser el tiempo (si se cumplen ciertas condiciones sobre la evo-
lucion de las secuencias) y la longitud de las ramas representa que tan diferentes son
20
Figura 1: Un fenograma de las opsinas
21
las secuencias entre s. La dimension vertical no tiene una interpretacion especial.
Cada extremidad representa una secuencia actualmente existente. Cada bifurcacion
representa una secuencia ancestral (casi siempre hipotetica), y un acontecimiento de
divergencia entre los linajes a los que pertenecen dos secuencias actuales. La distan-
cia horizontal entre una bifurcacion y las extremidades de la bifurcacion representa
el tiempo desde esa divergencia. Como este arbol, la mayora de los arboles produci-
dos por las herramientas de la bioinformatica son arboles no enraizados; es decir, el
arbol demuestra las distancias, basadas en diferencias de la secuencia, entre las ex-
tremidades, pero no intenta demostrar el orden en que ocurrieron las ramificaciones;
por ejemplo, parece que la figura indica que la divergencia entre la opsina azul y la
rhodopsina ocurrio antes que la divergencia entre la opsina roja y la verde pero no
se vale sacar este tipo de conclusiones de un arbol no enraizado. Los programas de
comparacion de secuencias no pueden imaginar la orden o la direccion de la evolu-
cion. Pueden determinar solamente la magnitud de diferencias entre secuencias. Si tu
sabes que secuencia es el progenitor de todas las otras o bien que secuencia represen-
ta al grupo hermano de todas las demas secuencias includas en un arbol(en este
caso nosotros no lo sabemos), puedes arraigar el arbol con esa secuencia. El resultado
sera que la primera rama separara esa secuencia de las otras. Resulta que nuestro
arbol puede ser arraigado con la peropsina, y por eso muestra la primera rama como
la divergencia de la peropsina del progenitor del resto de las opsinas. Programas mas
avanzados de construccion de arboles permiten que elijas la secuencia de la raz para
un arbol, pero recuerda que la pura informacion de la secuencia no te dira donde
poner la raz.
0.7.4. Cuidado!
Las conclusiones del parrafo anterior se basan en el examen de este arbol impre-
so. Veremos mas adelante que este arbol es muy similar a un arbol hecho por un
metodo mas riguroso. Esto significa simplemente que este arbol particular es facil de
determinar. La mayora de los arboles no son as de faciles, y metodos mas rigurosos
daran resultados que son substancialmente diferentes de los que se obtienen con el
archivo de trabajo .dnd de ClustalW.
Recuerda tambien que la verdad de cualquier conclusion extrada de un arbol
depende de la exactitud de la alineacion multiple de secuencias y de los scores de la
alineacion. En este tutorial estas utilizando ajustes por defecto en muchos parame-
tros ocultos en los procesos de comparar y de alinear secuencias. Si quieres extraer
conclusiones sobre las relaciones filogeneticas que sobrevivan al escrutinio cientfico,
necesitas aprender mucho mas sobre los funcionamientos internos de las herramien-
22
tas de alineacion como Clustalw. En la seccion siguiente, haras este arbol otras dos
veces, usando herramientas mas rigurosas para calcular distancias filogeneticas.
Escribe cualquier numero impar para una semilla del generador de numeros
aleatorios
Deja los otros ajustes como los encontraste, y haz clic en Run. Protdist construye
matrices de distancia por un proceso llamado bootstrapping. El bootstrapping es
un procedimiento de en el cual el protdist construye una alineacion de pseudose-
cuencias escogiendo posiciones de residuos al azar en el alineamiento que les diste
23
y concatenando los residuos en esas posiciones hasta tener un alineamiento que sea
la misma longitud que la alineacion original de ClustalW, y esto lo hace 100 veces
(las 100 replicas). De estas alineaciones de pseudosecuencias, protdist determina el
numero relativo de diferencia entre las cinco secuencias. El resultado del proceso es
una matriz llamada de distancia, y la veras pronto. Se repite este proceso, 100 veces
en nuestro caso, de hacer la matriz de distancia. El arbol que produciremos en ultima
instancia representa un consenso de las 100 matrices.
En la pagina de resultados, mira en la ventana outfile para ver las 100 matrices
que contienen los numeros que representan el numero relativo de diferencias entre las
cinco secuencias. Cada matriz tiene los nombres de la secuencia en la primera colum-
na, y debes imaginarte que estos nombres de secuencias son tambien los ttulos para
las columnas restantes. El numero en la interseccion de la fila Blue y la columna con
el ttulo (imaginario) Peropsin da la magnitud relativa de las diferencias de secuencia
entre la opsina azul y la peropsina. Las matrices tienen ceros en la diagonal porque
cada pseudosecuencia es identica a s mismo (tiene cero diferencias consigo misma).
Haz clic en el boton Save para guardar el archivo entero de 100 matrices. El archivo
se transfiere automaticamente con el nombre protdist.outfile.txt . Transfiere el
archivo a un lugar conveniente.
Haz clic en el boton de regreso de tu navegador para ir de nuevo a la pagi-
na Phylogeny. Bajo Distance Matrix Method programs, Phylip haz clic en
neighbor. Lee las listas cuidadosamente: no vayas a escoger weighbor.
En la ventana Distance Matrix file, pega el contenido del archivo protdist.outfile.txt.
Bajo Bootstrap options haz estos ajustes:
Incorpora 100 conjuntos de datos (usando todas las replicas que nos dio prot-
dist)
24
En la pagina de resultados, el archivo de Newick que necesitas para hacer el arbol
se llama neighbor.outtree. Copialo y guardalo como como PhylipTreeData.txt.
Recorriendo hacia abajo en la ventana consense.outfile, puedes ver el arbol de
consenso, impreso en un formato de texto simple. Este arbol se esta etiquetado como
unrooted , significando que no conocemos al antepasado de todas estas secuencias.
Con este arbol aprendemos que las secuencias son las mas semejantes y cuales son
las mas diferentes entre s. Tambien aprendemos cuantas veces las conexiones de este
arbol faparecieron de la misma manera en los 100 arboles hechos de las matrices de
diferencias. Los numeros en que las ramas indican el numero de veces que la particion
de especies en los dos grupos separados por esa rama ocurrio en los 100 arboles. Por
ejemplo, la separacion de rojo y de verde de los otros tres, (que indica que el rojo
y el verde son mas similares el uno al otro que a los otros tres) ocurrio en los 100
arboles. La separacion del grupo formado por azul y por la Peropsina de los otros
tres ocurrio en solamente 53 de los 100 arboles. En los otros 47 arboles, Rhodopsina
y Peropsina fueron separados de los otros tres. (Pueds extraer esta informacion de
este archivo?) En la ramificacion mostrada, la mayora es quien decide, y por lo tanto
los resultados de 47 de los arboles se desechan.
Nota: Tus resultados pueden ser levemente diferentes de los mos. Debido
a las decisiones al azar tomadas al construir el arbol, los porcentajes en
el parrafo anterior pueden variar. Me han salido valores de consenso tan
altos como 82 % en la separacion de azul y de Peropsina de los otros tres.
25
Figura 2: La filogenia hecha por phylip
26
0.8.2. Jugar con las races del arbol
Ahora usaras algunas de las ultimas herramientas para hacer una alineacion multi-
ple de secuencias (Tcoffee) y un arbol (PhyML). Estos programas son de alcance aun
mayor, pero con mayor poder viene algo menos de transparencia, y un costo en velo-
cidad. Los expertos dicen que los resultados son mejores, pero muchos solo podemos
creerles. PhyML tambien utiliza un acercamiento de bootstrap, pero con mayor re-
dundancia que Phylip. La cosa realmente buena de PhyML es que te deja jugar con
el arbol de muchas maneras, incluyendo el cambio de raz interactivo. Para hacer una
alineacion multiple de secuencia con Tcoffee, necesitas archivos crudos de FASTA.
Para conseguirlos,
Selecciona las cuatro opsinas visuales mas la peropsina, y haz clic en Retrieve
en la parte inferior de la pagina.
Selecciona el texto que aparece. Puede ser que quieras guardarlo en un archivo
de texto, pero usted puedes simplemente pegarlo en Tcoffee directamente. El
archivo que tienes aqu es simplemente las cinco secuencias de opsina, una tras
otra, en el formato FASTA, que es justo lo que necesita Tcoffee.
27
correcta entre las secuencias alineadas. Los metodos de lmaxima verosimilitud estan
entre los medios mas respetados de hacer decisiones cuando debes navegar en un
campo de minas de opciones basadas en probabilidad para llegar una sola mejor de-
cision, o a un pequeno grupo de decisiones casi igual de buenas (los cristalografos de
rayos X tambien la utilizan para decidir que datos utilizar, y cuales excluir, al inten-
tar construir un modelo de una protena a partir de datos de difraccion). A medida
que la disponibilidad de tales metodos ha crecido, tambien ha crecido el numero de
personas para quien son cajas totalmente negras. Cuando usted utiliza un metodo
que es para t una caja negra, debes tener cuidado de comparar los resultados con
todo lo que sabes sobre el tema. Un resultado asombroso puede ser un descubrimien-
to genuino, o puede ser que sea simplemente incorrecto. Es un resultado que luego
hay que probar con mas cuidado, no algo que hay que aceptar ciegamente.
Ahora pon esta caja negra a trabajar.
En la forma de PhyML, haz estos ajustes:
Secuences: tu archivo; entonces haz clic enChoose File, y escoge el archivo
de phylip que guardaste de la salida de Tcoffee.
28
azul) en spO14718 y cambia el nombre de la secuencia a peropsina, y haz clic en
Write to tree. Cambia los otros nombres de secuencia (vease la seccion anterior) a
opsina roja, opsina verde, opsina azul, y rhodopsina.
Luego, bajo Click on node to: haz clic root/reroot. Ahora fijaras un outgroup
para el arbol. Como la peropsina es el unico miembro de este grupo que no se sabe
que este implicado directamente en la vision, haz la suposicion (arbitraria) de que
fue la primera cuyo linaje se separo del grupo arraigando el arbol con la peropsina.
Conviertela en el outgroup del arbol haciendo clic en el nodo (cuadrado azul) al lado
de la peropsina. Puedes tambien escoger Swap children y hacer clic en los nodos
de rama para cambiar las posiciones de visualizacion para una rama, una operacion
puramente cosmetica, pero una que a veces hace mucho mas facil interpretar el
arbol. Ajusta el tamano de la ventana o los ajustes del zoom para exhibir toda la
informacion claramente. Utiliza un comando de guardar imagenes de la pantalla para
tener una imagen del arbol. Para capturar cuadros en mi computadora Macintosh,
utilizo el shift-command-4 muy practico (y muy viejo), que permite que selecciones
un rectangulo en la pantalla y despues salva un archivo de .png de mi seleccion al
escritorio con el nombre Picture1. En la figura 3 se ve el arbol que hice segun estas
instrucciones:
Figura 3: La filogenia de las opsinas hecha con PhyML y visualizada con ATV
29
cuenta la siguiente historia superficialmente plausible de que un gen ancestral pro-
dujo los genes de opsinas que encontramos hoy. La peropsina primero divergio de un
progenitor que iba a ser el padre de todos las opsinas visuales (el progenitor pudo ya
haber sido un pigmento visual primitivo). Mas adelante, una opsina color-especfi-
ca divirgio de a rhodopsina primitiva (rama etiquetada con 100). Despues, le linaje
(75) de la rhodopsina, se separo, en ultima instancia produciendo la opsina azul y la
rhodopsina actual. Mas Recientemente, la primera opsina cromosensible dio lugar a
las opsinas rojas y verdes, que siguen siendo en gran medida los pares mas similares
de opsinas. Cada rama representa probablemente una duplicacion de gen, y una de
las copias conservo la funcion original, mientras que la otra se fue transformado gra-
dualmente para producir una protena de nueva funcion. Las duplicaciones de genes
son comunes, pero la evolucion de una copia en algo util es probablemente menos
comun; la mayora de los duplicados terminan como pseudogenes no funcionales. Una
vez mas recuerda que usted estas rasgunando apenas la superficie de las herramientas
introducidas en este tutorial. Para tomar y defender decisiones sobre relaciones filo-
geneticas. necesitas saber mas sobre estas herramientas y los computos subyacentes.
Ve a la ultima seccion del tutorial para averiguar mas sobre este tema.
30
similares en estructura, as que puedes intentar encontrar un modelo de una secuencia
similar en la base de datos de estructuras macromoleculares, el Banco de Datos
de Protenas (PDB). Esto te dara una idea de que clase de molecula de protena
es la opsina.
De hecho, el PDB no contiene estructuras moleculares en absoluto. Es mas co-
rrecto decir decir que contiene modelos de macromoleculas. Estos modelos son inter-
pretaciones de datos a partir uno de los dos metodos principales de determinacion de
la estructura macromolecular: Cristalografa de rayos X y espectroscopia de RMN.
Cuando los investigadores hacen un modelo, o, como dicen ellos, determinan la
estructurade una macromolecula, depositan un archivo que contiene las coordena-
das tridimensionales de todos los atomos del modelo. Este archivo de coorde-
nadas visualizado con una herramienta de graficas moleculares en lnea (como el
Jmol, hecho por la gente del PDB) o un programa de graficos de computadora co-
mo DeepView (para el cual puedes ver un tutorial en http://spdbv.vital-it.ch/
TheMolecularLevel/SPVTut/index.html que te explica muchas cosas, incluyendo
como bajar e instalar el programa) es todo que necesitas para ver y estudiar el
modelo en tu computadora. Recuperaras un modelo del PDB y lo veras despues con
una herramienta de graficos en lnea. Tambien visitaras el hogar de un programa muy
bueno de graficos de computadora que se puede descargar LIBREMENTE y usar en
tu compu.
Lleva tu navegador a http://www.rcsb.org/pdb/.
La pagina de entrada del PDB contiene en la parte de arriba un simple campo de
captura de texto para iniciar busquedas. Puedes buscar los modelos usando palabras
claves simples o codigos de identificacion del PDB. Un codigo del PDB tiene cua-
tro caracteres, como 1CYO. Pero, como podras saber de que se trata un modelo
simplemente por su codigo? Cuando se publica una nueva estructura, los autores
dan generalmente el codigo del PDB en la ultima referencia de su bibiografa. Con
ese codigo, puedes ir derecho al modelo que quieres ver. Pero mas a menudo, lo que
ellos quieren saber, igual que nosotros, es algo mas general. Para tales casos, el PDB
tambien proporciona formularios para busquedas mas sofisticadas. Por ahora, vea-
mos solamente si estan disponibles algunos modelos de la opsina. Escribe opsin
en la caja o campo de captura de texto para iniciar busquedas, cerciorate de que la
opcion PDB ID or Keyword (identificacion por codigo PDB o por palabra clave)
este seleccionada en el menu desplegable que esta al lado del campo de captura de
texto, y haz clic en Search.
El 16 de noviembre de 2009, esta busqueda dio por resultado solamente tres
modelos, lo cual es bastante desconcertante, porque una busqueda con la palabra
clave rhodopsin nos da por resultado 82 modelos (y, depues de todo, las rhodopsinas
31
son un subconjunto de las opsinas). As que parece que la herramienta de busquedas
rapidas del PDB todava necesita algunos ajustes. Pero resulta que de momento esta
limitacion nos va a ser de utilidad. Acabas de encontrar un modelo experimental
de una opsina: el PDB contiene unicamente modelos obtenidos experimentalmente
ya sea por cristalografia de rayos X o por espectroscopa de resonancia magnetica
nuclear. Veamos este modelo. Haz clic en el codigo que dice 3CAP sobre la imagen
pequenita de uno de los modelos. Eso te llevara a la pagina de resumen (Structure
Summary) de este modelo, que es como su portal en el PDB. Esta pagina esta
conectada con todo lo que querrias hacer con este modelo. Cuando estas en el PDB
tu primer objetivo es siempre llegar a la pagina de resumen estructural del modelo
que estas buscando.
Uno de los recuadros dentro de la ficha 3CAP tiene una ilustracion de la molecula
y puede ser que se intitule Assymetric Unit o Biological Molecule (de hecho,
puedes alternar entre estas dos opciones haciendo clic en la flechita que estaen el
cintillo azul de ese recuadro). Dentro de ese recuadro hay un boton que dice View
in Jmol (visualizar usando el programa Jmol). Vamos a hacer clic en ese boton para
usar el visualizador Jmol que es muy facil de usar y no necesita instalacion puesto
que trabaja dentro de tu navegador, pero no se te olvide que tambien es posible
usar otros visualizadores y que tienes la opcion de bajar el archivo de la molecula
3CAP y visualizarla con un programa que tengas instalado en tu compu (como, por
ejemplo, DeepView). Si tu computadora tiene instalado y actualizado el programa
Java, tu navegador cargara el Jmol, con el archivo 3CAP. Debes de poder ver un
modelo con dos moleculas de rhodopsina, con los esqueletos de la cadena principal
de aminoacidos dibujados como dos listones, uno verde y uno azul, y los modelos de
varias moleculas mas pequenas dibujados como palos y bolitas. Acaso la rhodopsina
es un dmero? No, pero los cristales de rhodopsina de los que se obtuvo este modelo
contenan dos moleculas de rhodopsina por unidad asimetrica (la unidad minima
que se requiere para poder construir la celda unitaria del cristal). Los archivos del
PDB generalmente muestran la totalidad del contenido de la unidad asimetrica. Si
32
estapresente mas de una molecula, a cada molecula se le llama una cadena en el
modelo.
Estas son algunas de las cosas que puedes hacer para familiarizarte con los mo-
delos desplegados en una ventana de Jmol:
Haz clic y arrastra sobre la imagen para rotar la estructura (usando el boton
izquierdo si tu raton tiene dos o mas botones). Puedes darte cuenta de que
3CAP tiene muchas helices alfa.
Para hacer zoom (acercamientos) haz clic y arrastra hacia abajo la imagen
mientras oprimes la tecla ALT en windows (o la tecla OPTION en Macintosh).
Para hacer alejamientos, haz lo mismo pero arrastrando hacia arriba. Para
rotar las moleculas pero arrastrando hacia la izquierda o hacia la derecha.
Haz clic en la imagen mientras oprimes la tecla CTRL (o haz clic con el boton
de recho del raton): aparecera un menu emergente que te mostrara muchas de
las otras cosas que puedes hacer con Jmol. Intenta las siguientes cosas para
darte una idea:
33
En el menu emergente selecciona Color: Estructuras: Esquematico: Patron:
Por estructuras secundarias (en ingles: Color: Structure: Cartoon: By
Scheme: Secondary Structure). Los listones se volveran magenta en las re-
giones de helice alfa y amarillos en las regiones de hebra beta. Probablemente
ya habas notado antes la hebra beta en los modelos. Observa con cuidado una
de las cadenas para que te familiarices con la estructura. Cuantas helices estan
presentes? Cuantas hebras beta? Las hebras son paralelas o antiparalelas en-
tre s?
34
Para aprender mas sobre Jmol consulta las ligas que se pueden ver cuando haces
clic en la pestana que esta en la parte de abajo de la pagina. Pero si esta planeando
hacer trabajo serio de analisis de estructura de protenas, especialmente juzgar la
calidad de los modelos y comparar modelos superponiendolos, por favor familiarzate
con DeepView.
35
la opsina roja humana y la rhodopsina bovina sea una casualidad es de
0.000000000000000000000000000000000000000000000000000000000000000000000000073,
lo cual significa, para cualquier QFB o biolog@ que este en su sano juicio, que estas
dos moleculas descendieron de un antepasado comun. No hay manera de que, en la
historia del universo, dos protenas puedan llegar a tener secuencias as de similares
por casualidad. Esto tambien significa que puedes apostar a que la estructura de la
rhodopsina bovina va a ser muy similar a la de la opsina roja humana, cuya estructura
es desconocida (si si se conociera, esta busqueda la habra encontrado). Ahora mira
abajo de la lista de los modelos que encontraste. La mayora son modelos de la misma
sustancia: rhodopsina bovina (la lumirhodopsina, la bathorhodopsina, y algunos otros
son las formas alteradas que representan a la rhodopsina en diversas etapas del ciclo
visual, pero observa que todas estas vienen de Bos taurus, o sea la vaca. Algunos
hits son el recientemente publicado receptor beta-2-adrenergico, el primer modelo de
receptor acoplado a protena G, aparte de la rhodopsina. Quizas para el momento en
que tomes este tutorial, habra mas. Usa la pagina de resultados para contestar a estas
preguntas sobre la comparacion entre la opsina roja humana y la rhodopsina bovina
en el archivoPDB 1F88: Cuantos residuos correspondientes, y que porcentaje de
los residuos, las dos protenas tienen en comun (coincidencias exactas)? Cuantos y
que porcentaje de residuos correspondientes son similares en cuanto a caractersticas
qumicas? Cuantos huecos provocados por inserciones y deleciones (gaps) introdujo
el programa de alineamiento para conseguir la mejor alineacion entre la opsina roja
humana y 1F88, y cuantos residuos hay en cada gap? Encuentre el trozo de secuencia
mas largo de coincidencias excatas entre las dos protenas. Cuantas coincidencias
exactas contiene, y cuales son los numeros de residuo del principio y de la conclusion?
36
haz clic en Create Report en la parte inferior de la forma. El informe a la medida
aparece, con tres columnas, el codigo de identificacion del PDB, una descripcion del
modelo, y la fuente biologica de la protena. La forma contiene muchos artculos en
los que puedes hacer clic. Si haces clic en un codigo de identificacion esto te lleva a
la pagina de resumen de la estructura para ese modelo. Hacer clic en un ttulo de
columna ordena la lista con base en ese ttulo. Intenta esto haciendo clic sobre el
ttulo de la tercera columna, Source. Ahora mira la columna de la fuente. Esto hace
facil encontrar las entradas que no son de Bos taurus, que incluyen a ese receptor
adrenergico (para ver todos los registros tal vez tengas que escoger un numero mas
grande que 15 en el menu desplegable que hay hasta abajo de la tabla). Algo mas?
Ahora ya sabes buscar en el PDB los modelos cuyas secuencias son similares a un
blanco o secuencia de consulta. Los biologos estructurales utilizan tales busquedas
cuando tienen una nueva secuencia de protena y quieren saber su estructura. Si se
sabe la estructura, una busqueda como esta debe de encontrarla, as que si estas
interesad@ en la estructura de un producto de gen particular, busca en el PDB con
esa secuencia para ver si la estructura se sabe ya. Si no, cualquier hit con alta seme-
janza de secuencia puede decirte generalidades sobre el plegamiento de esa protena.
Usted tambien viste como usar la herramienta de informes por encargo, que puede
faciliatarte el organizar y revisar una gran cantidad de hits de cualquier busqueda. Y
ahora, como obtener un modelo cuando no se conoce ningun modelo experimental.
37
Resumen de lo que viene
En esta seccion, obtendras un modelo estructural de la peropsina misteriosa desde
un servidor automatizado que prepara modelos de homologa, y lo visualizaras con
DeepView.
38
Debajo de las cajas para la identificacion de login y la contrasena, haz clic en create
your workspace, para comenzar a configurar tu cuenta del espacio de trabajo. Sigue
las instrucciones, y entonces tendras un espacio de trabajo protegido con contrasena
para usar SWISS-MODEL. Conectate a tu espacio de trabajo.
Cada peticion de modelado que sometas sera enlistada como una Workunit nu-
merada en la tabla principal de tu espacio de trabajo. Haz clic en [modelling] cerca
de la parte superior de la pagina. En la pagina resultante, haz clic en Automated
Mode. Escribe tu direccion de correo electronico (la misma con la que abriste tu
cuenta) y un ttulo de proyecto (en este caso, usa Peropsina automatizado) en los
campos de captura de texto apropiados. En la caja marcada Provide a protein
sequence or a UniProt AC Code: introduce el codigo de UniProt para la pe-
ropsina: O14718. Observa que podras tambien especificar un molde, para conseguir
la plantilla del PDB que alinea mejor con esta secuencia de peropsina, pero deja ese
espacio en blanco de momento. Haz clic en Submit Modelling Request. Para ver
el estado de tu solicitud, haz clic en [My workspace] en la parte superior de la
ventana. Cuando la tabla del espacio de trabajo indica que tu Workunit esta termi-
nada, haz clic en el numero de Workunit para ver los resultados. De la pagina de
los resultados, puedes examinar muchos aspectos del modelo y del proceso que lo
produjo. Lo mas notable es el propio modelo resultante y la plantilla o molde. Para
descubrir mas sobre la protena que sirvio de molde, haz clic en el codigo de cuatro
caracteres al lado de donde dice Based on template, y veras una entrada en
la BIBLIOTECA DE MOLDES DE SWISS-MODEL, con breve informacion
sobre la protena molde. Para aprender aun mas, haz clic en donde dice PDB en la
pagina de la biblioteca.
Para obtener tu modelo y poder verlo y analizarlo, justyo debajo de la imagen
del modelo, en la lnea que dice Download model: as pdb - as Deepview
project- as text, haz clic en Deepview project. Guarda el archivo transferido,
que se llama Model 1 project.pdb, a un lugar conveniente. Inicia el programa
DeepView, y utiliza el comando de menu: File: open PDB file. . . para abrir el
archivo.
En el resto de esta seccion, estare suponiendo que estas familiarizado con Deep-
View, y uso a las mismas convenciones para especificar operaciones que se ven en el
tutorial de DeepView (http://spdbv.vital-it.ch/TheMolecularLevel/SPVTut/
index.html). Si las instrucciones parecen incompletas, puede ser que necesites pasar
mas tiempo con el titorial de DeepView.
Los archivos de proyecto de SWISS-MODEL contienen tanto el modelo que se
genero como la plantilla (o plantillas), sobrepuestos uno sobre el otro. El nombre de
la capa que corresponde al modelo generado modelo es TRAGET (BLANCO), y el
39
nombre de la capa de la plantilla es el codigo del PDB de la plantilla. Centellea o
parpadea (o sea, manten presionada la tecla Ctrl y presiona la tecla de tabulador
repetidamente) para comparar los modelos. Cuando este activa la capa de BLANCO,
despliega solamente los listones, y observa los colores del modelo de listones. El
verde indica las areas que alinearon bien con la plantilla; el esqueleto del modelo en
las regiones verdes es practicamente identico al de la plantilla. El rojo significa las
areas que no se pudieron alinear bien con la plantilla. Si centelleas para comparar
el modelo de listones de la peropsina con la plantilla, veras que algunas areas rojas
corresponden a los lazos o bucles (loops) superficiales que sonde longitud muy diversa
en los dos modelos. Estas areas del modelo de la peropsina fueron construidas por
varios metodos que no son el simple enhebrado sobre la plantilla (si quieres saber
que es la modelacion de protenas mediante enhebrado puedes empezar revisando
http://en.wikipedia.org/wiki/Protein_threading). Uno de estos metodos es
buscar en las bibliotecas del bucles aquellos bucles (en el PDB) que contienen el
mismo numero de residuos y la misma distancia entre los puntos de sus extremos,
y despues tratar de hacerlos entrar. Independientemente de con que metodo metodo
se construyen las areas rojas, debes de confiar menos en su exactitud.
NOTA: Los datos que tienen que ver con que tan bien se ajusta el modelo
a la plantilla estan en la columna que corresponde al factor B del archivo
de coordenadas. Puedes aplicar el mismo esquema de color a cualquier
aspecto del modelo (tal como el esqueleto o la superficie) con color: B-
Factor.
Si piensas utilizar un modelo basado en homologa para usarlo de gua en tu
investigacion (por ejemplo, para decidir donde puede encontrarse un sitio activo, o
donde intentar una mutagenesis sitio-dirigida para alterar caractersticas) es obliga-
torio que aprendas como determinar la calidad de un modelo. Ese tema esta mas
alla del alcance de este tutorial, pero se cubre a profundidad en la seccion Judging
the Quality of Models Homology Models, en el tutorial de DeepView. Apenas
acabas de rascar la superficie del ESPACIO DE TRABAJO de SWISS-MODEL en
este tutorial. Encontraras el material adicional y ayuda en el sitio del espacio de
trabajo, incluyendo indicaciones sobre como controlar la eleccion de la protena que
se usa de plantilla y muchos otros aspectos del modelado. Algunas secciones del tuto-
rial de DeepView preceptorales y los tutoriales adicionales en la pagina de DeepView
(http://spdbv.vital-it.ch/index.html) proporcionan mucha mas informacion
sobre el modelado por homologa.
NOTA: El 25 de septiembre del 2008 (para mi sorpresa!) la plantilla
seleccionada por SWISS-MODEL para esta tarea de modelado era el ar-
40
chivo PDB 2z73, una rhodopsina de calamar recientemente depositada
en el PDB. Recuerda que tu busqueda de secuencias en el PDB esco-
gio (y todava lo hace!) a la rhodopsina bovina, 1f88, como la mejor
coincidencia, pero las estadsticas sobre 2z73 hacen que sea un segundo
lugar muy cercano. Esto debe de decirte que las herramientas de busque-
da no utilizan todas los mismos criterios para ordenar los resultados.
Recuerda que SWISS-MODEL te da la opcion de seleccionar una plan-
tilla en el modo automatizado, as que si prefieres basar su eleccion en
una busqueda hecha en otro sitio, puedes hacerlo. En los modos menos
automatizados, SWISS-MODEL permite que utilices plantillas multiples,
as como que utilices tus propias alineamientos de la protena blanco y de
la plantilla. Con DeepView, puede puede hacer alineamientos con multi-
ples plantillas; ajustar los alineamientos (por ejemplo, teniendo en cuenta
informacion sobre otros residuos homologos obtenida de datos experimen-
tales); enviar al blanco, las plantillas, y los alineamientos como Workunit
a SWISS-MODEL; y recuperar los resultados, todos sin tener que salir
de DeepView.
0.11. Resumen
En este tutorial has utilizado estas categoras de herramientas:
41
2. Las herramientas de busqueda pueden ser partes integrantes de las bases
de datos, o de programas independientes. Hay herramientas de busqueda inte-
grales que te permiten ques busque con palabras claves, con secuencias FASTA,
o con numeros de entrada de otras bases de datos. Las herramientas indepen-
dientes de busqueda como BLAST permiten que encuentres las secuencias
(hits) similares a las secuencias que te interesa (las queries o secuencias de
consulta).
3. Las Herramientas de analisis (por ejemplo: PROSITE) usan solo las se-
cuencias para determinar caractersticas o para identificar funciones de genes y
de sus productos. Las herramientas de comparacion de secuencias como Clus-
talW y Tcoffee realizan alineamientos multiples de secuencias y producen
arboles filogeneticos, que muestran vvidamente como los genes se relacionan
unos con otros. Las herramientas de construccion de arboles de consenso como
Phylip y PhyML construyen arboles basados en muchas iteraciones de mues-
treo al azar y de re-alineacion de las secuencias que son comparadas, reduciendo
as la posibilidad de sesgos derivados de una sola alineacion de la secuencias.
Phylodendron te permite imprimir arboles a tu gusto, usando datos de arbol
en el formato Newick de cualquier herramienta de construccion de arboles.
42
tarea, pero que tambien requieren que tengas una comprension mas profunda de la
clase de analisis que estas haciendo. Esta clase de conocimiento es crucial al juzgar
la calidad de tus resultados (un aspecto en el cual este tutorial es muy debil ). Para
aprender mas sobre las herramientas especficas, ve directamente a cualquier servicio
en red, tal como ExPASy o NCBI, que proporcionan la herramienta que quieres uti-
lizar. Primero, encontrara ligas a los manuales de usuario in extenso que dicen como
funcionan las herramientas de analisis. Puede ser que tambien encuentres listas de
preguntas frecuentes (FAQ) sobre la herramienta. Finalmente, a menudo encontraras
una liga directa a un formulario para controlar la herramienta, en la cual puedes ha-
cer todos los ajustes, hacer una consulta, y lanzar un analisis. El unico problema es
que, como principiante, a menudo no sabes que ajustes introducir.
En mi opinion, los mejores servicios para principiantes son los que proporcionan
ajustes en los menus desplegables que te muestran todos los ajustes permitidos. Co-
mo ejemplo, ve a EMBL-EBI (http://www.ebi.ac.uk/), otro gran servicio en lnea,
y haz clic en Sequence Similarity and Analysis. En la columna izquierda, bajo
Sequence analysis, haz clic en ClustalW2. El formulario que aparece muestra to-
dos los ajustes posibles de ClustalW bajo la forma de menus desplegables, de manera
que no tienes que saber de memoria todos los ajustes y escribirlos-todos ajustes per-
mitidos se muestran en los menus, as que no te puedes equivocar. Los ajustes que se
muestran cuando tu llegas (llamados los ajustes por defecto) son probablemente los
mismos ajustes aplicados a tu analisis cuando usted hiciste clic en la liga de tu tabla
de entradas de opsinas en UniProt para obtener tu analisis de secuencias multiples
con Clustalw. De hecho, si vuelves a esa pagina, veras que el campo de captura de
texto que esta hasta arriba contiene todos los archivos FASTA en orden. Si quiere
ver como usar otros ajustes afecta al analisis, puedes utilizar pegar este conjunto de
archivos, como un bloque de texto, en la forma de Clustalw de EMBL-EBI, juega con
los ajustes, y consigue analisis de la secuencias multiple que te satisfaga. Esta es una
buena manera de aprender mas sobre una herramienta que quieras utilizar apropia-
damente. EMBL-EBI proporciona la mayor parte de las herramientas bioinformatica
comunes en esta clase de ambiente amistoso con el principiante.
43
torial te estimule a aprender mas sobre como utilizar la bioinformatica en tu trabajo.
Para un examen mas riguroso y sistematico, pero a la vez legible y claro, de la
gama completa de la bioinformatica, consigue la ultima l edicion de Bioinformatics
for Dummies, por Claverie y Notredame, Wiley Publishing, Inc. O algun otro libro
similar.
44