Académique Documents
Professionnel Documents
Culture Documents
La fraccin de recombinacin, calculada tal y como se ha explicado en la Figura anterior, nos permite
estimar la distancia gentica entre dos loci, distancia que se mide en centimorgans (cM): cuando
entre dos loci se detecta una fraccin de recombinacin = 0,01 (1% de individuos recombinantes), se
dice que ambos loci estn a una distancia gentica de 1 cM. Esta distancia gentica (1 cM) equivale
aproximadamente a 1 Mb (megabase) de distancia fsica, aunque esta equivalencia vara a lo largo del
genoma y hay funciones matemticas ms exactas para convertir la distancia gentica en distancia
fsica. En cualquier caso, es importante comprender que la fraccin de recombinacin nunca podr ser
mayor a 0,5 (50%), ya que ste es precisamente el porcentaje de individuos recombinantes que se
producen en ausencia de ligamiento (cuando siempre hay una recombinacin, como se ha explicado ms
arriba) o en el caso de que ambos loci estn situados en cromosomas distintos.
Lo posibilidad de perder informatividad subraya la importancia de usar marcadores para los que todos
los rboles analizados sean informativos, lo cual depender directamente de la informatividad de los
marcadores utilizados. La informatividad de un marcador refleja la probabilidad de encontrar
individuos heterocigotos para ese marcador en la poblacin general, y es funcin del nmero de alelos
posibles para el marcador y de las frecuencias relativas de cada alelo en la poblacin. Teniendo en
cuenta las caractersticas de cada tipo de marcador, es posible calcular dos parmetros que definen la
informatividad de un marcador gentico: el ndice de heterocigosidad y el PIC (contenido de
informacin de un polimorfismo, Polymorphism Information Content en ingls). Estos parmetros se
calculan mediante la siguiente frmula:
n-1
PIC = 1 - pi -
2
i=1
i=1
heterocigosidad
2pi2 pj2
j=i+1
% heterocigotos idnticos
Algunos ejemplos del clculo del PIC ilustrarn la informatividad de los distintos tipos de marcadores
genticos. Por ejemplo, un marcador biallico (el caso tpico sera un RFLP) con frecuencias allicas
iguales (p1=p2=0,5) tendra:
2
+ [2(p22 p32)] + hasta completar las seis posibles combinaciones de heterocigotos. Aplicando la
frmula general:
La manera de estimar la verosimilitud de una hiptesis se puede ilustrar muy bien con el
ejemplo de una moneda que se tira al aire 10 veces, produciendo 8 caras y 2 cruces. Con estos
datos experimentales, podramos formular una hiptesis H1 segn la cul la moneda est
deformada o trucada y siempre producir 8 caras de cada 10. Segn esta hiptesis, la
L (H0) = (R + NR)
Para calcular cuntas veces ms verosmil es nuestra hiptesis que la hiptesis nula, hallamos el
cociente de verosimilitudes (likelihood ratio). En gentica humana, para que este cociente sea
significativo al 95% se requiere que sea mayor o igual a 1000. Es fcil darse cuenta que uno de los
principales problemas que nos encontramos es el tamao pequeo de las generaciones, al contrario de
los estudios de ligamiento que se hacen en otras especies. Una forma de solventar este problema es
repetir el anlisis en varias familias distintas, y combinar los resultados obtenidos en cada una de ellas
con el fin de aumentar la potencia estadstica de los estudios de ligamiento. Para poder combinar
resultados de familias distintas, Newton Morton ide el concepto del Lod score (que podra traducirse
como "puntuacin lod" y se representa por la letra Z), que es el log
10
tanto, un cociente de verosimilitudes = 1000 equivale a un lod score igual a 3 (Z=3), y ste es
precisamente el valor mnimo de Z que se requiere para poder afirmar que existe ligamiento significativo
entre dos loci.
Para hallar el lod score mximo de todos los posibles, es habitual utilizar programas de ordenador que
calculan directamente el lod score que se obtiene para varias hiptesis de ligamiento y a distintos
valores de . Adems, como los resultados de una sola familia raras veces sern significativos,
necesitamos combinar los resultados obtenidos a partir de los datos de varias familias. Para ello, se
suman los lod scores (Z) obtenidos para cada en las distintas familias que estamos analizando, hasta
identificar la fraccin de recombinacin a la que obtenemos el lod score mximo en el conjunto de
las familias analizadas. ste es el valor que finalmente nos permitir afirmar si existe o no ligamiento
significativo entre el gen de la enfermedad y este marcador. Adems, como la Z mxima se obtiene a
una fraccin de recombinacin concreta, podemos tambin estimar la distancia gentica ms probable
entre ambos loci, expresada como siempre en centimorgans. Por ejemplo, si la Z mxima se obtuvo
a una = 0,16, la distancia gentica entre ambos loci estar en torno de 16 cM, con un intervalo de
confianza cuyo clculo es tambin sencillo.
Figura 4.4 El clculo del LOD score (Z) puede ilustrarse con el ejemplo de
esta familia, en la que se indica el nico individuo recombinante de la
generacin III con una flecha. La fraccin de recombinacin es 0,17, por lo
que se calcula la verosimilitud (likelihood) de la hiptesis de ligamiento a
esa fraccin de recombinacin y a la fraccin de recombinacin que
obtendramos si no hubiese ligamiento (0,5). Tras calcular el cociente de
ambas verosimilitudes, calculamos el LOD score tal y como se indica.
Ahora, el valor ms alto de LOD score aparece a una fraccin de recombinacin de 0,20. De todas
formas, para calcular el LOD score mximo (Zmax) hemos de representar grficamente esos datos,
buscar los valores con Z>3 y detectar el punto ms alto de la curva:
Estos resultados indican que, efectivamente, el LOD score mximo se obtiene a una fraccin de
recombinacin de 0,16. Como Z>3 en ese punto, se puede concluir que existe ligamiento entre este
marcador y el gen que causa la enfermedad, y que la distancia ms probable entre ambos es de 16 cM.
Un problema muy importante en los estudios de ligamiento es que muchas veces no podemos deducir la
fase de ligamiento en el progenitor que transmite la enfermedad, al no poder establecer con exactitud
NR
(R+NR)
/ 0.5
Cuando existe ligamiento, lo ms habitual es hallar una curva de forma parablica, con
un pico mximo de lod score a una determinada fraccin de recombinacin. En estos casos
el lod score a la fraccin de recombinacin = 0 debe ser ( ), ya que hemos encontrado
individuos recombinantes en alguna de las familias y esto hace imposible la hiptesis de
que la fraccin de recombinacin sea cero. El intervalo de confianza de la fraccin de
recombinacin mxima se calcula trazando una horizontal una unidad de lod score por
debajo de la Z mxima, y viendo dnde corta ambas ramas de la curva. Como siempre, el
lod score Z se hace 0 para una fraccin de recombinacin =0.5, pues en este caso el
cociente de verosimilitudes L(H1)/L(H0) = 1, y el log10 de 1 es igual a 0.
10
nuevas
tecnologas
de
genotipaje
que
utilizan
marcadores
tipo
SNP
(Single
Nucleotide
11
seleccionar los SNPs ms adecuados para cubrir todo el genoma con el menor nmero posible de
sondas. Este trabajo previo de seleccin habitualmente lo hacen los fabricantes de microarrays de SNPs,
que actualmente analizan en torno a los 500.000 1.000.000 de SNPs por microarray.
2. Toma de muestras de las cohortes a estudiar: Los estudios de asociacin "genome-wide" requieren un
gran nmero de muestras, para poder detectar seales de asociacin dbiles. Idealmente, deben
utilizarse cohortes (casos y controles, por lo general) de al menos 1.000 individuos cada una, sin
diferencias de sexo, edad y procedencia tnica.
3. Anlisis de resultados: Utilizando distintas herramientas, se generan los haplotipos y se buscan
seales de asociacin, es decir, SNPs en los que un alelo est estadsticamente sobrerepresentado en los casos (enfermos) respecto a los controles (sanos). Esto se hace utilizando un test
de Chi-cuadrado o de Fisher, con correccin para pruebas mltiples.
12
La Figura 4.5 muestra el valor de asociacin (en el eje Y) para varios miles
de SNPs distribuidos por todo el genoma. Hay dos SNP con valores de
asociacin significativamente elevados. La posicin de estos SNP indica
que en esa regin existe uno o varios genes implicados en el desarrollo del
rasgo fenotpico que se est analizando (una enfermedad, por ejemplo).
Imagen obtenida de http://www.goldenhelix.com/images/solutions/visualization/manhattan.png
4. Refinar la asociacin y replicar los resultados: En la etapa final, las regiones para las que se detect
asociacin deben refinarse genotipando ms SNPs en esa zona concreta, para as delimitar mejor la
regin implicada. Adems, los resultados deben confirmarse estudiando cohortes distintas con un
nmero de casos y controles similar al del primer estudio.
Los estudios de asociacin a escala genmica estn dando resultados muy valiosos. En los aos 2007 y
2008 se han publicado bastantes estudios que encuentran regiones claramente asociadas con diversas
enfermedades multifactoriales. Uno de estos trabajos,
desarrollado
Control Consortium (WTCCC), estudi 2.000 muestras de pacientes britnicos con una de las siete
enfermedades multifactoriales ms comunes (depresin, enfermedad coronaria, enfermedad de Crohn,
hipertensin, artritis reumatoide, diabetes tipo 1 y diabetes tipo 2). Estas cohortes (14.000 individuos en
total) fueron comparadas con 3.000 controles sanos, y en cada uno de los 17.000 individuos se
genotiparon 500.000 SNPs, encontrando asociacin significativa con varias regiones del genoma.
A finales de 2010, se haban publicado ms de 1.200 estudios de GWAS en todo el mundo, con datos de
asociacin para ms de 200 enfermedades o rasgos genticos (el catlogo completo puede consultarse
en http://www.genome.gov/gwastudies/). En cualquier caso, los estudios de asociacin slo detectan
variantes genticas comunes (el alelo de menor frecuencia est presente en, al menos, el 5% de la
poblacin), por lo que su efecto sobre la enfermedad es por definicin- pequeo (el riesgo de los
individuos que lo portan aumenta poco en relacin al riesgo general). Se acepta que deben existir otras
13
variantes ms raras (frecuencia menor al 5%) con mayor efecto fenotpico, que estn situadas cerca
de las seales de asociacin. La deteccin de estas variantes, implicadas directamente en el desarrollo
de las enfermedades, requerir la secuenciacin exhaustiva del genoma completo de casos y
controles.
Con estas nuevas metodologas, es previsible que en los prximos aos se identifiquen las principales
variantes que confieren susceptibilidad a las enfermedades ms frecuentes. Por ejemplo, podemos
pensar que en un futuro no muy lejano un paciente hipertenso que acuda a la consulta gentica ser
estudiado para detectar variantes de predisposicin en varios genes, y gracias a los resultados se le
clasificar dentro de un grupo molecular determinado que permitir asignarle un tratamiento diettico o
farmacolgico especfico. Desde este punto de vista, el genotipado de polimorfismos concretos puede
convertirse en un anlisis de rutina en el diagnstico de un nmero creciente de enfermedades humanas
en el prximo decenio.