Analyse de Ségrégation

Alexandre Alcaïs

Génétique Humaine des Maladies I nfectieuses
I NSERM U.980 – Université Paris Descartes
alexandre.alcais@inserm.fr
Facteurs génétiques ?
Quelle est leur nature ?
Observations épidémiologiques
Quelle est leur localisation chromosomique ?
Analyse de ségrégation
Quel est le variant causal ?
Analyse de liaison génétique
Etudes d’association
Quel est sa fonction biologique ?
Analyse de ségrégation simple
Analyse de ségrégation complexe
Hérédités classiques
Analyse de ségrégation simple
Limites de l’analyse de ségrégation simple
Modèles génétiques
Paramétrisation
Test d’hypothèses
Analyse de ségrégation
Agrégation familiale
Environnement partagé Composante génétique
Gène
majeur
Autres
gènes
Analyse de ségrégation classique
Agrégation familiale
Composante génétique
Gène unique
• Les 2 sexes sont atteints

• Les sujets atteints ont un parent atteint (répartition verticale)

• Un sujet atteint à 50% de sa descendance atteinte

• Transmission père-fils possible

• Plus fréquente des maladies monogéniques


Test formel
Hérédité autosomique dominante
?
6
• Les 2 sexes sont atteints

• Les sujets atteints ont des parents sains (saut de génération)

• ¼ de sujets malades dans les fratries

• Transmission père-fils possible

• Excès de mariages entre apparentés


Test formel difficile ∞ recensement
Hérédité autosomique récessive
3 4
• Seuls les garçons sont atteints

• Jamais de transmission père fils

• Homme malade ¬ filles conductrices et garçons sains

• Famille du père – indemne / Famille de la mère – des atteints


Hérédité récessive liée à l’X
Analyse de ségrégation classique
Agrégation familiale
Composante génétique
Gène unique
Analyse des ratios
de ségrégation
Mendel’s law of segregation
D D
d dD dD
d dD dD
D d
D DD Dd
d dD dd
dd x DD Dd x Dd
Disjonction
des allèles
couplage
aléatoire
DD
4
0
dD,
4
4
dd,
4
0
DD
4
1
dD,
4
2
dd,
4
1
Ratio de
Ségregation
• Historiquement : proportion de la progéniture d’un type
particulier de croisement avec un certain génotype

• Dans l’analyse de ségrégation : proportion de la progéniture d’un
type particulier de croisement avec un certain phénotype

• Abusivement : proportion de la progéniture d’un type particulier
de croisement qui sont atteints
Ratio de ségrégation
Analyse de ségrégation classique
Etudier les ratios de ségrégation chez les enfants
Comparer les ratios observés et attendus (selon le modèle)
Test de validité de l’ajustement
Test du rapport de Vraisemblance
AS classique – Hérédité autosomique dominante
Modèle dominant / Panmixie / q = 0.001

1. fréquence des 3 génotypes ?

2. fréquence des 6 types de croisement possibles ?

3. fréquence de la maladie ?
Fréquence génotypiques
DD (atteint) q² (0.001)² 10
-6
Dd (atteint) 2pq 2*0.001*0.999 0.001998
Dd (sain) p² (0.999)² 0.998
Fréquence des croisements
DD x DD q
4
10
-12
DD x Dd 4pq
3
4.10
-9
DD x dd 2 p
2
q
2
2.10
-6
Dd x Dd 4 p
2
q
2
4.10
-6
Dd x dd 4p
3
q 4.10
-3
dd x dd p
4
0.996
Fréquence
croisement
% enfants
Atteint Sain
DD x DD q
4
10
-12
1 0
DD x Dd 4pq
3
4.10
-9
1 0
DD x dd 2 p
2
q
2
2.10
-6
1 0
Dd x Dd 4 p
2
q
2
4.10
-6
¾ ¼
Dd x dd 4p
3
q 4.10
-3
½ ½
dd x dd p
4
0.996 0 1
1×q
4
+ 1×4pq
3
+

1×2p
2
q
2
+ (3/4)×4p
2
q
2
+ (1/2)×4p
3
q + 0×p
4


= 1 – p
2


= 0.00199
Fréquence de la maladie
Solution plus intuitive ?
Hérédité autosomique dominante - Exemple
Sélection de famille avec un parent atteint + un sain




200 enfants : 80 atteints et 120 sains




Compatible avec une maladie rare autosomique dominante ?
Fréquence
croisement
% enfants
Atteint Sain
DD x DD q
4
1 0
DD x Dd 4pq
3
1 0
DD x dd 2 p
2
q
2
1 0
Dd x Dd 4 p
2
q
2
¾ ¼
Dd x dd 4p
3
q
½ ½
dd x dd p
4
0 1
RARE
Observé Attendu (O-A)²/A
Dd 80 100 4
dd 120 100 4
Test de validité de l’ajustement
8
A
A) - (O
χ
2
2
1df
= =
¿
Distribution du Chi-2
Observé Attendu (O-A)²/A
DD 80 100 4
Dd 120 100 4
Test de validité de l’ajustement
001 . 0 01 . 0
8
A
A) - (O
χ
2
2
1df
< <
= =
¿
p
Test du rapport de vraisemblance (LRT)
1. Vraisemblance~ probabilité d’observer les données

2. Log-vraisemblance (plus facile à manier)

3. Maximiser la log- vraisemblance ¬ EMV

dériver et annuler la log-vraisemblance

4. Test du rapport de vraisemblance LRT

LRT= 2(log-vraisemblance à EMV - log-vraisemblance sous H
0
)

Vraisemblance ~ probabilité d’observer les données

(P
atteint
)
Natteint
*(1-P
atteint
)
Nsains


Log-vraisemblance (plus facile à manier)

Na*Log P
atteint
+ Ns *Log(1-P
atteint
)

Maximiser la vraisemblance ¬ EMV
d(LogL)/dP
atteint
=Na/P
atteint
- Ns/(1-P
atteint
)

¬ P
atteint
= Na/(Na+Ns)
MLE=80/200=0.4
Ratio segregation
LRT = Vraisemblance à l’EMV / Vraisemblance sous H0

H0: P
atteint
= 0.5
Log-vraisemblance sous H
0
= 80 log(0.5) + 120 log(0.5) = -138.6

H1: P
atteint
= EMV = 0.4
Log-vraisemblance sous H
1
= 80 log(0.4) + 120 log(0.6) = -134.6


LRT = 2(-134.6 + 138.6) = 8 ~ _²(1df)
0.01< p < 0.001
AS classique – Hérédite autosomique récessive
Modèle récessif / Panmixie / q = 0.01

1. fréquence des 3 génotypes ?

2. frequence des 6 types de croisement possibles ?

3. Fréquence de la maladie ?
Fréquence des génotypes
DD (atteint ) q² (0.01)² 10
-4
Dd (sain) 2pq 2*0.01*0.99 0.0198
dd (sain) p² (0.99)² 0.98
Fréquence des croisements
DD x DD q
4
10
-8
DD x Dd 4pq
3
4.10
-6
DD x dd 2 p
2
q
2
2.10
-4
Dd * Dd 4 p
2
q
2
4.10
-4
Dd x dd 4p
3
q 4.10
-2
dd x dd p
4
0.96
Fréquence
croisements
% enfants
Atteint Sain
DD x DD q
4
10
-8
1 0
DD x Dd 4pq
3
4.10
-6
½ ½
DD x dd 2 p
2
q
2
2.10
-4
0 1
Dd * Dd 4 p
2
q
2
4.10
-4
¼ ¾
Dd x dd 4p
3
q 4.10
-2
0 1
dd x dd p
4
0.96 0 1
1×q
4
+ (1/2)×4pq
3
+

0×2p
2
q
2
+ (1/4)×4p
2
q
2
+ 0×4p
3
q + 0×p
4


= q
2


= 0.0001
Fréquence de la maladie
Solution plus intuitive ?
Hérédite autosomique récessive
Pb: on ne peut pas sélectionner sur le phénotype parental
(Dd*Dd indistinguable de dd*dd)



Sélectionner les familles avec ≥ 1 enfant atteint !




Biais de recrutement ++
(on rate Dd*Dd sans enfant atteint ¬ surestime P
atteint
)
intéressant pas intéressant
Nb atteint Probabilité
0 (3/4)
3
27/64
1 3(1/4)(3/4)² 27/64
2 3(1/4)²(3/4) 9/64
3 (1/4)
3
1/64
Maladie autosomique récessive - exemple
% 43
111
48
3(37)
3(1) 2(9) 1(27)
~ =
+ +
= observé n ségrégatio de Ratio
Dominant !!!
Recensement
Probabilité de recensement t = probabilité qu’un atteint dans la
population soit identifié comme un proposant
t= 1
recensement complet
0 < t < 1
recensement incomplet
toutes les familles
≥ 1 atteint sont recensées
Pr(famille recensée)
= 1-(1- t)
r
(r=nb atteint)
~ tr si t est petit
Correction pour le recensement
recensement complet recensement incomplet
Fisher’s exact method Weinberg’s proband method
Distribution binomiale
tronquée
Supprimer le proposant
Fischer’s exact method
Segregation ratio
Weinberg’s proband method
Autosomal recessive disease – example
Fisher original dataset (1934) – 340 families with 5 children
Total nb of offspring = 340*5=1700
Total nb of affected offspring = 623
Total number of proband = 434
p = 623 / 1700 = 0.37
t =434 / 623 =0.7
Naive estimates
p =0.37

Fisher’s exact
p =0.31

Weinberg’s probands
p =430 / 1728 =0.25
MAIS …….
1. Pénétrance incompléte

2. Phénocopie

3. Plusieurs gènes

4. Environnement partagé

5. Interaction gène*environment

6. Etc etc ……
Analyse de
ségrégation complexe
ASC
Spécifier un modèle causal
probabilité jointe d’observer les
phénotypes sous ce modèle
ASC - Stratégie générale
Calculer combien il explique les données
Comparer les différent modèles
Garder le meilleur !
environnemental, monogénique, mixte …
LRT, Akaike
Traduire en un modèle mathématique
dériver les paramètres ad hoc
Spécifier un modèle – modèles usuels
1. Modèle sporadique

2. Dépendances familiales

3. Dépendances familiales + Effet majeur

4. Effet majeur

5. Gène majeur
Traduire en un modèle mathématique (1)
1. Modèle sporadique
¬ |
x
(effet de la covariable x)

2. Dépendances familiales
¬ ¸
ij
(effet du phénotype de j sur le phénotype de i)

¬ 2 paramètres: ¸
ij
1
si j atteint ; ¸
ij
2
si j sain
¬ souvent regroupés en classes (e.g. Classe D):
¸
SS1
¸
SS2
si i et j sont époux
¸
FC1
¸
FC2


si i est un enfant et j son père
¸
MC1
, ¸
MC2
si i est un enfant et j sa mère
¸
CC1
, ¸
CC2
si i et j sont frères ou sœurs

4. Effet majeur
¬ q (fréquence allélique)
¬ o
AA
o
Aa
o
aa
(pénétrances pour AA, Aa et aa)

5. Gène majeur
¬ t
AA÷ A
probabilité qu’un parent AA transmette A

¬ t
Aa ÷ A
probabilité qu’un parent Aa transmette A
¬ t
aa ÷ A
probabilité qu’un parent aa transmette A



Traduire en un modèle mathématique (2)
Calculer combien il explique les données
( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
3
1
3
1
3
1
| ,
, | | , |
| , |
,
*
* | | | | , |
|
Ex.
In general,
nucl
p p
p i
c i i
c p
c p p p c p p p p p
g g
p p p i i f m
g g i
c c p i i f m
g g i
c p i i i f m
g i
L P Y P Y Y Y
P Y Y g P g P Y g Y P Y g P g
P Y g P g
P Y g P Y g
P Y g g g
P P Y g g P Y g g g
L
g g g
u u
u
=
= =
= = =
= =
(
= ·
(
¸ ¸
(
= = ==

=
(
¸
(
¸
(
¸ ¸
¿ ¿
¿ ¿ [
¿ ¿ ¿ [ [
( ) ( ) ( ) ( ) ( )
| | |
children
ear pedigree
i i
p i
p p p i i i f m
g g i
P Y g P g P Y g P g g g
(
= ·
(
¸ ¸
¿ ¿ [
Vraisemblance des données sous ce modèle
Correction pour le
recensement !
Comparer les différents modèles - LRT
1. Evidence pour des dépendances familiales ?
Modèle I vs. II ¬ rejeter I

2. Evidence pour un effet majeur ?
Modèle II vs. IV ¬ rejeter II
Effet de dominance ?

3. Evidence pour des dépendances familiales résiduelles ?
Modèle IV vs. III

4. L’effet majeur est un gène majeur ? ++++
Modèle IV vs. VI ¬ ne pas rejeter IV
Modèle V vs. VI ¬ rejeter V


Plancoulaine et al, J I D, 2003
--- mère HHV8+
Grands échantillons nécéssaires

Etude de puissance impossible

Schéma de recensement souvent inconnu ¬ correction ??

Un seul gène avec les mêmes caractéristiques

Modèle sur l’échantillon de ségrégation = modèle de l’échantillon
de liaison ?


Limites de l’analyse de ségrégation

Sign up to vote on this title
UsefulNot useful