Vous êtes sur la page 1sur 10

I.

LA VARIABILITE AU SEIN DES POPULATIONS

La notion de population recouvre un concept difficilement rductible une dfinition unique. Au sens de la gntique, une population reprsente une entit de reproduction au sein dune espce (voir GP et chapitre V). Cette dfinition est nanmoins vague car elle ne prcise ni le type de reproduction, ni le critre permettant daffecter un individu une entit plutt qu une autre. Dans ce chapitre, nous considrons la population comme un ensemble dindividus possdant certaines caractristiques communes : il peut sagir des pieds de mas dune parcelle, dune colonie dinsectes dans une fort, des habitants de la commune de Marchastel (Lozre, 38 habitants) ou de la Rpublique Populaire de Chine (1,25 milliard dhabitants), etc. Pour dcrire la variabilit au sein dune population, une premire solution consiste fournir le rsultat brut de la collecte de donnes, cest--dire la liste des valeurs numriques mesures sur tous les individus pour les diffrents caractres observs. Le volume des donnes peut tre extrmement important et ne permet pas dapprhender correctement la situation gnrale de la population. Aussi, a-t-on recours aux statistiques, dont un des rles est de synthtiser linformation : le prsent chapitre renvoie donc lenseignement correspondant.

A. Description dune population pour un caractre


1. La distribution Une reprsentation graphique permet de rendre compte de la manire dont les valeurs numriques se rpartissent dans la gamme de variation observe : cest la distribution. Il sagit dun graphe o en abscisse se trouvent les valeurs numriques et en ordonne la frquence (ou le nombre) des individus que lon trouve avec une valeur donne ou dans un intervalle donn. La figure 1 reprsente la distribution de la taille de mille tudiants de luniversit de Harvard. On voit que lallure de la distribution change selon la prcision avec laquelle a t faite la mesure, ou, ce qui revient au mme, la largeur des classes que lon constitue pour raliser le graphe. Si le pas de classe adopt est de 10 cm, les tudiants se rpartissent en cinq classes (Figure 1.a). Si lon peut mesurer 1 cm prs, les classes se subdivisent (Figure 1.b). Si lon poursuit le processus, en affinant les mesures et en supposant que lon peut mesurer un trs grand nombre dindividus, on tend vers une distribution continue (Figure 1.c).
Institut National Agronomique Paris-Grignon. E. Verrier, Ph. Brabant, A. Gallais. Juillet 2001

-9-

Figure 1. Distribution de la taille de 1 000 tudiants de sexe masculin de luniversit de Harvard (Etats-Unis), selon que lon constitue des classes de 10 cm (a) ou de 1 cm (b), et comparaison avec la courbe de la loi normale (c). Source : Castle, 1916

600

a Nombre
400 200 0

151-160

161-170

171-180

181-190

191-200

Taille (cm)

60

Nombre

40 20 0
150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Taille (cm)

150

160

170

180

190

200

Taille (cm)

Institut National Agronomique Paris-Grignon. E. Verrier, Ph. Brabant, A. Gallais. Juillet 2001

- 10 -

La figure 1 nous indique galement que la distribution de la taille, dans la population observe, se rapproche, dans sa forme, de la courbe en cloche caractristique de la loi normale (voir Stat). Ainsi, comme on la dj voqu dans lintroduction, les caractres quantitatifs prsentent une variation continue. La figure 2 montre quelques exemples de variation observe pour des caractres dimportance agronomique ou zootechnique. Mme lorsque le caractre mesur est par nature discontinu, car reprsentant la somme dun nombre dobjets distincts (on parle dans ce cas de caractres mristiques : nombre de grains sur un pi de mas, nombre de soies abdominales chez la drosophile, nombre de jeunes dans une porte de truie, etc.), le nombre de classes observes peut tre lev, et lon considre la variation de ce type de caractre comme continue (voir figure 2.d). La distribution normale est une distribution trs frquemment rencontre pour un grand nombre de caractres dans toutes les espces (voir figure 2). De ce fait, lanalyse statistique des caractres auxquels on sintresse en gntique quantitative est souvent facilite. Toutefois, les caractres pour lesquels on ne peut pas admettre la normalit de la distribution ncessitent un traitement appropri. Par exemple, une transformation mathmatique des donnes par des fonctions telles que le logarithme, la racine, etc. permet souvent de normaliser les distributions. 2. La moyenne La distribution reste nanmoins peu facile manipuler, et ne donne pas immdiatement une valeur reprsentative du caractre dans la population : si nous demandons un obsttricien combien pse un bb la naissance en France, il ne nous prsentera pas une courbe de distribution, mais nous rpondra, autour de 3,2 kg . La moyenne, ou esprance, est le concept statistique le plus utilis pour donner un ordre de grandeur dun caractre. Cependant, on peut parfois tre amen donner le mode (valeur la plus frquemment observe) ou la mdiane (valeur autour de laquelle leffectif de la population se rpartit quitablement). En cas de distribution normale, ces trois paramtres sont gaux.

Institut National Agronomique Paris-Grignon. E. Verrier, Ph. Brabant, A. Gallais. Juillet 2001

- 11 -

Figure 2. Quelques distributions observes pour des caractres dimportance agronomique ou zootechnique.
N = nombre total dindividus ayant fait lobjet dune mesure a : Teneur en saccharose (%) dans la racine de betterave sucre. Varit du dbut du XXme sicle. (N = 42 997 ; Source : De Vries, 1909). b : Poids de grain (g) dans un pi de bl (N = 790 ; Source : INA P-G, 2000). c : Teneur en protines du lait de vache (g/kg), calcule sur lensemble de la lactation. Race Montbliarde, contrle de performances en ferme en 1988 (N = 251 705 ; Source : FNOCL, 1989). d : Taille de porte (nombre de jeunes ns par porte) chez la truie. Race Large-White, contrle de performances en ferme de 1990 2000. (N = 724 123 ; Source : ITP-INRA, 2000).

20 %

15 % 10

10 5

0 10 12 14 16 18 % 20

0 0 2 4 g 6

% 10

15 % 10

0 20 25 30 35 40 g/kg

0 1 4 7 10 13 16 19 22 25 28

Institut National Agronomique Paris-Grignon. E. Verrier, Ph. Brabant, A. Gallais. Juillet 2001

- 12 -

3. La variance Pour dcrire lamplitude de la dispersion autour de la moyenne, on utilise le plus souvent la variance, qui est la moyenne des carrs des carts la moyenne (voir le mmento statistique en fin de ce chapitre) et sexprime dans le carr de lunit du caractre mesur. Lcart-type, quant lui, est gal la racine carre de la variance et sexprime dans lunit du caractre. A titre dillustration, le tableau 1 donne les paramtres des distributions reportes aux figures 1 et 2. Une proprit intressante de la loi normale est que lon peut facilement calculer la proportion dindividus dont la valeur se situe au-del (ou en de) dun certain seuil par rapport la moyenne ; des tables donnent ces proportions pour une loi normale centre rduite, cest--dire dont la moyenne est nulle et la variance est gale 1 (voir Stat). Ainsi, il est bien connu que, dans le cas dune distribution normale, 95 % des valeurs se situent dans un intervalle allant de -1,96 + 1,96 carts-types de part et dautre de la moyenne. Si lon prfre, on peut galement dire que seulement 2,5 % des valeurs se situent plus de 1,96 carts-types au-del de la moyenne, et rciproquement en de de la moyenne. A titre dexemple, la distribution de la teneur en protines du lait tant rigoureusement ajuste une distribution normale (figure 2.c), les chiffres du tableau 1 nous indiquent que 95 % des vaches Montbliardes contrles en 1988 ont eu une valeur de taux protique comprise entre 27,6 et 35,4 g/kg, ce qui reprsente un bon aperu du champ de variation du caractre dans la population considre.

Tableau 1. Caractristiques des chantillons pour lesquels la distribution des valeurs mesures a t donne (cf. figures 1 et 2).
Nombre dindividus mesurs 1 000 42 997 790 251 705 724 123

Caractre Taille (cm) Teneur en saccharose (%) Poids de grain par pi (g) Teneur en protines du lait (g/kg) Taille de porte

Moyenne 175 15,2 2,58 31,5 12,0

Ecart-type 6,3 1,2 0,75 2,0 3,4

Institut National Agronomique Paris-Grignon. E. Verrier, Ph. Brabant, A. Gallais. Juillet 2001

- 13 -

B. Description dune population pour deux caractres


Lorsque lon tudie une population, il est rare que lon ne sintresse qu un seul caractre mesurable sur les individus qui la composent. En amlioration des plantes ou des animaux, ce nest quasiment jamais le cas. Il est donc important de disposer doutils permettant, au minimum, de dcrire une population de faon bidimensionnelle. 1. La distribution deux dimensions Pour rendre compte graphiquement dune distribution deux dimensions, on construit un nuage de points : chaque individu est reprsent sur le graphe par un point dont les coordonnes sont gales aux valeurs respectives pour les deux caractres tudis. La figure 3 montre une construction de ce type, partir de donnes recueillies sur une espce dongul sauvage, le bouquetin des Alpes, Capra ibex ibex. La forme du nuage de points suggre une liaison statistique entre les deux caractres mesurs, liaison quil est possible de quantifier.

Figure 3. Relation entre le tour de poitrine (TP) et le poids dans un chantillon de 35 mles de bouquetin des Alpes (Capra ibex ibex). Source : Togo, 1998

60

Poids (kg)

40

20

0 60 80 TP (cm) 100

Institut National Agronomique Paris-Grignon. E. Verrier, Ph. Brabant, A. Gallais. Juillet 2001

- 14 -

2. La corrlation

Le coefficient de corrlation (de Pearson) est le paramtre usuel pour quantifier lassociation entre deux variables. Ce coefficient se calcule comme tant le rapport de la covariance entre les deux variables au produit de leurs carts-types respectifs ; la covariance est lesprance du coproduit des deux variables centres (voir mmento statistique). Le coefficient de corrlation entre deux variables X et Y est sans dimension et varie de -1 +1. Il mesure le degr de
liaison linaire entre les deux variables mais nimplique pas toujours une relation de cause

effet. Si la corrlation est positive, les valeurs leves de Y sont prfrentiellement associes des valeurs leves de X. En cas de corrlation ngative, ce sont les valeurs faibles de Y qui sont associes prfrentiellement aux valeurs leves de X. Quand le coefficient de corrlation est lev en valeur absolue, lassociation est rigoureuse et le nuage de points est resserr autour dune droite. A contrario, une valeur proche de zro indique que la liaison linaire est imparfaite, une valeur de zro signifiant lindpendance linaire entre les deux variables. Lorsque deux variables suivent conjointement une loi normale, leur coefficient de corrlation est le meilleur indicateur de leur association statistique. A linverse, deux variables peuvent avoir entre elles une liaison forte mais non linaire (par exemple X sur lensemble des rels et
Y = X 2 ) et tre en corrlation nulle, car comme indiqu plus haut, la corrlation mesure une

liaison qui est de type linaire. Lorsque lon ne connat pas a priori le type de liaison entre deux variables, lobservation de leur distribution bidimensionnelle est indispensable et se restreindre au seul calcul du coefficient de corrlation pour juger de leur liaison peut conduire de grossires erreurs.
3. La rgression linaire

Lexistence dune corrlation linaire entre deux variables permet de prdire la valeur dune variable partir de la valeur prise par lautre variable. En effet, connaissant X, il est possible

$ , selon lquation suivante : de prdire Y par Y $ = a + bX Y

Institut National Agronomique Paris-Grignon. E. Verrier, Ph. Brabant, A. Gallais. Juillet 2001

- 15 -

Le coefficient de rgression (b) reprsente la pente de la droite, cest--dire la quantit selon laquelle, en moyenne, la variable Y varie lorsque la variable X crot dune unit. Quant au coefficient a, il reprsente simplement lordonne de la droite lorigine (c..d. le zro de la variable X). Les coefficients a et b de cette droite de rgression sont dtermins de faon

$ ) et les minimiser la variance derreur entre les valeurs prdites par lquation ci-dessus ( Y
valeurs relles de Y sur lchantillon considr (mthode des moindres carrs, voir Stat). Plus la corrlation entre les deux variables est leve, plus la prdiction de lune partir de lautre

$ est proche de Y). est prcise (plus Y


Lintrt de la technique de rgression linaire est de permettre une prdiction de la valeur dun individu pour un caractre qui nous intresse alors que la mesure en est difficile ou trs coteuse, voire impossible dans les conditions o lon se trouve. Lobjectif des mesures faites chez le bouquetin des Alpes et prsentes la figure 3 tait justement de fournir un prdicteur simple du poids des animaux afin de permettre le suivi rgulier des populations, notamment de la croissance des animaux. On conoit en effet que, dans lhabitat naturel du bouquetin, le transport dune bascule soit quelque peu malais. Un mtre-ruban est bien moins encombrant et dun maniement trs facile. Les prdictions que lon peut faire du poids des animaux partir de la simple meure de leur tour de poitrine sont juges suffisamment fiables pour lobjectif que lon sest assign : les erreurs de prdiction sont de faible ampleur et elles nont que peu de consquences pratiques. La rgression fait lobjet de trs nombreuses applications, dans des domaines trs varis. Notamment, il sera largement discut, dans le cadre des enseignements correspondants, de lusage extrmement courant que lon fait de la rgression linaire en amlioration des plantes et en amlioration des animaux, pour prdire ce que lon ne peut en gnral pas observer directement, la valeur gntique pour un caractre donn, partir de ce que lon voit, le phnotype.

Institut National Agronomique Paris-Grignon. E. Verrier, Ph. Brabant, A. Gallais. Juillet 2001

- 16 -

MEMENTO STATISTIQUE

(inspir de Minvielle, 1990) Paramtre Symbole Moyenne Population de taille infinie Dfinition Symbole
$ X,
2
2 X 2 X

Estimateur sur un chantillon de taille n Formule de calcul

Champ de variation

, X
2 , 2 X

E X

b g FH
2

1 X n

-,+
2 2

Variance

V X , Var( X )

Covariance

XY Cov( X , Y )

Corrlation

XY r( X ,Y )

Rgression

Y / X bY / X

$ s , b g IK $ V = Ee X j Eb X g Ed X Eb X g Y EbY g i s = Eb XY g Eb X gEbY g rb X , Y g Covb X , Y g $b X , Y g r b Covb X , Y g

E X E X
2

XY

LMe X j d X i nOP Q N 1 L = X j nc X h O e M PQ n 1 N 1 d XY i d X id Y i n n 1
1 n 1
2 2
s XY = s X sY

0,+

-,+

LMe X N
2

d XY i d X id Y i n j FH d X i IK nOPQLMNe Y j FH d Y i IK nOPQ
2 2 2
2

-1,+1

Y/ X

s XY s2 X

2 X

$ b Y/ X

d XY i d X id Y i n LMe X j F d X i I nOP H K Q N

-,+

Institut National Agronomique Paris-Grignon. E. Verrier, Ph. Brabant, A. Gallais. Juillet 2001

- 17 -

EXERCICES
Le tableau ci-dessous donne les valeurs numriques ayant servi ltablissement du graphe relatif la liaison entre le tour de poitrine (TP) et le poids chez 35 mles de bouquetin des Alpes (Togo, 1998 ; cf. figure 3 dans le chapitre I). A partir des lments partiels de calcul qui sont fournis, calculer : - la moyenne et lcart-type de chacun des caractres. - les coefficient de corrlation entre les deux caractres. - lquation de la droite de rgression permettant de prdire le poids en fonction du tour de poitrine. n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 TP (cm) 60,5 62,0 69,0 66,0 66,0 80,0 78,0 68,0 67,0 66,5 66,0 77,0 78,0 73,0 74,0 75,0 74,0 70,5 Poids (kg) 12,0 16,0 17,5 21,0 22,0 23,0 23,0 23,5 24,0 24,0 25,0 26,0 28,0 29,0 30,0 31,0 32,0 32,0 n 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 TP (cm) 80,0 78,0 78,0 89,0 81,0 81,0 86,0 87,0 82,0 85,0 82,0 86,0 82,0 88,0 94,0 88,5 91,0 Poids (kg) 34,0 34,0 34,0 36,0 36,0 37,0 37,0 37,0 42,0 43,0 44,0 44,0 44,0 46,0 46,0 48,0 50,0

TP Somme Somme des carrs Somme des co-produits

Poids

TP x Poids

27 09,0 212 304,0 -

1 131,0 39 852,5 -

90 132,5

Institut National Agronomique Paris-Grignon. E. Verrier, Ph. Brabant, A. Gallais. Juillet 2001

- 18 -