Vous êtes sur la page 1sur 19

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

D. Mouchiroud (17/10/2002)

......................................................................................................................................................................................................

Chapitre 5

Statistique descriptive
Sommaire

1. Introduction.3 2. Echantillonnage statistique..3


2.1. Dfinition......3 2.2. Echantillonnage alatoire simple...4

3. Les caractres statistiques....4


3.1. Dfinition......4

3.1.1. Les caractres qualitatifs...5 3.1.2. Les caractres quantitatifs .6


3.2. Liens avec les concepts probabilistes..6

4. Reprsentation des donnes......7


4.1. Sries statistiques .....7 4.2. Tableaux statistiques...8

4.2.1. Frquences absolues, relatives et cumules...8 4.2.2. Caractres quantitatifs discrets .8 4.2.3. Caractres quantitatifs continus ...9
4.3. Reprsentations graphiques.11

4.3.1. Caractres quantitatifs discrets....11


1

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

D. Mouchiroud (17/10/2002)

......................................................................................................................................................................................................

4.3.2. Caractres quantitatifs continus 11

5. Indicateurs numriques.....12
5.1. Indicateurs de position.12

5.1.1. La moyenne arithmtique.....12 5.1.2. La mdiane ..13 5.1.3. Le mode ..15 5.1.4. Comparaison des indicateurs de position ...16
5.2. Indicateurs de dispersion..17

5.2.1. La variance observe.......17 5.2.2. Le coefficient de variation ..19

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

D. Mouchiroud (17/10/2002)

......................................................................................................................................................................................................

1 Introduction
La statistique est une mthode scientifique qui consiste runir des donnes chiffres sur des ensembles nombreux, puis analyser, commenter et critiquer ces donnes. Il ne faut pas confondre la statistique qui est la science qui vient dtre dfinie et une statistique qui est un ensemble de donnes chiffres sur un sujet prcis. Les premires statistiques correctement labores ont t celles des recensements dmographiques. Ainsi le vocabulaire statistique est essentiellement celui de la dmographie. Les ensembles tudis sont appels population. Les lments de la population sont appels individus ou units statistiques. La population est tudie selon un ou plusieurs caractres. Les statistiques descriptives peuvent se rsumer par le schma suivant :

POPULATION

ECHANTILLON

Echantillonnage alatoire

Dduction

Caractristiques de lchantillon

2 Echantillonnage statistique
Pour recueillir des informations sur une population statistique, lon dispose de deux mthodes : - la mthode exhaustive ou recensement o chaque individu de la population est tudi selon le ou les caractres tudis. - la mthode des sondages ou chantillonnage qui conduit nexaminer quune fraction de la population, un chantillon.

2.1

Dfinition

Lchantillonnage reprsente lensemble des oprations qui ont pour objet de prlever un certain nombre dindividus dans une population donne.

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

D. Mouchiroud (17/10/2002)

......................................................................................................................................................................................................

Pour que les rsultats observs lors dune tude soient gnralisables la population statistique, lchantillon doit tre reprsentatif de cette dernire, cest dire quil doit reflter fidlement sa composition et sa complexit. Seul lchantillonnage alatoire assure la reprsentativit de lchantillon. Un chantillon est qualifi dalatoire lorsque chaque individu de la population a une probabilit connue et non nulle dappartenir lchantillon.

Le cas particulier le plus connu est celui qui affecte chaque individu la mme probabilit dappartenir lchantillon.

2.2 Echantillonnage alatoire simple

Lchantillonnage alatoire simple est une mthode qui consiste prlever au hasard et de faon indpendante, n individus ou units dchantillonnage dune population N individus. Chaque individu possde ainsi la mme probabilit de faire partie dun chantillon de n individus et chacun des chantillons possibles de taille n possde la mme probabilit dtre constitu. Lchantillonnage alatoire simple assure lindpendance des erreurs, cest--dire labsence dautocorrlations parmi les donnes relatives un mme caractre. Cette indpendance est indispensable la validit de plusieurs tests statistiques (chapitre 7). Exemple : Les donnes mtorologiques ne sont pas indpendantes puisque les informations recueillies sont dautant plus identiques quelles sont rapproches dans le temps et dans lespace. Il existe dautres techniques dchantillonnage que nous ne dvelopperons pas dans un premier temps dans ce cours comme lchantillonnage systmatique ou lchantillonnage stratifi qui rpondent des problmatiques biologiques spcifiques.

3 Les caractres statistiques


3.1 Dfinition

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

D. Mouchiroud (17/10/2002)

......................................................................................................................................................................................................

On appelle caractre statistique simple toute application : X:P R avec P un ensemble fini appel population ; tout lment de P sappelle un individu.

Le caractre dsigne une grandeur ou un attribut, observable sur un individu et susceptible de varier prenant ainsi diffrents tats appels modalits. On appelle modalit toute valeur : xi X (P) telle que : X (P) = {x1 ,x2 ,x3 ,.., xi ,., xk} avec k nombre de modalits diffrentes de X

Remarque : Seuls les caractres quantitatifs ont valeurs dans R, les caractres qualitatifs sy ramenant par un codage. Exemple : Lors des recensements, les caractres tudis sont lge, le sexe, la qualification professionnel, etc. Le caractre sexe prsente deux modalits alors que pour la qualification professionnelle, le nombre de modalits va dpendre de la prcision recherche.

3.1.1

Les caractres qualitatifs

Mesures dans une chelle nominale, les modalits sont exprimables par des noms et ne sont pas hirarchises. Un caractre nominal peut tre dichotomique sil ne peut prendre que deux modalits. Exemple: la couleur du pelage, les groupes sanguins, les diffrents nuclotides de lADN, la prsence ou labsence dun caractre (dichotomique), etc. Mesures dans une chelle ordinale: les modalits traduisent le degr dun tat caractrisant un individu sans que ce degr ne puisse tre dfini par un nombre qui rsulte dune mesure. Les modalits sont alors hirarchises. Exemple: le stade dune maladie. Certains tests (non vus dans ce cours) permettent de profiter de cette information et sont alors plus puissants que des tests sur variable nominale.

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

D. Mouchiroud (17/10/2002)

......................................................................................................................................................................................................

3.1.2

Les caractres quantitatifs

Le caractre est discret sil peut prendre seulement certaines valeurs dans un intervalle donn. En gnral il rsulte dun comptage ou dnombrement. Exemple : le nombre de petits par porte, le nombre de cellules dans une culture, le nombre daccidents pour une priode donne, etc. Remarque : Attention, un caractre quantitatif discret peut rsulter de la transformation dun caractre nominal (ex. comptage des individus porteurs ou non dun caractre). Le caractre est continu sil peut thoriquement prendre nimporte quelle valeur dans un intervalle donn. En gnral il rsulte dune mesure. Exemple : le poids, la taille, le taux de glycmie, le rendement, etc. Remarque : En ralit le nombre de valeurs possibles pour un caractre donn dpend de la prcision de la mesure. On peut considrer comme continu un caractre discret qui peut prendre un grand nombre de valeurs. Exemple : le nombre de globules blancs ou rouges par ml de sang, le nombre de nuclotides A dans une trs longue squence dADN (plusieurs Mgabases) .

3.2 Liens avec les concepts probabilistes Les concepts qui viennent dtre prsents sont les homologues de concepts du calcul des probabilits et il est possible de disposer en regard les concepts homologues (voir table cidessous). Probabilits Espace fondamental Epreuve Evnement lmentaire Variable alatoire Epreuves rptes Nbre de rptitions dune preuve Probabilit Loi de probabilit Esprance mathmatique Variance 6 Statistique Population Tirage (dun individu), exprimentation Individu, observation Caractre Echantillonnage Taille de lchantillon, effectif total Frquence observe Distribution observe ou loi empirique Moyenne observe Variance observe

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

D. Mouchiroud (17/10/2002)

......................................................................................................................................................................................................

Ainsi la notion de caractre se confond avec celle de variable alatoire.

4 Reprsentation des donnes


Il existe plusieurs niveaux de description statistique : la prsentation brute des donnes, des prsentations par tableaux numriques, des reprsentations graphiques et des rsums numriques fournis par un petit nombre de paramtres caractristiques.

4.1

Sries statistiques

Une srie statistique correspond aux diffrentes modalits dun caractre sur un chantillon dindividus appartenant une population donne. Le nombre dindividus qui constituent lchantillon tudi sappelle la taille de lchantillon.

Exemple : Afin dtudier la structure de la population de glinottes huppes (Bonasa umbellus) abattues par les chasseurs canadiens, une tude du dimorphisme sexuel de cette espce a t entreprise. Parmi les caractres mesurs figure la longueur de la rectrice centrale (plume de la queue). Les rsultats observs exprims en millimtres sur un chantillon de 50 mles juvniles sont nots dans la srie ci-dessus :

153 160 158 162 166 162 164 158 La glinotte huppe

165 160 150 158 149 154 150 158 155 160 152 164 162 165 157 155 156 159 164 162 158

159 153 163 158 174 162 156

151 163 163 140 159 157 153 162 158 171 152 158 171 164

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

D. Mouchiroud (17/10/2002)

......................................................................................................................................................................................................

4.2 Tableaux statistiques Le tableau de distribution de frquences est un mode synthtique de prsentation des donnes. Sa constitution est immdiate dans le cas dun caractre discret mais ncessite en revanche une transformation des donnes dans le cas dun caractre continu.

4.2.1

Frquences absolues, relatives et cumules

A chaque modalit du caractre X, peut correspondre un ou plusieurs individus dans l'chantillon de taille n. On appelle effectif de la modalit xi, le nombre ni o ni est le nombre dindividu tel que X() = xi Remarque : Parfois on peut rencontrer le terme de frquence absolue pour les effectifs.

On appelle frquence de la modalit xi, le nombre fi tel que

fi =

ni n

Remarque : Parfois on peut rencontrer le terme de frquence relative pour les frquences. Le pourcentage est une frquence exprime en pour cent. Il est gal 100 fi. Lemploi des frquences ou frquences relatives savre utile pour comparer deux distributions de frquences tablies partir dchantillons de taille diffrente. On appelle frquences cumules ou frquences relatives cumules en xi, le nombre fi cum tel que fi cum =

fp
p=1

Remarque : On peut noter que

n
i=1

= n , taille de lchantillon et

f
i=1

=1

4.2.2

Caractres quantitatifs discrets

Dans le cas dun caractre quantitatif discret, ltablissement de la distribution des donnes observes associes avec leurs frquences est immdiate.
Exemple : 8

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

D. Mouchiroud (17/10/2002)

......................................................................................................................................................................................................

La ccidomyie du htre provoque sur les feuilles de cet arbre des galles dont la
distribution de frquences observes est la

suivante :

Caractre X : xi: nombre de galles par feuille

10

ni : nombre de feuilles portant xi galles fi :


frq. relative

182 0,485 0,485

98 0,261 0,746

46 0,123 0,869

28 0,075 0,944

12 0,032 0,976

5 0,013 0,989

2 0,005 0,994

1 0,003 0,997

0 0 0,997

1 0,003 1

0 0 1

fi cum. : frq. relative


cumule

La taille de lchantillon tudi est n =375 feuilles

4.2.3

Caractres quantitatifs continues

Dans le cas d'un caractre quantitatif continu, ltablissement du tableau de frquences implique deffectuer au pralable une rpartition en classes des donnes. Cela ncessite de dfinir le nombre de classes attendu et donc lamplitude associe chaque classe ou intervalle de classe. En rgle gnrale, on choisit des classes de mme amplitude. Pour que la distribution en frquence est un sens, il faut que chaque classe comprenne un nombre suffisant de valeurs (ni). Diverses formules empiriques permettent dtablir le nombre de classes pour un chantillon de taille n. 9

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

D. Mouchiroud (17/10/2002)

......................................................................................................................................................................................................

La rgle de STURGE : Nombre de classes = 1+ (3,3 log n) Nombre de classes = 2, 5 4 n La rgle de YULE : L'intervalle entre chaque classe est obtenu ensuite de la manire suivante : Intervalle de classe = (X max - X min) / Nombre de classes avec X max et X min, respectivement la plus grande et la plus petite valeur de X dans la srie statistique. A partir de Xmin on obtient les limites de classes ou bornes de classes par addition successive de lintervalle de classe. En rgle gnral, on tente de faire concider lindice de classe ou valeur centrale de la classe avec un nombre entier ou ayant peu de dcimales.
Exemple :

Dans le cadre de ltude de la population de glinottes huppes (Bonasa umbellus), les valeurs de la longueur de la rectrice principale peuvent tre rparties de la faon suivante : dfinition du nombre de classes : Rgle de Sturge : 1 + (3,3 log 50) = 6,60 Rgle de Yule : 2, 5 4 50 = 6,64 dfinition de lintervalle de classe :

les deux valeurs sont trs peu diffrentes

IC =

174 140 = 5,15 mm que lon arrondit 5 mm par commodit 6, 6


Tableau de distribution des frquences

Caractre X : [140-145[ [145-150[ [150-155[ [155-160[ [160-165[ [165-170[ [170-175[ xi : longueur de la rectrice bornes des classes Valeur mdiane des classes, xi ni : nombre dindividu par classe de taille xi fi : frquence relative fi cum. : frquence relative cumule
142,5 147,5 152,5 157,5 162,5 167 ,5 172,5

17

16

0,02 0,02

0,02 0,04

0,18 0,22

0,34 0,56

0,32 0,88

0,06 0,94

0,06 1

10

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

D. Mouchiroud (17/10/2002)

......................................................................................................................................................................................................

4.3 Reprsentations graphiques

Les reprsentations graphiques ont lavantage de renseigner immdiatement sur lallure gnrale de la distribution. Elles facilitent linterprtation des donnes recueillies.

4.3.1

Caractres quantitatifs discrets

Pour les caractres quantitatifs discrets, la reprsentation graphique est le diagramme en


btons o la hauteur des btons correspond leffectif ni associ chaque modalit du

caractre xi.
Exemple :
Effectif : ni
200

160

Distribution du nombre de galles par feuilles

Dans lexemple de la ccidomyie du htre, la distribution des frquences observes du nombre de galles par feuille peut tre reprsente par un diagramme
en btons avec en ordonne les effectifs ni et en abscisse les diffrentes modalits

120

80

40

de la variable tudie.
0 0 2 4 6 8 10 12

X : nombre de galles par feuille

4.3.2

Caractres quantitatifs continus

Pour les caractres quantitatifs continus, la reprsentation graphique est lhistogramme o la hauteur du rectangle est proportionnelle leffectif ni. Ceci nest vrai que si lintervalle de classe est constant. Dans ce cas laire comprise sous lhistogramme savre proportionnelle leffectif total. En revanche lorsque les intervalles de classe sont ingaux, des modifications simposent pour conserver cette proportionnalit. Dans ce cas, en ordonne, au lieu de porter leffectif, on indique le rapport de la frquence sur lintervalle de classe. Ainsi la superficie de chaque rectangle reprsente alors leffectif associ chaque classe.
Exemple :

11

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

D. Mouchiroud (17/10/2002)

......................................................................................................................................................................................................

Dans lexemple de la longueur de la rectrice centrale des individus mles de la glinotte huppe, la distribution des frquences observes est reprsente par un histogramme avec en ordonne les effectifs ni et en abscisse les limites de classe de la variable tudie.

5 Indicateurs numriques
Le dernier niveau de description statistique est le rsum numrique dune distribution statistique par des indicateurs numriques ou paramtres caractristiques.
Remarque : Ces derniers reprsentent une transition entre la statistique purement descriptive et lestimation des paramtres qui caractrisent les distributions de probabilit (chapitre 6).

5.1

Indicateur de position

Ces paramtres ont pour objectif dans le cas d'un caractre quantitatif de caractriser lordre de grandeur des observations.

5.1.1

La moyenne arithmtique

Soit un chantillon de n valeurs observes x1, x2, .,xi,.,xn dun caractre quantitatif X, on dfinit sa moyenne observe x comme la moyenne arithmtique des n valeurs : 1 n x = xi n i=1

12

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

D. Mouchiroud (17/10/2002)

......................................................................................................................................................................................................

Remarque : Une des proprits de la moyenne arithmtique est que la somme des carts la

moyenne est nulle:

(x i x ) = 0
i=1

Si les donnes observes xi sont regroupes en k classes deffectif ni (caractre continu regroup en classe ou caractre discret), il faut les pondrer par les effectifs correspondants: k 1 k x = ni x i avec n = ni n i=1 i =1

Exemples :

Dans le cas de ltude du dimorphisme sexuel de la glinotte huppe, la longueur moyenne de la rectrice principale du mle juvnile est : dans le cas des donnes non groupes :

x=

153 + 165 +160 + ..... + 171+164 +158 7943 = = 158,9 mm 50 50

i =1

ni xi

dans le cas des donnes groupes o les valeurs xi correspondent aux valeurs mdianes des classes,

= 7 960

do

x=

7960 = 159,2 mm (voir graphe) 50

Remarque : La moyenne obtenue aprs regroupement des donnes en classe dans lexemple de la longueur de la rectrice centrale diffre lgrement en raison dune perte dinformation. Si lchantillonnage nest pas de type alatoire simple, les deux moyennes peuvent tre trs diffrentes.

5.1.2

La mdiane

La mdiane, Me, est la valeur du caractre pour laquelle la frquence cumule est gale 0,5 ou 50%. Elle correspond donc au centre de la srie statistique classe par ordre croissant, ou la valeur pour laquelle 50% des valeurs observes sont suprieures et 50% sont infrieures.

13

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

D. Mouchiroud (17/10/2002)

......................................................................................................................................................................................................

Dans le cas o les valeurs prises par le caractre tudi ne sont pas regroupes en classe, si n est impair, alors n = 2m + 1 et la mdiane est la valeur du milieu Me = xm+1. si n est pair, alors n = 2m et une mdiane est une valeur quelconque entre xm et xm+1. Dans ce cas il peut tre commode de prendre le milieu. Dans le cas o les valeurs prises par le caractre tudi sont groupes en classe, on cherche la classe contenant le ne/2 individu de lchantillon. En supposant que tous les individus de cette classe sont uniformment rpartis lintrieur, la position exacte du ne/2 individu de la faon suivante par interpolation linaire : n 2 Ni (voir dmonstration gomtrique) M e = xm + ( xm +1 xm ) ni avec xm : limite infrieure de la classe dans laquelle se trouve le ne/2 individu (classe mdiane). xm+1 : limite suprieure de la classe dans laquelle se trouve le ne/2 individu (classe mdiane). ni : effectif de la classe mdiane Ni. : effectif cumul infrieur xm n : taille de lchantillon

Exemple :

Dans le cas de la distribution de la longueur de la rectrice centrale de la glinotte hupe, la valeur de la mdiane est : Cas des donnes non groupes : n = 50 donc Me [x25, x26] soit Me [158mm, 159mm] ou Me =158,5mm Cas des donnes groupes : n=50, la 25me valeur se situe dans la classe [155-160[ qui contient les individus de 12 28. do avec Lm = 155 mm, fm= 17 individus, fmcum. = 11 individus et i = 5mm Me = 155 +

5 50 11 = 159,11 mm do Me = 159,1 mm (voir graphe) 17 2

Remarque : La mdiane ne sapplique quaux chelles ordinales, dintervalles et de rapport, car elle ncessite un ordre linaire entre les variables.

Si la distribution des valeurs est symtrique, la valeur de la mdiane est proche de la valeur de la moyenne arithmtique. Me x 14

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

D. Mouchiroud (17/10/2002)

......................................................................................................................................................................................................

5.1.3

Le mode

Le mode, Mo dune srie statistique est la valeur du caractre la plus frquente ou dominante dans l'chantillon. Le mode correspond la classe de frquence maximale dans la distribution des frquences.

On peut identifier le mode comme la valeur mdiane de la classe de frquence maximale ou bien effectuer une interpolation linaire pour obtenir la valeur exacte du mode comme suit : ii (voir dmonstration gomtrique) M o = xm + s + i avec xm : limite infrieure de la classe deffectif maximal i : intervalle de classe (xm+1 xm) i : Ecart deffectif entre la classe modale et la classe infrieure la plus proche s : Ecart deffectif entre la classe modale et la classe suprieure la plus proche

Exemple : Dans le cas de la distribution de la longueur de la rectrice centrale de la glinotte huppe, la valeur du mode est : Valeur approche : La classe de frquence maximale est [155,160[ avec ni = 17 do Mo = 157,5 mm Valeur exacte :

Mo = 155 +

5 8 = 159,44 mm do Mo = 159,4 mm (voir graphe) (1 + 8)

avec xm = 155 mm, i = 17-9 = 8 , s = 17-16 = 1 et i = 5mm


Remarque : Une distribution de frquences peut prsenter un seul mode (distribution unimodale) ou plusieurs modes (distribution bi ou trimodale).

Si la distribution des valeurs est symtrique, la valeur du mode est proche de la valeur de la moyenne arithmtique. Mo x

5.1.4

Comparaison des indicateurs de position

15

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

D. Mouchiroud (17/10/2002)

......................................................................................................................................................................................................

Avantages Moyenne arithmtique


- Facile calculer, - Rpond au principe des moindres carrs.

Inconvenients
- Fortement influence par les valeurs extrmes de la v.a., - Reprsente mal une population htrogne (polymodale). - Se prte mal aux calculs statistiques, - Suppose lqui-rpartition des donnes - Ne reprsente que la valeur qui spare lchantillon en 2 parties gales.

Mdiane

- Pas influence par les valeurs extrmes de la v.a., - Peu sensible aux variations damplitude des classes, - Calculable sur des caractres cycliques (saison, etc.) o la moyenne a peu de signification. - Pas influence par les valeurs extrmes de la v.a., - Calculable sur des caractres cycliques (saison, etc.) o la moyenne a peu de signification, - Bon indicateur de population htrogne.

Mode

- Se prte mal aux calculs statistiques, - Trs sensible aux variations damplitude des classes, - Son calcul ne tient compte que des individus dont les valeurs se rapprochent de la classe modale.

Exemples :

Reprsentation graphique des trois indices de position sur lexemple de la distribution de la longueur de la rectrice centrale de la glinotte huppe.

16

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

D. Mouchiroud (17/10/2002)

......................................................................................................................................................................................................

Dans le cas o le caractre tudi se distribue selon une loi normale Laplace-Gauss, alors, la moyenne x , la mdiane Me et le mode Mo prennent la mme valeur.

Il existe dautres paramtres de position comme la moyenne quadratique ou la moyenne gomtrique qui ne seront pas dvelopps dans ce cours.

5.2

Indicateurs de dispersion

Ces paramtres ont pour objectif dans le cas d'un caractre quantitatif de caractriser la variabilit des donnes dans lchantillon. Les indicateurs de dispersion fondamentaux sont la variance observe et lcart-type observ.

5.2.1

La variance observe

Soit un chantillon de n valeurs observes x1, x2, .,xi,.,xn dun caractre quantitatif X et soit x sa moyenne observe. On dfinit la variance observe note s2 comme la moyenne arithmtique des carrs des carts la moyenne.

s =

1 n (xi x )2 n i= 1

Pour des commodits de calcul, on se sert du thorme de Knig que nous dmontrons dans un cas particulier.
Voici pourquoi :

Soit do do

A=

i =1

( xi x )2 = (xi2 2 x i x + x 2 ) = x i2 2 x i x + x 2
i= n 2 i =n

i =1

A = xi 2 x x i + nx
i =1 i= n i=1 2 2 2 i =1 i= n
i =1

2 i= n i =1

or
2

x
i =1

i =n

i =1

i =1

i =1

= nx

A = xi 2 nx + nx = xi nx
2 2

ainsi A = xi nx

17

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

D. Mouchiroud (17/10/2002)

......................................................................................................................................................................................................

La formule de la variance qui rsulte du thorme de Knig est donc :

1 i =n 2 s = xi x2 n i=1
2

Dans le cas de donnes regroupes en k classes d'effectif ni (variable continue regroupe en classes ou variable discrte), la formule de la variance est la suivante :

s2 =

1 i =k ni ( xi x )2 n i=1

Pour des commodits de calcul, on utilisera la formule dveloppe suivante :


i= k 1 i =k 2 2 s = ni xi x avec n = ni n i=1 i =1
2

Lcart-type observ correspond la racine carre de la variance observe:


s= s
2

Exemple :

Dans le cas de ltude du dimorphisme sexuel de la glinotte huppe, la variance observe de la longueur de la rectrice centrale du mle juvnile est :
cas des donnes non groupes :
2 i

x
i =1
2

i =n

= 1263647 et x = 158,86 mm

s =
i =n i =1

1 (1263647) (158,86)2 = 36,44 do s2=36,44 et s =6,04 mm 50


cas des donnes groupes :
2 i

n x
i

= 1269012,5 et x = 159,20 mm

s2 =

1 (1263647) (158,86)2 = 35,61 do s2=35,61 et s= 5,97 mm 50


18

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

D. Mouchiroud (17/10/2002)

......................................................................................................................................................................................................

Remarque : De part sa dfinition, la variance est toujours un nombre positif. Sa dimension est le carr de celle de la variable. Il est toutefois difficile dutiliser la variance comme mesure de dispersion car le recours au carr conduit un changement dunits. Elle na donc pas de sens biologique direct contrairement l'cart-type qui sexprime dans les mmes units que la moyenne.

5.2.2

Coefficient de variation

La variance et lcart-type observe sont des paramtres de dispersion absolue qui mesurent la variation absolue des donnes indpendamment de lordre de grandeur des donnes. Le coefficient de variation not C.V. est un indice de dispersion relatif prenant en compte ce biais et est gal :

C.V. = 100s
x

Exprim en pour cent, il est indpendant du choix des units de mesure permettant la comparaison des distributions de frquence dunit diffrente.
Exemple : Le coefficient de variation des longueurs de la rectrice centrale des glinottes huppes mles juvniles est gal :

C.V . =

100 6, 09 = 3,83% 158, 86

19