D. Mouchiroud (17/10/2002)
......................................................................................................................................................................................................
Chapitre 5
Statistique descriptive
Sommaire
4.2.1. Frquences absolues, relatives et cumules...8 4.2.2. Caractres quantitatifs discrets .8 4.2.3. Caractres quantitatifs continus ...9
4.3. Reprsentations graphiques.11
D. Mouchiroud (17/10/2002)
......................................................................................................................................................................................................
5. Indicateurs numriques.....12
5.1. Indicateurs de position.12
5.1.1. La moyenne arithmtique.....12 5.1.2. La mdiane ..13 5.1.3. Le mode ..15 5.1.4. Comparaison des indicateurs de position ...16
5.2. Indicateurs de dispersion..17
D. Mouchiroud (17/10/2002)
......................................................................................................................................................................................................
1 Introduction
La statistique est une mthode scientifique qui consiste runir des donnes chiffres sur des ensembles nombreux, puis analyser, commenter et critiquer ces donnes. Il ne faut pas confondre la statistique qui est la science qui vient dtre dfinie et une statistique qui est un ensemble de donnes chiffres sur un sujet prcis. Les premires statistiques correctement labores ont t celles des recensements dmographiques. Ainsi le vocabulaire statistique est essentiellement celui de la dmographie. Les ensembles tudis sont appels population. Les lments de la population sont appels individus ou units statistiques. La population est tudie selon un ou plusieurs caractres. Les statistiques descriptives peuvent se rsumer par le schma suivant :
POPULATION
ECHANTILLON
Echantillonnage alatoire
Dduction
Caractristiques de lchantillon
2 Echantillonnage statistique
Pour recueillir des informations sur une population statistique, lon dispose de deux mthodes : - la mthode exhaustive ou recensement o chaque individu de la population est tudi selon le ou les caractres tudis. - la mthode des sondages ou chantillonnage qui conduit nexaminer quune fraction de la population, un chantillon.
2.1
Dfinition
Lchantillonnage reprsente lensemble des oprations qui ont pour objet de prlever un certain nombre dindividus dans une population donne.
D. Mouchiroud (17/10/2002)
......................................................................................................................................................................................................
Pour que les rsultats observs lors dune tude soient gnralisables la population statistique, lchantillon doit tre reprsentatif de cette dernire, cest dire quil doit reflter fidlement sa composition et sa complexit. Seul lchantillonnage alatoire assure la reprsentativit de lchantillon. Un chantillon est qualifi dalatoire lorsque chaque individu de la population a une probabilit connue et non nulle dappartenir lchantillon.
Le cas particulier le plus connu est celui qui affecte chaque individu la mme probabilit dappartenir lchantillon.
Lchantillonnage alatoire simple est une mthode qui consiste prlever au hasard et de faon indpendante, n individus ou units dchantillonnage dune population N individus. Chaque individu possde ainsi la mme probabilit de faire partie dun chantillon de n individus et chacun des chantillons possibles de taille n possde la mme probabilit dtre constitu. Lchantillonnage alatoire simple assure lindpendance des erreurs, cest--dire labsence dautocorrlations parmi les donnes relatives un mme caractre. Cette indpendance est indispensable la validit de plusieurs tests statistiques (chapitre 7). Exemple : Les donnes mtorologiques ne sont pas indpendantes puisque les informations recueillies sont dautant plus identiques quelles sont rapproches dans le temps et dans lespace. Il existe dautres techniques dchantillonnage que nous ne dvelopperons pas dans un premier temps dans ce cours comme lchantillonnage systmatique ou lchantillonnage stratifi qui rpondent des problmatiques biologiques spcifiques.
D. Mouchiroud (17/10/2002)
......................................................................................................................................................................................................
On appelle caractre statistique simple toute application : X:P R avec P un ensemble fini appel population ; tout lment de P sappelle un individu.
Le caractre dsigne une grandeur ou un attribut, observable sur un individu et susceptible de varier prenant ainsi diffrents tats appels modalits. On appelle modalit toute valeur : xi X (P) telle que : X (P) = {x1 ,x2 ,x3 ,.., xi ,., xk} avec k nombre de modalits diffrentes de X
Remarque : Seuls les caractres quantitatifs ont valeurs dans R, les caractres qualitatifs sy ramenant par un codage. Exemple : Lors des recensements, les caractres tudis sont lge, le sexe, la qualification professionnel, etc. Le caractre sexe prsente deux modalits alors que pour la qualification professionnelle, le nombre de modalits va dpendre de la prcision recherche.
3.1.1
Mesures dans une chelle nominale, les modalits sont exprimables par des noms et ne sont pas hirarchises. Un caractre nominal peut tre dichotomique sil ne peut prendre que deux modalits. Exemple: la couleur du pelage, les groupes sanguins, les diffrents nuclotides de lADN, la prsence ou labsence dun caractre (dichotomique), etc. Mesures dans une chelle ordinale: les modalits traduisent le degr dun tat caractrisant un individu sans que ce degr ne puisse tre dfini par un nombre qui rsulte dune mesure. Les modalits sont alors hirarchises. Exemple: le stade dune maladie. Certains tests (non vus dans ce cours) permettent de profiter de cette information et sont alors plus puissants que des tests sur variable nominale.
D. Mouchiroud (17/10/2002)
......................................................................................................................................................................................................
3.1.2
Le caractre est discret sil peut prendre seulement certaines valeurs dans un intervalle donn. En gnral il rsulte dun comptage ou dnombrement. Exemple : le nombre de petits par porte, le nombre de cellules dans une culture, le nombre daccidents pour une priode donne, etc. Remarque : Attention, un caractre quantitatif discret peut rsulter de la transformation dun caractre nominal (ex. comptage des individus porteurs ou non dun caractre). Le caractre est continu sil peut thoriquement prendre nimporte quelle valeur dans un intervalle donn. En gnral il rsulte dune mesure. Exemple : le poids, la taille, le taux de glycmie, le rendement, etc. Remarque : En ralit le nombre de valeurs possibles pour un caractre donn dpend de la prcision de la mesure. On peut considrer comme continu un caractre discret qui peut prendre un grand nombre de valeurs. Exemple : le nombre de globules blancs ou rouges par ml de sang, le nombre de nuclotides A dans une trs longue squence dADN (plusieurs Mgabases) .
3.2 Liens avec les concepts probabilistes Les concepts qui viennent dtre prsents sont les homologues de concepts du calcul des probabilits et il est possible de disposer en regard les concepts homologues (voir table cidessous). Probabilits Espace fondamental Epreuve Evnement lmentaire Variable alatoire Epreuves rptes Nbre de rptitions dune preuve Probabilit Loi de probabilit Esprance mathmatique Variance 6 Statistique Population Tirage (dun individu), exprimentation Individu, observation Caractre Echantillonnage Taille de lchantillon, effectif total Frquence observe Distribution observe ou loi empirique Moyenne observe Variance observe
D. Mouchiroud (17/10/2002)
......................................................................................................................................................................................................
4.1
Sries statistiques
Une srie statistique correspond aux diffrentes modalits dun caractre sur un chantillon dindividus appartenant une population donne. Le nombre dindividus qui constituent lchantillon tudi sappelle la taille de lchantillon.
Exemple : Afin dtudier la structure de la population de glinottes huppes (Bonasa umbellus) abattues par les chasseurs canadiens, une tude du dimorphisme sexuel de cette espce a t entreprise. Parmi les caractres mesurs figure la longueur de la rectrice centrale (plume de la queue). Les rsultats observs exprims en millimtres sur un chantillon de 50 mles juvniles sont nots dans la srie ci-dessus :
153 160 158 162 166 162 164 158 La glinotte huppe
165 160 150 158 149 154 150 158 155 160 152 164 162 165 157 155 156 159 164 162 158
151 163 163 140 159 157 153 162 158 171 152 158 171 164
D. Mouchiroud (17/10/2002)
......................................................................................................................................................................................................
4.2 Tableaux statistiques Le tableau de distribution de frquences est un mode synthtique de prsentation des donnes. Sa constitution est immdiate dans le cas dun caractre discret mais ncessite en revanche une transformation des donnes dans le cas dun caractre continu.
4.2.1
A chaque modalit du caractre X, peut correspondre un ou plusieurs individus dans l'chantillon de taille n. On appelle effectif de la modalit xi, le nombre ni o ni est le nombre dindividu tel que X() = xi Remarque : Parfois on peut rencontrer le terme de frquence absolue pour les effectifs.
fi =
ni n
Remarque : Parfois on peut rencontrer le terme de frquence relative pour les frquences. Le pourcentage est une frquence exprime en pour cent. Il est gal 100 fi. Lemploi des frquences ou frquences relatives savre utile pour comparer deux distributions de frquences tablies partir dchantillons de taille diffrente. On appelle frquences cumules ou frquences relatives cumules en xi, le nombre fi cum tel que fi cum =
fp
p=1
n
i=1
= n , taille de lchantillon et
f
i=1
=1
4.2.2
Dans le cas dun caractre quantitatif discret, ltablissement de la distribution des donnes observes associes avec leurs frquences est immdiate.
Exemple : 8
D. Mouchiroud (17/10/2002)
......................................................................................................................................................................................................
La ccidomyie du htre provoque sur les feuilles de cet arbre des galles dont la
distribution de frquences observes est la
suivante :
10
98 0,261 0,746
46 0,123 0,869
28 0,075 0,944
12 0,032 0,976
5 0,013 0,989
2 0,005 0,994
1 0,003 0,997
0 0 0,997
1 0,003 1
0 0 1
4.2.3
Dans le cas d'un caractre quantitatif continu, ltablissement du tableau de frquences implique deffectuer au pralable une rpartition en classes des donnes. Cela ncessite de dfinir le nombre de classes attendu et donc lamplitude associe chaque classe ou intervalle de classe. En rgle gnrale, on choisit des classes de mme amplitude. Pour que la distribution en frquence est un sens, il faut que chaque classe comprenne un nombre suffisant de valeurs (ni). Diverses formules empiriques permettent dtablir le nombre de classes pour un chantillon de taille n. 9
D. Mouchiroud (17/10/2002)
......................................................................................................................................................................................................
La rgle de STURGE : Nombre de classes = 1+ (3,3 log n) Nombre de classes = 2, 5 4 n La rgle de YULE : L'intervalle entre chaque classe est obtenu ensuite de la manire suivante : Intervalle de classe = (X max - X min) / Nombre de classes avec X max et X min, respectivement la plus grande et la plus petite valeur de X dans la srie statistique. A partir de Xmin on obtient les limites de classes ou bornes de classes par addition successive de lintervalle de classe. En rgle gnral, on tente de faire concider lindice de classe ou valeur centrale de la classe avec un nombre entier ou ayant peu de dcimales.
Exemple :
Dans le cadre de ltude de la population de glinottes huppes (Bonasa umbellus), les valeurs de la longueur de la rectrice principale peuvent tre rparties de la faon suivante : dfinition du nombre de classes : Rgle de Sturge : 1 + (3,3 log 50) = 6,60 Rgle de Yule : 2, 5 4 50 = 6,64 dfinition de lintervalle de classe :
IC =
Caractre X : [140-145[ [145-150[ [150-155[ [155-160[ [160-165[ [165-170[ [170-175[ xi : longueur de la rectrice bornes des classes Valeur mdiane des classes, xi ni : nombre dindividu par classe de taille xi fi : frquence relative fi cum. : frquence relative cumule
142,5 147,5 152,5 157,5 162,5 167 ,5 172,5
17
16
0,02 0,02
0,02 0,04
0,18 0,22
0,34 0,56
0,32 0,88
0,06 0,94
0,06 1
10
D. Mouchiroud (17/10/2002)
......................................................................................................................................................................................................
Les reprsentations graphiques ont lavantage de renseigner immdiatement sur lallure gnrale de la distribution. Elles facilitent linterprtation des donnes recueillies.
4.3.1
caractre xi.
Exemple :
Effectif : ni
200
160
Dans lexemple de la ccidomyie du htre, la distribution des frquences observes du nombre de galles par feuille peut tre reprsente par un diagramme
en btons avec en ordonne les effectifs ni et en abscisse les diffrentes modalits
120
80
40
de la variable tudie.
0 0 2 4 6 8 10 12
4.3.2
Pour les caractres quantitatifs continus, la reprsentation graphique est lhistogramme o la hauteur du rectangle est proportionnelle leffectif ni. Ceci nest vrai que si lintervalle de classe est constant. Dans ce cas laire comprise sous lhistogramme savre proportionnelle leffectif total. En revanche lorsque les intervalles de classe sont ingaux, des modifications simposent pour conserver cette proportionnalit. Dans ce cas, en ordonne, au lieu de porter leffectif, on indique le rapport de la frquence sur lintervalle de classe. Ainsi la superficie de chaque rectangle reprsente alors leffectif associ chaque classe.
Exemple :
11
D. Mouchiroud (17/10/2002)
......................................................................................................................................................................................................
Dans lexemple de la longueur de la rectrice centrale des individus mles de la glinotte huppe, la distribution des frquences observes est reprsente par un histogramme avec en ordonne les effectifs ni et en abscisse les limites de classe de la variable tudie.
5 Indicateurs numriques
Le dernier niveau de description statistique est le rsum numrique dune distribution statistique par des indicateurs numriques ou paramtres caractristiques.
Remarque : Ces derniers reprsentent une transition entre la statistique purement descriptive et lestimation des paramtres qui caractrisent les distributions de probabilit (chapitre 6).
5.1
Indicateur de position
Ces paramtres ont pour objectif dans le cas d'un caractre quantitatif de caractriser lordre de grandeur des observations.
5.1.1
La moyenne arithmtique
Soit un chantillon de n valeurs observes x1, x2, .,xi,.,xn dun caractre quantitatif X, on dfinit sa moyenne observe x comme la moyenne arithmtique des n valeurs : 1 n x = xi n i=1
12
D. Mouchiroud (17/10/2002)
......................................................................................................................................................................................................
Remarque : Une des proprits de la moyenne arithmtique est que la somme des carts la
(x i x ) = 0
i=1
Si les donnes observes xi sont regroupes en k classes deffectif ni (caractre continu regroup en classe ou caractre discret), il faut les pondrer par les effectifs correspondants: k 1 k x = ni x i avec n = ni n i=1 i =1
Exemples :
Dans le cas de ltude du dimorphisme sexuel de la glinotte huppe, la longueur moyenne de la rectrice principale du mle juvnile est : dans le cas des donnes non groupes :
x=
i =1
ni xi
dans le cas des donnes groupes o les valeurs xi correspondent aux valeurs mdianes des classes,
= 7 960
do
x=
Remarque : La moyenne obtenue aprs regroupement des donnes en classe dans lexemple de la longueur de la rectrice centrale diffre lgrement en raison dune perte dinformation. Si lchantillonnage nest pas de type alatoire simple, les deux moyennes peuvent tre trs diffrentes.
5.1.2
La mdiane
La mdiane, Me, est la valeur du caractre pour laquelle la frquence cumule est gale 0,5 ou 50%. Elle correspond donc au centre de la srie statistique classe par ordre croissant, ou la valeur pour laquelle 50% des valeurs observes sont suprieures et 50% sont infrieures.
13
D. Mouchiroud (17/10/2002)
......................................................................................................................................................................................................
Dans le cas o les valeurs prises par le caractre tudi ne sont pas regroupes en classe, si n est impair, alors n = 2m + 1 et la mdiane est la valeur du milieu Me = xm+1. si n est pair, alors n = 2m et une mdiane est une valeur quelconque entre xm et xm+1. Dans ce cas il peut tre commode de prendre le milieu. Dans le cas o les valeurs prises par le caractre tudi sont groupes en classe, on cherche la classe contenant le ne/2 individu de lchantillon. En supposant que tous les individus de cette classe sont uniformment rpartis lintrieur, la position exacte du ne/2 individu de la faon suivante par interpolation linaire : n 2 Ni (voir dmonstration gomtrique) M e = xm + ( xm +1 xm ) ni avec xm : limite infrieure de la classe dans laquelle se trouve le ne/2 individu (classe mdiane). xm+1 : limite suprieure de la classe dans laquelle se trouve le ne/2 individu (classe mdiane). ni : effectif de la classe mdiane Ni. : effectif cumul infrieur xm n : taille de lchantillon
Exemple :
Dans le cas de la distribution de la longueur de la rectrice centrale de la glinotte hupe, la valeur de la mdiane est : Cas des donnes non groupes : n = 50 donc Me [x25, x26] soit Me [158mm, 159mm] ou Me =158,5mm Cas des donnes groupes : n=50, la 25me valeur se situe dans la classe [155-160[ qui contient les individus de 12 28. do avec Lm = 155 mm, fm= 17 individus, fmcum. = 11 individus et i = 5mm Me = 155 +
Remarque : La mdiane ne sapplique quaux chelles ordinales, dintervalles et de rapport, car elle ncessite un ordre linaire entre les variables.
Si la distribution des valeurs est symtrique, la valeur de la mdiane est proche de la valeur de la moyenne arithmtique. Me x 14
D. Mouchiroud (17/10/2002)
......................................................................................................................................................................................................
5.1.3
Le mode
Le mode, Mo dune srie statistique est la valeur du caractre la plus frquente ou dominante dans l'chantillon. Le mode correspond la classe de frquence maximale dans la distribution des frquences.
On peut identifier le mode comme la valeur mdiane de la classe de frquence maximale ou bien effectuer une interpolation linaire pour obtenir la valeur exacte du mode comme suit : ii (voir dmonstration gomtrique) M o = xm + s + i avec xm : limite infrieure de la classe deffectif maximal i : intervalle de classe (xm+1 xm) i : Ecart deffectif entre la classe modale et la classe infrieure la plus proche s : Ecart deffectif entre la classe modale et la classe suprieure la plus proche
Exemple : Dans le cas de la distribution de la longueur de la rectrice centrale de la glinotte huppe, la valeur du mode est : Valeur approche : La classe de frquence maximale est [155,160[ avec ni = 17 do Mo = 157,5 mm Valeur exacte :
Mo = 155 +
Si la distribution des valeurs est symtrique, la valeur du mode est proche de la valeur de la moyenne arithmtique. Mo x
5.1.4
15
D. Mouchiroud (17/10/2002)
......................................................................................................................................................................................................
Inconvenients
- Fortement influence par les valeurs extrmes de la v.a., - Reprsente mal une population htrogne (polymodale). - Se prte mal aux calculs statistiques, - Suppose lqui-rpartition des donnes - Ne reprsente que la valeur qui spare lchantillon en 2 parties gales.
Mdiane
- Pas influence par les valeurs extrmes de la v.a., - Peu sensible aux variations damplitude des classes, - Calculable sur des caractres cycliques (saison, etc.) o la moyenne a peu de signification. - Pas influence par les valeurs extrmes de la v.a., - Calculable sur des caractres cycliques (saison, etc.) o la moyenne a peu de signification, - Bon indicateur de population htrogne.
Mode
- Se prte mal aux calculs statistiques, - Trs sensible aux variations damplitude des classes, - Son calcul ne tient compte que des individus dont les valeurs se rapprochent de la classe modale.
Exemples :
Reprsentation graphique des trois indices de position sur lexemple de la distribution de la longueur de la rectrice centrale de la glinotte huppe.
16
D. Mouchiroud (17/10/2002)
......................................................................................................................................................................................................
Dans le cas o le caractre tudi se distribue selon une loi normale Laplace-Gauss, alors, la moyenne x , la mdiane Me et le mode Mo prennent la mme valeur.
Il existe dautres paramtres de position comme la moyenne quadratique ou la moyenne gomtrique qui ne seront pas dvelopps dans ce cours.
5.2
Indicateurs de dispersion
Ces paramtres ont pour objectif dans le cas d'un caractre quantitatif de caractriser la variabilit des donnes dans lchantillon. Les indicateurs de dispersion fondamentaux sont la variance observe et lcart-type observ.
5.2.1
La variance observe
Soit un chantillon de n valeurs observes x1, x2, .,xi,.,xn dun caractre quantitatif X et soit x sa moyenne observe. On dfinit la variance observe note s2 comme la moyenne arithmtique des carrs des carts la moyenne.
s =
1 n (xi x )2 n i= 1
Pour des commodits de calcul, on se sert du thorme de Knig que nous dmontrons dans un cas particulier.
Voici pourquoi :
Soit do do
A=
i =1
( xi x )2 = (xi2 2 x i x + x 2 ) = x i2 2 x i x + x 2
i= n 2 i =n
i =1
A = xi 2 x x i + nx
i =1 i= n i=1 2 2 2 i =1 i= n
i =1
2 i= n i =1
or
2
x
i =1
i =n
i =1
i =1
i =1
= nx
A = xi 2 nx + nx = xi nx
2 2
ainsi A = xi nx
17
D. Mouchiroud (17/10/2002)
......................................................................................................................................................................................................
1 i =n 2 s = xi x2 n i=1
2
Dans le cas de donnes regroupes en k classes d'effectif ni (variable continue regroupe en classes ou variable discrte), la formule de la variance est la suivante :
s2 =
1 i =k ni ( xi x )2 n i=1
Exemple :
Dans le cas de ltude du dimorphisme sexuel de la glinotte huppe, la variance observe de la longueur de la rectrice centrale du mle juvnile est :
cas des donnes non groupes :
2 i
x
i =1
2
i =n
= 1263647 et x = 158,86 mm
s =
i =n i =1
n x
i
= 1269012,5 et x = 159,20 mm
s2 =
D. Mouchiroud (17/10/2002)
......................................................................................................................................................................................................
Remarque : De part sa dfinition, la variance est toujours un nombre positif. Sa dimension est le carr de celle de la variable. Il est toutefois difficile dutiliser la variance comme mesure de dispersion car le recours au carr conduit un changement dunits. Elle na donc pas de sens biologique direct contrairement l'cart-type qui sexprime dans les mmes units que la moyenne.
5.2.2
Coefficient de variation
La variance et lcart-type observe sont des paramtres de dispersion absolue qui mesurent la variation absolue des donnes indpendamment de lordre de grandeur des donnes. Le coefficient de variation not C.V. est un indice de dispersion relatif prenant en compte ce biais et est gal :
C.V. = 100s
x
Exprim en pour cent, il est indpendant du choix des units de mesure permettant la comparaison des distributions de frquence dunit diffrente.
Exemple : Le coefficient de variation des longueurs de la rectrice centrale des glinottes huppes mles juvniles est gal :
C.V . =
19