Vous êtes sur la page 1sur 45

Statistiques de Base

Chapitre 5. Statistique descriptive

Introduction

La statistique est une mthode scientifique qui consiste runir des


donnes chiffres sur des ensembles nombreux, puis analyser,
commenter et critiquer ces donnes. Il ne faut pas confondre la statistique
qui est la science qui vient dtre dfinie et une statistique qui est un
ensemble de donnes chiffres sur un sujet prcis.

Les premires statistiques correctement labores ont t celles des


recensements dmographiques. Ainsi le vocabulaire statistique est
essentiellement celui de la dmographie.

Les ensembles tudis sont appels population. Les lments de la


population sont appels individus ou units statistiques. La population est
tudie selon un ou plusieurs caractres.

Les statistiques descriptives peuvent se


rsumer par le schma suivant :

POPULATION

ECHANTILLON

Caractristiques
de
Lchantillon

Echantillonnage statistique
Pour recueillir des informations sur une population statistique,
lon dispose de deux mthodes :
- la mthode exhaustive ou recensement o chaque individu
de la population est
tudi selon le ou les caractres tudis.
- la mthode des sondages ou chantillonnage qui conduit
nexaminer quune
fraction de la population, un chantillon.

Dfinition:
Lchantillonnage
reprsente
lensemble des oprations qui ont pour objet de
prlever un certain nombre dindividus dans une
population donne.

Pour que les rsultats observs lors dune tude


soient gnralisables la population statistique,
lchantillon doit tre reprsentatif de cette
dernire, cest dire quil doit reflter fidlement
sa composition et sa complexit. Seul
lchantillonnage
alatoire
assure
la
reprsentativit de lchantillon.

Un chantillon est qualifi dalatoire lorsque


chaque individu de la population a une
probabilit connue et non nulle dappartenir
lchantillon.
Le cas particulier le plus connu est celui qui
affecte chaque individu la mme probabilit
dappartenir lchantillon.

Echantillonnage alatoire simple


Lchantillonnage alatoire simple est une
mthode qui consiste prlever au hasard et de
faon indpendante, n individus ou units
dchantillonnage dune population N individus.
Chaque individu possde ainsi la mme
probabilit de faire partie dun chantillon de n
individus et chacun des chantillons possibles de
taille n possde la mme probabilit dtre
constitu.

Les caractres statistiques


Dfinition: On appelle caractre statistique
simple toute application X : P R avec P un
ensemble fini appel population; tout lment
de P sappelle un individu.
Le caractre dsigne une grandeur ou un attribut,
observable sur un individu et susceptible de varier
prenant ainsi diffrents tats appels modalits.

Le caractre dsigne une grandeur ou un


attribut, observable sur un individu et
susceptible de varier prenant ainsi diffrents
tats appels modalits.
On appelle modalit toute valeur :
xi X (P)
telle que : X (P) = {x1 ,x2 ,x3 ,;.., xi ,;., xk} avec
k nombre de modalits diffrentes de X

Exemple
Lors des recensements, les caractres
tudis sont lge, le sexe, la qualification
professionnel, etc. Le caractre sexe
prsente deux modalits alors que pour la
qualification professionnelle, le nombre de
modalits va dpendre de la prcision
recherche.

Les caractres qualitatifs


Mesures dans une chelle nominale, les
modalits sont exprimables par des noms et ne
sont pas hirarchises. Un caractre nominal
peut tre dichotomique sil ne peut prendre que
deux modalits.
Exemple: la couleur du pelage, les groupes
sanguins, les diffrents nuclotides de lADN, la
prsence
ou
labsence
dun
caractre
(dichotomique), etc.

Mesures dans une chelle ordinale: les


modalits traduisent le degr dun tat
caractrisant un individu sans que ce degr ne
puisse tre dfini par un nombre qui rsulte
dune mesure. Les modalits sont alors
hirarchises.
Exemple: le stade dune maladie.

Les caractres quantitatifs


Le caractre est discret sil peut prendre seulement certaines
valeurs dans un intervalle donn. En gnral il rsulte dun
comptage ou dnombrement.
Exemple : le nombre de petits par porte, le nombre de cellules
dans une culture, le nombre daccidents pour une priode donne,
etc.
Remarque : Attention, un caractre quantitatif discret peut rsulter
de la transformation dun caractre nominal (ex. comptage des
individus porteurs ou non dun caractre).
Le caractre est continu sil peut thoriquement prendre nimporte
quelle valeur dans un intervalle donn. En gnral il rsulte dune
mesure.
Exemple : le poids, la taille, la glycmie, le rendement, etc.

Liens avec les concepts


probabilistes

Reprsentation des donnes


Il existe plusieurs niveaux de description statistique : la
prsentation brute des donnes, des prsentations par
tableaux numriques, des reprsentations graphiques et
des rsums numriques fournis par un petit nombre de
paramtres caractristiques.

Sries statistiques
Une srie statistique correspond aux diffrentes modalits dun
caractre sur un chantillon dindividus appartenant une
population donne.
Le nombre dindividus qui constituent lchantillon tudi sappelle la
taille de lchantillon.

Exemple
Afin dtudier la structure de la population de glinottes
huppes (Bonasa umbellus) abattues par les chasseurs
canadiens, une tude du dimorphisme sexuel de cette
espce a t entreprise.
Parmi les caractres mesurs figure la longueur de la
rectrice centrale (plume de la queue).
Les rsultats observs exprims en millimtres sur un
chantillon de 50 mles juvniles sont nots dans la
srie ci-dessus :

Tableaux statistiques
Le tableau de distribution de frquences est un mode
synthtique de prsentation des donnes. Sa
constitution est immdiate dans le cas dun caractre
discret mais ncessite en revanche une transformation
des donnes dans le cas dun caractre continu.

Frquences absolues, relatives et


cumules
A chaque modalit du caractre X, peut
correspondre un ou plusieurs individus dans
l'chantillon de taille n.
On appelle effectif de la modalit xi, le nombre
ni o ni est le nombre dindividu
tel que X() = xi
On appelle frquence de la modalit xi, le
nombre fi tel que fi =ni /n

Remarque : Parfois on peut rencontrer le terme de


frquence relative pour les frquences.
Le pourcentage est une frquence exprime en pour
cent. Il est gal 100 fi.
Lemploi des frquences ou frquences relatives savre
utile pour comparer deux distributions de frquences
tablies partir dchantillons de taille diffrente.
On appelle frquences cumules ou frquences
relatives cumules en xi, le nombre fi cum tel que fi cum
= f 1+f2++fi
Remarque : On peut noter que n1+;+nk=n et
f1+f2+;+fk=1.

Caractres quantitatifs discrets

Dans le cas dun caractre quantitatif discret,


ltablissement de la distribution des donnes observes
associes avec leurs frquences est immdiate.

Exemple
La ccidomyie du htre provoque sur les feuilles de
cet arbre des galles dont la distribution de
frquences observes est la suivante :

Caractres quantitatifs continues


Dans le cas d'un caractre quantitatif continu,
ltablissement du tableau de frquences implique
deffectuer au pralable une rpartition en classes des
donnes. Cela ncessite de dfinir le nombre de classes
attendu et donc lamplitude associe chaque classe ou
intervalle de classe.
En rgle gnrale, on choisit des classes de mme
amplitude. Pour que la distribution en frquence est un
sens, il faut que chaque classe comprenne un nombre
suffisant de valeurs (ni).
Diverses formules empiriques permettent dtablir le
nombre de classes pour un chantillon de taille n.

La rgle de STURGE : Nombre de classes = 1+ (3,3 log n)

La rgle de YULE : Nombre de classes = 2,5

L'intervalle entre chaque classe est obtenu ensuite de la manire


suivante :
Intervalle de classe = (X max - X min) / Nombre de classes
avec X max et X min, respectivement la plus grande et la plus petite valeur
de X dans la srie statistique.

Exemple

Dans le cadre de ltude de la population de glinottes huppes (Bonasa


umbellus), les valeurs de la longueur de la rectrice principale peuvent tre
rparties de la faon suivante :

Reprsentations graphiques
Les reprsentations graphiques ont lavantage de
renseigner immdiatement sur lallure gnrale de la
distribution.
Elles facilitent linterprtation des donnes recueillies.

Caractres quantitatifs discrets


Pour
les
caractres
quantitatifs
discrets,
la
reprsentation graphique est le diagramme en btons
o la hauteur des btons correspond leffectif ni
associ chaque modalit du caractre xi.

Caractres quantitatifs continus


Pour les caractres quantitatifs continus, la reprsentation
graphique est lhistogramme o la hauteur du rectangle est
proportionnelle leffectif ni. Ceci nest vrai que si lintervalle de
classe est constant. Dans ce cas laire comprise sous lhistogramme
savre proportionnelle leffectif total. En revanche lorsque les
intervalles de classe sont ingaux, des modifications simposent
pour conserver cette proportionnalit. Dans ce cas, en ordonne, au
lieu de porter leffectif, on indique le rapport de la frquence sur
lintervalle de classe. Ainsi la superficie de chaque rectangle
reprsente alors leffectif associ chaque classe.

Indicateurs numriques
Le dernier niveau de description statistique est le rsum numrique
dune distribution statistique par des indicateurs numriques ou
paramtres caractristiques.

Indicateur de position
Ces paramtres ont pour objectif dans le cas d'un caractre quantitatif de
caractriser lordre de grandeur des observations.

La moyenne arithmtique: Soit un chantillon de n valeurs observes x1,


x2, ;.,xi,;.,xn dun caractre quantitatif X, on dfinit sa moyenne
observe comme la moyenne arithmtique des n valeurs :

( x1 + x2 + ... + xn )
x=
n

La mdiane: La mdiane, Me, est la valeur du caractre pour


laquelle la frquence cumule est gale 0,5 ou 50%. Elle
correspond donc au centre de la srie statistique classe par ordre
croissant, ou la valeur pour laquelle 50% des valeurs observes
sont suprieures et 50% sont infrieures.
Dans le cas o les valeurs prises par le caractre tudi ne sont
pas regroupes en classe,
si n est impair, alors n = 2m + 1 et la mdiane est la valeur du
milieu Me = xm+1.
si n est pair, alors n = 2m et une mdiane est une valeur
quelconque entre xm et xm+1. Dans ce cas il peut tre commode de
prendre le milieu.

Exemple : on fait une tude statistique sur les 50 notes attribues par un jury un
examen, voici les rsultats obtenus en classant ces notes par ordre croissant
(variable discrte ).
n = 50 est pair , il faut donc prendre le centre de [9 ; 10]
Utilisons la colonne des effectifs cumuls pour
dterminer la mdiane : il y a 50 notes, la 25me note
est 9 et la 26me : 10.
Voila la rpartition des notes pour comprendre :

01
,142
,1,...,943
,9,9,10
010
,...,
,3
20
1,4
4
4
219
4,19
44
25 notes

25 notes

Dans le tableau il n'y a pas de valeur partageant la


srie statistique en deux groupe de mme effectif , (
l'effectif total est pair ) dans ce cas l'intervalle mdian
est [9;10] et on prendre pour mdiane le centre : 9,5

Mdiane d'une srie continue


Si la variable est continue ( regroupement par intervalle des rsultats ) le calcul de la
mdiane se fait autrement :
Utilisons la colonne des effectifs cumuls pour
dterminer la mdiane : il y a 50 notes, 50 % de l'effectif
total c'est 25, la mdiane est ici la note correspondant
l'effectif cumul 25.
D'aprs la colonne "effectif cumul" :
18 personnes ont moins de 8
30 personnes ont moins de 12
La mdiane se trouve donc dans l'intervalle [8;12[ ( appele classe mdiane ) on va la
dterminer par interpolation linaire.
Les points A, M, B sont aligns ce qui se traduit par les
droites (AM) et (AB) ont mme coefficient directeur (ou
on utilise le thorme de Thals dans le triangle bleu )
:

Le mode, Mo dune srie statistique est la valeur du


caractre la plus frquente ou dominante dans
l'chantillon. Le mode correspond la classe de
frquence maximale dans la distribution des frquences.
Une rpartition peut tre unimodale ou plurimodale
(bimodale, trimodale;), si deux ou plusieurs valeurs
de la variable considre mergent galement.

Indicateurs de dispersion
Variance: Soit un chantillon de n valeurs observes x1, x2,
;.,xi,;.,xn dun caractre quantitatif X et soit x sa moyenne
observe. On dfinit la variance observe note s2 comme la
moyenne arithmtique des carrs des carts la moyenne.

1 n
1 n 2
2
s = ( xi x) = xi x
n i =1
n i =1
2

Dans le cas de donnes regroupes en k classes


d'effectif ni (variable continue regroupe en classes ou
variable discrte), la formule de la variance est la
suivante :

1 k
1 k
2
2
s = ni ( xi x) = ni xi x
n i =1
n i =1

1 k
x = ni xi
n i =1

i =1

=n

Lcart-type observ correspond la racine


carre de la variance observe:
1 k
1 k
2
2
s= s =
ni ( xi x) =
ni xi x

n i =1
n i =1