Académique Documents
Professionnel Documents
Culture Documents
ET DE LA FORMATION CONTINUE
SN101/1
BIOSTATISTIQUE 1
STATISTIQUES DESCRIPTIVES UNE OU DEUX VARIABLES
CHAPITRE I.
ELEMENTS DE STATISTIQUE ET DE BIOSTATISTIQUE
1. INTRODUCTION A LA STATISTIQUE
PARTIE EXERCICES
CHAPITRE II
CHAPITRE III.
INFORMATIQUE ET STATISTIQUE : Pr-requis, mise niveau et apprentissages
PLANCHE DACTIVITES
QUELQUES STATISTICIENS
BIBLIOGRAPHIE
1. INTRODUCTION A LA STATISTIQUE
Les statistiques ont pour origine le besoin des tats pour grer rationnellement leurs
ressources. Pour cela, il tait ncessaire aprs collecte d'informations (ncessit de techniques
de quantification ; production de donnes nombreuses, organises en tableaux) de disposer de
mthodes permettant de dfinir les variations, les volutions, les ressemblances ou les
diffrences entre rgions, entre annes, entre catgories.
Exemple de problmes :
Dnombrement des populations humaines : recensements
Dnombrement des terres et leur rpartition.
Calcul et rpartition des impts.
Ces techniques se sont mises en place grce au dveloppement du calcul des probabilits au
18me sicle; puis, au 19me sicle grce lmergence des mthodes statistiques. Il s'agissait
au dpart de l'tude mthodique des faits sociaux par des procds numriques : classements,
dnombrements, inventaires chiffrs, recensements, destins renseigner et aider les
gouvernements dans leurs prises de dcisions.
Ce module est une initiation aux notions fondamentales de statistique descriptive (non
paramtrique et paramtrique). Il explicitera les procds classiques de la statistique une
dimension, uni-modale, bimodale et uni-varie qui permettent de rsumer et danalyser
linformation recueillie sur chaque caractre (variable (continue ou discrte, qualitative ou
quantitative)) pris isolment. Ce module de Biostatistique 1, vise initier les tudiants aux
statistiques et prsenter brivement la premire tape de lanalyse des donnes : la
description. Lobjectif poursuivi dans une telle analyse est de 3 ordres :
- tout dabord, obtenir un contrle des donnes et liminer les donnes aberrantes,
- ensuite, rsumer les donnes (opration de rduction) sous forme graphique ou numrique,
- enfin, tudier les particularits de ces donnes
Ce module reprend les lments de bases des statistiques descriptives en y introduisant une
approche plus probabiliste. Les mthodes statistiques sont orientes vers des tudes
classiques destimation et dhypothse, de manire satisfaire les conditions d'applications
des mthodes de l'infrence (approche dductiviste). Il fourni des outils statistique qui
permettent d'tendre ou de gnraliser, dans certaines conditions, les conclusions obtenues
par la statistique descriptive partir de la fraction des individus (chantillon) que l'on a
observ ou tudi exprimentalement, l'ensemble des individus constituant la population.
L'objectif de ce module de statistique infrentielle est de fournir des rsultats relatifs une
population partir de mesures statistiques ralises sur des chantillons ou de comparer
statistiquement et de faon significative si des chantillons sont identiques ou non selon un
ou plusieurs paramtres ou tests (indpendance, hypothses, estimation,).
Ce module complte les modules de biostatistique I et II. Il sera centr sur ltude
multifactorielle qui fournit des mthodes visant dcrire linformation globale dont on
dispose quand on considre les caractres tudis dans leur ensemble. Les interrelations entre
les caractres et leurs effets sur la structuration de la population seront pris en considrations.
LAnalyse en Composantes Principales (ACP) et lAnalyse Factorielle des Correspondances
(AFC) ont pour but de rvler ces interrelations entre caractres et de proposer une structure
de la population. Un des intrts majeurs de ces analyses est de fournir une mthode de
reprsentation dune population dcrite par un ensemble de caractres dont les modalits sont
quantitatives (mesures continues), pour une ACP, ou qualitatives (pour une AFC).
Toute tude statistique peut tre dcompose en deux phases au moins : le recueil ou la
collecte des donnes statistiques, et leur analyse ou leur interprtation.
Nous appellerons donnes les valeurs obtenus et rfrences suite une investigation ou une
tude ralise (mesures, observations, enqutes,).
Le recueil des donnes peut tre ralis soit par la simple observation des phnomnes, soit
par l'exprimentation, c'est--dire en provoquant volontairement l'apparition de certains
phnomnes contrls.
Exemple : le rle de quelques substances (N, P, K) dans la production de biomasse chez les
vgtaux.
Lorsque les donnes sont trs nombreuses, ou particulirement difficiles obtenir, il sera
ncessaire pour la mise en oeuvre rationnelle du recueil de dfinir des mthodes appropries
de collecte. Il s'agira de plans d'chantillonnage ou de plans d'exprience dont la mise en
oeuvre sera fonction du type de problme que l'on est amen rsoudre.
Les conditions (de validit) sont lies aux hypothses faites sur la population contenant les
individus et sur la faon dont ont t prises les mesures. Cette phase inductive comporte des
risques d'erreur qu'il convient d'apprcier.
- Lensemble en statistique, est la collection (finie ou infinie) d'units, ou d'lments, sur laquelle
porte l'observation. Pour que cet ensemble soit correctement dfini, il faut lui donner une dfinition
prcise de faon ce que deux personnes diffrentes aboutissent toujours la mme liste
d'lments. L'ensemble des lments observs sera appel E.
- Les lments sont les objets constitutifs de l'ensemble. Ce sont des objets dtermins dont
l'appartenance tel ou tel ensemble E est sans ambigut. Les lments peuvent tre dsigns par
leur position dans le tableau de donnes : 1 pour le premier, i pour un lment quelconque, n pour
le dernier lment, N pour la somme des lments constituant lensemble.
* Exemple :
lment : membre d'une population statistique (spcimen, prlvement d'eau, individu...)
* Question
Quel est l'lment ? Il faut le dfinir de manire pouvoir le reconnatre sans ambigut.
- Population biologique: ensemble des individus d'une mme espce habitant un lieu donn
un moment donn. Notion qui relve davantage de la biologie que de la statistique.
* Question
Quelle est la population biologique ? Il faut spcifier le temps et le lieu.
Exemples gnraux:
- Pour les instituts de sondage, la population tudie sera un ensemble d'hommes et de
femmes occupant une portion dfinie de l'espace (pays, rgion, commune) et l'chantillon "
reprsentatif" sera un nombre limit mais reprsentatif des catgories pertinentes en fonction
La notion dindividu est trs large : les lments dun chantillon ou dune population sont
appels gnralement des individus, cependant cette notion peut tre remplac par plusieurs
dnominations: unit statistique, sujet, objet, lment, observation, mesure, doses,
toutefois, ds que la dnomination est choisi aucune ambigut ne doit persiste.
chantillon : fragment d'un ensemble prlev pour juger de cet ensemble. Fraction de la
population statistique sur laquelle des mesures sont faites pour connatre les proprits de
cette population.
* Question
- quel est l'chantillon ? Quel est son effectif ?
4.3.1. Le caractre, les lments d'un ensemble sont dcrits par un caractre. Cela revient
tablir une correspondance entre chaque lment i de l'ensemble E et l'ensemble X des modalits
ou des valeurs du caractre. La fonction f : E X i xi est une application au sens
mathmatique : chaque lment de E a une modalit (caractre qualitatif) ou une valeur (caractre
quantitatif) et une seule dans X. Ainsi le caractre peut tre dfini comme une des
caractristiques ou des attributs dun individu,
4.3.2. Modalit / Mesure : la modalit (respectivement la mesure) est lune des formes
particulire dun caractre. Les diffrentes situations o les lments de E peuvent se trouver
l'gard d'un caractre qualitatif considr, sont les diffrentes modalits du caractre qualitatif X.
Dans le cas ou le caractre X est quantitatif, les diffrentes situations o les lments de E peuvent
se trouver sont des mesures. Ces modalits ou ces mesures doivent tre la fois incompatibles
(un lment de E ne peut prendre qu'une seule modalit) et exhaustive ( chaque lment de E doit
pouvoir correspondre une modalit de X) de sorte que chaque lment de E ait une modalit et une
seule dans X.
4.3.3. Tableau lmentaire : c'est un tableau simple entre o les lignes correspondent aux
lments de l'ensemble tudi et les colonnes aux caractres (ou variables) dcrivant ces lments
(Tableau 1 (1.1 et 1.2)).
Variables
Observations Variable 1 Variable 2 Variable Variable p
Observation 1
Observation 2
Observation
Observation n
Tableau 1.1 : exemple de tableau de saisie lmentaire
La premire colonne est en principe rserve la liste nominale des lments.
Dans chaque tude statistique il est trs important de considrer la nature des donnes
(observations, caractres, attributs) que l'on va tester. D'elle dpend la nature des oprations
possibles et donc des statistiques utilisables dans chaque situation. Il est donc primordial de
prciser la nature de chaque variable, ou caractre. Il existe deux types de variables (ou
observations, celles-ci peuvent tre soit quantitatives soit qualitatives. Ces variables peuvent
tre mesures do limportance du choix des chelles de mesures, c'est--dire, des rgles
permettant daffecter une valeur chaque individu de la population ou de lchantillon.
4.3.5.1. Variable quantitatif : c'est un caractre auquel on peut associer un nombre c'est--
dire, pour simplifier, que l'on peut "mesurer" (grandeur mesurable). Les diffrentes situations
o peuvent se trouver les lments sont des mesures; elles sont ordonnables et la moyenne a une
signification On distingue alors deux types de caractre quantitatif :
c1 - Dans le cas des dnombrements, la caractristique tudie est une variable discrte ou
discontinue, ne pouvant prendre que des valeurs entires non ngatives (nombre de fruits par
rameau, nombre de ptales par fleur, nombre de ttes de btail..).
Il suffit de compter le nombre d'individus affects par chacune des valeurs de la variable.
Exemple : nombre de ptales par fleur dans un chantillon de 1000 fleurs de Renonculus
repens.
c2 - Dans le cas des mesures, la variable est de nature continue (hauteur, poids, surface,
concentration, temprature..). Les valeurs possibles sont illimites mais du fait des mthodes
de mesure et du degr de prcision de l'appareil de mesure, les donnes varient toujours de
faon discontinue.
c2.1 - L'chelle numrique est caractrise par limportance des valeurs mesures. Le (0)
signifie bien l'absence du phnomne. Exemple : population, taux de fcondit, prcipitations.
c2.2 - L'chelle de rapport ou de taux exprime le rapport entre deux valeurs. Leur total n'a pas
de signification et caractris par l'existence d'un zro absolu et de distances de taille connue
entre deux valeurs quelconque de l'chelle. C'est le cas de la mesure de la masse ou du poids.
En effet, les chelles de mesure des poids en pounds ou en grammes ont toutes deux un zro
absolu et le rapport entre deux poids quelconque d'une chelle est indpendant de l'unit de
mesure (le rapport des poids de deux objets mesurs en pounds et celui de ces mmes objets
mesurs en grammes sont identiques). (Densit de population, proportion une date ou un lieu
donne).
c2.3 - Dans l'chelle d'intervalle, le point zro et l'unit de mesure sont arbitraires mais les
distances entre deux valeurs quelconques de l'chelle sont de taille connue. Une telle chelle
permet de reprer la position de chaque lment par rapport une origine arbitraire. La valeur 0 est donc
conventionnelle et ne signifie pas l'absence du phnomne C'est le cas de la mesure de la temprature
(chelle Fahrenheit ou Celsius), de la Latitude de la Longitude, laltitude, ...
4.3.5.2. Variable qualitative : c'est un caractre qualitatif, dans ce type de variable les
modalits ne sont pas quantifiables (pas mesurables) (couleur des yeux, douleur, ). Ce sont
des noms ou ce qui revient au mme des sigles ou des codes. Les diffrentes modalits ne sont pas
ordonnables. Attention, mme si les modalits sont des codes numriques, les oprations sur les
modalits n'ont aucun sens.
Exemple : type de relief avec trois modalits (plaine, montagne, plateau), ou encore taille dune
niche cologique avec quatre modalits (petite, moyenne, grande, trs grande). Les donnes
qualitatives peuvent tre assimiles au cas des variables discontinues, en supposant que les
diffrentes variantes du caractre qualitatif sont ranges dans un ordre correspondant par
exemple la suite des nombres entiers positifs (diffrentes couleurs, diffrents degrs
d'infection...). Les donnes qualitatives peuvent tre ralises dans deux chelles de mesure :
chelle de rangement et l'chelle nominale. Ces donnes ne sont pas manipulables par
l'arithmtique.
a - Dans l'chelle ordinale (de rangement), on parle dans ce cas de caractre ordinal
(caractres qui peuvent tre exprims sur une chelle ordinale) : dans cette chelle chaque
modalit est explicitement significative du rang pris par chaque individu pour le caractre
considr. Si E possde N lments, les modalits seront 1er, 2eme, 3eme, ... neme. Comme on possde
juste l'ordre des individus, on ne sait rien de l'intervalle des valeurs. Il existe une certaine relation
entre les objets du type plus grand que, suprieur , plus difficile que, prfre ..... Une
transformation ne changeant pas l'ordre des objets est admissible. La statistique la plus
approprie pour dcrire la tendance centrale des donnes est la mdiane.
b - Dans l'chelle nominale, les nombres ou symboles identifient les groupes auxquels divers
objets appartiennent. C'est le cas des numros d'immatriculation des voitures ou de scurit
Ces deux dernires chelles ne permettent que l'utilisation de tests non paramtriques.
4.3.6.1. Les variables indpendantes sont celles qui sont manipules par lexprimentateur
(lappartenance au groupe et nous contrlons les traitements appliqus aux diffrents groupes).
4.3.6.2. Les variables dpendantes sont celles qui sont mesurs, rfrencs, exemple de donnes
(survie, rsistances, tolrance, performance, ).
Fondamentalement, une tude porte sur les variables indpendantes et les rsultats de
ltude (les donnes) sont les variables dpendantes.
Toutes les questions, proprement biologique en relation avec les statistiques, refltent une
proprit fondamentale des systmes biologiques qui est leur variabilit. Cette variabilit est
la somme d'une variabilit exprimentale (lie au protocole de mesure) et d'une variabilit
proprement biologique. On peut ainsi dcomposer la variabilit d'une grandeur mesure en
deux grandes composantes :
- d'une part la variabilit intra-individuelle, qui fait que la mme grandeur mesure chez un
sujet donn peut tre soumise des variations alatoires ;
- d'autre part la variabilit interindividuelle qui fait que cette mme grandeur varie d'un
individu l'autre.
Elle peut tre elle aussi dcompose en deux termes : d'une part les conditions exprimentales
dont les variations entranent un facteur d'alas ; et d'autre part les erreurs induites par
l'appareil de mesure utilis.
La mesure de la pression artrielle peut grandement varier sur un individu donn suivant les
conditions de cette mesure ; il est ainsi recommand de la mesurer aprs un repos d'au moins
15 minutes, allong, en mettant le patient dans des conditions de calme maximal. Cette
recommandation vise minimiser la variabilit due aux conditions exprimentales. La
prcision de l'appareil de mesure est une donne intrinsque de l'appareil, et est fournie par le
constructeur.
- E : reprsente lensemble de tous les individus sur lequel porte ltude statistique
E
- : reprsente le cardinal de E, cest le nombre de donnes (ou dobservations)
rfrences, il correspond leffectif ou la taille qui est gnralement not N. La taille de
lchantillon est leffectif ou le nombre dindividus sur lequel sont ralis effectivement les
observations, cest un sous ensemble de E (dans le cas o E caractrise la population entire),
il correspond gnralement au cardinal E .
- N : reprsente la taille dune population ou dun chantillon, cest un nombre qui dsigne le
nombre dindividu que rassemble un chantillon ou une population.
- Systme de notation
Lorsqu'on mesure la valeur ou observe l'tat d'un certain nombre de variables sur un
lment, on utilise l'une ou l'autre des notations suivantes pour dsigner les variables :
- s'il y a une, deux ou trois variables : x, y et z
- s'il y a plus de trois variables: x1, x2, x3 ... xj ... xp
Les variables sont donc numrotes de la premire, la p-ime, une variable quelconque tant
la jime.
Un jeu de donnes (p.ex. un chantillon) comporte n lments. Un quelconque de ces
lments est le i-ime. Ces lments sont souvent qualifis d'observations ou d'objets.
- lorsqu'on mesure la valeur d'une variable x sur un lment quelconque (le i-ime), on
dsigne cette valeur par xi.
- i varie de 1 n, donc on a les mesures x1, x2, ... xi ... xn.
Si le jeu de donnes consiste en un tableau de n lments dcrits par p variables (tableau n
p), on note:
Il arrive que les lments soient rpartis en k groupes caractriss par une variable
qualitative. Dans ce cas, on peut aussi noter les observations d'une variable par un double
indice, le premier dsignant le numro de l'observation au sein d'un groupe (i-ime lment),
le deuxime dsignant le numro du groupe (gime groupe ou j-ime groupe):
- xig ou encore xij la mesure prise sur le i-ime lment du g-ime (ou j-ime) groupe.
Donc x = x
i =1
i 1 + x2 + ... + xi .. + xn
Si l'on veut faire la somme de tous les lments d'un tableau de n observations et p variables,
on crira:
n p
xij = x11 + x12 + ... + x1i .. + xn1 + x12 + x22 + ... + xij .. + xnp
i =1 j =1
a = a
i =1
i 1 + a2 + ... + ai .. + an = na
(x + a) = na + i =1 xi
n
i
i =1
n n
ax
i =1
i = a xi
i =1
On se sert de ces proprits des sommations pour simplifier ou dvelopper des expressions
comportant des sommations.
f = n
i
i
n
Remarques :
Rq1 : Le pourcentage est une frquence exprime en pour cent. Il est gal 100 fi.
Rq2 : Lemploi des frquences ou frquences relatives savre utile pour comparer deux
distributions de frquences tablies partir dchantillons de taille diffrente.
Remarques
Rq2 : f
i =1
=1
Dfinitions
Soit S une srie statistique une variable de type quantitatif et a une modalit de S. La
frquence cumule croissante associe a est la somme des frquences de toutes les
modalits infrieures ou gales a dans la srie S.
Dans le cas d'une srie S dont les modalits sont regroupes en classes, la frquence cumule
croissante de la classe [a ; b[ est la somme des frquences de cette classe et des classes qui
prcdent (c'est--dire dont les lments sont strictement infrieurs a) s'il y en a.
Remarques
* La frquence cumule croissante de la plus petite modalit ou de la classe laquelle
appartiennent les plus petites modalits est gale la frquence de cette modalit ou de cette
classe;
* La frquence cumule croissante de la plus grande modalit ou de la classe laquelle
appartiennent les plus grandes modalits est gale 1 (ou 100 % pour les frquences
exprimes en pourcentages).
Il existe plusieurs niveaux de description statistique : la prsentation brute des donnes, des
prsentations par tableaux numriques, des reprsentations graphiques et des rsums
numriques fournis par un petit nombre de paramtres caractristiques.
Nous reviendrons sur les reprsentations graphiques et les tableaux respectivement dans les
paragraphes suivants et dans les exemples
Valeurs X1 X2 .. Xp
Effectifs N1 N2 .. Np
Frquences F1 F2 .. Fp
Plutt que rcrire ce tableau on crira souvent : la srie (xi, ni). (On n'indique pas le
nombre de valeurs lorsqu'il n'y a pas d'ambigit). Souvent on notera N l'effectif total de cette
srie donc N = n1+n2+. . .+np. (Voir paragraphe 4.3.3 ; 4.6 Tableau 1 et 2)
Exemple :
La ccidomyie du htre provoque sur les feuilles de cet arbre des galles dont la distribution
de frquences observes est la suivante :
Caractre X :
xi : nombre de galles 0 1 2 3 4 5 6 7 8 9 10
par feuille
ni : nombre de feuilles
portant xi galles 182 98 46 28 12 5 2 1 0 1 0
fi : frq. relative 0,485 0,261 0,123 0,075 0,032 0,013 0,005 0,003 0 0,003 0
fi cum. : frq. Relative 0,485 0,746 0,869 0,944 0,976 0,989 0,994 0,997 0,997 1 1
cumule
Application I.4 : Utiliser le logiciel Excel pour dresser ces tableaux et raliser les calculs
En rgle gnrale, on choisit des classes de mme amplitude. Pour que la distribution en
frquence est un sens, il faut que chaque classe comprenne un nombre suffisant de valeurs
(ni).
Diverses formules empiriques permettent dtablir le nombre de classes pour un chantillon
de taille n.
La rgle de STURGE : Nombre de classe = 1 + (3,3 log n )
La rgle de YULE : Nombre de classe = 2,5 4 n
L'intervalle entre chaque classe est obtenu ensuite de la manire suivante :
Intervalle de classe = (X max - X min) / Nombre de classes
Avec Xmax et Xmin, respectivement la plus grande et la plus petite valeur de X dans la srie
statistique.
A partir de Xmin on obtient les limites de classes ou bornes de classes par addition successive
de lintervalle de classe. En rgle gnral, on tente de faire concider lindice de classe ou
valeur centrale de la classe avec un nombre entier ou ayant peu de dcimales. Toutes les
donnes sont comprises entre Xmin et Xmax et chaque donne appartient une et une seule
classe.
158 152 171 163 140 157 162 171 158 164 163 159 153
160 149 158 152 165 156 162 150 154 155 162 155 164
164 157 159 158 159 153 163 158 174 162 156 151
160 158 162 166 162 164 158 153 165 158 150 160
174 140
IC = = 5,15mm que lon arrondit 5 mm par commodit
6,6
Caractre X :
xi : longueur de la rectrice bornes [140-145[ [145-150[ [150-155[ [155-160[ [160-165[ [165-170[ [170-175[
des classes en mm
Valeur mdiane des classes xi 142,5 147,5 152,5 157,5 162,5 167 ,5 172,5
ni : nombre dindividu par classe 1 1 9 17 16 3 3
de taille xi
fi : frquence relative 0,02 0,02 0,18 0,34 0,32 0,06 0,06
fi cum. : frquence relative 0,02 0,04 0,22 0,56 0,88 0,94 1
cumule (croissante)
Application I.6 : Utiliser le logiciel Excel pour dresser ce tableau, calculer lintervalle des
classes et raliser les calculs
5.2.1. Lhistogramme
Dfinition : L'histogramme consiste faire figurer les effectifs d'une variable par classe de
valeur.
Il est reprsent quand la variable est quantitative continue par des rectangles dont la surface
(et non la hauteur) est proportionnelle aux effectifs.
A partir de la liste des valeurs du tableau des effectifs suivante, construire lhistogramme
correspondant (utiliser le logiciel Excel)
classes effectif
(mettre lunit) (en nombre)
4 3
5 10
6 24
7 16
8 6
9 11
10 14
11 7
12 5
13 2
Tableau deffectifs
Application II.2 : Les classes peuvent tre dfinies dintervalles gaux ou non.
Dans ce dernier cas, seule la surface sera proportionnelle leffectif (et non la hauteur)
Exemple :
Une "bote moustaches" (traduction franaise du terme "Box and Whiskers Plot", ou en
abrg "Box Plot") est une reprsentation graphique de quelques paramtres de distribution
d'une variable, invente par Tukey en 1977. Cest une reprsentation graphique dune variable
quantitative qui permet dapprhender (rsumer une distribution empirique) la dispersion
dun chantillon.
Rappel
(En rfrence au paragraphe 6.1. Paramtre de position et valeurs centrales .)
On appelle intervalle inter-quantiles lintervalle [Q (0,25), Q (0,75)], qui contient la moiti
centrale des valeurs de lchantillon. On appelle intervalle inter-dciles l'intervalle [Q (0,1), Q
(0,9)], qui contient 80% des valeurs centrales de l'chantillon.
Ces intervalles sont la base d'une reprsentation trs compacte de la distribution empirique :
le diagramme en boite (ou bote moustaches, box plot, box-and-whisker plot). Il n'y a pas de
dfinition standardise de cette reprsentation. Elle consiste en une bote rectangulaire, dont
les deux extrmits sont les quartiles. Ces extrmits se prolongent par des traits termins par
des segments orthogonaux (les moustaches). La longueur de ces segments varie selon les
auteurs. Il existe donc plusieurs variantes pour reprsenter les boites moustache, nous
traiterons de celle la plus frquemment utilise. Nous proposons par exemple de fixer la
longueur des segments aux dciles extrmes. On reprsente aussi la mdiane par un trait dans
la bote, et parfois les valeurs extrmes par des points (voir figure ci-dessous).
Pour plus de dtails sur l'utilisation des botes moustaches, voir TD.
Application II.6 : Cration et test dune macro BoxPlot sous Excel voir TD.
Remarque :
La mdiane est une valeur centrale de l'chantillon : il y a autant de valeurs qui lui sont
infrieures que suprieures. Si la distribution empirique de l'chantillon est peu
dissymtrique, comme par exemple pour un chantillon simul partir d'une loi uniforme ou
normale, la moyenne et la mdiane sont proches. Si l'chantillon est dissymtrique, avec une
distribution trs tale vers la droite, la mdiane pourra tre nettement plus petite que la
moyenne. Contrairement la moyenne, la mdiane est insensible aux valeurs aberrantes.
Elle possde une proprit d'optimalit par rapport l'cart absolu moyen.
Quelques exemples
* Exemples de sries univaries
Une srie univarie est forme par une srie de mesures d'une variable quantitative,
gnralement continue (valeurs dcimales), effectues sur un mme chantillon :
Exemple 1 :
- 5 mesures du poids d'un organe (en g) : 14,5 13,2 18,63 15,0 13,33
Eventuellement : on peut avoir faire un variable quantitative discrte (valeurs entires),
pourvu que la notion de moyenne ait un sens par rapport cette variable (ce n'est pas un
"code"):
Exemple 2 :
- 7 mesures du "nombre de poils aux pattes d'une mouche" : 27 28 25 21 28 19 20
Exemple 1 :
- On dispose de deux chantillons de rats males, dont on a mesur le poids corporel (en g):
3 rats TEMOINS : 410 432 417
5 rats TRAITES par un anabolisant : 435 482 457 502 473
Autre situation frquente : on observe le mme chantillon "avant" et "aprs" un traitement :
Exemple 2 :
- On mesure l'hmatocrite (units arbitraires) avant et aprs un traitement anticoagulant :
les mesures AVANT le traitement : 97 103 95,5 102 100
les mesures APRES le traitement : 84 78 90,5 85 76
On peut aussi comparer des chantillons qui diffrent par l'origine bio-gographique, l'ge,
le sexe...
Exemple :
- On dispose de trois chantillons de rats males, dont on a mesur le poids corporel (en g):
3 rats TEMOINS : 410 ; 432 ; 417
5 rats TRAITES par un anabolisant : 435 ; 482 ; 457 ; 502 ; 473
4 rats traits par un PLACEBO : 422 ; 437 ; 395 ; 412
Les statistiques descriptives visent reprsenter des donnes dont on veut connatre les
principales caractristiques quantifiant leur variabilit.
Le but des valeurs centrales est de rsumer en une seule valeur l'ensemble des valeurs d'une
distribution statistique. Il existe quatre valeurs de positions :
- Le mode (Mo),
- La moyenne ( X ou )
- La mdiane ou le mdian (Me ou Md)
- Les fractiles (Quantiles) (Qn)
Parmi ces valeurs les trois premires sont des valeurs de position centrales :
6.1.1. Le mode, ou valeur dominante, est la valeur la plus frquente d'une distribution. Cette
valeur se calcule toujours partir d'un dnombrement des modalits du caractre. Il faut donc
distinguer le cas des caractres discrets et des caractres continus (voir notions de bases).
* Caractre quantitatif continu : Les modalits tant en nombre infini, il est peu probable que
deux lments aient la mme valeur. Dans ce cas, le mode ne peut pas tre dfini directement, il
faut au pralable tablir une partition en classes. Le mode est alors le centre de la classe modale,
c'est dire de la classe qui a la frquence moyenne la plus leve.
Le mode correspond la valeur lue en abscisse du sommet de l'histogramme. Lorsque celui-ci
prsente deux pics spars par un creux, on dit que la distribution est bimodale.
APPLICATION III
Application III. 1 : Cas de calcul des modes :
- Cas 1 : Donnes ranges : le mode est la valeur de la donne qui apparat le plus
frquemment (celle qui a le plus doccurrences) :
140 ; 141 ; 144 ; 144 ; 148 ; 148 ; 152 ; 152 ;152 ; 154 ; 155 ; 158 ; 158 ; 161 ; 170 ; 172
Le mode est 152 car il possde le plus grand nombre doccurrences (il est rfrenc 3 fois)
- Cas 2 : Donnes condenses : le mode est la valeur de la donne qui possde la frquence
la plus leve (relative ou absolue).
Modalits xi (age en annes) 14 16 18 21 22 24 25 Total
Frquences absolues 5 12 10 8 11 7 3 56
Frquences relatives 0,089 0,214 0,179 0,143 0,196 0,125 0,054 1,000
Dans cette srie statistique, le mode est gal Mo = 16 ans
Dans le tableau des classes relatives la longueur de la rectrice de Bonasa umbellus , la classe
modale est [155mm-160mm[. Il est possible de calculer de faon plus prcise le mode en
appliquant la formule suivante :
La moyenne arithmtique, not X ou , est la mesure la plus commune de tendance centrale, elle se
dfinit comme la somme des scores divise par le nombre de scores. Par exemple, en biologie la
moyenne peut tre rsume par la somme des observations divise par leffectif de
lchantillon tudi:
X =
X
N
X i
X = i =1
(X
j =1
j nj)
X =
N
* Moyenne pondre :
(X i pi )
Xp = i =1
n
p
i =1
i
* Proprits de la moyenne
1) Si A = moyenne de X
n
X =n X
i =1
i
( X X )=0
n
i
i =1
( X A)
n
2
i
i =1
Application III.2 :
Illustration
17 Notes
16 Moyenne
15
14
13
12
11
10
1 2 3 4
La moyenne arithmtique donne une valeur telle que la somme des carts (rectangles
jaunes) est nulle
Les nombres a, b, c, d, ... sont dits en progression arithmtique, dans cet ordre, si la
distance qui les spare est constante : b - a = c -b = d - c = ...
2) Exemple
Soit la srie statistique suivante :
valeurs 0 1 2 3 4
effectifs 1 2 1 4 2
0 + 1 + 1 + 2 + 3 + 3 + 3 + 3 + 4 + 4 24
La moyenne est : x = = = 2,4
1+2+1+4+2 10
0 + 21 + 2 + 43 + 24 24
On prfrera crire : x = = = 2,4
1+2+1+4+2 10
3) Calcul de la moyenne
Soit la srie statistique suivante :
valeurs x1 x2 xp
effectifs n1 n2 np
Remarque :
Si les donnes ont t regroupes en classes, on ne peut calculer la valeur exacte de la
moyenne. On peut toutefois en dterminer une bonne approximation en remplaant chaque
classe par son milieu.
a) Tableau de frquences
valeurs 12 13 14 15 16
frquences 0,05 0,17 0,43 0,30 0,05
x =
5) Proprits
b) Moyennes partielles
Ex : Sur un patient diabtique aprs 10 prises de sang, le taux moyen de glycmie est rgul
1,25g/l. La valeur de la glycmie la 11me prise est de 0,8 g/l. Quel est le nouveau taux
moyen de glycmie de ce patient ?
- Calculons la somme des 10 prises de sang = 1,25 x 10 = 12,5 g/l
- Calculons la nouvelle somme des 11 prises de sang = 1,25 x 10 + 0,8 = 13,3 g/l
- Calculons la nouvelle moyenne des 11 prises de sang = 13,3/11 = 1,20g/l
Cas gnral : Si on runi deux groupes disjoints ayant respectivement pour moyennes et
effectifs, x1 et n1 d'une part, x 2 et n2 d'autre part, la moyenne de l'ensemble sera alors :
n1 x1 + n2 x2
x =
n1 + n2
Application III.3 : Calculer des moyennes en utilisant le logiciel Excel et calculer la moyenne de
lexemple 2 de lApplication III.2 :
6.1.3.2. Mdiane, pour les donnes ranges : Les valeurs du caractre X tant classes par ordre
croissant, la mdiane est la valeur du caractre qui partage l'ensemble dcrit par X en deux sous
ensembles d'effectifs gaux : 50 % des lments ont des valeurs de X suprieures X md et 50%
prennent des valeurs infrieures.
- Mthode
Soit une srie statistique d'effectif total n, range par ordre croissant.
Pour dterminer son rang, il y a 2 cas :
APPLICATION IV
Application IV.1
Cas de donnes discrtes "en vrac" 10, 7, 12, 18, 16, 15, 5, 11, 11, 20, 15, 11, 18, 14
Ordonnons la srie par ordre croissant : 5, 7, 10, 11, 11, 11, 12, 14, 15, 15, 16, 18, 18, 20
14+1
Il y a 14 termes or la valeur de rang est = 7,5.
2
12 + 14
La mdiane est donc la demi somme des 7me et 8me termes : mdiane = = 13
2
6.1.3.3. Mdiane, pour les donnes condenses : La dfinition est la mme, elle correspond dans
ce cas la premire modalit ou valeur dont la frquence relative cumule dpasse 0,500 ou
leffectif cumul dpasse les 50%.
Mthode :
Il faut calculer les frquences ou les effectifs cumuls ds que celle-ci atteint respectivement 0.5 ou
50% il suffit de choisir le nombre mi chemin entre la modalit ou valeur concerne et la suivante.
81+1
L'effectif total est de 81 or la valeur de rang = 41.
2
La mdiane est donc le 41me terme : mdiane = 3
Application IV.3
classe [0 ; 2[ [2 ; 4[ [4 ; 6[ [6 ; 8]
frquence 10% 38% 45% 7%
frquence cumule 10% 48% 93% 100%
Mthode de calcul
Pour prciser la valeur de la mdiane, il faut supposer que toutes les donnes sont rparties
uniformment (c'est--dire que les donnes sont rparties sur un continuum).
On repre la classe qui contient la mdiane, puis on ralise une interpolation linaire pour estimer
la valeur de celle-ci selon la formule suivante :
0,500 Fmd 1 )
Md = Bmd + ( Lmd
Fmd
O : Bmd : Borne infrieure de la classe mdiane
Fmd-1 : Frquence relative cumule de la classe qui prcde la classe mdiane.
Fmd : Frquence relative de la classe mdiane.
Lmd : largeur, amplitude des classes
Remarques :
Rq1 : Autre mthode de calcul de la mdiane : il est aussi possible de dterminer la
mdiane l'aide des polygones des effectifs cumuls (voir TD)
Rq2 : Proprits de la mdiane : La mdiane est la valeur du caractre qui est la plus proche de toutes les
autres. C'est celle qui minimise les distances en valeur absolue :
N
xi - xmd est minimum si et seulement si xmd est la mdiane du caractre X
i=1
6.1.4.1. Dfinition des quantiles : on appelle quantiles les valeurs du caractre qui dfinissent les
bornes d'une partition en classes d'effectifs gaux.
6.1.4.2. Les quartiles sont les trois valeurs qui permettent de dcouper la distribution en quatre
classes d'effectifs gaux. On les notes XQ1, XQ2 et XQ3
- Q1 : quartile infrieur, 25% des valeurs de la variable lui sont infrieures et 75% lui sont suprieures
- Q2 : mdiane, 50% des valeurs de la variable lui sont infrieures et 50% lui sont suprieures
- Q1 : quartile suprieur, 75% des valeurs de la variable lui sont infrieures et 25% lui sont suprieures
6.1.4.3. Les dciles sont les 9 valeurs de X qui permettent de dcouper la distribution en dix classes
d'effectifs gaux. 0n les note Xd1...Xd9.
- D1 : dcile infrieur, 10% des valeurs de la variable lui sont infrieures et 90% lui sont suprieures
- D2 : 20% des valeurs de la variable lui sont infrieures et 80% lui sont suprieures
- D3 : 30% des valeurs de la variable lui sont infrieures et 70% lui sont suprieures
- D4 :.
- D5 : mdiane, 50% des valeurs de la variable lui sont infrieures et 50% lui sont suprieures
.
- D9 : dcile suprieur, 90% des valeurs de la variable lui sont infrieures et 10% lui sont suprieures
6.1.4.4. Les centiles sont les 99 valeurs de X qui permettent de dcouper la distribution en 100
classes d'effectifs gaux. 0n les note Xc1...Xc99.
Remarques
Les diffrentes mesures de position (quartile, dcile,) ne sont que des cas particuliers des
centiles.
Les centiles sont donc trs utiles pour dterminer les valeurs des autres mesures de positions
6.1.4.5.1. Dtermination des valeurs de la variable partir dun rang centile donnes.
C : rang du centile (le rang est donne, quelle est la valeur de la variable correspondant ce rang ?)
Exemples :
Soit la srie statistique suivante :
58 ; 59 ; 64 ; 64 ; 64 ; 68 ; 71 ; 71 ; 79 ; 82 ; 82 ; 85 ; 92 ; 92 ; 92 ; 95
- trouver les centiles suivants : C15 ; C40
- trouver les quartiles : Q2 et Q3
Rponses :
N : 16
Fc 1
C = Bc + ( 100 ) Lc
Fc
limites infrieures Fi
des classes (cm) mi ni eff cum fi (freq cum)
130 135 12 12 0,12903 0,1290
140 145 20 32 0,21505 0,344
150 155 24 56 0,25806 0,602
160 165 21 77 0,22581 0,828
170 175 11 88 0,11828 0,946
180 185 5 93 0,05376 1,000
Somme 93 1,00000
La classe contenant C (C80) est la premire classe o Fi > = 80 / 100 = 0,80
100
C80 correspond la classe [160-170[
Fc 1
C = Bc + ( 100 ) Lc
Fc
AN (application numrique)
80
0,828
C 80 = 160 + ( 100 )10 = 168,7619cm
0,22581
0,6 g/l; 0,6 g/l; 0,65 g/l; 0,7 g/l; 0,72 g/l; 0,72 g/l; 0,72 g/l; 0,74 g/l; 0,75 g/l; 0,75 g/l; 0,76 g/l;
0,78 g/l; 0,78 g/l; 0,8 g/l; 0,8 g/l; 0,83 g/l; 0,83 g/l; 0,84 g/l; 0,84 g/l; 0,84 g/l; 0,9 g/l; 0,96 g/l;
1,01 g/l; 1,02 g/l; 1,1 g/l; 1, 15 g/l; 1,16 g/l; 1,18g/l ; 1,2g/l.
Il sagit de trouver le pourcentage des donnes dont la valeur de la glycmie est infrieure
0,96g/l : Cette valeur est la 22 positions (22me valeur de la srie ordonne de faon croissante), il
y a 21 valeurs de la glycmie infrieures 0,96g/l sur un total de 29 valeurs (N= 29),le pourcentage
21
est donc de : 100 ( ) = 72,41% , ainsi le rang centile C de la valeur de la glycmie de
29
0,96g/l est de 72 (la valeur de 0,96g/l de glycmie correspond au centile C72)
Application IV.8
xi (g/l) 0,6 0,65 0,7 0,75 0,8 0,85 0,9 0,95 1 1,05 1,1 1,15 1,2
ni 8 12 24 26 32 32 28 26 21 24 20 18 11
ni (cum) 8 20 44 70 102 134 162 188 209 233 253 271 282
Il sagit de trouver le pourcentage des donnes dont la valeur de la glycmie est infrieure 1,1g/l :
Cette valeur est la 253 positions (253 me valeurs des effectifs cumuls), il y a 233 valeurs de la
glycmie infrieures 1,1g/l sur un total de 282 valeurs (N= 282), le pourcentage est donc de :
233
100 ( ) = 82,62% , ainsi le rang centile C de la valeur de la glycmie de 1,1g/l est de 82
282
(au moins 82% des valeurs de la glycmie sont infrieures 1,1g/l).
xi (g/l) [0,6-0,7[ [0,7-0,8[ [0,8-0,9[ [0,9-1,0[ [1,0-1,1[ [1,1-1,2[ [1,2-1,3[ [1,3-1,4[ [1,4-1,5[ somme
ni 20 18 26 28 29 25 21 20 21 208,00
fi 0,10 0,09 0,13 0,13 0,14 0,12 0,10 0,10 0,10 1,00
ni (cum) 20 38 64 92 121 146 167 187 208
Fi cum 0,10 0,18 0,31 0,44 0,58 0,70 0,80 0,90 1,00
Application numrique
0,81 0,8
100 ( )0,13 + 0,18 = 19,3
0,1
Le rang centile de 0,81g/l est 19, ainsi au moins 19% des donnes sont infrieures 0,81g/l
Application numrique
1,12 1,1
100 ( )0,12 + 0,58 = 60,4
0,1
Le rang centile de 1,12/l est 60, ainsi au moins 60% des donnes sont infrieures 1,12/l
Quand on modifie les valeurs extrmes d'une srie, la moyenne change contrairement la
mdiane qui ne change pas. On dit que la moyenne est "sensible aux valeurs extrmes".
Il arrive que certaines de ces valeurs extrmes soient douteuses ou influent de faon
exagre sur la moyenne. On peut alors, soit calculer une moyenne lague (c'est dire
recalculer la moyenne sans ces valeurs gnantes), soit utiliser la mdiane.
Comment interprter un cart entre la moyenne et la mdiane ?
Soit la srie suivante : 8 9 10 11 12
Ici la moyenne et la mdiane sont identiques : la srie est bien "centre".
Le statisticien Yule (XIXme sicle) a dfini six proprits souhaitables pour les valeurs centrales.
Le tableau ci-dessous permet de montrer les avantages et inconvnients des trois valeurs centrales
(Mode, Mdiane, Moyenne arithmtique)
Les paramtres de dispersion absolue indiquent de combien les valeurs d'une distribution
s'cartent en gnral de la valeur centrale de rfrence. Un paramtre de dispersion absolue
s'exprime toujours dans l'unit de mesure de la variable considre. Les quatre paramtres de
dispersion absolue les plus courants sont :
- l'tendue,
- l'intervalle inter quantile (carts inter quantiles),
- l'cart absolu moyen
- l'cart type.
6.2.1.1 Ltendue de la variation: l'tendue d'une distribution est gale la diffrence entre la
plus grande et la plus petite valeur de la distribution :
Exemple : l'tendue est donne par la valeur minimale et la valeur maximale : dans le cas de
l'exemple prcdent il s'agit de la diffrence : 14 mm - 4 mm = 10 mm
La moyenne et la mdiane sont les estimateurs statistiques du centre dune distribution
Rang 1 2 3 4 5 6 7 8 9 10
Variables 20 21 31 33 34 36 36 39 40 43
N = 10 Moyenne = 33,3 Mode = 36 Q1 = 31,5 Q3 = 38,25
Mdiane = Q2 35 Q1 arrondi = 32 Q3 arrondi = 39
Semi Interquartile = 3,5=4
29,8 < 50% des valeurs < 36,8
Rappel Qn correspond la donne dont le rang est lentier qui suit la formule
N
C : rang du centile : Il correspond la donne dont le rang est lentier qui suit :
100
Q1 et Q3 correspondent respectivement au C25 et C75
Calculs :
N= 10 (nombre de donnes pour le caractre tudi), la Moyenne = 33,3
N
- Pour rechercher la donne correspondant au Q1, (au centile 25), il suffit de calculer
100
10 x 25
= 2,5 de prendre lapproximation suprieure ce qui correspond au 3me rang et donc la
100
donne 31
N
- Pour rechercher la donne correspondant au Q3, (au centile 75), il suffit de calculer
100
10 x75
= 7,5 de prendre lapproximation suprieure ce qui correspond au 8me rang et donc la
100
donne 39
Q3 Q1 Q75 Q25 39 31
Donc : Q = = = = 4 (sur Excel = 3,5)
2 2 2
Interprtation : Contenu de la valeur de la moyenne = 33,3 il y statistiquement 50% des valeurs
de la srie numrique comprise entre 29,8 et 36,8
Moyenne Q < 50% des valeurs < et Moyenne + Q
Variables 40 45 48 52 56 58 66 70 Total
ni (effectif) 8 6 12 24 26 28 15 8 127
ni Cumul 8 14 26 50 76 104 119 127
nixi 320 270 576 1248 1456 1624 990 560 7044
Total eff 127
Moyenne 55,46
Mode 8
Calculs :
N= 127 (nombre de donnes pour le caractre tudi),
N= 8 + 6 + 12 ++8 = 127, la Moyenne = 7044/127 =55
N
- Pour rechercher la donne correspondant au Q1, (au centile 25), il suffit de calculer
100
127 x 25
= 31,75 de prendre lapproximation suprieure ce qui correspond la valeur cumule 50,
100
(il suffit de choisir dans les effectifs cumuls la valeur qui est suprieure 31,75 ce qui correspond
la valeur cumule 50) puis par correspondance dterminer la variable qui correspond cette
valeur cumule. Ainsi la valeur cumule 50 correspond la variable 52 => Q1 (centile 25) =52
- Pour rechercher la donne correspondant au Q3, (au centile 75), il suffit de calculer :
N 127 x75
= = 95,25
100 100
Puis, de prendre lapproximation suprieure, ce qui correspond la valeur cumule 104, (il suffit
de choisir dans les effectifs cumuls la valeur qui est suprieure 95,25 ce qui correspond la
valeur cumule 104) puis par correspondance dterminer la variable qui correspond cette valeur
cumule. Ainsi, la valeur cumule 104 correspond la variable 58 => Q3 (centile 75) = 58
Q3 Q1 Q75 Q25 58 52
Donc : Q = = = = 3 (sur Excel = 3)
2 2 2
Interprtation : Compte tenu de la valeur de la moyenne = 55, il y statistiquement 50% des
valeurs de la srie numrique comprises entre 52 et 58
Moyenne Q < 50% des valeurs < et Moyenne + Q
6.2.1.4.1. Ecart absolu moyen ou Ecart Moyen Absolu EMA : Ce paramtre est la moyenne
arithmtique de la valeur absolue des carts la moyenne. Il correspond la moyenne des valeurs absolues
de chaque donne par rapport la moyenne.
a) Donnes ranges :
Lcart absolu moyen est la moyenne des distances mesures positivement (en valeur absolue) entre les
donnes et la moyenne.
xi x
EMx = i =1
Exemple :
Poids (kg) 65 66 67 68 68 69 70 70 71 71 71 72 73 74 74 75 75 75
N= 18 ; Moyenne = 70,77kg
ni xi x n
EMx = i =1
N
ce qui quivaut avec les frquences la formule EMx =
i =1
fi xi x
b) Donnes groupes en classes : le calcul de EMA sexprime par lune des 4 formules
suivantes :
n n
ni xi x ni mi x
EMx = i =1
ou EMx = i =1
N N
fi mi x
n
EMx = fi xi x ou EMx=
i =1 i =1
Soit deux sries de microscopes produits dans deux usines diffrentes. Nous dsirons juger de
la standardisation de chacune des deux sries. Je choisis de comparer le poids maximal de
chaque microscope.
- si les carts la moyenne sont faibles la production est standardise
- si les carts la moyenne sont levs, la production est peu standardise
a - Variance : La variance, note (x) est la moyenne du carr des carts la moyenne.
( xi x) 2
( x
)2 = i =1
La variance n'est pas un paramtre de dispersion absolue mais plutt une mesure globale de la
variation d'un caractre de part et d'autre de la moyenne arithmtique (quantit d'information). Pour
obtenir un paramtre de dispersion absolue, on effectue la racine carre de la variance, appel
cart-type et que l'on note x
La variance pour des donnes ranges ou groupes en classe devient :
ni ( xi x) 2
( x
)2 = i =1
b - Ecart-type : L'cart type, not x est la racine carr de la moyenne du carr des carts la
moyenne, c'est dire la racine carre de la variance.
( xi x) 2
x
= ( x
)2 = i =1
L'cart-type est une mesure de dispersion par rapport la moyenne qui intgre les valeurs
algbriques des carts la moyenne et qui pourra, ce titre tre rintroduite dans des calculs
algbriques ultrieurs. Elle prsente de plus l'avantage d'avoir une signification probabiliste que
ne possde pas l'cart absolu moyen. La thorie des probabilits permet en effet d'estimer la chance
qu une valeur d'tre loigne de la moyenne de plus d'un certain nombre d'cart-types.
Lorsqu'une distribution est gaussienne (on dit aussi "normale") les probabilits de trouver les valeurs a une
distance donne de la moyenne sont les suivantes :
_ _
68.3 % des valeurs sont comprises entre (x-x) et (x-x)
_ _
95.5 % des valeurs sont comprise entre (x-2x) et (x+2x)
_ _
99.7 % des valeurs sont comprises entre (x-3x) et (x+3x)
Figure 5: Reprsentation graphique dune distribution normale (Loi de Gauss ou Loi Normale)
ni ( xi x) 2
x
= ( x
)2 = i =1
Figure 6: Densits de lois gaussiennes ayant une mme variance mais des moyennes diffrentes
Figure 7 : Densits de lois gaussiennes ayant une mme moyenne mais des variances diffrentes
La formule de la variance peut tre remplace par une formule plus facile utiliser (formule
pratique de calcul) savoir :
n
(xi2 )
n
( xi x) 2 xi 2
i=1
( )
N
( =
2 i=1
)2 = i =1
=
x N x N
Dmonstration :
( xi x) 2 = ( xi 2 2 xi x + x )
2 2
de mme ( xi x) 2 = xi 2 2 xi x + x ainsi
i =1 i =1
du faite que la moyenne est une constante, la formule peut scrire :
n n n n
( xi x) 2 = ( xi 2 2 xi x + x ) = xi 2 2 x xi + N x
2 2
i =1 i =1 i =1 i =1
n
xi
Or : x = i =1
il suffit alors de le remplacer par sa valeur dans la dernire expression :
N
2
n n
n n n n xi n
xi
( xi x) = xi 2 x xi + N x = xi 2( ) xi + N i =1
2 2 2 2 i =1
i =1 i =1 i =1 i =1 N i =1
N
2 2
n n
n n n n
xi
xi
( xi x) = xi 2 x xi + N x = xi 2 + i =1
2 2 2 2 i =1
i =1 i =1 i =1 i =1 N N
n 2
( xi )
n
n 2
n
i =1
xi 2 i =1
N
n n
( xi )
i =1
( xi x) 2
=
i =1
( xi x ) 2
= xi 2
N ainsi
i =1 i =1 N N
n 2
( xi )
n
i =1
ni xi 2 N i =1
N n n 2
n
ni xi 2 ( xi )
ni xi 2
2
ce qui quivaux
i =1
i =1 =
i =1
x
N N N N
Attention Remarque
Dans le cas dun chantillon la formule de la variance devient :
n 2
( xi)
n
n
i =1
xi 2 i =1
n
( xi x ) 2
i =1
=
n 1 n 1
Un paramtre de dispersion relative est une mesure de l'cart relatif des valeurs d'une distribution
une valeur centrale. C'est donc le rapport d'un paramtre de dispersion absolue divis par une
valeur centrale. On obtient un nombre sans dimension qui peut tre exprim en %.
= (Xq3-Xq1)/ mdiane X
- le coefficient de variation
= x / X
Remarque trs importante : Le calcul d'un paramtre de dispersion relative n'est possible que pour
les caractres quantitatifs positifs (toutes les modalits sont des nombres positifs).
Cv = 100
x
Plus le coefficient de variation est faible, plus la dispersion est faible.
APPLICATION VI
Rponse :
1- Calculs
a- Le nombre moyen d'objets par tombe, revient rechercher la moyenne arithmtique :
elle est gale au nombre total d'objets divis par le nombre total de tombes, soit X = 215/67 =
3,2 objets par tombe
b- Le nombre mdian d'objets par tombe : revient rechercher la mdiane dans une srie
impaire de type (N = 2p + 1), la tombe de rang p + 1, soit la 34me tombe donne ce nombre
mdian, soit 3 objets par tombe
M = 3 : la moiti des tombes possdent de 1 3 objets et la moiti de 3 5 objets.
Il y a 3 objets de la 23me tombe la 38me tombe. Donc dans la 3me tombe il y a 3 objets. La
mdiane est donc gale 3 objets par tombe.
d- Le coefficient de variation exprim en pourcentage est gal 100 fois l'cart-type divis
par la moyenne :
Cv = 100 x (1,08/ 3,2) = 33,75 %
Ce coefficient montre une faible dispersion des valeurs autour de la moyenne.
Exemple de tableau obtenu sur Excel
nombre d'objets nombre de Effectifs cumuls Total partiel des (xi-X) (xi-X)2 pi(xi-X) 2
(xi) tombes (pi) des tombes objets (pixi)
1 1 1 1 -2,21 4,88 4,88
2 22 23 44 -1,21 1,46 32,15
3 15 38 45 -0,21 0,04 0,65
4 20 58 80 0,79 0,63 12,52
5 9 67 45 1,79 3,21 28,87
Total des tombes 67 Total des objets 215 Somme 79,07
Moyenne (objets / tombe) 3,2 Variance 1,18
Mdiane (objets / tombe) 3 Ecart-type (objet) 1,09
Cff. de variation 33,85%
Elments de rponse : Pour calculer la mdiane manuellement: il faut ordonner les sries en
fonction du nombre dossements.
Nombre Sries classes par ordre - Pour les 10 sries (nombre paire de
d'ossements dossements croissant sries) :
322 S7 Rang 1 Le rang est entre 5 et 6 soit la mdiane =
355 S4 Rang 2 (1107+1151)/2 = 1129 ossements
502 S2 Rang 3
903 S8 Rang 4 - Pour les 9 sries (nombre impaire de
sries) :
1107 S3 Rang 5
Le rang est (9+1)/2 soit 5, la mdiane
1151 S6 Rang 6
correspondante est donc = 1107
2011 S1 Rang 7 ossements
2335 S9 Rang 8
2983 S5 Rang 9
16631 S10 Rang 10
Dans certains cas la recherche de la moyenne dune srie statistique entrane des calculs
lourds et fastidieux. Dans de telles situations, il est conseill, voire utile, deffectuer un
changement de variable (ou de code) permettant dacclrer et de simplifier le calcul. Ce
changement peut la fois toucher lorigine et lunit. Par exemple il est possible deffectuer
une transformation linaire de la forme y = ax + b
Lobjectif est de rechercher la meilleure valeur de x pour simplifier au mieux les calculs.
1 xo x xo mx mxo
Cette formule = x peut aussi tre crite = ou encore =
i i i i
Avec
mx est la valeur centrale de chaque classe
mxo est la valeur centrale de la classe centrale
Opration 1 : Une translation de la courbe initiale sur laxe des x qui amnera le sommet
approximativement au niveau de lorigine des coordonnes. Ce dplacement est obtenu en
retranchant une mme valeur xo de chacune des N mesures
Explicitation graphique
=
ni
La moyenne des se calcule selon la formule
N
Ce qui est recherch ce nest pas la mais la moyenne x
Il faut donc revenir au systme initial :
x xo x xo
Si
= il est facile de comprendre que =
i i
C'est--dire que la moyenne dun chantillon dune population x peut-tre calcule selon
lquation suivante : x = i + xo
* Pour calculer la variance V (2) et lcart-type :
Selon le mme principe Vx est calcul selon la formule suivante :
(i ) 2
V = ( ) 2 = i =1
ni (i ) 2
V = ( ) 2 = i =1
Elments de correction :
Les calculs sont reports dans le tableau suivant :
Classes 1130-1140 1140-1150 1150-1160 1160-1170 1170-1180 1180-1190 1190-1200
mi (milieu des classes) 1135 1145 1155 1165 1175 1185 1195
ni (effectifs respectifs) 3 10 15 18 15 10 2
ni x mi 3405 11450 17325 20970 17625 11850 2390
(ksi) -3 -2 -1 0 1 2 3
ni x -9 -20 -15 0 15 20 6
changement des ni 0,3 1 1,5 1,8 1,5 1 0,2
ni
ni = N (3+10+15+18+15+10+2) 73
i (distance interclasse) = 1145-1135 = 1155-1145==1195-1185 10
Choix de la classe :[1160-1170[ 1165
xo = mi 1165
a=1/i=0,1 ; b=-xo/i= 1165/10=116,5
Equation y= ax+b Y= 0,1X- 116,5 Y= 0,1X- 116,5
mx mxo
= 1135 1165 1145 1165 1155 1165 1165 1165
; ; ; ;....
i 10 10 10 10 -3 ; -2 ; -1 ; 0 ; 1 ; 2 ; 3
ni (-9-20-15+0+15 +20+6) -3
Moyenne =
ni
N -3/73 -0,04109589
Exemple 2 :
Calculer la moyenne, la variance et lcart-type de la srie statistique suivante :
classe ni
1200-1250 15
1250-1300 20
1300-1350 38
1350-1400 25
1400-1450 11
Elments de solution
ni
ni = N (15+20+38+25+11) 109
i (distance interclasse) = 1250-1200 ==1450-1400 50
Choix de la classe :[1300-1350[ 1325
xo = mi 1325
a=1/i=1/50=0.02 ; b=-xo/i= 1325/50=26,5
Equation y= ax+b 1 1325 y = 0,02 x 26,5
y= x = 0,02x - 26,5
50 50
mx mxo 1225 1325 1275 1325 1325 1325 1375 1325 1425 1325
= 50
;
50
;
50
;
50
;
50
i -2 ; -1 ; 0 ; 1 ; 2
ni (-30-20+0+25+22) -3
Moyenne : =
ni
-3/109 -0,02752294
N
Moyenne x = i + xo =-0,02752294x50+1325 1323,62385
Variance de
n
ni (i ) 15 (2 (0,0275) 2 20 (1 (0,0275) 2
V = ( ) = 2 i =1
+ + ....
N 109 109 1,36621497
=148,917/109
(x) 2 =Vx = i2() 2 = i2
V 50x50x1,36621497 3415,53741
x = Vx = i V 3415,53741 58,4425993
Astuces :
Dans la pratique, lors de lutilisation de la mthode des il suffit directement :
1/ daffecter la valeur 0 dans la colonne des la classe la plus centrale. Ensuite partir de ce 0
central daffecter les valeurs -1, -2,-3,, -n dans valeurs des classes plus faibles et +1, +2,+3,,
+n dans les valeurs des classes plus fortes.
2/ deffectuer les produits de par les effectifs des classes ;
3/ pour le calcul de la moyenne , de faire le total des de et de les diviser par leffectif total.
4/ dutiliser les formules pour le calcul des moyennes, des variances et des cart-types
Remarque
On dit quune variable est uni-modale si sa distribution ne prsente quun maximum,
bimodale si elle en prsente deux.
Mode Moyenne
Mdiane
Figure 9 : Exemple de dissymtrie droite (distribution tir droite et oblique gauche)
- Les coefficients dasymtrie de Pearson, si les valeurs centrales choisies sont le mode et
la moyenne. Pearson propose deux coefficients :
Remarque : ce coefficient est plutt performant pour des distributions faiblement asymtriques.
32 O Avec
1 = 3 3 = m3 3m1 m2 + 2m 3
n x n x 2
et m3 = n x 3
2
i i
= x ; m2 =
1 i i
m1 =
i i
et 2 = m2 m12 = s 2 n i n i n i
n i =1
1 k
Moment centr dordre r : r = ni ( xi x)
r
n i =1
Si :
1 = 0 symtrie
1 > 0 oblique gauche (ou talement droite)= dissymtrie droite
1 < 0 oblique droite (ou talement gauche)= dissymtrie gauche
leptocurtique
(pointue),
msocurtique
(normale)
platycurtique
(aplatie).
Il scrit :
4 4
2 = =
22 4
Ce coefficient est toujours suprieur ou gal 1. Plus ce coefficient est faible plus la
rpartition est aplatie (plus la courbe est platicurtique). Plus il est grand, plus les observations
sont plus regroupes autour de la moyenne.
2 prend la valeur 3 pour une distribution normale.
Si :
2 = 0 distribution normale, laplatissement est le m^me que celui de la loi de Gauss
rduite
1 < 0 la distribution est plus aplatie (platicurtique)
1 > 0 la distribution est moins aplatie (leptocurtique)
Utiliser les tableaux de distribution suivant et raliser les calculs sur Excel
Rponses
Srie A
1- L'effectif (n) de cet chantillon caractrise sa taille; ici, n = 5
La moyenne est une caractristique de position "centrale" qui est dtermine ainsi :
Les quartiles sont aussi des indicateurs de position, ils divisent chacune des partitions
dfinies par la mdiane en sous-partitions d'effectifs gaux.
1er quartile Q1 = 31,85
3me quartile Q3 =36,81
Rponse Srie B
Bilan Rsultats attendus
Effectif 10
Mdiane 33.6
Etendue 10.2
Moyenne 34
Q1 = 1er quartile 32
Q3 = 3me quartile 36.6
Rponse Srie C
Bilan Rsultats attendus
Effectif 11
Mdiane 35.76
Etendue 13.17
Moyenne 34.67
Q1 = 1er quartile 29.09
Q3 = 3me quartile 37.28
Rponse Srie D
Bilan Rsultats attendus
Effectif 9
Mdiane 36
Etendue 15
Moyenne 34
Q1 = 1er quartile 29.5
Q3 = 3me quartile 39
Activits et Applications
Mthode : on construit des rectangles dont les aires sont proportionnelles aux effectifs des
classes correspondantes. La premire classe ayant une amplitude double de celle des autres
sera reprsente par un rectangle de hauteur 2 fois plus petite. De mme la dernire classe est
reprsente par un rectangle de hauteur 3 fois plus petite.
Solution :
55
50 53
45
40 43
35
Effectifs
30 32
25
27
20
15 19
10 14
12
5
0
10 15 20 25 30 35 40 45 50 55 60 65
Ages
x=
ni xi = 7285 = 36,43 ans
ni 200
IV. Dterminer la mdiane l'aide des polygones des effectifs cumuls :
Solution :
POLYGONES CUMULATIFS
200
180
160
140
Effectifs cumuls
120
100
80
60
40
20
0
36,04
10 15 20 25 30 35 40 45 50 55 60 65
Ages
= = x2
i i i i
n i n i
Solution :
Utilisons ici la deuxime formule :
281062,50
= ( 36,43)
2
200
= 1405,3125 1327,1449
= 78,1676 = 8,841
Lobjectif de cette tude statistique est dtudier sur une mme population de N individus,
deux caractres diffrents (ou modalits diffrentes) et de rechercher sil existe un lien ou
corrlation entre ces deux variables.
Les caractres tudis peuvent tre aussi bien qualitatifs que quantitatifs.
Les rsultats sont gnralement reprsents sous forme dun tableau double entre, appel
tableau deux dimensions, ou tableau crois ou tableau de contingence, ou parfois
tableau de corrlation.
n1 j = n1.
j =1
F
F
E
C
x2 n21 n22 n2j n2z z T
n2 j = n2.
j =1
I
F
S
. M
A
xi ni1 ni2 nij niz z
nij = ni.
j =1
R
G
I
N
xi A
U
. X
xk nk1 nk2 nkj nkz z
nkj = nk .
j =1
D
E
X
Total k k k k
ni. n. j
f i. = et f. j =
N N
Exemple
Reprsentation graphique :
Reprsentation graphique
0,35
0,30
0,25
Frquences
0,20 H
0,15 F
0,10
0,05
0,00
Effet 1 Effet 2 Effet 3
Effets du dosage
Y Calculer respectivement:
X -2 0 2 3 1- Les moyennes marginales de X puis de Y
2 3 4 0 6 2- Les variances et lcart-type marginaux de X puis de
3 4 3 3 2 3- La moyenne conditionnelle de X quand Y=2
4 2 3 3 2 4- La moyenne conditionnelle de Y quand X=3
1 et 2 - Les moyennes marginales, cest le calcul des moyennes des effectifs marginaux.
- les variances et les cart-types marginaux se calculs aussi sur les effectifs marginaux.
Les formules respectives seront utilises :
n n
xi yj
j =1
Pour les moyennes : a) x = i =1
et b) y =
N N
n n
ni xi 2 2
ni yj
j =1
2
2
Pour les variances : c) x = x et d) y = y
2 i =1 2
N N
Applications numriques
n
yj
j =1 (2 x9) + (0 x10) + (2 x6) + (3x10) 24
b) y = = = = 0,68
N 35 35
n
ni xi 2
2 (13x 4 + 12 x9 + 10 x16) 320
c) x = i =1
x = (2,91) 2 = 8,46 = 0,64
2
N 35 35
n
nj yj 2
(150) 2
d) y = i =1
y =
(0,68) 2 = 3,81
2
N 35
(Correction dtaille sur fichier Excel)
Y
yj
j =1 (2 x 4) + (0 x3) + (2 x3) + (3 x 2) 4
y x =3 = = = = 0,33
-2 0 2 3 ni. N 12 12
X=3 4 3 3 2 12
Une premire approche entre de la relation ventuelle des valeurs dune variable X avec des
valeurs dune variable Y est donne par le calcul de la covariance. La covariance du couple
(X, Y), note Cov (X,Y) correspond la moyenne de ( X X )(Y Y )
La formule est donc la suivante :
( xi x)( yi y)
Cov = i =1
( xi x) 2
( xi x)( xi x) ( yi y ) 2
( yi y)( yi y)
( x
)2 =
N
i =1
N
= i =1
N
( Ny
)2 = i =1
= i =1
Dans cette formule la co-variance apparat bien comme une combinaison de la variance de
X et celle de Y.
Par analogie aux formules prcdentes les formules pratiques de calculs de la covariance
peuvent aussi scrire :
n
xiyi
- Pour des donnes non groupes : Cov = xy
i =1
nixiyi
- Pour des donnes groupes : Cov = xy
i =1
Proprits de la covariance
- Cov (X, X) = var (X)
- Cov( X , Y ) ( X ) (Y )
- Le signe de la Cov est un indicateur de la tendance de la relation sens positif ou
ngatif (direction dtirement du nuage de point)
-
Une covariance positive indique une tendance croissante des valeurs de Y en fonction de
X, une covariance ngative une tendance dcroissante
Y
X -2 0 2
0 4 10 5
2 5 12 4
4 2 7 1
Recherchons la covariance (X,Y)
- la moyenne marginale de x
n
yj
j =1 (2 x11) + (0 x 29) + (2 x10) 2
y= = = = 0,4
N 50 50
Cov= 1/50 ((-2x4x0)+(0x10x0)+(2x5x0)+(-2x5x2)+(0x12x2)+(2x4x2)+(-2x2x4)+(0x7x4)+(2x1x4)
Cov (X,Y) = -0,24
6. COEFFICIENT DE CORRELATION
^
Cov( X , Y )
a=
x2
- le coefficient b (ordonne lorigine) se dtermine comme suit :
b= yax
Ainsi la droite de rgression de Y en X a pour quation :
Cov( X , Y )
y = ax + b = (x X ) + Y
x2
Exemple : On rfrence sur huit annes, le nombre despces affectes par une substance
toxique
Annes 01 02 03 04 05 06 07 08
Nb despces 720 735 730 765 790 810 870 895
Exemple : ajuster la srie prcdente l'aide d'une droite en utilisant la mthode des points
moyens.
Mthode : on dtermine l'quation de la droite passant par deux points moyens A et B.
A a pour abscisse la moyenne des abscisses correspondant des annes 1 4 et pour ordonne
la moyenne des espces. De mme B pour les annes 5 8.
Solution : soient A( x A ; y A ) et B ( xB ; y B ) les deux points moyens.
1 + 2 +L+ 4 720 + 735 + 730+ 765
xA = = 2,5 yA = = 737,5
4 4
5 + 6 +L+ 8 790 + 810 + 870 + 895
xB = = 6,5 yB = = 841,25
4 4
Le coefficient directeur de la droite d'quation gnrale y = ax + b est :
y B y A 841,25 737,5
a= = 25,9
xB x A 6,5 2,5
Sur A on a : y A = ax A + b 737,5 = 25,9 2,5 + b
D'o b = 737,5 25,9 2,5 = 672,75
La droite a donc pour quation : y = 25,9 x + 672,75
Cela permet d'effectuer des prvisions. Par exemple, pour l'anne n 9, le nombre despces
affects prvisionnel sera de : y 9 = 25,9 9 + 672,75 = 905,85 (soit environ 906 espces)
a=
X iYi
On calcule ensuite le coefficient directeur de la droite : X i2 avec X i = xi x et
Yi = y i y
(carts par rapport aux moyennes respectives).
Solution : on construit le tableau de calculs suivants :
36 6315
x= = 4,5 y= = 789,375
On a : 8 et 8 coordonnes du point moyen M.
1082,50
a= 25,77
Coefficient directeur de la droite : 42
Sur M on a : y = ax + b 789,375 = 25,77 4,5 + b
D'o b = 789,375 25,77 4,5 = 673,41
La droite a donc pour quation : y = 25,77 x + 673,41
Cela permet d'effectuer des prvisions. Par exemple, pour l'anne n 9, le CA prvisionnel
sera de : y 9 = 25,77 9 + 673,41 = 906,34 espces (environ 907 espces) lgrement
diffrente de la mthode des points moyens.
Graphique :
On suppose que la forme du " nuage de points " permet d'envisager lgitimement un
ajustement linaire l'aide d'une droite.
La droite a une quation de la forme y = ax + b . Pour chaque xi, on va chercher minimiser
les carrs des carts entre les ordonnes yi du point correspondant de la srie et les ordonnes
des points de la droite yi = axi + b .
1
i i
2
me
Supposons a connu, donc fix. Seul b " bouge ". La fonction du 2 degr
f (b) = ( y i axi b )
2
passe par un minimum quand la drive par rapport b s'annule
( )
( yi axi b) 2 = 0 2 ( yi axi b) = 0 yi a xi Nb = 0
D'o : b =
y i
a
x i
b = y a x avec y =
y i
(moyenne des yi) et
N N N
x=
x (moyenne des xi). Autrement dit, la fonction y = ax + b dont nous cherchons les
i
N
coefficients est telle que y = ax + b , la droite d'ajustement passe donc par le point moyen
M ( x , y ) . On a donc dtermin b en fonction de a.
g (a ) = (Yi aX i )
2
me
Seul a " bouge " et est variable. La fonction du 2 degr passe par un
minimum lorsque la drive par rapport a s'annule.
( )
( Yi aX i ) 2 = 0 2 ( Yi aX i ) X i = 0 X iYi a X i2 = 0
D'o l'on tire :
a=
X Y i i
X i
2
INFORMATIQUE ET STATISTIQUE :
Pr-requis, mise niveau et apprentissages
1.2 Pr requis
- Interface Windows (de prfrence XP ou Vista)
- Interface et fichier Word
- Interface et fichier Excel
- Interface et fichier PDF
- Gestion dimages et de format dimages (jpg, gif, png,...)
- Notion dInternet (navigation, tlchargement, mailing, forum,)
- Gestion de fichiers compresss (Winzip, winrar,..)
OBJECTIF
Ces travaux dirigs sont loccasion dillustrer travers des simulations et des exemples
concrets les diffrentes notions de base de statistique vues en cours. Nous insisterons sur les
rsultats fournis par les logiciels statistiques car ceux-ci sont de plus en plus labors, et les
rsultats quils fournissent sont plus ou moins facilement interprtables. Le logiciel que nous
utiliserons tout le long de ces travaux dirigs est Excel et Exstat.
TABLEAU A TABLEAU C
Adultes Triglycride Primtre Poids de ACTIVITE 1 : Le tableau A
de 18 20 ans du tronc larbre prsente les rsultats dun test de
1 152 358 760 dpistage de triglycrides chez
2 59 375 821 des adultes de 18 20 ans. Avant
3 117 393 928 de faire une analyse statistique,
4 54 394 1009 regrouper ces rsultats sous forme
5 93 360 766
de donnes condenses.
6 176 351 726
7 79 398 1209
8 89 362 750 ACTIVITE 2 : Lors dun examen
9 307 409 1036 mdical, on a voulu mettre en
10 88 406 1094 place un dpistage de lipides
11 299 487 1635 sanguins chez une promotion
12 52 498 1517 dtudiant en mdecine. Le but
13 158 438 1197 tant de sassurer que le taux de
14 98 465 1244 cholestrol moyen des tudiants
15 101 469 1495 est infrieur 190 (taux au dessus
16 71 440 1026 duquel le cholestrol peut tre
17 81 376 912
nocif). Les donnes sont rsumes
18 86 444 1398
19 71 438 1197 dans le tableau B.
20 71 467 1613
21 107 448 1475 ACTIVITE 3 : Les donnes du
22 80 478 1571 tableau C proviennent des
23 47 457 1506 archives dun laboratoire de
24 95 456 1458 recherche. Elles renseignent sur
25 140 389 944 un suivi (de plus de 30 annes) de
26 77 405 1241 lvolution des arbres dune
27 57 405 1023 rserve naturelle. Ces donnes
28 95 392 1067 nous permettent dobtenir des
29 480 327 693
estimations de poids sans avoir
30 94 395 1085
427 1242 couper les arbres pour les peser,
TABLEAU B
Taux de cholestrol 385 1017 mthode destructive et
(30 tudiants) 404 1084 problmatique. Faites une analyse
197 194 137 215 212 416 1151 des relations entre ces 2 variables.
181 155 285 194 175 479 1381 Peut on estimer de faon prcise
190 234 218 207 158 le poids dun arbre dont le
131 201 167 198 115 primtre est gal 525 ?
172 258 170 189 228
233 212 157 216 164
Pour une histoire de la statistique. Tome 1. Insee, Imprimerie Nationale, 593 pp.
- ACHENWALL Gottfried
Juriste allemand (1719 - 1772). Professeur de droit international et de science politique Goettingue,
il diffusa le mot "statistique". Il emprunta ce mot Marton Schmeizel, qui fut son professeur et qui
tait lui-mme lve de Conring.
- ARBUTHNOT J.
Mdecin et crivain cossais (Arbuthnot, Kincardineshire, 1667 - Londres, 1735). Il remarqua que,
parmi les enfants baptiss Londres chaque anne de 1629 1710, le nombres des garons dpassait
toujours celui des filles. Considrant que cel prouvait que les probabilits, pour chaque naissance,
d'obtenir un garon ou une fille n'taient pas gales, il attribua cette ingalit la "Divine Providence".
Certains font remonter les mthodes non paramtriques cette observation. 1710. An argument for
Divine Providence, taken from the constant regularity observ'd in the births of sexes. Phil. Trans. R.
Soc, 27: 186-190.
- ARTHASASTRA
Trait de science politique et conomique rdig par Kautilya, ministre du roi Candragupta du premier
Empire indien des Maurya (IVe sicle avant notre re). Il est remarquable, entre autre, par la
description des techniques perfectionnes de recensement de la population et de statistiques.
- BODIN Jean
Economiste et philosophe franais (Angers, 1530 - Laon, 1596). Dans son trait Methodus ad facilem
historiarum cognitionem, il a montr l'importance de la connaissance de l'histoire pour la
comprhension du droit et de la politique. Economiste, il a analys le phnomne de la monte des
prix au XVIe sicle en relation avec l'apport des mtaux prcieux d'Amrique (Rponse aux paradoxes
de Malestroit).Dans son trait de science politique (La Rpublique, 1576), thorie de la monarchie
absolue, il dmontre l'intrt de l'ide de dnombrement, base de la statistique descriptive. Cette ide
connatra un grand succs et sera reprise, plagie sans que les emprunteurs citent leur source; ainsi le
Miroir des Franois de N. de Montand (1581) et le Trait de l'conomie politique d'Antoine de
Montchrtien (1615).
- CONRING Hermann
Juriste allemand (1606 - 1632). Professeur de droit public Helmstedt, il introduisit pour la premire
fois l'enseignement de la statistique l'Universit. Ses notes de cours (Examen rerum publicarum
potiorum totius urbis) furent publi en 1667. Il y dcrit de nombreux pays europens et non europens,
sans apporter de donnes chiffres. La statistique est la science de la constitution de l'tat, mais elle est
purement descriptive.
- FISHER Ronald
Statisticien anglais (1890 - 1962). partir de ses exprimentations agronomiques, il tenta de montrer
que, mme si les postulats de normalit relevaient souvent de l'abus de confiance, cela ne dtriorait
pas trop la validit des conclusions. Dans ce cadre, il fut l'un des premiers dvelopper les tests de
permutations des rangs ou de randomisation avec Pitman et Welch. The design of experiments. Oliver
& Boyd, Edimbourg, 1935.
- KAUTILYA
Ministre du roi Candragupta, fondateur de la dynastie et du premier Empire indien des Maurya (313 -
226). Il rdigea un trait de science politique et d'conomie. Il justifie le recours aux recensements, la
statistique et au cadastre pour remplir son rle de planificateur. Il montre l'intrt port par les empires
asiatiques (populationniste) au dnombrement de leur population.
- PITMAN EJG.
Il fut l'un des premiers dvelopper les tests de permutations des rangs ou de randomisation avec
Fisher et Welch. Significance tests that may be applied to samples from any population. J. R. Stat.
Soc., Suppl., 4: 119-130, 1937. Significance tests that may be applied to samples from any population.
III. The analysis of variance test. Biometrika, 29: 322-335, 1938.
- PLAYFAIR William
XIXe sicle. Voyageur, dessinateur, statisticien, conomiste, inventeur. Il inventa la mthode
d'expression des faits statistiques par des procds gomtriques. La premire illustration de la
mthode graphique a t donn dans Commercial and political atlas 1786. Il prsente deux types de
graphiques : des courbes et des histogrammes. Le nom de ce dernier a t invent par Pearson en 1895.
Il prsente les graphes circulaires et les diagrammes sections dans Statistical breviary 1801.
- QUETELET Adolphe
Statisticien belge (1796 -1874). Il fut un disciple de Laplace. Il recherchait des lois dterministes et
esprait calculer les caractristiques de "l'homme moyen", c'est--dire de dcouvrir l'essence (le type)
de l'homme. Les variations n'taient que des "erreurs" autour de la moyenne. Il joua un rle minent
dans la cration de la statistique mathmatique.
- SPEARMAN Charles
Psychologue et statisticien anglais (Londres, 1863 - Londres, 1945). Fondateur de la psychologie
diffrentielle, il mis au point la mthode mathmatique de l'analyse factorielle (1904). Il admit que la
russite une tche (test) est dtermine par une aptitude gnrale, le facteur g (intelligence globale)
intervenant dans toutes les preuves psychologiques et une aptitude spcifique la tche particulire.
Il justifia, d'un point de vue thorique, l'usage d'une chelle linaire de Q.I., que Binet avait propos
comme un simple guide empirique, sur l'analyse factorielle elle-mme. Il s'enferma dans de profondes
erreurs conceptuelles dont la principale fut le rification de l'intelligence. Il identifia un concept
nbuleux, socialement dfini, comme l'intelligence une "chose" possdant une localisation prcise
dans le cerveau et un degr d'hritabilit. Il tait alors possible de mesurer cette chose et de la rduire
un chiffre unique permettant de classer les individus en fonction de la quantit qu'ils en possdent
(Q.I.).
Il proposa le coefficient de corrlation de rangs qui porte son nom, premier test de statistique
nonparamtrique.
The proof and measurement of association between two things. Am. J. Psychol., 15: 72-101, 1904.
The nature of "intelligence" and the principles of cognition. Londres, McMillan, 358p., 1923; Les
aptitudes de l'homme. Leur nature et leur mesure. McMillan, Londres, 1927; Psychology down the
ages. McMillan, Londres, 2 vol., 454 et 355 p., 1937; Spearman C. & J. L. Wynn : Human ability,
McMillan, 198 p., Londres, 1950.
CAPERAA Philippe & VAN CUTSEM Bernard, 1988. Mthodes et modles en statistique
non paramtrique. Expos fondamental. Presses Universit Laval, Dunod, 357 pp.
FISHER R.A., 1946.Statistical methods for research workers, Olivier & Boyd, London.
traduction franaise aux Presses Universitaires.
HAYS W. L., 1963. Statistics for psychologists. Holt, Rinehart & Winston.
LE GUELTE L., LE BERRE M., DAHAN G., RAMOUSSE R. & COULON J. 1983.
Traitement statitistique informatis des donnes en thologie. tudes et analyses
comportementales, 1(4) :202-268.
Pour une histoire de la statistique. Tome 1. Insee, Imprimerie Nationale, 593 pp.
SCHWARTZ D. 1963. Mthodes statistiques l'usage des mdecins et des biologistes. Paris,
Flammarion Mdecine Sciences. SIEGEL Sidney, 1956. Non parametric statistics for the
behavioral sciences , McGraw Hill, 312 pp.
VIGNERON E. 1997. Gographie et statistique. Que sais-je?, PUF. WINER B.J. 1970.
Statistical principles in experimental design. McGraw-Hill, Mladinska Knijiga, p. 672.