Vous êtes sur la page 1sur 96

INSTITUT SUPERIEUR DE LEDUCATION

ET DE LA FORMATION CONTINUE

Dpartement Biologie Gologie

SN101/1

" BIOSTATISTIQUE - 1 "

Cours & Activits : Mondher Abrougui

Anne Universitaire - 2008

Mondher Abrougui Biostatistique I ISEFC - 2008 1


PLAN DU COURS - BIOSTATISTIQUE

BIOSTATISTIQUE 1 = L1 : Statistiques descriptives une ou deux variables


BIOSTATISTIQUE 2 = L2 : Statistiques infrentielles une ou deux variables
BIOSTATISTIQUE 3 = L3 : Statistiques multifactorielles descriptive et infrentielles

BIOSTATISTIQUE 1
STATISTIQUES DESCRIPTIVES UNE OU DEUX VARIABLES

CHAPITRE I.
ELEMENTS DE STATISTIQUE ET DE BIOSTATISTIQUE

1. INTRODUCTION A LA STATISTIQUE

2. OBJECTIF DES MODULES DE BIOSTATIQUE


2.1. Le module biostatistique I : Statistiques descriptives
2.2. Le module biostatistique II : Statistiques infrentielles
2.3. Le module biostatistique III : Statistiques multifactorielles descriptive et infrentielle

3. DEMARCHE GENERALE EN STATISTIQUE


3.1. Lidentification du problme
3.2. Le recueil des donnes
3.3. L'analyse et l'interprtation des donnes

4. NOTIONS DE BASE ET TERMINOLOGIE


4.1. Ensemble / Population / Echantillon / Elment / Individu
4.2. Recensement / Echantillonnage
4.2.1. Le recensement
4.2.2. Lchantillonnage
4.3. Caractre / Modalit / Variable:
4.3.1. Le caractre
4.3.2. Modalit / Mesure
4.3.3. Tableau lmentaire
4.3.4. La variable statistique
4.3.5. Nature des variables statistiques et chelles de mesures
4.3.5.1. Variable quantitatif.
4.3.5.2. Variable qualitative
4.3.5.3. Exemple dillustration des principaux types de descripteurs
4.3.6. Variables dpendantes et indpendantes
4.3.6.1. Les variables indpendantes
4.3.6.2. Les variables dpendantes
4.3.7. La variabilit et l'incertain en biologie
4.3.7.1 La variabilit biologique
4.3.7.2 La variabilit mtrologique
4.3.8. Proprits des variables
4.4. Infrence et risque statistique
4.5. Une dfinition plus explicite de la biostatistique :
4.6. Dnomination mathmatique :

Mondher Abrougui Biostatistique I ISEFC - 2008 2


5. REPRESENTATION DES DONNEES
5.1. Tableaux statistiques
5.2. Reprsentations graphiques et statistique descriptive
5.2.1. Lhistogramme
5.2.1.1. Lhistogramme : paramtres de description (mode et symtrie)
5.2.2. Barre moustache - Box Plot

6. STATISTIQUES DESCRIPTIVES UNIVARIEES


6.1. Paramtre de position et valeurs centrales
6.1.1. Le mode, ou valeur dominante
6.1.2. La moyenne
6.1.2. 1. Calcul de la moyenne par changement dorigine et dunit.
6.1.2.2. Autres indicateurs de moyenne :
6.1.3. La mdiane et la classe mdiane
6.1.3.1. Dfinition gnrale :
6.1.3.2. Mdiane, pour les donnes ranges
6.1.3.3. Mdiane, pour les donnes condenses
6.1.3.4. Mdiane, pour les donnes rparties par classes
6.1.4 Quantiles : Mesures de position statistique en rfrence la mdiane
6.1.4.1. Dfinition des quantiles
6.1.4.2. Les quartiles
6.1.4.3. Les dciles
6.1.4.4. Les centiles
6.1.4.5. Calculs des quantiles
6.1.4.5.1. Dtermination des valeurs de la variable partir dun rang centile donnes.
6.1.4.5.2. Dtermination du rang centile partir dune valeur donne de la variable.
6.1.5. Moyenne et mdiane
6.1.6. Avantages et inconvnients des diffrentes valeurs centrales :
6.2. Paramtre de dispersion
6.2.1. Les paramtres de dispersion absolue
6.2.1.1 Ltendue de la variation
6.2.1.2. Quartile et intervalle interquartile : Mesures de la dispersion statistique en rfrence la mdiane
6.2.1.2.1. L'intervalle interquartile
6.2.1.2.2. L'intervalle inter-dcile
6.2.1.3. Mesures de la dispersion statistique en utilisant lcart semi-interquartile
6.2.1.4. Mesures de la dispersion statistique en rfrence la moyenne arithmtique
6.2.1.4.1. Ecart absolu moyen ou Ecart Moyen Absolu EMA
6.2.1.2.2. Variance et cart-type :
6.2.2. Les paramtres de dispersion relative
6.3 Exercices dApplications avec explicitation et utilisation du logiciel Excel
6.3. Paramtres de forme
6.3.1. Coefficient dasymtrie et de drive
6.3.1.1. Coefficient dasymtrie
6.3.1.2. Coefficient de drive
6.3.2. Coefficient daplatissement

PARTIE EXERCICES

CHAPITRE II

Mondher Abrougui Biostatistique I ISEFC - 2008 3


ETUDE DE DEUX VARIABLES STATISTIQUES - SERIE STATISTIQUE DOUBLE -

1. PRESENTATION DUNE SERIE A DEUX VARIABLES


2. GENERALISATION DES REPRESENTATIONS
3. CALCUL DES FREQUENCES DUNE STATISTIQUE A DEUX VARIABLES
3.1. Frquences relatives partielles
4. CALCUL DES MOYENNES MARGINALES DUNE STATISTIQUE A DEUX VARIABLES
5. COVARIANCE
6. COEFFICIENT DE CORRELATION
7. DROITE DE REGRESSION OU DAJUSTEMENT
7.1. Importance de ltude de corrlation entre 2 variables statistiques
7.2. Droite de rgression linaire

CHAPITRE III.
INFORMATIQUE ET STATISTIQUE : Pr-requis, mise niveau et apprentissages

1. INFORMATIQUE : PRE-REQUIS ET MISE A NIVEAU


1.1. Matriels et interfaces utiles
1.2 Pr requis
1.3 Mise niveau thorique et pratique

2. APPRENTISSAGES INFORMATIQUE ORIENTE STATISTIQUE


2.1. Gestion de donnes numrique et de tableau sur Word et Excel
2.2. Gestion de calculs et de formules statistique dans Excel
2.3. Gestion et laboration de calcul statistique sur Excel
2.4. Gestion et laboration de reprsentations graphiques sur Excel
2.5. Utilisation et insertion de Macro dans Excel
2.6. Reprsentation de sries et calculs statistique (tableau et graphique)
2.7. Ajustement linaire de sries chronologiques avec et sans variations saisonnires.
2.8. Prsentation et principe de logiciel danalyse de donne statistique
2.9. Utilisation Excel et prsentation d XLSTAT comme outil pour statistique descriptive

APPLICATIONS ET TRAVAUX DIRIGES

EXERCICES APPLIQUES : STATISTIQUES ET INFORMATIQUE

PLANCHE DACTIVITES

QUELQUES STATISTICIENS

LEXIQUE FRANAIS / ANGLAIS

BIBLIOGRAPHIE

Mondher Abrougui Biostatistique I ISEFC - 2008 4


CHAPITRE I.

ELEMENTS DE STATISTIQUE ET DE BIOSTATISTIQUE

1. INTRODUCTION A LA STATISTIQUE

Statistique : le terme statistique dsigne la fois :


1) l'ensemble des donnes numriques concernant une catgorie de faits (sens trs ancien). Il s'agit
de l'expression dans sa signification la plus usuelle.
2) l'ensemble des mthodes mathmatiques permettant :
a) de rsumer quantitativement l'information recueillie sur un ensemble d'lments au moyen d'une
investigation exhaustive. C'est la statistique descriptive, qui fait l'objet de ce cours.
b) de gnraliser de grands ensembles d'lments les conclusions tires des rsultats obtenus avec
des ensembles beaucoup plus restreints appels chantillons. C'est la statistique infrentielle ou
probabiliste, qui sera brivement explicite dans ce module et plus explicite dans les modules de
Biostatistique II et III.

Les statistiques ont pour origine le besoin des tats pour grer rationnellement leurs
ressources. Pour cela, il tait ncessaire aprs collecte d'informations (ncessit de techniques
de quantification ; production de donnes nombreuses, organises en tableaux) de disposer de
mthodes permettant de dfinir les variations, les volutions, les ressemblances ou les
diffrences entre rgions, entre annes, entre catgories.

Exemple de problmes :
Dnombrement des populations humaines : recensements
Dnombrement des terres et leur rpartition.
Calcul et rpartition des impts.

Ces techniques se sont mises en place grce au dveloppement du calcul des probabilits au
18me sicle; puis, au 19me sicle grce lmergence des mthodes statistiques. Il s'agissait
au dpart de l'tude mthodique des faits sociaux par des procds numriques : classements,
dnombrements, inventaires chiffrs, recensements, destins renseigner et aider les
gouvernements dans leurs prises de dcisions.

partir de 1843, la statistique dsigne l'ensemble de techniques d'interprtation


mathmatique appliques des phnomnes pour lesquels une tude exhaustive de tous les
facteurs est impossible, cause de leur grand nombre ou de leur complexit. Les statistiques
s'appuient sur les probabilits et sur la loi des grands nombres.

La statistique vise dcrire, rsumer et interprter des phnomnes dont le caractre


essentiel est la variabilit. Elle fournit de la manire la plus rigoureuse possible des lments
d'apprciation utiles l'explication ou la prvision de ces phnomnes, mais elle n'explique
ni ne prvoit aucun d'entre eux (Vigneron 1997). La mthode statistique permet galement
d'prouver la validit de rsultats (obtenus, mesurs, collects) en fonction mme de leur
variabilit, dans les domaines o les variations sont la rgle, c'est--dire les domaines de la
biologie sensu lato, dans celui des sciences de l'environnement galement. La mthode
statistique fournit de ce fait tous les personnels confronts l'interprtation de rsultats
d'observation ou d'exprimentation, un outil d'interprtation adapt aux conditions
particulires de leur domaine d'activit.

Mondher Abrougui Biostatistique I ISEFC - 2008 5


L'attrait des chiffres tient dans la croyance que la mensuration est le critre primordial de
toute tude scientifique (Francis Galton (1822-1911)). Cette fascination rpond l'ide que ce
que nous voyons et mesurons dans le monde n'est que la reprsentation superficielle et
imparfaite d'une ralit cache. Il faut se mfier de cette tendance qui veut que les mesures
abstraites rsumant de grands tableaux de donnes doivent exprimer ncessairement quelque
chose de plus rel et de plus fondamental que les donnes elles-mmes. Tout statisticien doit
faire un effort pour contrebalancer cette tendance. C'est pourquoi toute interprtation
statistique doit prciser clairement quelles donnes (population, chantillon), et quelles
hypothses ont t utilises pour aboutir un certain type de conclusion.

2. OBJECTIF DES MODULES DE BIOSTATIQUE

Lenseignement de la biostatistique est subdivis en 3 modules : Biostatistique I,


Biostatistique II et Biostatistique III. Ces trois modules complmentaires ont pour objectifs de
permettre aux tudiants de dvelopper des comptences qui leur permettront :
- dacqurir et de parfaire la connaissance des principales notions relatives lutilisation des
mthodes statistiques,
- de rsoudre des questions empiriques par lutilisation des tests statistiques,
- de matriser et de complter les notions de bases des statistiques en vue de les appliquer des
exemples spcifiques aux sciences biologiques, prises dans leur sens gnral (biologie, mdecine,
pharmacie, cologie)
- dappliquer ces notions et mthodes sur des donnes biologiques partir de logiciels simples
- dutiliser des logiciels de statistique et dapprendre la lecture de leurs rsultats.

Les statistiques constituent, en biologie, l'outil permettant de rpondre de nombreuses


questions qui se posent en permanence aux biologistes, en voici, titre dexemples quelques
unes :
- Quelle est la valeur normale d'une grandeur biologique, taille, poids, glycmie ?
- Quelle est la fiabilit d'une mesure ou dune observation ?
- Quel est le risque ou lavantage dun traitement?
- Les conditions exprimentales A sont-elles plus efficaces que celles des conditions de B ?
- Les effets de la variable A sont-ils les mmes ou diffrent-ils des effets de la variable B ?

Ces cours visent dvelopper la comprhension conceptuelle des biostatistiques, travers


lapplication, les suppositions sous-jacentes, et linterprtation danalyses statistiques
prsentes avec un minimum de formules et avec lassistance dinterface et de logiciels
informatiques.

2.1. Le module biostatistique I : Statistiques descriptives

Ce module est une initiation aux notions fondamentales de statistique descriptive (non
paramtrique et paramtrique). Il explicitera les procds classiques de la statistique une
dimension, uni-modale, bimodale et uni-varie qui permettent de rsumer et danalyser
linformation recueillie sur chaque caractre (variable (continue ou discrte, qualitative ou
quantitative)) pris isolment. Ce module de Biostatistique 1, vise initier les tudiants aux
statistiques et prsenter brivement la premire tape de lanalyse des donnes : la
description. Lobjectif poursuivi dans une telle analyse est de 3 ordres :
- tout dabord, obtenir un contrle des donnes et liminer les donnes aberrantes,
- ensuite, rsumer les donnes (opration de rduction) sous forme graphique ou numrique,
- enfin, tudier les particularits de ces donnes

Mondher Abrougui Biostatistique I ISEFC - 2008 6


Ce qui permettra ventuellement de choisir des mthodes plus complexes.
Les mthodes descriptives se classent en deux catgories qui souvent sont complmentaires :
la description numrique et la description graphique.

La prsentation synthtique dun grand ensemble de donnes rsultant de ltude de plusieurs


caractres quantitatifs ou qualitatifs sur une population sera traite par le module de
biostatistique III.

2.2. Le module biostatistique II : Statistiques infrentielles

Ce module reprend les lments de bases des statistiques descriptives en y introduisant une
approche plus probabiliste. Les mthodes statistiques sont orientes vers des tudes
classiques destimation et dhypothse, de manire satisfaire les conditions d'applications
des mthodes de l'infrence (approche dductiviste). Il fourni des outils statistique qui
permettent d'tendre ou de gnraliser, dans certaines conditions, les conclusions obtenues
par la statistique descriptive partir de la fraction des individus (chantillon) que l'on a
observ ou tudi exprimentalement, l'ensemble des individus constituant la population.
L'objectif de ce module de statistique infrentielle est de fournir des rsultats relatifs une
population partir de mesures statistiques ralises sur des chantillons ou de comparer
statistiquement et de faon significative si des chantillons sont identiques ou non selon un
ou plusieurs paramtres ou tests (indpendance, hypothses, estimation,).

2.3. Le module biostatistique III : Statistiques multifactorielles descriptive et


infrentielle

Ce module complte les modules de biostatistique I et II. Il sera centr sur ltude
multifactorielle qui fournit des mthodes visant dcrire linformation globale dont on
dispose quand on considre les caractres tudis dans leur ensemble. Les interrelations entre
les caractres et leurs effets sur la structuration de la population seront pris en considrations.
LAnalyse en Composantes Principales (ACP) et lAnalyse Factorielle des Correspondances
(AFC) ont pour but de rvler ces interrelations entre caractres et de proposer une structure
de la population. Un des intrts majeurs de ces analyses est de fournir une mthode de
reprsentation dune population dcrite par un ensemble de caractres dont les modalits sont
quantitatives (mesures continues), pour une ACP, ou qualitatives (pour une AFC).

3. DEMARCHE GENERALE EN STATISTIQUE

Toute tude statistique peut tre dcompose en deux phases au moins : le recueil ou la
collecte des donnes statistiques, et leur analyse ou leur interprtation.

3.1. Lidentification du problme

La phase prliminaire toute approche statistique vise dterminer et identifier le


problme par un ensemble de questionnements qui permettront de dlimiter les investigations
et les diffrentes approches :
Quels sont les objectifs ?
Quelle est la population ou lchantillon tudier ?
Quels sont les caractristiques et les variables ?
Que pourra apporter une tude statistique ?

Mondher Abrougui Biostatistique I ISEFC - 2008 7


3.2. Le recueil des donnes

Nous appellerons donnes les valeurs obtenus et rfrences suite une investigation ou une
tude ralise (mesures, observations, enqutes,).
Le recueil des donnes peut tre ralis soit par la simple observation des phnomnes, soit
par l'exprimentation, c'est--dire en provoquant volontairement l'apparition de certains
phnomnes contrls.
Exemple : le rle de quelques substances (N, P, K) dans la production de biomasse chez les
vgtaux.

Lorsque les donnes sont trs nombreuses, ou particulirement difficiles obtenir, il sera
ncessaire pour la mise en oeuvre rationnelle du recueil de dfinir des mthodes appropries
de collecte. Il s'agira de plans d'chantillonnage ou de plans d'exprience dont la mise en
oeuvre sera fonction du type de problme que l'on est amen rsoudre.

Exemple : la numration des mammifres d'une aire protge : inventaire et recensement.


Il existe de ce fait plusieurs mthodes de collecte des donnes (voir notions de base et
terminologie):

3.3. L'analyse et l'interprtation des donnes

L'analyse statistique se subdivise en deux tapes :

- La statistique dductive ou descriptive : elle a pour but de rsumer et de prsenter les


donnes observes sous la forme la plus accessible (simplification et rduction des
donnes, la fois visuelle et conceptuelle).

- L'analyse inductive ou infrence statistique est l'ensemble des mthodes permettant de


formuler en termes probabilistes un jugement sur une population, partir des rsultats
observs sur un chantillon extrait au hasard de cette population. Les mthodes statistiques
les plus classiques sont celles de l'estimation (estimation par domaine de confiance) et
celles de l'preuve d'hypothse. Leurs conceptions de base sont dues essentiellement
R.A. Fisher (1890 - 1962). Elle permet d'tendre ou de gnraliser, dans certaines
conditions, les conclusions obtenues par la statistique descriptive partir de la fraction des
individus (chantillon) que l'on a observ ou tudi exprimentalement, l'ensemble des
individus constituant la population.

Les conditions (de validit) sont lies aux hypothses faites sur la population contenant les
individus et sur la faon dont ont t prises les mesures. Cette phase inductive comporte des
risques d'erreur qu'il convient d'apprcier.

Ces deux tapes sont interdpendantes. En particulier, l'observation et l'exprimentation


doivent tre organises (protocole) de manire satisfaire les conditions d'applications des
mthodes de l'infrence. L'objectif de la statistique infrentielle est de fournir des rsultats
relatifs une population partir de mesures statistiques ralises sur des chantillons
(prvision, dcision..)

Mondher Abrougui Biostatistique I ISEFC - 2008 8


4. NOTIONS DE BASE ET TERMINOLOGIE

4.1. Ensemble / Population / Echantillon / Elment / Individu

- Lensemble en statistique, est la collection (finie ou infinie) d'units, ou d'lments, sur laquelle
porte l'observation. Pour que cet ensemble soit correctement dfini, il faut lui donner une dfinition
prcise de faon ce que deux personnes diffrentes aboutissent toujours la mme liste
d'lments. L'ensemble des lments observs sera appel E.

- Les lments sont les objets constitutifs de l'ensemble. Ce sont des objets dtermins dont
l'appartenance tel ou tel ensemble E est sans ambigut. Les lments peuvent tre dsigns par
leur position dans le tableau de donnes : 1 pour le premier, i pour un lment quelconque, n pour
le dernier lment, N pour la somme des lments constituant lensemble.

* Exemple :
lment : membre d'une population statistique (spcimen, prlvement d'eau, individu...)
* Question
Quel est l'lment ? Il faut le dfinir de manire pouvoir le reconnatre sans ambigut.

- La population correspond l'ensemble des individus sur lequel porte ltude ou la


prvision, (il est gnralement difficile de ltudier dans sa totalit), et lchantillon
reprsente la fraction de cette population qui est rellement observe ou tudie :

- Population-cible : ensemble des lments viss, en principe, par l'chantillonnage.


* Question
Quelle est la population-cible ? Il s'agit l de la population sur laquelle on aimerait bien que
les conclusions de l'tude portent.

- Population statistique : ensemble des lments effectivement reprsents par


l'chantillonnage. Les lments qui la composent se caractrisent par au moins une
caractristique commune et exclusive qui permet de les distinguer sans ambigut.
* Question
Quelle est la population statistique ? Il faut mentionner la ou les caractristiques qui
permettent de la distinguer de tout autre population statistique.

- Population biologique: ensemble des individus d'une mme espce habitant un lieu donn
un moment donn. Notion qui relve davantage de la biologie que de la statistique.
* Question
Quelle est la population biologique ? Il faut spcifier le temps et le lieu.

- Communaut : ensemble des individus de diverses espces retrouvs dans un espace et un


temps donns. Notion qui relve davantage de la biologie que de la statistique.
- Quelle est la communaut ? Il faut spcifier le temps et le lieu.

Exemples gnraux:
- Pour les instituts de sondage, la population tudie sera un ensemble d'hommes et de
femmes occupant une portion dfinie de l'espace (pays, rgion, commune) et l'chantillon "
reprsentatif" sera un nombre limit mais reprsentatif des catgories pertinentes en fonction

Mondher Abrougui Biostatistique I ISEFC - 2008 9


du problme pos (ge, sexe, catgories socio-professionnelles, origine gographique, etc.)
(Pour la Tunisie, chantillons de 1000 1200 individus pour une population de prs de 10
millions d'habitants).
- Toute l'eau qui s'coule d'une rivire un moment donn constitue la population. Les 20
prlvements de 10 cm3 que l'on va analyser constituent l'chantillon.
- Le sang dune personne peut tre considr comme une population, une prise de sang
comme un prlvement (individu, observation) et lensemble des prlvements sera considr
comme un chantillon.

La notion dindividu est trs large : les lments dun chantillon ou dune population sont
appels gnralement des individus, cependant cette notion peut tre remplac par plusieurs
dnominations: unit statistique, sujet, objet, lment, observation, mesure, doses,
toutefois, ds que la dnomination est choisi aucune ambigut ne doit persiste.

4.2. Recensement / Echantillonnage

4.2.1. Le recensement : qui consiste gnralement en un recueil dinformations auprs de


tous les individus dune population (ce qui est trs difficile dans le cas de la Biostatistique,
mais plus facile dans des tudes dmographique). Il est plus adapt ltude des populations.
Il consiste en un dnombrement de toutes les personnes ou individus ou attributs dune
population dans sa totalit. Il sagit de la source de donnes la plus complte dont on dispose
sur la population. La mthode est trs fastidieuse car rien nest nglig pour tenir compte de
chaque individu. En effet, le recensement est trs important puisquil sagit de la seule
enqute permettant de brosser un tableau dtaill de toute la population. Lenqute ou la prise
de donnes ou le rfrencement des attributs couvre toute la population, ce qui facilite la
comparaison des renseignements enregistrs.

Exemples : population dun pays ; pollution mondiale ; animaux en voie de disparition ;


gnome humain ; .

4.2.2. Lchantillonnage : qui consiste gnralement en un recueil dinformations auprs de


quelques individus ou partie dune population lchantillon , (ce qui est gnralement le
cas en Biostatistique). Parfois lchantillonnage se fait par sondage (cas en gologie
(tremblement de terre), en mdecine)

chantillon : fragment d'un ensemble prlev pour juger de cet ensemble. Fraction de la
population statistique sur laquelle des mesures sont faites pour connatre les proprits de
cette population.
* Question
- quel est l'chantillon ? Quel est son effectif ?

Mondher Abrougui Biostatistique I ISEFC - 2008 10


Figure 1 : Populations et chantillons

chantillon reprsentatif : chantillon qui reprsente fidlement la composition et la


complexit de la population statistique.
- pour tre reprsentatif, un chantillon doit tre alatoire.
- reprsentatif ne veut pas dire "conforme l'ide que le chercheur se fait de la population"!
chantillon alatoire: chantillon prlev de manire ce que chacun des lments de la
population statistique ait une probabilit connue et non nulle d'appartenir cet chantillon.
- un chantillon alatoire est reprsentatif de sa population statistique
- alatoire ne signifie pas "n'importe comment"!
chantillon alatoire simple : prlvement au hasard, de faon indpendante, d'un certain
nombre d'lments de la population statistique. Tous les lments ont la mme probabilit
d'tre inclus dans l'chantillon.

4.3. Caractre / Modalit / Variable:

4.3.1. Le caractre, les lments d'un ensemble sont dcrits par un caractre. Cela revient
tablir une correspondance entre chaque lment i de l'ensemble E et l'ensemble X des modalits
ou des valeurs du caractre. La fonction f : E X i xi est une application au sens
mathmatique : chaque lment de E a une modalit (caractre qualitatif) ou une valeur (caractre
quantitatif) et une seule dans X. Ainsi le caractre peut tre dfini comme une des
caractristiques ou des attributs dun individu,

4.3.2. Modalit / Mesure : la modalit (respectivement la mesure) est lune des formes
particulire dun caractre. Les diffrentes situations o les lments de E peuvent se trouver
l'gard d'un caractre qualitatif considr, sont les diffrentes modalits du caractre qualitatif X.
Dans le cas ou le caractre X est quantitatif, les diffrentes situations o les lments de E peuvent
se trouver sont des mesures. Ces modalits ou ces mesures doivent tre la fois incompatibles
(un lment de E ne peut prendre qu'une seule modalit) et exhaustive ( chaque lment de E doit
pouvoir correspondre une modalit de X) de sorte que chaque lment de E ait une modalit et une
seule dans X.

Mondher Abrougui Biostatistique I ISEFC - 2008 11


En statistique, chaque individu peut tre dfinit par un ensemble dattributs qui le caractrise
dans le contexte dun problme tudi.
La couleur du pelage est un caractre
Les variantes de la couleur du pelage sont des modalits : noir, gris,...
Le sexe est un caractre, ses modalits sont de 2 types : soit male soit femelle
La taille peut prendre plusieurs modalits : 1m ; 1,1m ; 1,2m etc

Autres exemple de caractres :


Le taux de glycmie, la vitesse de coagulation ; la production laitire ;

4.3.3. Tableau lmentaire : c'est un tableau simple entre o les lignes correspondent aux
lments de l'ensemble tudi et les colonnes aux caractres (ou variables) dcrivant ces lments
(Tableau 1 (1.1 et 1.2)).

Variables
Observations Variable 1 Variable 2 Variable Variable p

Observation 1
Observation 2
Observation
Observation n
Tableau 1.1 : exemple de tableau de saisie lmentaire
La premire colonne est en principe rserve la liste nominale des lments.

Tableau 1.2 : Exemples de tableaux de donnes

4.3.4. La variable statistique, chaque attribut (ou caractre ou caractristique) a des


modalits, ou peut sexprimer selon une mesure, celles-ci varient dun individu lautre ou
dun groupe dindividus un autre groupe dindividus. La variable statistique est le nom que
lon donne ces caractres (attributs, caractristiques).

Mondher Abrougui Biostatistique I ISEFC - 2008 12


Explicitation de variable en biologie : caractristique mesurable ou observable sur un
lment (variable propre) ou dans son environnement (variable associe).

4.3.5. Nature des variables statistiques et chelles de mesures

Dans chaque tude statistique il est trs important de considrer la nature des donnes
(observations, caractres, attributs) que l'on va tester. D'elle dpend la nature des oprations
possibles et donc des statistiques utilisables dans chaque situation. Il est donc primordial de
prciser la nature de chaque variable, ou caractre. Il existe deux types de variables (ou
observations, celles-ci peuvent tre soit quantitatives soit qualitatives. Ces variables peuvent
tre mesures do limportance du choix des chelles de mesures, c'est--dire, des rgles
permettant daffecter une valeur chaque individu de la population ou de lchantillon.

4.3.5.1. Variable quantitatif : c'est un caractre auquel on peut associer un nombre c'est--
dire, pour simplifier, que l'on peut "mesurer" (grandeur mesurable). Les diffrentes situations
o peuvent se trouver les lments sont des mesures; elles sont ordonnables et la moyenne a une
signification On distingue alors deux types de caractre quantitatif :

a - Variable discrte ou discontinue : c'est un caractre quantitatif, un tel caractre ne prend


qu'un nombre fini de valeurs (valeur entire dnombrable et sans aucune valeur
intermdiaire). Les diffrentes situations o peuvent se trouver les lments (observations, mesures,
valeurs,) sont des nombres isols dont la liste peut tre tablie a priori. Exemple: (nombre d'enfants,
nombre de ptales dune fleur, nombre de dents,..) : (1 ; 2 ; 3 ; 4 ; 5 ;.10 ; 11 ;)

b - Variable continue : c'est un caractre quantitatif, un tel caractre peut, thoriquement,


prendre toutes les valeurs d'un intervalle de l'ensemble des nombres rels. Toutes les valeurs ne
sont pas dnombrables et ne peuvent pas tre tablit a priori. Ses valeurs sont alors regroupes en
classes (taille, temps, poids, vitesse, glycmie, altitude, surfaces,.) (1,60 m ; 1,61 m ; 1,62
m ;..)

c - Les mesures des donnes ou variables quantitatives comprennent les dnombrements


(ou comptages) et les mesures (ou mensurations).

c1 - Dans le cas des dnombrements, la caractristique tudie est une variable discrte ou
discontinue, ne pouvant prendre que des valeurs entires non ngatives (nombre de fruits par
rameau, nombre de ptales par fleur, nombre de ttes de btail..).

Il suffit de compter le nombre d'individus affects par chacune des valeurs de la variable.
Exemple : nombre de ptales par fleur dans un chantillon de 1000 fleurs de Renonculus
repens.

Nombre de ptales par fleur 3 4 5 6 7


Nombre de fleurs 1 20 959 18 2

c2 - Dans le cas des mesures, la variable est de nature continue (hauteur, poids, surface,
concentration, temprature..). Les valeurs possibles sont illimites mais du fait des mthodes
de mesure et du degr de prcision de l'appareil de mesure, les donnes varient toujours de
faon discontinue.

Mondher Abrougui Biostatistique I ISEFC - 2008 13


Les mensurations peuvent tre ralises dans plusieurs chelles de mesure : lchelle
numrique, l'chelle de rapport, l'chelle d'intervalle. Elles sont manipulables suivant les
oprations de l'arithmtique.

c2.1 - L'chelle numrique est caractrise par limportance des valeurs mesures. Le (0)
signifie bien l'absence du phnomne. Exemple : population, taux de fcondit, prcipitations.

c2.2 - L'chelle de rapport ou de taux exprime le rapport entre deux valeurs. Leur total n'a pas
de signification et caractris par l'existence d'un zro absolu et de distances de taille connue
entre deux valeurs quelconque de l'chelle. C'est le cas de la mesure de la masse ou du poids.
En effet, les chelles de mesure des poids en pounds ou en grammes ont toutes deux un zro
absolu et le rapport entre deux poids quelconque d'une chelle est indpendant de l'unit de
mesure (le rapport des poids de deux objets mesurs en pounds et celui de ces mmes objets
mesurs en grammes sont identiques). (Densit de population, proportion une date ou un lieu
donne).

c2.3 - Dans l'chelle d'intervalle, le point zro et l'unit de mesure sont arbitraires mais les
distances entre deux valeurs quelconques de l'chelle sont de taille connue. Une telle chelle
permet de reprer la position de chaque lment par rapport une origine arbitraire. La valeur 0 est donc
conventionnelle et ne signifie pas l'absence du phnomne C'est le cas de la mesure de la temprature
(chelle Fahrenheit ou Celsius), de la Latitude de la Longitude, laltitude, ...

Ces chelles quantitatives sont compatibles avec l'utilisation de tests paramtriques.

4.3.5.2. Variable qualitative : c'est un caractre qualitatif, dans ce type de variable les
modalits ne sont pas quantifiables (pas mesurables) (couleur des yeux, douleur, ). Ce sont
des noms ou ce qui revient au mme des sigles ou des codes. Les diffrentes modalits ne sont pas
ordonnables. Attention, mme si les modalits sont des codes numriques, les oprations sur les
modalits n'ont aucun sens.
Exemple : type de relief avec trois modalits (plaine, montagne, plateau), ou encore taille dune
niche cologique avec quatre modalits (petite, moyenne, grande, trs grande). Les donnes
qualitatives peuvent tre assimiles au cas des variables discontinues, en supposant que les
diffrentes variantes du caractre qualitatif sont ranges dans un ordre correspondant par
exemple la suite des nombres entiers positifs (diffrentes couleurs, diffrents degrs
d'infection...). Les donnes qualitatives peuvent tre ralises dans deux chelles de mesure :
chelle de rangement et l'chelle nominale. Ces donnes ne sont pas manipulables par
l'arithmtique.

a - Dans l'chelle ordinale (de rangement), on parle dans ce cas de caractre ordinal
(caractres qui peuvent tre exprims sur une chelle ordinale) : dans cette chelle chaque
modalit est explicitement significative du rang pris par chaque individu pour le caractre
considr. Si E possde N lments, les modalits seront 1er, 2eme, 3eme, ... neme. Comme on possde
juste l'ordre des individus, on ne sait rien de l'intervalle des valeurs. Il existe une certaine relation
entre les objets du type plus grand que, suprieur , plus difficile que, prfre ..... Une
transformation ne changeant pas l'ordre des objets est admissible. La statistique la plus
approprie pour dcrire la tendance centrale des donnes est la mdiane.

b - Dans l'chelle nominale, les nombres ou symboles identifient les groupes auxquels divers
objets appartiennent. C'est le cas des numros d'immatriculation des voitures ou de scurit

Mondher Abrougui Biostatistique I ISEFC - 2008 14


sociale (chanes de caractres). Le mme nombre peut tre donn aux diffrentes personnes
habitant le mme dpartement ou de mme sexe constituant des sous-classes. Les symboles
dsignant les diffrentes sous-classes dans l'chelle nominale peuvent tre modifis sans
altrer l'information essentielle de l'chelle. Les seules statistiques descriptives utilisables
dans ce cas sont le mode, la frquence... et les tests applicables seront centrs sur les
frquences des diverses catgories.

Ces deux dernires chelles ne permettent que l'utilisation de tests non paramtriques.

4.3.5.3. Exemple dillustration des principaux types de descripteurs

Figure 2 : Typologie des caractres pour une approche statistique

Mondher Abrougui Biostatistique I ISEFC - 2008 15


Figure 3 : Exemples de variables statistiques et chelles de mesures

Mondher Abrougui Biostatistique I ISEFC - 2008 16


APPLICATION I
Application I.1

Identifiez le type (et le sous-type) des variables suivantes : Rponses

a) Le nombre danimaux par laboratoire ; a) quantitatif discret


b) La niche cologique principale ; b) qualitatif nominal
c) Le modle de matriel utilis ; c) qualitatif nominal
d) La distance en kilomtre entre le prlvement A et le prlvement B ; d) quantitatif continue
e) tre vgtarien ou non ; e) qualitatif ordinal
f) Le temps pass observer le comportement X ; f) quantitatif continue
g) Avoir ou non une rponse; g) qualitatif ordinal
h) Le nombre de frres et soeurs. h) quantitatif discret

4.3.6. Variables dpendantes et indpendantes


En statistique on adopte encore une autre dichotomie pour le concept de variable en parlant de
variables indpendantes et de variables dpendantes.

4.3.6.1. Les variables indpendantes sont celles qui sont manipules par lexprimentateur
(lappartenance au groupe et nous contrlons les traitements appliqus aux diffrents groupes).

4.3.6.2. Les variables dpendantes sont celles qui sont mesurs, rfrencs, exemple de donnes
(survie, rsistances, tolrance, performance, ).

Fondamentalement, une tude porte sur les variables indpendantes et les rsultats de
ltude (les donnes) sont les variables dpendantes.

4.3.7. La variabilit et l'incertain en biologie

Toutes les questions, proprement biologique en relation avec les statistiques, refltent une
proprit fondamentale des systmes biologiques qui est leur variabilit. Cette variabilit est
la somme d'une variabilit exprimentale (lie au protocole de mesure) et d'une variabilit
proprement biologique. On peut ainsi dcomposer la variabilit d'une grandeur mesure en
deux grandes composantes :

Variabilit Totale = Variabilit Biologique + Variabilit Mtrologique

4.3.7.1 La variabilit biologique

Elle peut tre dcompose en deux termes :

- d'une part la variabilit intra-individuelle, qui fait que la mme grandeur mesure chez un
sujet donn peut tre soumise des variations alatoires ;

- d'autre part la variabilit interindividuelle qui fait que cette mme grandeur varie d'un
individu l'autre.

Mondher Abrougui Biostatistique I ISEFC - 2008 17


Variabilit Biologique = Variabilit intra-individuelle + Variabilit interindividuelle

La variabilit intra-individuelle peut tre observe lors de la mesure de la performance d'un


athlte qui n'est pas capable des mmes performances chaque essai, mais qui se diffrencie
des autres athltes (variabilit interindividuelle). En gnral, la variabilit intra est moindre
que la variabilit inter.

4.3.7.2 La variabilit mtrologique

Elle peut tre elle aussi dcompose en deux termes : d'une part les conditions exprimentales
dont les variations entranent un facteur d'alas ; et d'autre part les erreurs induites par
l'appareil de mesure utilis.

Variabilit Mtrologique = Variabilit Exprimentale + Variabilit instrumentale (appareil de mesure)

La mesure de la pression artrielle peut grandement varier sur un individu donn suivant les
conditions de cette mesure ; il est ainsi recommand de la mesurer aprs un repos d'au moins
15 minutes, allong, en mettant le patient dans des conditions de calme maximal. Cette
recommandation vise minimiser la variabilit due aux conditions exprimentales. La
prcision de l'appareil de mesure est une donne intrinsque de l'appareil, et est fournie par le
constructeur.

4.3.8. Proprits des variables

Caractristiques mesurables ou observables.


Propres (attribut de l'lment) ou associes (composante de son environnement).
Alatoires (diffrentes variantes peuvent apparatre, chacune avec une certaine probabilit)
ou
contrles (le chercheur obtient avec certitude la variante dsire, en gnral par
manipulation).
Dpendantes (on cherche en comprendre ou prvoir le comportement) ou indpendantes
(expliquent par hypothse au moins une partie du phnomne tudi).
Simples ou complexes (ex.: rapports, pourcentages...).

Divers types mathmatiques et chelles de variation.

4.4. Infrence et risque statistique

Infrence statistique: gnralisation la population statistique des rsultats d'un test


statistique ralis sur un chantillon reprsentatif de cette population. Cette gnralisation se
fait au risque du statisticien.

Gnralisation la population-cible: lorsque cette dernire est diffrente de la population


statistique, cette gnralisation se fait au risque du biologiste.

Mondher Abrougui Biostatistique I ISEFC - 2008 18


Figure 4 : Reprsentation graphique de diffrentes populations et des risques

4.5. Une dfinition plus explicite de la biostatistique :

La statistique est un ensemble dinstruments scientifiques par lesquels on recherche


expliquer certains phnomnes. Elle se compose de mthodes permettant de recueillir, de
classer, de prsenter et danalyser des observations relatives ces phnomnes pour en
tirer ensuite des conclusions et prendre des dcisions.

En biologie, la statistique est un ensemble de mthodes visant dcrire, rsumer et


interprter des phnomnes dont le caractre essentiel est la variabilit.

4.6. Dnomination mathmatique :

- E : reprsente lensemble de tous les individus sur lequel porte ltude statistique

- : reprsente la population sur laquelle porte ltude statistique,


Si E est une numration exhaustive de tous les individus susceptibles dtre analyss, il peut
tre appel population ou univers et sera not .
Dans le cas contraire, E sera un chantillon de .

E
- : reprsente le cardinal de E, cest le nombre de donnes (ou dobservations)
rfrences, il correspond leffectif ou la taille qui est gnralement not N. La taille de
lchantillon est leffectif ou le nombre dindividus sur lequel sont ralis effectivement les
observations, cest un sous ensemble de E (dans le cas o E caractrise la population entire),
il correspond gnralement au cardinal E .

- N : reprsente la taille dune population ou dun chantillon, cest un nombre qui dsigne le
nombre dindividu que rassemble un chantillon ou une population.

Mondher Abrougui Biostatistique I ISEFC - 2008 19


- p : reprsente lensemble des variables caractrisant les individus sur lequel porte ltude
statistique.

E est de dimension p, si lanalyse de E est faite selon p variables (o p I (entier naturel)).

Exemple : Dans une population E, on tudie 4 variables (w, x, y, et z) :


w : age, x : le sexe, y : la taille et z : le poids. Dans ce cas E est de dimension p, ou de
dimension 4

- Systme de notation
Lorsqu'on mesure la valeur ou observe l'tat d'un certain nombre de variables sur un
lment, on utilise l'une ou l'autre des notations suivantes pour dsigner les variables :
- s'il y a une, deux ou trois variables : x, y et z
- s'il y a plus de trois variables: x1, x2, x3 ... xj ... xp
Les variables sont donc numrotes de la premire, la p-ime, une variable quelconque tant
la jime.
Un jeu de donnes (p.ex. un chantillon) comporte n lments. Un quelconque de ces
lments est le i-ime. Ces lments sont souvent qualifis d'observations ou d'objets.
- lorsqu'on mesure la valeur d'une variable x sur un lment quelconque (le i-ime), on
dsigne cette valeur par xi.
- i varie de 1 n, donc on a les mesures x1, x2, ... xi ... xn.
Si le jeu de donnes consiste en un tableau de n lments dcrits par p variables (tableau n
p), on note:

Il arrive que les lments soient rpartis en k groupes caractriss par une variable
qualitative. Dans ce cas, on peut aussi noter les observations d'une variable par un double
indice, le premier dsignant le numro de l'observation au sein d'un groupe (i-ime lment),
le deuxime dsignant le numro du groupe (gime groupe ou j-ime groupe):
- xig ou encore xij la mesure prise sur le i-ime lment du g-ime (ou j-ime) groupe.

Mondher Abrougui Biostatistique I ISEFC - 2008 20


- Notation somme (sigma)
La lettre grecque sigma majuscule dsigne une sommation (addition de tous les
lments d'un ensemble).
La sommation des valeurs des n observations d'une variable x, soit de tous les xi pour i allant
n
de 1 n, se note: x
i =1
i

Donc x = x
i =1
i 1 + x2 + ... + xi .. + xn

Si l'on veut faire la somme de tous les lments d'un tableau de n observations et p variables,
on crira:

n p
xij = x11 + x12 + ... + x1i .. + xn1 + x12 + x22 + ... + xij .. + xnp
i =1 j =1

Si a est une constante, tous les ai sont gaux. Donc:


n

a = a
i =1
i 1 + a2 + ... + ai .. + an = na

(x + a) = na + i =1 xi
n
i
i =1

n n

ax
i =1
i = a xi
i =1

On se sert de ces proprits des sommations pour simplifier ou dvelopper des expressions
comportant des sommations.

Mondher Abrougui Biostatistique I ISEFC - 2008 21


Application I.2

Simplifier le plus possible l'expression suivante:

Dvelopper le plus possible l'expression suivante:

Mondher Abrougui Biostatistique I ISEFC - 2008 22


- Frquences absolues, relatives et cumules (voir tableau exemple)
Dsign par F ou f La notion de frquence peut tre exprime de plusieurs manires :
* Frquence absolue (effectif)
* Frquence relative (ou frquence)
* Frquences cumules
Variables
Exemples de Frquences x1 x2 x3 x4 Total
Effectif ou Frquence absolue (ni) 8 2 9 3 22
Frquence absolue cumule croissante 8 8+2=10 10+9=19 19+3=22
Frquence absolue cumule dcroissante 22 22-8=14 14-2=12 12-9=3
Frquence relative (fi) 8/22 2/22 9/22 3/22 22/22 = 1
Frquence relative cumule croissante 8/22 8/22+2/22=10/22 19/22 22/22
Frquence relative cumule dcroissante 22/22 = 22/22-8/22 (14-2)/22 (12-9)/22
ou frquence cumule dcroissante 1 =14/22 =12/20 =3/22
Tableau 2 : Exemples explicatifs des frquences
(Ce tableau servira dexemple pour comprendre les notions de frquences)

* Frquences absolues = Effectif


Le terme de frquence absolue dsigne les effectifs : a chaque modalit xi du caractre X,
peut correspondre un ou plusieurs individus dans l'chantillon de taille n. On appelle
effectif (ou frquence absolue) de la modalit xi, le nombre ni o ni est le nombre
dindividu de chacune des modalits
* Frquence relative = Frquences
On appelle frquence de la modalit xi, le nombre fi tel que

f = n
i
i
n
Remarques :
Rq1 : Le pourcentage est une frquence exprime en pour cent. Il est gal 100 fi.
Rq2 : Lemploi des frquences ou frquences relatives savre utile pour comparer deux
distributions de frquences tablies partir dchantillons de taille diffrente.

* Frquences cumules = frquences relatives cumules


On appelle frquences cumules ou frquences relatives cumules en xi, le nombre
i
ficum tel que f i
cum = f
p =1
p

Remarques

Rq1 : la taille de lchantillon est = n


i =1
i =n

Rq2 : f
i =1
=1

Mondher Abrougui Biostatistique I ISEFC - 2008 23


- Fonctions cumulatives
* fonction cumule croissante ou ascendante
* fonction cumule dcroissante ou descendante

Dfinitions
Soit S une srie statistique une variable de type quantitatif et a une modalit de S. La
frquence cumule croissante associe a est la somme des frquences de toutes les
modalits infrieures ou gales a dans la srie S.
Dans le cas d'une srie S dont les modalits sont regroupes en classes, la frquence cumule
croissante de la classe [a ; b[ est la somme des frquences de cette classe et des classes qui
prcdent (c'est--dire dont les lments sont strictement infrieurs a) s'il y en a.

Remarques
* La frquence cumule croissante de la plus petite modalit ou de la classe laquelle
appartiennent les plus petites modalits est gale la frquence de cette modalit ou de cette
classe;
* La frquence cumule croissante de la plus grande modalit ou de la classe laquelle
appartiennent les plus grandes modalits est gale 1 (ou 100 % pour les frquences
exprimes en pourcentages).

5. REPRESENTATION DES DONNEES

Il existe plusieurs niveaux de description statistique : la prsentation brute des donnes, des
prsentations par tableaux numriques, des reprsentations graphiques et des rsums
numriques fournis par un petit nombre de paramtres caractristiques.

Nous reviendrons sur les reprsentations graphiques et les tableaux respectivement dans les
paragraphes suivants et dans les exemples

5.1. Tableaux statistiques


En gnral une srie statistique caractre discret se prsente sous la forme :

Valeurs X1 X2 .. Xp
Effectifs N1 N2 .. Np
Frquences F1 F2 .. Fp

Plutt que rcrire ce tableau on crira souvent : la srie (xi, ni). (On n'indique pas le
nombre de valeurs lorsqu'il n'y a pas d'ambigit). Souvent on notera N l'effectif total de cette
srie donc N = n1+n2+. . .+np. (Voir paragraphe 4.3.3 ; 4.6 Tableau 1 et 2)

Mondher Abrougui Biostatistique I ISEFC - 2008 24


Application I.3 : Caractres quantitatifs discrets
Dans le cas dun caractre quantitatif discret, ltablissement de la distribution des donnes
observes associes avec leurs frquences est immdiat.

Exemple :
La ccidomyie du htre provoque sur les feuilles de cet arbre des galles dont la distribution
de frquences observes est la suivante :
Caractre X :
xi : nombre de galles 0 1 2 3 4 5 6 7 8 9 10
par feuille
ni : nombre de feuilles
portant xi galles 182 98 46 28 12 5 2 1 0 1 0
fi : frq. relative 0,485 0,261 0,123 0,075 0,032 0,013 0,005 0,003 0 0,003 0
fi cum. : frq. Relative 0,485 0,746 0,869 0,944 0,976 0,989 0,994 0,997 0,997 1 1
cumule

La taille de lchantillon tudi est n = 375 feuilles

Application I.4 : Utiliser le logiciel Excel pour dresser ces tableaux et raliser les calculs

Application I.5 : Caractres quantitatifs continus


(Mots cls : Nombre de classes, intervalle entre classe (amplitude), tendu de la variable X)

Dans le cas d'un caractre quantitatif continu, ltablissement du tableau de frquences


implique deffectuer au pralable une rpartition en classes des donnes. Cela ncessite de
dfinir le nombre de classes attendu et donc lamplitude associe chaque classe ou
intervalle de classe.

En rgle gnrale, on choisit des classes de mme amplitude. Pour que la distribution en
frquence est un sens, il faut que chaque classe comprenne un nombre suffisant de valeurs
(ni).
Diverses formules empiriques permettent dtablir le nombre de classes pour un chantillon
de taille n.
La rgle de STURGE : Nombre de classe = 1 + (3,3 log n )
La rgle de YULE : Nombre de classe = 2,5 4 n
L'intervalle entre chaque classe est obtenu ensuite de la manire suivante :
Intervalle de classe = (X max - X min) / Nombre de classes

Avec Xmax et Xmin, respectivement la plus grande et la plus petite valeur de X dans la srie
statistique.
A partir de Xmin on obtient les limites de classes ou bornes de classes par addition successive
de lintervalle de classe. En rgle gnral, on tente de faire concider lindice de classe ou
valeur centrale de la classe avec un nombre entier ou ayant peu de dcimales. Toutes les
donnes sont comprises entre Xmin et Xmax et chaque donne appartient une et une seule
classe.

Mondher Abrougui Biostatistique I ISEFC - 2008 25


Exemple :

Dans le cadre de ltude de la population de glinottes huppes (Bonasa umbellus), les


valeurs de la longueur de la rectrice principale peuvent tre rparties de la faon suivante :

158 152 171 163 140 157 162 171 158 164 163 159 153
160 149 158 152 165 156 162 150 154 155 162 155 164
164 157 159 158 159 153 163 158 174 162 156 151
160 158 162 166 162 164 158 153 165 158 150 160

Dfinition du nombre de classes :

Rgle de Sturge : 1 + (3,3 log 50) = 6,60

Rgle de Yule : 2,5 4 50 = 6,64

Les deux valeurs sont trs peu diffrentes

Dfinition de lintervalle de classe :

174 140
IC = = 5,15mm que lon arrondit 5 mm par commodit
6,6

Tableau de distribution des frquences

Caractre X :
xi : longueur de la rectrice bornes [140-145[ [145-150[ [150-155[ [155-160[ [160-165[ [165-170[ [170-175[
des classes en mm
Valeur mdiane des classes xi 142,5 147,5 152,5 157,5 162,5 167 ,5 172,5
ni : nombre dindividu par classe 1 1 9 17 16 3 3
de taille xi
fi : frquence relative 0,02 0,02 0,18 0,34 0,32 0,06 0,06
fi cum. : frquence relative 0,02 0,04 0,22 0,56 0,88 0,94 1
cumule (croissante)

Application I.6 : Utiliser le logiciel Excel pour dresser ce tableau, calculer lintervalle des
classes et raliser les calculs

Mondher Abrougui Biostatistique I ISEFC - 2008 26


5.2. Reprsentations graphiques et statistique descriptive

Les reprsentations graphiques sont trs Exemple de graphe sous Excel


importantes en statistique descriptive. Elles
ont lavantage de renseigner
immdiatement sur lallure gnrale de la
distribution. Elles facilitent linterprtation
des donnes recueillies. La reprsentation
graphique des donnes montre la forme
gnrale de la distribution et donne une
image de la grandeur des nombres qui
constituent les donnes. Dautres
statistiques simples sont utilises pour
reprsenter le centre de la distribution et les
mesures lies la dispersion des
observations autour de cette tendance
centrale.

Dans cette partie, nous ne prsenterons que Exemple de construction en TD


les cas particuliers de lhistogramme et des
Barres moustaches (Box Plot)
cependant, dautres reprsentations seront
abordes dans les diffrentes parties de ce
fascicule. De plus, plusieurs activits
pratiques de construction (voir TD)
expliciteront les constructions de plusieurs
types de graphes et prsenterons leurs
nombreux avantages (pour plus
dinformations consulter le document
reprsentation graphique du TD).

5.2.1. Lhistogramme

Dfinition : L'histogramme consiste faire figurer les effectifs d'une variable par classe de
valeur.
Il est reprsent quand la variable est quantitative continue par des rectangles dont la surface
(et non la hauteur) est proportionnelle aux effectifs.

Mondher Abrougui Biostatistique I ISEFC - 2008 27


APPLICATION II

Application II.1 - Lhistogramme : exemple

A partir de la liste des valeurs du tableau des effectifs suivante, construire lhistogramme
correspondant (utiliser le logiciel Excel)

classes effectif
(mettre lunit) (en nombre)

4 3
5 10
6 24
7 16
8 6
9 11
10 14
11 7
12 5
13 2
Tableau deffectifs

Application II.2 : Les classes peuvent tre dfinies dintervalles gaux ou non.
Dans ce dernier cas, seule la surface sera proportionnelle leffectif (et non la hauteur)

5.2.1.1. Lhistogramme : paramtres de description


Pour dcrire la forme d'un histogramme on utilise les notions de mode et de symtrie :
le mode est la valeur dominante, dont l'effectif est le plus lev. Un histogramme peut avoir
aucun, un ou plusieurs modes. Dans un histogramme, le mode est le rectangle qui a l'aire la
plus grande.

Mondher Abrougui Biostatistique I ISEFC - 2008 28


La symtrie traduit la distribution des valeurs de part et dautre du ou des modes
Cas dune distribution bimodale asymtrique

Application II.3 : Caractres quantitatifs discrets


Pour les caractres quantitatifs discrets, la reprsentation graphique est le diagramme en
btons o la hauteur des btons correspond leffectif ni associ chaque modalit du
caractre xi.

Mondher Abrougui Biostatistique I ISEFC - 2008 29


Exemple :

Dans lexemple de la ccidomyie du


htre, la distribution des frquences
observes du nombre de galles par
feuille peut tre reprsente par un
diagramme en btons avec en
ordonne les effectifs ni et en abscisse
les diffrentes modalits de la variable
tudie.

Application II.4 : Caractres quantitatifs continus

Pour les caractres quantitatifs continus, la reprsentation graphique est lhistogramme o la


hauteur du rectangle est proportionnelle leffectif ni. Ceci nest vrai que si lintervalle de
classe est constant. Dans ce cas laire comprise sous lhistogramme savre proportionnelle
leffectif total. En revanche lorsque les intervalles de classe sont ingaux, des modifications
simposent pour conserver cette proportionnalit. Dans ce cas, en ordonne, au lieu de porter
leffectif, on indique le rapport de la frquence sur lintervalle de classe. Ainsi la superficie de
chaque rectangle reprsente alors leffectif associ chaque classe.

Exemple :

Dans lexemple de la longueur de


la rectrice centrale des individus
mles de la glinotte huppe, la
distribution des frquences
observes est reprsente par un
histogramme avec en ordonne les
effectifs ni et en abscisse les
limites de classe de la variable
tudie.

Application II.5 : Utiliser le logiciel Excel pour raliser lhistogramme de lapplication 2

Mondher Abrougui Biostatistique I ISEFC - 2008 30


5.2.2. Barre moustache - Box Plot
Remarque : Pour comprendre cette partie il est ncessaire de se rfrer au paragraphe 6.1.
Paramtre de position et valeurs centrales .

Une "bote moustaches" (traduction franaise du terme "Box and Whiskers Plot", ou en
abrg "Box Plot") est une reprsentation graphique de quelques paramtres de distribution
d'une variable, invente par Tukey en 1977. Cest une reprsentation graphique dune variable
quantitative qui permet dapprhender (rsumer une distribution empirique) la dispersion
dun chantillon.

Rappel
(En rfrence au paragraphe 6.1. Paramtre de position et valeurs centrales .)
On appelle intervalle inter-quantiles lintervalle [Q (0,25), Q (0,75)], qui contient la moiti
centrale des valeurs de lchantillon. On appelle intervalle inter-dciles l'intervalle [Q (0,1), Q
(0,9)], qui contient 80% des valeurs centrales de l'chantillon.

Ces intervalles sont la base d'une reprsentation trs compacte de la distribution empirique :
le diagramme en boite (ou bote moustaches, box plot, box-and-whisker plot). Il n'y a pas de
dfinition standardise de cette reprsentation. Elle consiste en une bote rectangulaire, dont
les deux extrmits sont les quartiles. Ces extrmits se prolongent par des traits termins par
des segments orthogonaux (les moustaches). La longueur de ces segments varie selon les
auteurs. Il existe donc plusieurs variantes pour reprsenter les boites moustache, nous
traiterons de celle la plus frquemment utilise. Nous proposons par exemple de fixer la
longueur des segments aux dciles extrmes. On reprsente aussi la mdiane par un trait dans
la bote, et parfois les valeurs extrmes par des points (voir figure ci-dessous).

Exemples de reprsentations graphiques: botes moustache (box-plot)

Mondher Abrougui Biostatistique I ISEFC - 2008 31


Analysons rapidement les boites moustaches ci dessus :
La bote moustaches utilise gnralement 5 valeurs qui rsument des donnes :
- Le minimum,
- Les 3 quartiles Q1, Q2 (mdiane) et Q3,
- Le maximum.
Les quartiles Q1, Q2, Q3 sont les lments essentiels de ce type de graphique. Nous
dtaillerons les tapes de la construction des quartiles et de l'cart interquartile en TD.

- les premier et troisime quartiles (Q1 (0,25) et Q3 (0,75)) : bordures infrieure et


suprieure de la bote rectangulaire
- la mdiane : trait horizontal long au sein de la bote rectangulaire (Q2 (0,5))
- la moyenne : marque plus (+) au sein de la bote, pouvant tre confondue avec la mdiane
- les extrmits infrieure et suprieure des moustaches : marques en forme de tiret (-)
situe sur le trait vertical, et correspondant respectivement la plus petite donne suprieure
une valeur a1, et la plus grande donne infrieure une valeur a3;
Il est possible de calculer ces extrmits avec les formules suivantes :

a1= Q1-1.5*(Q3-Q1) = Q1-1,5QI


avec QI = Intervalle inter-quartiles
a3= Q3+1.5*(Q3-Q1) = Q3-1,5QI
- les minimum et maximum : marques extrmes en forme de cercle (o) ; si le minimum ou le
maximum n'est pas confondu avec le tiret d'extrmit de moustache, c'est qu'il s'agit d'une
valeur atypique ("outlier"). Les valeurs atypiques peuvent tre situes strictement en dessous
de la moustache infrieure a1 (nb atyp. inf.) ou strictement en dessus de la moustache
suprieure a3 (nb atyp. sup.).

Pour plus de dtails sur l'utilisation des botes moustaches, voir TD.

Application II.6 : Cration et test dune macro BoxPlot sous Excel voir TD.

Remarque :
La mdiane est une valeur centrale de l'chantillon : il y a autant de valeurs qui lui sont
infrieures que suprieures. Si la distribution empirique de l'chantillon est peu
dissymtrique, comme par exemple pour un chantillon simul partir d'une loi uniforme ou
normale, la moyenne et la mdiane sont proches. Si l'chantillon est dissymtrique, avec une
distribution trs tale vers la droite, la mdiane pourra tre nettement plus petite que la
moyenne. Contrairement la moyenne, la mdiane est insensible aux valeurs aberrantes.
Elle possde une proprit d'optimalit par rapport l'cart absolu moyen.

Mondher Abrougui Biostatistique I ISEFC - 2008 32


6. STATISTIQUES DESCRIPTIVES UNIVARIEES

Quelques exemples
* Exemples de sries univaries
Une srie univarie est forme par une srie de mesures d'une variable quantitative,
gnralement continue (valeurs dcimales), effectues sur un mme chantillon :

Exemple 1 :
- 5 mesures du poids d'un organe (en g) : 14,5 13,2 18,63 15,0 13,33
Eventuellement : on peut avoir faire un variable quantitative discrte (valeurs entires),
pourvu que la notion de moyenne ait un sens par rapport cette variable (ce n'est pas un
"code"):

Exemple 2 :
- 7 mesures du "nombre de poils aux pattes d'une mouche" : 27 28 25 21 28 19 20

* Donnes de deux sries univaries


Dans cette situation, les deux sries de donnes concernent la mme variable. Dans la
situation la plus courante, la premire srie provient d'un chantillon "tmoin", la
seconde d'un chantillon "trait" :

Exemple 1 :
- On dispose de deux chantillons de rats males, dont on a mesur le poids corporel (en g):
3 rats TEMOINS : 410 432 417
5 rats TRAITES par un anabolisant : 435 482 457 502 473
Autre situation frquente : on observe le mme chantillon "avant" et "aprs" un traitement :

Exemple 2 :
- On mesure l'hmatocrite (units arbitraires) avant et aprs un traitement anticoagulant :
les mesures AVANT le traitement : 97 103 95,5 102 100
les mesures APRES le traitement : 84 78 90,5 85 76
On peut aussi comparer des chantillons qui diffrent par l'origine bio-gographique, l'ge,
le sexe...

* Donnes de plusieurs sries univaries


Les diffrentes sries de donnes concernent la mme variable. Plusieurs traitements ont t
appliqus (ou bien on a chantillonn des populations rputes diffrentes) :

Exemple :
- On dispose de trois chantillons de rats males, dont on a mesur le poids corporel (en g):
3 rats TEMOINS : 410 ; 432 ; 417
5 rats TRAITES par un anabolisant : 435 ; 482 ; 457 ; 502 ; 473
4 rats traits par un PLACEBO : 422 ; 437 ; 395 ; 412

Les statistiques descriptives visent reprsenter des donnes dont on veut connatre les
principales caractristiques quantifiant leur variabilit.

Mondher Abrougui Biostatistique I ISEFC - 2008 33


Trois aspects sont essentiels l'interprtation d'une distribution :

- Paramtre de position : le centre de la distribution et la rpartition autour d'une valeur


centrale (moyenne, mode, mdiane, quantiles, ..)
- Paramtre de dispersion ou dtendue : les valeurs sont-elles disperses ou concentres ?
- Paramtre de forme : la forme de la distribution : la symtrie, laplatissement

6.1. Paramtre de position et valeurs centrales

Le but des valeurs centrales est de rsumer en une seule valeur l'ensemble des valeurs d'une
distribution statistique. Il existe quatre valeurs de positions :

- Le mode (Mo),
- La moyenne ( X ou )
- La mdiane ou le mdian (Me ou Md)
- Les fractiles (Quantiles) (Qn)

Parmi ces valeurs les trois premires sont des valeurs de position centrales :

6.1.1. Le mode, ou valeur dominante, est la valeur la plus frquente d'une distribution. Cette
valeur se calcule toujours partir d'un dnombrement des modalits du caractre. Il faut donc
distinguer le cas des caractres discrets et des caractres continus (voir notions de bases).

* Caractre qualitatif et caractre discret : Pour un caractre qualitatif, ou pour un caractre


quantitatif discret ayant un nombre de modalits infrieur au nombre d'lments, le mode est la
modalit ou la valeur qui a la frquence simple la plus leve (ou l'effectif le plus lev, ce qui
revient au mme).

* Caractre quantitatif continu : Les modalits tant en nombre infini, il est peu probable que
deux lments aient la mme valeur. Dans ce cas, le mode ne peut pas tre dfini directement, il
faut au pralable tablir une partition en classes. Le mode est alors le centre de la classe modale,
c'est dire de la classe qui a la frquence moyenne la plus leve.
Le mode correspond la valeur lue en abscisse du sommet de l'histogramme. Lorsque celui-ci
prsente deux pics spars par un creux, on dit que la distribution est bimodale.

APPLICATION III
Application III. 1 : Cas de calcul des modes :

- Cas 1 : Donnes ranges : le mode est la valeur de la donne qui apparat le plus
frquemment (celle qui a le plus doccurrences) :
140 ; 141 ; 144 ; 144 ; 148 ; 148 ; 152 ; 152 ;152 ; 154 ; 155 ; 158 ; 158 ; 161 ; 170 ; 172
Le mode est 152 car il possde le plus grand nombre doccurrences (il est rfrenc 3 fois)
- Cas 2 : Donnes condenses : le mode est la valeur de la donne qui possde la frquence
la plus leve (relative ou absolue).
Modalits xi (age en annes) 14 16 18 21 22 24 25 Total
Frquences absolues 5 12 10 8 11 7 3 56
Frquences relatives 0,089 0,214 0,179 0,143 0,196 0,125 0,054 1,000
Dans cette srie statistique, le mode est gal Mo = 16 ans

Mondher Abrougui Biostatistique I ISEFC - 2008 34


- Cas 3 : Donnes groupes en classes : la classe modale est la classe ayant la plus haute
frquence (relative ou absolue).

Dans le tableau des classes relatives la longueur de la rectrice de Bonasa umbellus , la classe
modale est [155mm-160mm[. Il est possible de calculer de faon plus prcise le mode en
appliquant la formule suivante :

1 1 = diffrence entre leffectif de la classe


Mo = bmo + ( ) Lmo modale et leffectif de la classe prcdente.
1 + 2
bmo : Borne infrieur de la classe modale 2 = diffrence entre leffectif de la classe
Lmo : largeur de la classe modale modale et leffectif de la classe qui suit.

1 = (17-9) = 8 ; 2 = (17-16) = 1 ; bmo = 155 ; Lmo = 5


8
Mo = 155 + ( )5 = 159 mm
8 +1
6.1.2. La moyenne

Formalisation mathmatique de la moyenne arithmtique

La moyenne arithmtique, not X ou , est la mesure la plus commune de tendance centrale, elle se
dfinit comme la somme des scores divise par le nombre de scores. Par exemple, en biologie la
moyenne peut tre rsume par la somme des observations divise par leffectif de
lchantillon tudi:

X =
X
N

Elle est calcule pour les caractres quantitatifs.

* Calcul partir du tableau lmentaire :


La moyenne est la somme des valeurs divise par le nombre d'lments :

X i
X = i =1

* Calcul partir du tableau de dnombrement :


On effectue une moyenne pondre en assimilant chaque classe j son centre X j et en pondrant par
l'effectif nj de la classe.

(X
j =1
j nj)
X =
N

* Moyenne pondre :

Mondher Abrougui Biostatistique I ISEFC - 2008 35


Plus gnralement, on recourt la pondration lorsque les units n'ont pas le mme poids. Si chaque unit i
est dcrite par sa modalit xi et son poids pi, la moyenne pondre est :

(X i pi )
Xp = i =1
n

p
i =1
i

* Proprits de la moyenne

1) Si A = moyenne de X
n

X =n X
i =1
i

2) La somme des carts la moyenne est gale zro.

( X X )=0
n
i
i =1

3) La moyenne minimise les distances au carr

( X A)
n
2
i
i =1

est minimum si ,et seulement si, A est la moyenne du caractre X

Application III.2 :

1) Exemple avec illustration


Soit les valeurs de quatre notes : 10, 12, 13 et 16, la moyenne arithmtique est:
(11 + 12 + 13 + 16) / 4 = 13

Illustration

17 Notes

16 Moyenne

15

14

13

12

11

10
1 2 3 4

La moyenne arithmtique donne une valeur telle que la somme des carts (rectangles
jaunes) est nulle

Mondher Abrougui Biostatistique I ISEFC - 2008 36


La somme de n fois la moyenne donne la somme des n valeurs

Les nombres a, b, c, d, ... sont dits en progression arithmtique, dans cet ordre, si la
distance qui les spare est constante : b - a = c -b = d - c = ...

Avec trois nombres, si 2b = a + c alors b est la moyenne arithmtique de a et c

2) Exemple
Soit la srie statistique suivante :

valeurs 0 1 2 3 4
effectifs 1 2 1 4 2

0 + 1 + 1 + 2 + 3 + 3 + 3 + 3 + 4 + 4 24
La moyenne est : x = = = 2,4
1+2+1+4+2 10
0 + 21 + 2 + 43 + 24 24
On prfrera crire : x = = = 2,4
1+2+1+4+2 10

3) Calcul de la moyenne
Soit la srie statistique suivante :

valeurs x1 x2 xp
effectifs n1 n2 np

n1x1 + n2x2 + + npxp


La moyenne est : x =
n 1 + n 2 + + np

Remarque :
Si les donnes ont t regroupes en classes, on ne peut calculer la valeur exacte de la
moyenne. On peut toutefois en dterminer une bonne approximation en remplaant chaque
classe par son milieu.

4) Dans les sries statistiques suivantes dterminer les moyennes :

a) Tableau de frquences
valeurs 12 13 14 15 16
frquences 0,05 0,17 0,43 0,30 0,05

x =

b) Donnes rparties en classes


classes [0 ; 5[ [5 ; 10[ [10 ; 15[ [15 ; 20]
effectifs 7 12 14 2

Mondher Abrougui Biostatistique I ISEFC - 2008 37


Remplaons chaque classe par son milieu :

5) Proprits

a) Addition ou Multiplication de toutes les donnes par un mme nombre :


Ex : Soit la srie : 10, 12, 14. x =
Ajoutons 2 : la nouvelle srie est : 12, 14, 16. x =
Divisons par 2 : la nouvelle srie est : 6, 7, 8. x =

Cas gnral : Soit un rel quelconque :


Si l'on ajoute toutes les donnes, la moyenne augmente d'
Si on multiplie toutes les donnes par , la moyenne est multiplie par
Si on divise toutes les donnes par , la moyenne est divise par

b) Moyennes partielles
Ex : Sur un patient diabtique aprs 10 prises de sang, le taux moyen de glycmie est rgul
1,25g/l. La valeur de la glycmie la 11me prise est de 0,8 g/l. Quel est le nouveau taux
moyen de glycmie de ce patient ?
- Calculons la somme des 10 prises de sang = 1,25 x 10 = 12,5 g/l
- Calculons la nouvelle somme des 11 prises de sang = 1,25 x 10 + 0,8 = 13,3 g/l
- Calculons la nouvelle moyenne des 11 prises de sang = 13,3/11 = 1,20g/l

Cas gnral : Si on runi deux groupes disjoints ayant respectivement pour moyennes et
effectifs, x1 et n1 d'une part, x 2 et n2 d'autre part, la moyenne de l'ensemble sera alors :

n1 x1 + n2 x2
x =
n1 + n2

Application III.3 : Calculer des moyennes en utilisant le logiciel Excel et calculer la moyenne de
lexemple 2 de lApplication III.2 :

6.1.2. 1. Calcul de la moyenne par changement dorigine et dunit.


(Voir partie Application VII : Approfondissement)

6.1.2.2. Autres indicateurs de moyenne :


Il existe des indicateurs de la moyenne autre que la moyenne arithmtique. Nanmoins, ils
sont moins utiliss en biostatistique car ils ne prsentent d'intrt que dans des cas trs
particuliers. Ils ne feront pas lobjet de ces modules: la moyenne gomtrique, la moyenne
harmonique, la moyenne quadratique, la moyenne arithmtico-gomtrique.

Mondher Abrougui Biostatistique I ISEFC - 2008 38


6.1.3. La mdiane et la classe mdiane

6.1.3.1. Dfinition gnrale :


On appelle mdiane la valeur "du milieu". On dit qu'elle partage la srie statistique en deux
moitis : il y a autant de valeurs en dessous qu'au dessus. (Cest la donne qui permet de
diviser une srie ordonne dune faon croissante en 2 parties gales (50%, 50%). La mdiane
ne peut tre calcule que pour les caractres quantitatifs.

6.1.3.2. Mdiane, pour les donnes ranges : Les valeurs du caractre X tant classes par ordre
croissant, la mdiane est la valeur du caractre qui partage l'ensemble dcrit par X en deux sous
ensembles d'effectifs gaux : 50 % des lments ont des valeurs de X suprieures X md et 50%
prennent des valeurs infrieures.

- Mthode
Soit une srie statistique d'effectif total n, range par ordre croissant.
Pour dterminer son rang, il y a 2 cas :

si n est impair : la mdiane est la valeur de rang 18 43 44 46 62


n+1 md = 44
2
si n est pair : nous prendrons la demi-somme
95
des deux valeurs dont les rangs entourent le 18 43 44 46 62
md = 45
n+1
nombre
2

APPLICATION IV
Application IV.1

Cas de donnes discrtes "en vrac" 10, 7, 12, 18, 16, 15, 5, 11, 11, 20, 15, 11, 18, 14
Ordonnons la srie par ordre croissant : 5, 7, 10, 11, 11, 11, 12, 14, 15, 15, 16, 18, 18, 20
14+1
Il y a 14 termes or la valeur de rang est = 7,5.
2
12 + 14
La mdiane est donc la demi somme des 7me et 8me termes : mdiane = = 13
2

6.1.3.3. Mdiane, pour les donnes condenses : La dfinition est la mme, elle correspond dans
ce cas la premire modalit ou valeur dont la frquence relative cumule dpasse 0,500 ou
leffectif cumul dpasse les 50%.

Mthode :
Il faut calculer les frquences ou les effectifs cumuls ds que celle-ci atteint respectivement 0.5 ou
50% il suffit de choisir le nombre mi chemin entre la modalit ou valeur concerne et la suivante.

Mondher Abrougui Biostatistique I ISEFC - 2008 39


Application IV.2

Cas dun tableau d'effectifs


On ordonne le tableau, et on cherche l'lment qui partage la distribution en deux parties gales: on
repre l'lment qui a le rang (N+1)/2 pour le caractre X. Si la distribution a un nombre impair
d'lments on trouve une valeur unique qui est la mdiane, si la distribution a un nombre pair
d'lments, on trouve deux valeurs qui dterminent un intervalle mdian : on prend alors pour
mdiane le centre de cet intervalle mdian.

valeurs 1 2 3 4 5 6 Attention, il faut bien interprter


effectifs 6 11 25 19 15 5 cette dernire ligne : Les
effectifs cumuls 6 17 42 61 76 81 donnes qui valent 3 ont un rang
frquence 17 42 61 76 81 compris entre 18 et 42 inclus
frquence 0,07 0,14 0,31 0,23 0,19 0,06
frquences cumules 0,07 0,21 0,52 0,75 0,94 1,00

81+1
L'effectif total est de 81 or la valeur de rang = 41.
2
La mdiane est donc le 41me terme : mdiane = 3

6.1.3.4. Mdiane, pour les donnes rparties par classes


Remarque
Si les donnes ont t regroupes en classes, on ne peut dterminer la valeur exacte de la
mdiane. En revanche, on appellera classe mdiane, la classe qui la contient (et permet donc
d'en donner un encadrement).
La classe mdiane est la premire classe o la frquence cumule est suprieure 0,500.

Application IV.3

classe [0 ; 2[ [2 ; 4[ [4 ; 6[ [6 ; 8]
frquence 10% 38% 45% 7%
frquence cumule 10% 48% 93% 100%

48% des valeurs sont strictement infrieures 4


Et 93% des valeurs sont strictement infrieures 6
La classe mdiane est donc la classe [4 ; 6[
On peut donc en dduire l'encadrement suivant 4 < md < 6

Mthode de calcul
Pour prciser la valeur de la mdiane, il faut supposer que toutes les donnes sont rparties
uniformment (c'est--dire que les donnes sont rparties sur un continuum).
On repre la classe qui contient la mdiane, puis on ralise une interpolation linaire pour estimer
la valeur de celle-ci selon la formule suivante :
0,500 Fmd 1 )
Md = Bmd + ( Lmd
Fmd
O : Bmd : Borne infrieure de la classe mdiane
Fmd-1 : Frquence relative cumule de la classe qui prcde la classe mdiane.
Fmd : Frquence relative de la classe mdiane.
Lmd : largeur, amplitude des classes

Mondher Abrougui Biostatistique I ISEFC - 2008 40


Application pour lexemple prcdent :
0,500 0,48)
Md = 4 + ( 2 = 4,088
0,45

Remarques :
Rq1 : Autre mthode de calcul de la mdiane : il est aussi possible de dterminer la
mdiane l'aide des polygones des effectifs cumuls (voir TD)

Rq2 : Proprits de la mdiane : La mdiane est la valeur du caractre qui est la plus proche de toutes les
autres. C'est celle qui minimise les distances en valeur absolue :

N
xi - xmd est minimum si et seulement si xmd est la mdiane du caractre X
i=1

6.1.4 Quantiles : Mesures de position statistique en rfrence la mdiane


Il a t vu prcdemment que la mdiane partage la distribution des frquences en 2 parties gales. Il est
possible de partager une distribution de frquence en 4 parties gales (quartiles), en 10 parties gales
(dciles), en 100 parties gales (centiles), en n parties gales.

6.1.4.1. Dfinition des quantiles : on appelle quantiles les valeurs du caractre qui dfinissent les
bornes d'une partition en classes d'effectifs gaux.

6.1.4.2. Les quartiles sont les trois valeurs qui permettent de dcouper la distribution en quatre
classes d'effectifs gaux. On les notes XQ1, XQ2 et XQ3

Reprsentation des quartiles

Partition Xmin Xmax


du caractre intervalle XQ1 intervalle XQ2 intervalle XQ3 intervalle
interquartile interquartile interquartile interquartile
2 3
1 4
Quartile Mdiane Quartile
Frquence des 25% 25% 25% 25%
infrieur suprieur
lments

- Q1 : quartile infrieur, 25% des valeurs de la variable lui sont infrieures et 75% lui sont suprieures
- Q2 : mdiane, 50% des valeurs de la variable lui sont infrieures et 50% lui sont suprieures
- Q1 : quartile suprieur, 75% des valeurs de la variable lui sont infrieures et 25% lui sont suprieures

Remarque : XQ2 est gal la mdiane.

6.1.4.3. Les dciles sont les 9 valeurs de X qui permettent de dcouper la distribution en dix classes
d'effectifs gaux. 0n les note Xd1...Xd9.

Reprsentation des dciles

Partition du caractre Xmin Xd1 Xd2 Xd3 .. Xd8 Xd9 Xmax


Int-1 1/10 Int-2 1/20 Int-3 1/30 1/20 Int-9 9/10 Int-10
Frquence des lments 10% 10% 10% 10% 10%

Mondher Abrougui Biostatistique I ISEFC - 2008 41


Int-(intervalle interdcile)

- D1 : dcile infrieur, 10% des valeurs de la variable lui sont infrieures et 90% lui sont suprieures
- D2 : 20% des valeurs de la variable lui sont infrieures et 80% lui sont suprieures
- D3 : 30% des valeurs de la variable lui sont infrieures et 70% lui sont suprieures
- D4 :.
- D5 : mdiane, 50% des valeurs de la variable lui sont infrieures et 50% lui sont suprieures
.
- D9 : dcile suprieur, 90% des valeurs de la variable lui sont infrieures et 10% lui sont suprieures

6.1.4.4. Les centiles sont les 99 valeurs de X qui permettent de dcouper la distribution en 100
classes d'effectifs gaux. 0n les note Xc1...Xc99.

Remarques
Les diffrentes mesures de position (quartile, dcile,) ne sont que des cas particuliers des
centiles.
Les centiles sont donc trs utiles pour dterminer les valeurs des autres mesures de positions

Exemple de correspondances entre mesures de positions

Q1= C25 = 25me centile


Q2= C50 = D50 = 50me centile = Mdiane
Q3 = C75 = 75me centile
D1= C10 = 10me centile
D2= C20 = 20me centile

D9 = C90 = 90me centile

6.1.4.5. Calculs des quantiles


Nous nous limiterons aux cas des centiles car nous pouvons facilement faire des correspondances
avec les autres mesures de positions.

6.1.4.5.1. Dtermination des valeurs de la variable partir dun rang centile donnes.
C : rang du centile (le rang est donne, quelle est la valeur de la variable correspondant ce rang ?)

a) Cas des donnes ranges :


N N
C : rang du centile : Il correspond la donne dont le rang est lentier qui suit : si
100 100
N
nest pas un entier. Dans le cas contraire si est un entier, C correspond la donnes dont la
100
N
position (le rang) est a mis chemin entre le rang donne par : et la position suivante
100
N : nombre total de valeurs dans la srie statistique
: le rang du centile

Mondher Abrougui Biostatistique I ISEFC - 2008 42


Application IV.4

Exemples :
Soit la srie statistique suivante :
58 ; 59 ; 64 ; 64 ; 64 ; 68 ; 71 ; 71 ; 79 ; 82 ; 82 ; 85 ; 92 ; 92 ; 92 ; 95
- trouver les centiles suivants : C15 ; C40
- trouver les quartiles : Q2 et Q3

Rponses :
N : 16

- Pour centile C15 :


N 16 x15
=15, le rang de la donne est dtermin par la formule = = 2,4
100 100
La valeur nest pas un entier, le rang est donc le premier entier suivant 2,4 ainsi C15 correspond au
rang 3, ce dernier correspond la valeur : 64

- Pour centile C40 (qui correspond au dcile 4) :


N 16 x 40
=20 le rang de la donne est dtermin par la formule = = 6,4
100 100
La valeur nest pas un entier, le rang est donc le premier entier suivant 6,4 ainsi C40 (ou D4)
correspond au rang 7, ce dernier correspond la valeur : 71

- Pour centile C50 ou quartile Q2 ou la mdiane (qui correspond au dcile 5) :


N 16 x50
=50 le rang de la donne est dtermin par la formule = =8
100 100
La valeur est un entier, C correspond la donnes dont la position (le rang) est a mis chemin
entre le rang 8 et le rang 9, ainsi Q2 correspond la moyenne des valeurs du au rang 8 (qui
71 + 79
correspond la valeur 71) et le rang 9 (qui correspond la valeur 71) : Q 2 = = 75
2
- Pour centile C75 ou quartile 3:
N 16 x75
=75 le rang de la donne est dtermin par la formule = = 12
100 100
La valeur est un entier, C correspond la donnes dont la position (le rang) est a mis chemin
entre le rang 12 et le rang 13, ainsi Q3 correspond la moyenne des valeurs du au rang 12 (qui
85 + 92
correspond la valeur 85) et le rang 13 (qui correspond la valeur 92) : Q3 = = 88,5
2

b) Cas des donnes condenses :


La mthode est identique la prcdente, mais il est aussi possible de travailler avec les frquences
relatives. Dans le cas de dtermination avec les frquences, C correspond la premire modalit

dont la frquence cumule dpasse . Dans le cas o est un entier, il suffira de choisir le
100 100
nombre mi-chemin entre la modalit concerne et la suivante.

Mondher Abrougui Biostatistique I ISEFC - 2008 43


Application IV.5

Calculons C69 pour des donnes condenses

xi ni eff cum fi Fi (freq cum) Choisir C = 69


128 8 8 0,11 0,11 calcul avec les effectifs
145 13 21 0,18 0,29 C 69 = 49,68
160 14 35 0,19 0,49 calcul avec les frquences
180 16 51 0,22 0,71 C 69 = 0,69
195 11 62 0,15 0,86
197 7 69 0,10 0,96
209 3 72 0,04 1,00
Somme 72

Pour le calcul avec les effectifs : la formule est la suivante : (N=72)


N 72 x69
= = 49,68
100 100
C69 correspond la modalit occupant le rang 50 dans la distribution, elle correspond donc la
valeur 180

Pour le calcul avec les frquences : la formule est la suivante :



= 69 / 100 = 0,69
100
C69 correspond la modalit dont la frquence relative cumule dpasse 0,69. Dans la distribution,
cette frquence correspond la valeur 180

c) Cas des donnes groupes en classes :


La classe contenant C correspond la premire classe o la frquence cumule atteint ou

dpasse , par rfrence la formule du calcul de la mdiane (vue prcdemment) il est possible
100
dcrire la formule suivante de C


Fc 1
C = Bc + ( 100 ) Lc
Fc

O : Bc : Borne infrieure de la classe contenant c


Fc -1 : Frquence relative cumul de la classe qui prcde la classe contenant c
Fc : Frquence relative de la classe contenant c.
Lc : largeur, amplitude de la classe contenant c

Mondher Abrougui Biostatistique I ISEFC - 2008 44


Application IV.6

Calculer C80 des classes suivantes :

limites infrieures Fi
des classes (cm) mi ni eff cum fi (freq cum)
130 135 12 12 0,12903 0,1290
140 145 20 32 0,21505 0,344
150 155 24 56 0,25806 0,602
160 165 21 77 0,22581 0,828
170 175 11 88 0,11828 0,946
180 185 5 93 0,05376 1,000
Somme 93 1,00000


La classe contenant C (C80) est la premire classe o Fi > = 80 / 100 = 0,80
100
C80 correspond la classe [160-170[

Calcul de la valeur de la modalit correspondant C80


Fc 1
C = Bc + ( 100 ) Lc
Fc

Bc : Borne infrieure de la classe contenant C80 = 160 cm


Fc -1 : Frquence relative cumul de la classe qui prcde la classe contenant C80 = 0,828
Fc : Frquence relative de la classe contenant C80 = 0,22581
Lc : largeur, amplitude de la classe contenant C80 = 130-140=150-140==10cm

AN (application numrique)
80
0,828
C 80 = 160 + ( 100 )10 = 168,7619cm
0,22581

6.1.4.5.2. Dtermination du rang centile partir dune valeur donne de la variable.


Cet dtermination est le processus inverse par rapport aux lments prcdent du paragraphe : 5.1.4.5.1., ce
qui consiste recherche C pour une valeur connu Xi dune srie statistique X.

a) Cas des donnes ranges ou condenses


Il suffit de calculer simplement le pourcentage des donnes infrieures la valeur (ou observation)
donne.

Mondher Abrougui Biostatistique I ISEFC - 2008 45


Application IV.7

Exemple 1 : srie ordonne croissante


Dans les valeurs de la glycmie de la srie statistique suivante trouver le centile C de la valeur
0,96g/l :

0,6 g/l; 0,6 g/l; 0,65 g/l; 0,7 g/l; 0,72 g/l; 0,72 g/l; 0,72 g/l; 0,74 g/l; 0,75 g/l; 0,75 g/l; 0,76 g/l;
0,78 g/l; 0,78 g/l; 0,8 g/l; 0,8 g/l; 0,83 g/l; 0,83 g/l; 0,84 g/l; 0,84 g/l; 0,84 g/l; 0,9 g/l; 0,96 g/l;
1,01 g/l; 1,02 g/l; 1,1 g/l; 1, 15 g/l; 1,16 g/l; 1,18g/l ; 1,2g/l.

Il sagit de trouver le pourcentage des donnes dont la valeur de la glycmie est infrieure
0,96g/l : Cette valeur est la 22 positions (22me valeur de la srie ordonne de faon croissante), il
y a 21 valeurs de la glycmie infrieures 0,96g/l sur un total de 29 valeurs (N= 29),le pourcentage
21
est donc de : 100 ( ) = 72,41% , ainsi le rang centile C de la valeur de la glycmie de
29
0,96g/l est de 72 (la valeur de 0,96g/l de glycmie correspond au centile C72)

Application IV.8

Exemple 2: tableau de distribution condense


Dans le tableau de distribution des valeurs de la glycmie suivante trouver le centile C de la
valeur 1,1g/l :

xi (g/l) 0,6 0,65 0,7 0,75 0,8 0,85 0,9 0,95 1 1,05 1,1 1,15 1,2
ni 8 12 24 26 32 32 28 26 21 24 20 18 11
ni (cum) 8 20 44 70 102 134 162 188 209 233 253 271 282

Il sagit de trouver le pourcentage des donnes dont la valeur de la glycmie est infrieure 1,1g/l :
Cette valeur est la 253 positions (253 me valeurs des effectifs cumuls), il y a 233 valeurs de la
glycmie infrieures 1,1g/l sur un total de 282 valeurs (N= 282), le pourcentage est donc de :
233
100 ( ) = 82,62% , ainsi le rang centile C de la valeur de la glycmie de 1,1g/l est de 82
282
(au moins 82% des valeurs de la glycmie sont infrieures 1,1g/l).

b) Cas des donnes ranges en classes

dune donne (ou observation) est obtenu par la formule suivante


Le rang centile C

Xr : la donne dont on recherche le rang centile C


br : borne infrieure de la classe contenant Xr

100 ( xr br ) fr + Fr 1
Lr : largeur de la classe contenant Xr
fr : frquence relative de la classe contenant Xr
Lr Fr-1 : frquence relative cumule de la classe qui
prcde la classe contenant Xr

Mondher Abrougui Biostatistique I ISEFC - 2008 46


Application IV.9

Exemple : tableau de distribution group en classes


Dans le tableau de distribution des valeurs de la glycmie suivante trouver le centile C de la
valeur 1,1g/l :

xi (g/l) [0,6-0,7[ [0,7-0,8[ [0,8-0,9[ [0,9-1,0[ [1,0-1,1[ [1,1-1,2[ [1,2-1,3[ [1,3-1,4[ [1,4-1,5[ somme
ni 20 18 26 28 29 25 21 20 21 208,00
fi 0,10 0,09 0,13 0,13 0,14 0,12 0,10 0,10 0,10 1,00
ni (cum) 20 38 64 92 121 146 167 187 208
Fi cum 0,10 0,18 0,31 0,44 0,58 0,70 0,80 0,90 1,00

Recherchons les rangs centile des valeurs de la glycmie suivante :


0,81g/l ; 1,12g/l et 1,18g/l

* Pour la valeur de la glycmie de 0,8g/l


0,8g/l se situe dans la classe [0,8-0,9[, le rang centile de 0,8g/l est lentier infrieur :

Xr : la donne dont on recherche le rang centile C =0,81


br : borne infrieure de la classe contenant Xr = 0,80

100 ( xr br ) fr + Fr 1
Lr : largeur de la classe contenant Xr = 0,1
fr : frquence relative de la classe contenant Xr = 0,13
Lr Fr-1 : frquence relative cumule de la classe qui prcde
la classe contenant Xr=0,18

Application numrique

0,81 0,8
100 ( )0,13 + 0,18 = 19,3
0,1
Le rang centile de 0,81g/l est 19, ainsi au moins 19% des donnes sont infrieures 0,81g/l

* Pour les valeurs de la glycmie de 1,12g/l et 1,18g/l


Elles sont les 2 se situes dans la classe [1,1-1,2[, le rang centile de 1,12g/l et 1,18g/l est lentier
infrieur :

Xr : la donne dont on recherche le rang centile C =1,12


br : borne infrieure de la classe contenant Xr = 1,1

100 ( xr br ) fr + Fr 1
Lr : largeur de la classe contenant Xr = 0,1
fr : frquence relative de la classe contenant Xr = 0,12
Lr Fr-1 : frquence relative cumule de la classe qui prcde
la classe contenant Xr=0,58

Application numrique

1,12 1,1
100 ( )0,12 + 0,58 = 60,4
0,1
Le rang centile de 1,12/l est 60, ainsi au moins 60% des donnes sont infrieures 1,12/l

Mondher Abrougui Biostatistique I ISEFC - 2008 47


Le rang centile de 1,18/l est 67, ainsi au moins 67% des donnes sont infrieures 1,18/l

Calcul de C Valeurs Valeurs Valeurs


Xr : la donne dont on recherche le rang centile C 0,81 1,12 1,18
br : borne infrieure de la classe contenant Xr 0,8 1,1 1,1
Lr : largeur de la classe contenant Xr 0,1 0,1 0,1
fr : frquence relative de la classe contenant Xr 0,13 0,12 0,12
Fr-1 : frquence relative cumule de la classe qui prcde la
classe contenant Xr 0,18 0,58 0,58
xr-br 0,01 0,02 0,08
(xr-br)/Lr 0,1 0,2 0,8
((xr-br)/Lr)xfr 0,013 0,024 0,096
(((xr-br)/Lr)xfr)+Fr-1 0,193 0,604 0,676
(((xr-br)/Lr)+Fr-1)x100 19,3 60,4 67,6
C 19 60 67

6.1.5. Moyenne et mdiane

Quand on modifie les valeurs extrmes d'une srie, la moyenne change contrairement la
mdiane qui ne change pas. On dit que la moyenne est "sensible aux valeurs extrmes".
Il arrive que certaines de ces valeurs extrmes soient douteuses ou influent de faon
exagre sur la moyenne. On peut alors, soit calculer une moyenne lague (c'est dire
recalculer la moyenne sans ces valeurs gnantes), soit utiliser la mdiane.
Comment interprter un cart entre la moyenne et la mdiane ?
Soit la srie suivante : 8 9 10 11 12
Ici la moyenne et la mdiane sont identiques : la srie est bien "centre".

Soit la nouvelle srie : 8 9 10 12 14


Ici la moyenne est plus importante que la mdiane : la srie est plus "tale droite".

6.1.6. Avantages et inconvnients des diffrentes valeurs centrales :

Le statisticien Yule (XIXme sicle) a dfini six proprits souhaitables pour les valeurs centrales.
Le tableau ci-dessous permet de montrer les avantages et inconvnients des trois valeurs centrales
(Mode, Mdiane, Moyenne arithmtique)

Proprits Mode Mdiane Moyenne


1) est dfinie de faon objective + + +
2) dpend de toutes les valeurs observes - - +
3) a une signification concrte + + -
4) est simple calculer + + +
5) est peu sensible aux fluctuations de l'chantillon - + -
6) se prte au calcul algbrique - - +
Tableau 3 : Avantages et inconvnients des trois valeurs centrales (proprit + ralise, - non ralise)

6.2. Paramtre de dispersion


Dispersion statistique : On appelle dispersion statistique, la tendance qu'ont les valeurs de la
distribution d'un caractre s'taler, se disperser, de part et d'autre d'une valeur centrale. On

Mondher Abrougui Biostatistique I ISEFC - 2008 48


distingue la dispersion absolue (mesure dans l'unit de mesure du caractre) et la dispersion
relative (mesure par un nombre sans dimension).

6.2.1. Les paramtres de dispersion absolue

Les paramtres de dispersion absolue indiquent de combien les valeurs d'une distribution
s'cartent en gnral de la valeur centrale de rfrence. Un paramtre de dispersion absolue
s'exprime toujours dans l'unit de mesure de la variable considre. Les quatre paramtres de
dispersion absolue les plus courants sont :
- l'tendue,
- l'intervalle inter quantile (carts inter quantiles),
- l'cart absolu moyen
- l'cart type.

6.2.1.1 Ltendue de la variation: l'tendue d'une distribution est gale la diffrence entre la
plus grande et la plus petite valeur de la distribution :

Etendue de X = Xmax - Xmin

Plus ltendu est grande plus les valeurs sont disperses.

Exemple : l'tendue est donne par la valeur minimale et la valeur maximale : dans le cas de
l'exemple prcdent il s'agit de la diffrence : 14 mm - 4 mm = 10 mm
La moyenne et la mdiane sont les estimateurs statistiques du centre dune distribution

a) cas de donnes ranges :

Ltendu de la distribution de la srie statistique :


0,5 g/l; 0,58 g/l; 0,65 g/l; 0,7 g/l; 0,72 g/l; .; 1, 15 g/l; 1,16 g/l; 1,18g/l ; 1,2g/l.
La plus grande valeur est: 1,2g/l
La plus petite valeur est :0,6g/l
Ltendue de la variation : 1,2-0,5 = 0,7

b) cas de donnes groupes en classes :

[0,6-0,7[ [0,7-0,8[ [0,8-0,9[ [0,9-1,0[ [1,0-1,1[ [1,1-1,2[ [1,2-1,3[ [1,3-1,4[ [1,4-1,5[

La dernire classe a comme borne suprieure = 1,5


La premire classe a comme borne infrieure =0,6
Ltendue de la variation est : 1,5 0,6 = 0,9

6.2.1.2. Quartile et intervalle interquartile : Mesures de la dispersion statistique en rfrence


la mdiane

6.2.1.2.1. L'intervalle interquartile est l'tendue de la distribution sur laquelle se trouvent


concentre la moiti des lments dont les valeurs de X sont les plus proches de la mdiane. On
exclut alors de la distribution les 25% des valeurs les plus faibles et les 25 % des valeurs les plus
fortes de X. Cet intervalle se note:(Xq3-Xq1).

Mondher Abrougui Biostatistique I ISEFC - 2008 49


6.2.1.2.2. L'intervalle inter-dcile est l'tendue de la distribution sur laquelle se trouvent
concentrs 80% des lments dont les valeurs de X sont les moins diffrentes de la mdiane. On
exclut alors de la distribution les 10 % des valeurs les plus faibles et les 10% des valeurs les plus
fortes. Il se note (Xd9-Xd1).

6.2.1.3. Mesures de la dispersion statistique en utilisant lcart semi-interquartile


Cet cart mesure la moiti de ltendue de la moiti centrale des donnes
Il est calcul selon la formule suivante :
Q3 Q1 Q75 Q25
Q= =
2 2
APPLICATION V :

Application V.1 (calculons lcart semi-interquartile)

- Cas 1 : Donnes ranges


Le tableau de distribution obtenu par Excel

Rang 1 2 3 4 5 6 7 8 9 10
Variables 20 21 31 33 34 36 36 39 40 43
N = 10 Moyenne = 33,3 Mode = 36 Q1 = 31,5 Q3 = 38,25
Mdiane = Q2 35 Q1 arrondi = 32 Q3 arrondi = 39
Semi Interquartile = 3,5=4
29,8 < 50% des valeurs < 36,8

Rappel Qn correspond la donne dont le rang est lentier qui suit la formule
N
C : rang du centile : Il correspond la donne dont le rang est lentier qui suit :
100
Q1 et Q3 correspondent respectivement au C25 et C75

Calculs :
N= 10 (nombre de donnes pour le caractre tudi), la Moyenne = 33,3
N
- Pour rechercher la donne correspondant au Q1, (au centile 25), il suffit de calculer
100
10 x 25
= 2,5 de prendre lapproximation suprieure ce qui correspond au 3me rang et donc la
100
donne 31
N
- Pour rechercher la donne correspondant au Q3, (au centile 75), il suffit de calculer
100
10 x75
= 7,5 de prendre lapproximation suprieure ce qui correspond au 8me rang et donc la
100
donne 39
Q3 Q1 Q75 Q25 39 31
Donc : Q = = = = 4 (sur Excel = 3,5)
2 2 2
Interprtation : Contenu de la valeur de la moyenne = 33,3 il y statistiquement 50% des valeurs
de la srie numrique comprise entre 29,8 et 36,8
Moyenne Q < 50% des valeurs < et Moyenne + Q

Mondher Abrougui Biostatistique I ISEFC - 2008 50


- Cas 2 : Donnes condenses :

Variables 40 45 48 52 56 58 66 70 Total
ni (effectif) 8 6 12 24 26 28 15 8 127
ni Cumul 8 14 26 50 76 104 119 127
nixi 320 270 576 1248 1456 1624 990 560 7044
Total eff 127
Moyenne 55,46
Mode 8

Calcul des Quartiles (par mthode des centiles)


Centile Rang Rang Arrondi > Quartiles Valeurs
Q1 = Cn => 25 31,75 32 Q1 = 52
Q3 = Cn => 75 95,25 96 Q3 = 58
Q2 =
Q2 = Cn => 50 63,5 Mdiane = 56
Semi Interquartile = 3
52,46 < 50% des valeurs < 58,46

Calculs :
N= 127 (nombre de donnes pour le caractre tudi),
N= 8 + 6 + 12 ++8 = 127, la Moyenne = 7044/127 =55
N
- Pour rechercher la donne correspondant au Q1, (au centile 25), il suffit de calculer
100
127 x 25
= 31,75 de prendre lapproximation suprieure ce qui correspond la valeur cumule 50,
100
(il suffit de choisir dans les effectifs cumuls la valeur qui est suprieure 31,75 ce qui correspond
la valeur cumule 50) puis par correspondance dterminer la variable qui correspond cette
valeur cumule. Ainsi la valeur cumule 50 correspond la variable 52 => Q1 (centile 25) =52
- Pour rechercher la donne correspondant au Q3, (au centile 75), il suffit de calculer :
N 127 x75
= = 95,25
100 100
Puis, de prendre lapproximation suprieure, ce qui correspond la valeur cumule 104, (il suffit
de choisir dans les effectifs cumuls la valeur qui est suprieure 95,25 ce qui correspond la
valeur cumule 104) puis par correspondance dterminer la variable qui correspond cette valeur
cumule. Ainsi, la valeur cumule 104 correspond la variable 58 => Q3 (centile 75) = 58
Q3 Q1 Q75 Q25 58 52
Donc : Q = = = = 3 (sur Excel = 3)
2 2 2
Interprtation : Compte tenu de la valeur de la moyenne = 55, il y statistiquement 50% des
valeurs de la srie numrique comprises entre 52 et 58
Moyenne Q < 50% des valeurs < et Moyenne + Q

- Cas 3 : Donnes groups en classes :


Le calcul de lcart semi-interquartile sera trait par chaque tudiant avec le logiciel Excel. Pour
cela, utiliser les valeurs du tableau de distribution des valeurs de la glycmie de l Application
IV.9

Mondher Abrougui Biostatistique I ISEFC - 2008 51


6.2.1.4. Mesures de la dispersion statistique en rfrence la moyenne arithmtique

6.2.1.4.1. Ecart absolu moyen ou Ecart Moyen Absolu EMA : Ce paramtre est la moyenne
arithmtique de la valeur absolue des carts la moyenne. Il correspond la moyenne des valeurs absolues
de chaque donne par rapport la moyenne.

a) Donnes ranges :
Lcart absolu moyen est la moyenne des distances mesures positivement (en valeur absolue) entre les
donnes et la moyenne.

xi x
EMx = i =1

Exemple :
Poids (kg) 65 66 67 68 68 69 70 70 71 71 71 72 73 74 74 75 75 75
N= 18 ; Moyenne = 70,77kg

65 70,77 + 66 70,77 + 67 70,77 ...... + 75 70,77


EMA = = 0,143
18
Lcart absolu moyen est faible et les valeurs sont trs concentres autour de la moyenne

b) Donnes ranges : le calcul de EMA sexprime par les formules suivantes :

ni xi x n
EMx = i =1

N
ce qui quivaut avec les frquences la formule EMx =
i =1
fi xi x

b) Donnes groupes en classes : le calcul de EMA sexprime par lune des 4 formules
suivantes :

n n

ni xi x ni mi x
EMx = i =1
ou EMx = i =1

N N

fi mi x
n
EMx = fi xi x ou EMx=
i =1 i =1

6.2.1.2.2. Variance et cart-type :


La variance et cart-type servent valuer la dispersion dune distribution autour d'une valeur
centrale, la moyenne.

Mondher Abrougui Biostatistique I ISEFC - 2008 52


Application V.2 : (distribution standardise ou non ?)

Soit deux sries de microscopes produits dans deux usines diffrentes. Nous dsirons juger de
la standardisation de chacune des deux sries. Je choisis de comparer le poids maximal de
chaque microscope.
- si les carts la moyenne sont faibles la production est standardise
- si les carts la moyenne sont levs, la production est peu standardise

a - Variance : La variance, note (x) est la moyenne du carr des carts la moyenne.

( xi x) 2

( x
)2 = i =1

La variance n'est pas un paramtre de dispersion absolue mais plutt une mesure globale de la
variation d'un caractre de part et d'autre de la moyenne arithmtique (quantit d'information). Pour
obtenir un paramtre de dispersion absolue, on effectue la racine carre de la variance, appel
cart-type et que l'on note x
La variance pour des donnes ranges ou groupes en classe devient :

ni ( xi x) 2

( x
)2 = i =1

Ou ni dsigne les effectifs de chaque donne ou de chaque classe

b - Ecart-type : L'cart type, not x est la racine carr de la moyenne du carr des carts la
moyenne, c'est dire la racine carre de la variance.

Mondher Abrougui Biostatistique I ISEFC - 2008 53


n

( xi x) 2

x
= ( x
)2 = i =1

L'cart-type est une mesure de dispersion par rapport la moyenne qui intgre les valeurs
algbriques des carts la moyenne et qui pourra, ce titre tre rintroduite dans des calculs
algbriques ultrieurs. Elle prsente de plus l'avantage d'avoir une signification probabiliste que
ne possde pas l'cart absolu moyen. La thorie des probabilits permet en effet d'estimer la chance
qu une valeur d'tre loigne de la moyenne de plus d'un certain nombre d'cart-types.

Lorsqu'une distribution est gaussienne (on dit aussi "normale") les probabilits de trouver les valeurs a une
distance donne de la moyenne sont les suivantes :
_ _
68.3 % des valeurs sont comprises entre (x-x) et (x-x)
_ _
95.5 % des valeurs sont comprise entre (x-2x) et (x+2x)
_ _
99.7 % des valeurs sont comprises entre (x-3x) et (x+3x)

Figure 5: Reprsentation graphique dune distribution normale (Loi de Gauss ou Loi Normale)

L'cart-type pour des donnes ranges ou groupes en classe devient :

ni ( xi x) 2

x
= ( x
)2 = i =1

Mondher Abrougui Biostatistique I ISEFC - 2008 54


NB : sur des chantillons de faible taille (n<30), on utilise l'cart-type
modifi, soit en divisant par n-1 au lieu de n (les calculatrices le font
automatiquement).

Figure 6: Densits de lois gaussiennes ayant une mme variance mais des moyennes diffrentes

Figure 7 : Densits de lois gaussiennes ayant une mme moyenne mais des variances diffrentes

Mondher Abrougui Biostatistique I ISEFC - 2008 55


c- Simplification des critures des variances (respectivement des cart-types)

La formule de la variance peut tre remplace par une formule plus facile utiliser (formule
pratique de calcul) savoir :

n
(xi2 )
n

( xi x) 2 xi 2
i=1

( )
N
( =
2 i=1
)2 = i =1
=
x N x N

Dmonstration :

Rappel : (a-b)2 = a2 - 2ab + b2


n n

( xi x) 2 = ( xi 2 2 xi x + x )
2 2
de mme ( xi x) 2 = xi 2 2 xi x + x ainsi
i =1 i =1
du faite que la moyenne est une constante, la formule peut scrire :
n n n n

( xi x) 2 = ( xi 2 2 xi x + x ) = xi 2 2 x xi + N x
2 2

i =1 i =1 i =1 i =1
n

xi
Or : x = i =1
il suffit alors de le remplacer par sa valeur dans la dernire expression :
N
2
n n

n n n n xi n
xi
( xi x) = xi 2 x xi + N x = xi 2( ) xi + N i =1
2 2 2 2 i =1

i =1 i =1 i =1 i =1 N i =1
N

2 2
n n
n n n n


xi

xi
( xi x) = xi 2 x xi + N x = xi 2 + i =1
2 2 2 2 i =1

i =1 i =1 i =1 i =1 N N

n 2

( xi )
n

n 2
n

i =1
xi 2 i =1
N

n n
( xi )
i =1
( xi x) 2




=
i =1
( xi x ) 2
= xi 2
N ainsi
i =1 i =1 N N


Mondher Abrougui Biostatistique I ISEFC - 2008 56


Pour des donnes condenses la formule pratique de calcul devient :

n 2

( xi )
n

i =1
ni xi 2 N i =1
N n n 2
n





ni xi 2 ( xi )

ni xi 2
2
ce qui quivaux
i =1
i =1 =
i =1
x
N N N N


Attention Remarque
Dans le cas dun chantillon la formule de la variance devient :

n 2

( xi)
n

n

i =1
xi 2 i =1
n

( xi x ) 2




i =1
=
n 1 n 1

Seule la valeur N du dnominateur commun est remplace par n-1

6.2.2. Les paramtres de dispersion relative


La comparaison des paramtres de dispersion absolue de deux caractres n'a de sens que si les
deux caractres sont de mme nature et de mme ordre de grandeur. Dans le cas contraire, la
comparaison n'est possible qu'en ayant recours des mesures de dispersion relative, c'est
dire en effectuant le rapport entre un paramtre de dispersion absolue et la valeur centrale qui
lui tient de rfrence.

Un paramtre de dispersion relative est une mesure de l'cart relatif des valeurs d'une distribution
une valeur centrale. C'est donc le rapport d'un paramtre de dispersion absolue divis par une
valeur centrale. On obtient un nombre sans dimension qui peut tre exprim en %.

Dispersion relative = Paramtre de dispersion absolue/Valeur centrale


- le coefficient interquartile relatif

= (Xq3-Xq1)/ mdiane X

- l'cart moyen relatif


= E.A.M. / X

- le coefficient de variation
= x / X

Remarque trs importante : Le calcul d'un paramtre de dispersion relative n'est possible que pour
les caractres quantitatifs positifs (toutes les modalits sont des nombres positifs).

Mondher Abrougui Biostatistique I ISEFC - 2008 57


Explication des paramtres de dispersion relative pour la variance et lcart-type :
Ces deux mesures de dispersion (variance et cart-type) sont des grandeurs de mme ordre de
la variable tudie : il s'agit d'une mesure de dispersion absolue or pour comparer des sries
diffrentes, il faut liminer l'unit de mesure afin d'obtenir une mesure de dispersion relative
on utilise alors le coefficient de variation exprim en % :


Cv = 100
x
Plus le coefficient de variation est faible, plus la dispersion est faible.

6.3 Exercices dApplications avec explicitation et utilisation du logiciel Excel

APPLICATION VI

Application VI.1 - Exemple n 1 : Soit un tableau de donnes issu d'une ncropole :

nombre total 1 - Calculez :


nombres d'objets nombre de tombes d'objets a Le nombre moyen d'objets par tombe
1 1 1 b Le nombre mdian d'objets par tombe
2 22 44 c Lcart-type du nombre d'objets
3 15 45
d Le coefficient de variation
4 20 80
2 - Tracez l'histogramme
5 9 45

Rponse :
1- Calculs
a- Le nombre moyen d'objets par tombe, revient rechercher la moyenne arithmtique :
elle est gale au nombre total d'objets divis par le nombre total de tombes, soit X = 215/67 =
3,2 objets par tombe
b- Le nombre mdian d'objets par tombe : revient rechercher la mdiane dans une srie
impaire de type (N = 2p + 1), la tombe de rang p + 1, soit la 34me tombe donne ce nombre
mdian, soit 3 objets par tombe
M = 3 : la moiti des tombes possdent de 1 3 objets et la moiti de 3 5 objets.

Explicitation des calculs :


Calculons le nombre de tombes = 67 tombes
Recherchons le rang = (67+1)/2 = 34 me tombes
me
Retrouvons le nombre d'objets dans la 34 tombe
Pour ce faire il est possible de calculer les effectifs cumuls des tombes

nombres d'objets nombre de tombes Effectifs cumuls de tombes


1 1 1
2 22 23
3 15 38
4 20 58
5 9 67

Il y a 3 objets de la 23me tombe la 38me tombe. Donc dans la 3me tombe il y a 3 objets. La
mdiane est donc gale 3 objets par tombe.

Mondher Abrougui Biostatistique I ISEFC - 2008 58


c- l'cart-type du nombre d'objets :
Lcart type est la racine carre de la variance, calculons la variance
- La variance (2) est gale la somme des diffrences au carr entre le nombre d'objets de
chaque tombe et le nombre moyen d'objets divise par le nombre total de tombes :
2 = ((1-3,2)2+ 22 x ((2-3,2)2)+ 15 x ((3-3,2)2)+ 20 x ((4-3,2)2)+ 9 x (5-3,2)2)) / 67
= 4,84 + 31,68 + 0,6 + 12,8 + 29,16 / 67
= 79,08 / 67 = 1,18
Lcart type est donc = 1,18 = 1,08 objets

d- Le coefficient de variation exprim en pourcentage est gal 100 fois l'cart-type divis
par la moyenne :
Cv = 100 x (1,08/ 3,2) = 33,75 %
Ce coefficient montre une faible dispersion des valeurs autour de la moyenne.
Exemple de tableau obtenu sur Excel
nombre d'objets nombre de Effectifs cumuls Total partiel des (xi-X) (xi-X)2 pi(xi-X) 2
(xi) tombes (pi) des tombes objets (pixi)
1 1 1 1 -2,21 4,88 4,88
2 22 23 44 -1,21 1,46 32,15
3 15 38 45 -0,21 0,04 0,65
4 20 58 80 0,79 0,63 12,52
5 9 67 45 1,79 3,21 28,87
Total des tombes 67 Total des objets 215 Somme 79,07
Moyenne (objets / tombe) 3,2 Variance 1,18
Mdiane (objets / tombe) 3 Ecart-type (objet) 1,09
Cff. de variation 33,85%

Application VI.2 - Exemple n 2


Le nombre d'ossements conservs a t enregistr pour dix sites :
site 1 : 2011 site 6 : 1151 Calculez successivement pour les sites 1 10 puis 1 9
site 2 : 502 site 7 : 322 - Le nombre moyen d'ossements par site
site 3 : 1107 site 8 : 903 - Le site mdian de la distribution
- L'cart-type
site 4 : 355 site 9 : 2535
- Le coefficient de variation
site 5 : 2983 site 10 : 16631 - Tirer des conclusions

Elments de rponse : Pour calculer la mdiane manuellement: il faut ordonner les sries en
fonction du nombre dossements.
Nombre Sries classes par ordre - Pour les 10 sries (nombre paire de
d'ossements dossements croissant sries) :
322 S7 Rang 1 Le rang est entre 5 et 6 soit la mdiane =
355 S4 Rang 2 (1107+1151)/2 = 1129 ossements
502 S2 Rang 3
903 S8 Rang 4 - Pour les 9 sries (nombre impaire de
sries) :
1107 S3 Rang 5
Le rang est (9+1)/2 soit 5, la mdiane
1151 S6 Rang 6
correspondante est donc = 1107
2011 S1 Rang 7 ossements
2335 S9 Rang 8
2983 S5 Rang 9
16631 S10 Rang 10

Mondher Abrougui Biostatistique I ISEFC - 2008 59


Elments de correction en utilisant Excel

Sries xi Nombre de sries 10


S1 2011 Somme 28500
S2 502 Mdiane 1129
S3 1107 Moyenne 2850
S4 355 Variance 24286796,44
S5 2983 Ecartype 4928,16
S6 1151 Coeff. Variation 172,92%
S7 322 Nombre de sries 9
S8 903 Somme 11869
S9 2535 Mdiane 1107
S10 16631 Moyenne 1318,78
Variance 945429,19
Ecartype 972,33
Coeff. Variation 73,73%

Mondher Abrougui Biostatistique I ISEFC - 2008 60


APPLICATION VII : Approfondissement
EXEMPLE DE CALCULS PAR CHANGEMENT DORIGINE

* Calcul de la moyenne par changement dorigine et dunit.

Dans certains cas la recherche de la moyenne dune srie statistique entrane des calculs
lourds et fastidieux. Dans de telles situations, il est conseill, voire utile, deffectuer un
changement de variable (ou de code) permettant dacclrer et de simplifier le calcul. Ce
changement peut la fois toucher lorigine et lunit. Par exemple il est possible deffectuer
une transformation linaire de la forme y = ax + b

Lobjectif est de rechercher la meilleure valeur de x pour simplifier au mieux les calculs.

- La mthode des (lire ksi) dans le cas de donnes rparties en classes


(Par commodits dcriture peut tre remplac par la lettre u, ou autres lettre (il suffit juste de le prciser))

Dans cette mthode y = = ax+b et les paramtres a et b de la transformation sont


1 xo
choisis de faon ce que = x
i i
Avec :
1
*
i est le paramtre a de la transformation y = ax + b ;
* i est la largeur de la classe (valeur sparant les valeurs centrales de 2 classes conscutives)
xo
*- est le paramtre b de la transformation y = ax + b ;
i
* xo est la valeur centrale de la classe centrale

1 xo x xo mx mxo
Cette formule = x peut aussi tre crite = ou encore =
i i i i
Avec
mx est la valeur centrale de chaque classe
mxo est la valeur centrale de la classe centrale

Explicitation et avantage de la transformation selon la mthode des ( lire ksi)


mx mxo
En effectuant la transformation
= deux oprations sont simultanment
i
ralises sur la distribution initiale :

Opration 1 : Une translation de la courbe initiale sur laxe des x qui amnera le sommet
approximativement au niveau de lorigine des coordonnes. Ce dplacement est obtenu en
retranchant une mme valeur xo de chacune des N mesures

Mondher Abrougui Biostatistique I ISEFC - 2008 61


Opration 2 : une concentration de la distribution des mesures autour de la moyenne, puisque
toutes les diffrences x-xo sont divises par i (qui correspond la largeur de la classe).

Explicitation graphique

Avant translation Aprs translation


20 2
18 1,8
16 1,6
14 1,4
12 1,2
10 1
8 0,8
6 0,6
4 0,4
2 0,2
0 0
1135 1145 1155 1165 1175 1185 1195
-3 -2 -1 0 1 2 3

Calcul des valeurs de


mx mxo
Avec cette dernire formule
= , pour chaque x il est alors possible de calculer les
i
diffrentes valeurs de .
Diffrents calcul de x

Pour revenir x il suffira donc de connatre i , xo et de partir de la formule suivante


x xo
= et de calculer x = i + xo
i

- Pour calculer la moyenne x ( X ) :

=
ni

La moyenne des se calcule selon la formule
N
Ce qui est recherch ce nest pas la mais la moyenne x
Il faut donc revenir au systme initial :
x xo x xo
Si
= il est facile de comprendre que =
i i
C'est--dire que la moyenne dun chantillon dune population x peut-tre calcule selon
lquation suivante : x = i + xo
* Pour calculer la variance V (2) et lcart-type :
Selon le mme principe Vx est calcul selon la formule suivante :

Mondher Abrougui Biostatistique I ISEFC - 2008 62


(x) 2 =Vx = i2 () 2 = i2 V (pour des commodits dcriture est parfois remplace par
u)

(i ) 2

V = ( ) 2 = i =1

Pour les donnes ranges en classes :

ni (i ) 2

V = ( ) 2 = i =1

Lcart-type est obtenu de la faon suivante : x = Vx = i V

Explicitation avec exemple 1 :


Calculez la moyenne de la srie suivante avec une transformation selon x= iu + xo = 10u + 1165
Classes 1130-1140 1140-1150 1150-1160 1160-1170 1170-1180 1180-1190 1190-1200
Ni (effectifs respectifs) 3 10 15 18 15 10 2

Elments de correction :
Les calculs sont reports dans le tableau suivant :
Classes 1130-1140 1140-1150 1150-1160 1160-1170 1170-1180 1180-1190 1190-1200
mi (milieu des classes) 1135 1145 1155 1165 1175 1185 1195
ni (effectifs respectifs) 3 10 15 18 15 10 2
ni x mi 3405 11450 17325 20970 17625 11850 2390
(ksi) -3 -2 -1 0 1 2 3
ni x -9 -20 -15 0 15 20 6
changement des ni 0,3 1 1,5 1,8 1,5 1 0,2

Formules et applications numriques

ni
ni = N (3+10+15+18+15+10+2) 73
i (distance interclasse) = 1145-1135 = 1155-1145==1195-1185 10
Choix de la classe :[1160-1170[  1165
xo = mi 1165
a=1/i=0,1 ; b=-xo/i= 1165/10=116,5
Equation y= ax+b Y= 0,1X- 116,5 Y= 0,1X- 116,5
mx mxo
= 1135 1165 1145 1165 1155 1165 1165 1165
; ; ; ;....
i 10 10 10 10 -3 ; -2 ; -1 ; 0 ; 1 ; 2 ; 3

ni (-9-20-15+0+15 +20+6) -3

Moyenne =
ni

N -3/73 -0,04109589

Moyenne x = i + xo =-0,04109589x10 +1165 1164,589041

Mondher Abrougui Biostatistique I ISEFC - 2008 63


Une correction avec calcul et graphe est aussi fournie sur le fichier Excel des corrections

Exemple 2 :
Calculer la moyenne, la variance et lcart-type de la srie statistique suivante :

classe ni
1200-1250 15
1250-1300 20
1300-1350 38
1350-1400 25
1400-1450 11

Elments de solution
ni
ni = N (15+20+38+25+11) 109
i (distance interclasse) = 1250-1200 ==1450-1400 50
Choix de la classe :[1300-1350[  1325
xo = mi 1325
a=1/i=1/50=0.02 ; b=-xo/i= 1325/50=26,5
Equation y= ax+b 1 1325 y = 0,02 x 26,5
y= x = 0,02x - 26,5
50 50
mx mxo 1225 1325 1275 1325 1325 1325 1375 1325 1425 1325
= 50
;
50
;
50
;
50
;
50
i -2 ; -1 ; 0 ; 1 ; 2

ni (-30-20+0+25+22) -3

Moyenne : =
ni

-3/109 -0,02752294
N
Moyenne x = i + xo =-0,02752294x50+1325 1323,62385
Variance de
n

ni (i ) 15 (2 (0,0275) 2 20 (1 (0,0275) 2
V = ( ) = 2 i =1
+ + ....
N 109 109 1,36621497
=148,917/109
(x) 2 =Vx = i2() 2 = i2
V 50x50x1,36621497 3415,53741
x = Vx = i V 3415,53741 58,4425993

Mondher Abrougui Biostatistique I ISEFC - 2008 64


Mthode avec changement de variable : x= iu + xo = 50u + 1325
classe ni centre des xi i u niu ui-u (ui-u)2 ni(ui-u)2
1200-1250 15 1225 50 -2 -30 -1,972 3,89066 58,3599
1250-1300 20 1275 50 -1 -20 -0,972 0,94571 18,9142
1300-1350 38 1325 50 0 0 0,027 0,00075 0,02878
1350-1400 25 1375 50 1 25 1,027 1,05580 26,3950
1400-1450 11 1425 50 2 22 2,027 4,11084 45,2193
Somme 109 -3 148,917
Moyenne u -0,02752294
Moyenne x 1323,62385
Vu 1,36621497
Vx 3415,53741
Ecart-type x 58,4425993

Astuces :
Dans la pratique, lors de lutilisation de la mthode des il suffit directement :

1/ daffecter la valeur 0 dans la colonne des la classe la plus centrale. Ensuite partir de ce 0
central daffecter les valeurs -1, -2,-3,, -n dans valeurs des classes plus faibles et +1, +2,+3,,
+n dans les valeurs des classes plus fortes.
2/ deffectuer les produits de par les effectifs des classes ;
3/ pour le calcul de la moyenne , de faire le total des de et de les diviser par leffectif total.
4/ dutiliser les formules pour le calcul des moyennes, des variances et des cart-types

Mondher Abrougui Biostatistique I ISEFC - 2008 65


6.3. Paramtres de forme

Ces paramtres permettent de prciser la forme de la distribution exprimentale. Ils affinent la


description de la distribution dune variable et facilite la comparaison de plusieurs
distributions exprimentales. Les paramtres de forme que nous aborderons sont :
(1) le coefficient dasymtrie il permet de nous renseigner sur la faon rgulire ou non dont
les observations se rpartissent de part et dautre dune valeur centrale.
(2) le coefficient daplatissement dont lobjet et de faire apparatre si une faible variation de
la variable entrane ou non une forte variation des frquences relatives.

Remarque
On dit quune variable est uni-modale si sa distribution ne prsente quun maximum,
bimodale si elle en prsente deux.

6.3.1. Coefficient dasymtrie et de drive


Le coefficient dasymtrie renseigne sur lasymtrie et ventuellement la drive par rapport
une valeur centrale choisie. La distribution dune variable est symtrique si les observations
sont galement disperses de part et dautre dune valeur centrale. Ainsi, dans le cas de
distributions symtriques, moyenne et mdiane sont confondues, sinon elles sont distinctes.

Figure 8 : Exemple de distributions symtrique et de dissymtrie

6.3.1.1. Coefficient dasymtrie


Ce coefficient mesure l'asymtrie d'une distribution, il renseigne sur une asymtrie ngative
(dissymtrie gauche), ou une asymtrie positive (dissymtrie droite), c'est--dire il prcise
si la rpartition "penche" d'un ct ou de l'autre. Selon la valeur centrale choisie (mode,
mdiane ou moyenne arithmtique), il existe diffrentes manires de caractriser et de
mesurer une dissymtrie.

Mondher Abrougui Biostatistique I ISEFC - 2008 66


Astuce :
- Dans le cas dune dissymtrie positive on a gnralement (partie droite plus longue que la
partie gauche) : Mo (Mode) < Md (Mdiane) < (Moyenne)
- Dans le cas dune dissymtrie ngative on a gnralement (partie gauche plus longue que la
partie droite) : Mo (Mode) > Md (Mdiane) > (Moyenne)

Mode Moyenne
Mdiane
Figure 9 : Exemple de dissymtrie droite (distribution tir droite et oblique gauche)

- Les coefficients dasymtrie de Yule, si la valeur centrale choisie est la mdiane :


Yule propose une mesure de lasymtrie en comparant ltalement vers la gauche et
ltalement vers la droite, tous deux reprs par la position des quartiles (Q1, Mdiane (Q) et
Q3)
(Q3 Q) (Q Q1 )
s=
(Q3 Q) + (Q Q1 )
Si : S = 0 symtrie parfaite
S > 0 oblique gauche (ou talement droite)= dissymtrie droite
S < 0 oblique droite (ou talement gauche)= dissymtrie gauche

- Les coefficients dasymtrie de Pearson, si les valeurs centrales choisies sont le mode et
la moyenne. Pearson propose deux coefficients :

a) le premier coefficient dasymtrie de Pearson analyse la position de deux valeurs


centrales (le mode et la moyenne arithmtique) relativise par la dispersion de la srie :
Mode
p=

Si : p = 0 symtrie parfaite
p > 0 oblique gauche (ou talement droite)= dissymtrie droite
p < 0 oblique droite (ou talement gauche)= dissymtrie gauche

Remarque : ce coefficient est plutt performant pour des distributions faiblement asymtriques.

b) le second coefficient dasymtrie de Pearson ( 1 ) est plus labor : il sappuie sur le


calcul des moments centrs. Il scrit :

32 O Avec
1 = 3 3 = m3 3m1 m2 + 2m 3
n x n x 2
et m3 = n x 3

2
i i
= x ; m2 =
1 i i
m1 =
i i

et 2 = m2 m12 = s 2 n i n i n i

Mondher Abrougui Biostatistique I ISEFC - 2008 67


De faon plus gnrale, on a :
1 k
Moment dordre r : mr = nix i
r

n i =1
1 k
Moment centr dordre r : r = ni ( xi x)
r

n i =1
Si :
1 = 0 symtrie
1 > 0 oblique gauche (ou talement droite)= dissymtrie droite
1 < 0 oblique droite (ou talement gauche)= dissymtrie gauche

- Les coefficients dasymtrie de Fisher, si la valeur centrale choisie est la moyenne :


Fisher propose un coefficient qui correspond la racine carre du coefficient 1 de Pearson :
3
1 =
3
O
s 3 = u 23
Si :
1 = 0 symtrie
1 > 0 oblique gauche (ou talement droite)= dissymtrie droite
1 < 0 oblique droite (ou talement gauche)= dissymtrie gauche

6.3.1.2. Coefficient de drive


Le coefficient dasymtrie de Fisher calcul ci-dessus correspond pour certains auteurs au
coefficient de drive d ainsi
3
d = 1 =
3
Les coefficients d et sont trs sensibles aux fluctuations dchantillonnage, il faudra
disposer dun grand nombre dobservations pour les utiliser.

Mondher Abrougui Biostatistique I ISEFC - 2008 68


APPLICATION VIII
Application VIII.1

Reproduire sur Excel ce tableau de distribution et calculer les coefficients de forme

Mondher Abrougui Biostatistique I ISEFC - 2008 69


6.3.2. Coefficient daplatissement
Le coefficient daplatissement, par rfrence la courbe de la loi normale, indique si la
distribution de la variable est leptocurtique (pointue), msocurtique (normale) ou Ainsi, une
distribution est dite aplatie si une forte variation de la variable entrane une faible variation de
la frquence relative (et inversement).

Figure 10 : Histogrammes illustrant les caractristiques importantes d'une distribution

leptocurtique
(pointue),

msocurtique
(normale)

platycurtique
(aplatie).

Figure 11 : Courbe avec coefficient daplatissement diffrent

Mondher Abrougui Biostatistique I ISEFC - 2008 70


- Coefficient daplatissement de Pearson

Il scrit :
4 4
2 = =
22 4

Ce coefficient est toujours suprieur ou gal 1. Plus ce coefficient est faible plus la
rpartition est aplatie (plus la courbe est platicurtique). Plus il est grand, plus les observations
sont plus regroupes autour de la moyenne.
2 prend la valeur 3 pour une distribution normale.

- Coefficient daplatissement de Fisher


Il scrit :
4 4
2 = 2 3 = 3 = 3
22 4

Si :
2 = 0 distribution normale, laplatissement est le m^me que celui de la loi de Gauss
rduite
1 < 0 la distribution est plus aplatie (platicurtique)
1 > 0 la distribution est moins aplatie (leptocurtique)

Mondher Abrougui Biostatistique I ISEFC - 2008 71


Application VIII.2

Utiliser les tableaux de distribution suivant et raliser les calculs sur Excel

Mondher Abrougui Biostatistique I ISEFC - 2008 72


PARTIE EXERCICES
Exercices dapplications I : Moyenne, Mdiane, Etendue, Quantiles

Etudier les sries suivantes : Srie tudier


Srie A :
(rang) 1 2 3 4 5
valeur : 24.3 31.85 33.61 36.81 38.92
Srie B :
(rang) 1 2 3 4 5 6 7 8 9 10
valeur : 29.2 31.4 32 32.3 32.5 34.7 34.9 36.6 37.2 39.4
Srie C :
(rang) 1 2 3 4 5 6 7 8 9 10 11
valeur : 28 29.06 29.09 34.49 34.92 35.76 36.73 37.21 37.28 37.68 41.17
Srie D :
(rang) 1 2 3 4 5 6 7 8 9
valeur : 27 29 30 30 36 36 37 41 42

Questions : Pour chacune des sries dterminer :


1- Quel est l'effectif de cette srie ?
2- Quelle est la mdiane de cette srie ?
3- Quelle est l'tendue de cette srie ?
4- Quelle est la moyenne de cette srie ?
5- Quel est le 1er quartile de cette srie ?
6- Quel est le 3me quartile de cette srie ?

Rponses
Srie A
1- L'effectif (n) de cet chantillon caractrise sa taille; ici, n = 5

La mdiane est un indicateur de position centrale.


Elle correspond la valeur "centrale" de la srie considre Mdiane = 33.61

L'tendue est un indicateur de dispersion que l'on dtermine ainsi :


Etendue = Maximum - Minimum
Ce qui donne ici : Etendue = 38.92 - 24.3 = 14,62

La moyenne est une caractristique de position "centrale" qui est dtermine ainsi :

L'application de cette formule nous donne ainsi :


n effectif =5
somme des donnes = 165.49

Mondher Abrougui Biostatistique I ISEFC - 2008 73


moyenne de l'chantillon = 33,1

Les quartiles sont aussi des indicateurs de position, ils divisent chacune des partitions
dfinies par la mdiane en sous-partitions d'effectifs gaux.
1er quartile Q1 = 31,85
3me quartile Q3 =36,81

Rponse Srie B
Bilan Rsultats attendus
Effectif 10
Mdiane 33.6
Etendue 10.2
Moyenne 34
Q1 = 1er quartile 32
Q3 = 3me quartile 36.6
Rponse Srie C
Bilan Rsultats attendus
Effectif 11
Mdiane 35.76
Etendue 13.17
Moyenne 34.67
Q1 = 1er quartile 29.09
Q3 = 3me quartile 37.28
Rponse Srie D
Bilan Rsultats attendus
Effectif 9
Mdiane 36
Etendue 15
Moyenne 34
Q1 = 1er quartile 29.5
Q3 = 3me quartile 39

Mondher Abrougui Biostatistique I ISEFC - 2008 74


Exercices dapplications II

- REPRESENTATION DE SERIES ET CALCUL STATISTIQUE

Activits et Applications

I. Tracer l'histogramme reprsentant une srie statistique :

Exemple : rpartition suivant leur ge de donneurs de sang

[15,25[ [25,30[ [30,35[ [35,40[ [40,45[ [45,50[


14 32 43 53 27 19

Mthode : on construit des rectangles dont les aires sont proportionnelles aux effectifs des
classes correspondantes. La premire classe ayant une amplitude double de celle des autres
sera reprsente par un rectangle de hauteur 2 fois plus petite. De mme la dernire classe est
reprsente par un rectangle de hauteur 3 fois plus petite.
Solution :
55

50 53
45

40 43
35
Effectifs

30 32
25
27
20

15 19
10 14
12
5

0
10 15 20 25 30 35 40 45 50 55 60 65
Ages

II. tablir le tableau permettant d'obtenir les caractristiques de la srie :


Solution :

Ages Effectifs Centres Produits Cumuls Cumuls Carrs Produits


ni xi ni xi crois. dcr. xi2 ni xi2
[15,25[ 14 20,0 280,00 14 200 400,00 5 600,00
[25,30[ 32 27,5 880,00 46 186 756,25 24 200,00
[30,35[ 43 32,5 1 397,50 89 154 1 056,25 45 418,75
[35,40[ 53 37,5 1 987,50 142 111 1 406,25 74 531,25
[40,45[ 27 42,5 1 147,50 169 58 1 806,25 48 768,75
[45,50[ 19 47,5 902,50 188 31 2 256,25 42 868,75
[50,65[ 12 57,5 690,00 200 12 3 306,25 39 675,00
200 7 285,00 281 062,50

Mondher Abrougui Biostatistique I ISEFC - 2008 75


III. Dterminer la moyenne pondre de la srie :
Solution :

x=
ni xi = 7285 = 36,43 ans
ni 200
IV. Dterminer la mdiane l'aide des polygones des effectifs cumuls :
Solution :

POLYGONES CUMULATIFS

200
180
160
140
Effectifs cumuls

120
100
80
60
40
20
0
36,04
10 15 20 25 30 35 40 45 50 55 60 65
Ages

V. Calculer la mdiane de la srie :


Solution :
200
= 100
demi-effectif : 2
e
classe de la 100 personne : [ 35; 40 [
rang dans cette classe : 100 - 89 = 11
amplitude de cette classe : 40 35 = 5
effectif de cette classe : 53
5 11
Q2 = 35 + = 36,04
mdiane : 53

VI. Calculer l'cart-type de la srie :


Mthode : on utilise l'une des formules suivantes
n ( x x ) n x
2
2

= = x2
i i i i

n i n i

Solution :
Utilisons ici la deuxime formule :
281062,50
= ( 36,43)
2

200
= 1405,3125 1327,1449
= 78,1676 = 8,841

Mondher Abrougui Biostatistique I ISEFC - 2008 76


CHAPITRE II

ETUDE DE DEUX VARIABLES STATISTIQUES


- SERIE STATISTIQUE DOUBLE -
1. PRESENTATION DUNE SERIE A DEUX VARIABLES

Lobjectif de cette tude statistique est dtudier sur une mme population de N individus,
deux caractres diffrents (ou modalits diffrentes) et de rechercher sil existe un lien ou
corrlation entre ces deux variables.

Exemple de relations possibles entre les variables suivantes : taille et ge ; diabte et


poids ; taux de cholestrol et rgime alimentaire ; niche cologique et population ;
ensoleillement et croissance vgtale ; toxine et raction mtabolique ; survie et pollution ;
effets et doses; organe 1 et 2 ; organe et fonction biologique ;

Les caractres tudis peuvent tre aussi bien qualitatifs que quantitatifs.

Les rsultats sont gnralement reprsents sous forme dun tableau double entre, appel
tableau deux dimensions, ou tableau crois ou tableau de contingence, ou parfois
tableau de corrlation.

Exemple de tableau de contingence

Effets de doses (variable y)


Sexe (variable x) Effet 1 Effet 2 Effet 3 total
H 43 36 3 Total des H : 82
F 49 12 12 Total des F : 73
Total effet 1 : Total effet 2 : Total effet 3 : Total des H et F :
Total 92 48 15 155
Effets de doses selon le sexe H ou F

2. GENERALISATION DES REPRESENTATIONS

Dsignons par (X, Y) le couple de caractres tudis.


A chaque observation conjointe (xi, yj) est associe le nombre dindividus ayant
simultanment la valeur xi pour le caractre X et la valeur yj pour le caractre Y. Ce nombre
est not nij et appel leffectif associ lobservation (xi,yj).

Mondher Abrougui Biostatistique I ISEFC - 2008 77


y1 y2 .. yj .. yz TOTAL
yj
xi
E
x1 n11 n12 n1j n1z z

n1 j = n1.
j =1
F
F
E
C
x2 n21 n22 n2j n2z z T
n2 j = n2.
j =1
I
F
S
. M
A
xi ni1 ni2 nij niz z

nij = ni.
j =1
R
G
I
N
xi A
U
. X
xk nk1 nk2 nkj nkz z

nkj = nk .
j =1
D
E

X
Total k k k k

ni1 = n.1 ni 2 = n.2 nij = n. j N


i =1 i =1 i =1
niz = n.z
i =1
Effectifs Marginaux de Y

La ligne et la colonne total correspondent aux marges du tableau.

3. CALCUL DES FREQUENCES DUNE STATISTIQUE A DEUX VARIABLES

3.1. Frquences relatives partielles


La frquence de lobservation (xi, yj) sexprime par lexpression fij. Elle correspond la
proportion dindividus qui possdent simultanment les valeurs xi et yj. Elle est obtenue par la
formule suivante :
nij k z
f ij = il est a remarquer que f ij =1
N i =1 j =1
3.2. Frquences relatives marginales fi . et f.j
Il sagit des frquences relatives des distributions marginales.

ni. n. j
f i. = et f. j =
N N
Exemple

Effets de doses (variable y)


Sexe (variable x) Effet 1 Effet 2 Effet 3 total
H 43 36 3 Total des H : 82
F 49 12 12 Total des F : 73
Total effet 1 : Total effet 2 : Total effet 3 : Total des H et F :
Total 92 48 15 155

Mondher Abrougui Biostatistique I ISEFC - 2008 78


Tableau des frquences de leffet des doses selon le sexe
Sexe Effet 1 Effet 2 Effet 3 total
H (43/155) = 0,28 (36/155) = 0,23 (3/155) = 0,02 (82/155) = 0,53
F (49/155) = 0,32 (12/155) = 0,08 (12/155) = 0,08 (73/155) = 0,47
Total (92/155) = 0,59 (48/155) = 0,31 (15/155) = 0,10 1

Reprsentation graphique :
Reprsentation graphique

0,35
0,30
0,25
Frquences

0,20 H
0,15 F
0,10
0,05
0,00
Effet 1 Effet 2 Effet 3
Effets du dosage

4. CALCUL DES MOYENNES MARGINALES DUNE STATISTIQUE A DEUX


VARIABLES

Dans certaines distributions statistiques bidimensionnelles il est possible de calculer les


moyennes, les variances et les cart-types marginaux. Nous expliciterons ces calculs travers
un exemple.
Soit la srie statistique bidimensionnelle du couple (X, Y) suivante :

Y Calculer respectivement:
X -2 0 2 3 1- Les moyennes marginales de X puis de Y
2 3 4 0 6 2- Les variances et lcart-type marginaux de X puis de
3 4 3 3 2 3- La moyenne conditionnelle de X quand Y=2
4 2 3 3 2 4- La moyenne conditionnelle de Y quand X=3

1 et 2 - Les moyennes marginales, cest le calcul des moyennes des effectifs marginaux.
- les variances et les cart-types marginaux se calculs aussi sur les effectifs marginaux.
Les formules respectives seront utilises :
n n

xi yj
j =1
Pour les moyennes : a) x = i =1
et b) y =
N N
n n

ni xi 2 2
ni yj
j =1
2

2
Pour les variances : c) x = x et d) y = y
2 i =1 2

N N

Mondher Abrougui Biostatistique I ISEFC - 2008 79


Dressons le tableau des distributions afin de faciliter les calculs

Y Pour les paramtres de la variable X


X 0 2 -2 3 ni. xi2 ni.xi2
2 4 0 3 6 13 4 52
3 3 3 4 2 12 9 108
4 3 3 2 2 10 16 160
n.j 10 6 9 10 35 somme 320
Pour les paramtres de la variable Y
yj2 4 0 4 9 somme
n.jyj2 36 0 24 90 150
Moy marginale X 2,91 Var X 0,64 cart-type X 0,80
Moy marginale Y 0,68 Var Y 3,81 cart-type Y 1,95

Applications numriques
n

xi (2 x13) + (3x12) + (4 x10) 102


a) x = i =1
= = = 2,91
N 35 35

yj
j =1 (2 x9) + (0 x10) + (2 x6) + (3x10) 24
b) y = = = = 0,68
N 35 35
n

ni xi 2
2 (13x 4 + 12 x9 + 10 x16) 320
c) x = i =1
x = (2,91) 2 = 8,46 = 0,64
2

N 35 35
n

nj yj 2

(150) 2
d) y = i =1
y =
(0,68) 2 = 3,81
2

N 35
(Correction dtaille sur fichier Excel)

3 Pour dterminer la moyenne conditionnelle de X quand Y=2, il suffit dobserver le


comportement de X relatif la colonne Y=2
n
X Y= 2
2 0 xi (0 x 2) + (3x3) + (3 x 4) 21
3 3 x y =2 = i =1
= = = 2,1
N 10 10
4 3
n.j 6

4 Pour dterminer la moyenne conditionnelle de Y quand X=3, il suffit dobserver le


comportement de Y relatif la colonne X=3
n

Y
yj
j =1 (2 x 4) + (0 x3) + (2 x3) + (3 x 2) 4
y x =3 = = = = 0,33
-2 0 2 3 ni. N 12 12
X=3 4 3 3 2 12

Mondher Abrougui Biostatistique I ISEFC - 2008 80


5. COVARIANCE

Une premire approche entre de la relation ventuelle des valeurs dune variable X avec des
valeurs dune variable Y est donne par le calcul de la covariance. La covariance du couple
(X, Y), note Cov (X,Y) correspond la moyenne de ( X X )(Y Y )
La formule est donc la suivante :

( xi x)( yi y)
Cov = i =1

Analogue la combinaison des deux formules suivantes


n n n n

( xi x) 2
( xi x)( xi x) ( yi y ) 2
( yi y)( yi y)
( x
)2 =
N
i =1

N
= i =1

N
( Ny
)2 = i =1
= i =1

Dans cette formule la co-variance apparat bien comme une combinaison de la variance de
X et celle de Y.

Par analogie aux formules prcdentes les formules pratiques de calculs de la covariance
peuvent aussi scrire :
n

xiyi
- Pour des donnes non groupes : Cov = xy
i =1

nixiyi
- Pour des donnes groupes : Cov = xy
i =1

Proprits de la covariance
- Cov (X, X) = var (X)
- Cov( X , Y ) ( X ) (Y )
- Le signe de la Cov est un indicateur de la tendance de la relation sens positif ou
ngatif (direction dtirement du nuage de point)
-

Une covariance positive indique une tendance croissante des valeurs de Y en fonction de
X, une covariance ngative une tendance dcroissante

Mondher Abrougui Biostatistique I ISEFC - 2008 81


Exemples de calcul de la covariance :

Exemple 1 : Distribution bimodale dans un tableau de contingence

Y
X -2 0 2
0 4 10 5
2 5 12 4
4 2 7 1
Recherchons la covariance (X,Y)

- dressons le tableau de contingence avec les variables calcules


Y
X -2 0 2 ni nixi
0 4 10 5 19 0
2 5 12 4 21 42
4 2 7 1 10 40
nj 11 29 10 50 82
njyj -22 0 20
moy mar X 1,64
moy mar Y -0,04
Cov (X,Y) -0,24

- la moyenne marginale de x
n

xi (0 x19) + (2 x 21) + (4 x10) 82


x= i =1
= = = 1,64
N 50 50
- la moyenne marginale de y
n

yj
j =1 (2 x11) + (0 x 29) + (2 x10) 2
y= = = = 0,4
N 50 50
Cov= 1/50 ((-2x4x0)+(0x10x0)+(2x5x0)+(-2x5x2)+(0x12x2)+(2x4x2)+(-2x2x4)+(0x7x4)+(2x1x4)
Cov (X,Y) = -0,24

Exemple 2 : Distribution bimodale dans un tableau simple.

6. COEFFICIENT DE CORRELATION

La covariance nest pas un indicateur indpendant de lordre de grandeur des variables


impliques (de lunit employe, par exemple). Le coefficient de corrlation, not r, permet de
rsoudre cette difficult. Ce coefficient pour le couple (X,Y) scrit selon la formule
suivante :

Cov ( X , Y ) o x et x dsignent respectivement lcart-type de la srie


r= statistique X et celui de la sries statistique Y
xy

Mondher Abrougui Biostatistique I ISEFC - 2008 82


Proprit de r :

- r est toujours compris entre -1 et 1, cest une covariance rduite


- quand (r = 1), les points reprsentatifs des couples (xi, yi), sont parfaitement
aligns sur le graphique :
- quand (r est voisin de 1), il existe une forte corrlation entre X et Y. Nanmoins
(attention), ceci ne veut pas dire quil existe une relation de cause effet entre elles.
- pour r = 1, la droite de la pente est croissante
- Si 0 < r < 1, la corrlation est positive, X et Y varient dans le mme sens.
- Si -1 < r < 0, la corrlation est ngative, X et Y varient dans le sens contraire.
- pour r = -1, la droite de la pente est dcroissante
- quand (r = 0), aucune tendance ne peut tre dtermine

7. DROITE DE REGRESSION OU DAJUSTEMENT

7.1. Importance de ltude de corrlation entre 2 variables statistiques


Lune des mthodes simple dtude de corrlation entre 2 variables consiste rechercher une
courbe dquation y = f(x) qui passe au plus proche de tous les points exprimentaux. Une
telle courbe permet davoir une ide sur la tendance de la relation entre les variables tudies
et de formuler dventuelles prvisions.

7.2. Droite de rgression linaire


Une droite de rgression linaire scrit selon lquation : y = ax +b . Cette approche de
corrlation repose sur lhypothse que la relation entre deux variables est de nature linaire.
En faite, il est possible de souponner une relation diffrente entre ces variables :
- courbe de puissance
- courbe exponentielle
- courbe logarithmique,
- courbe hyperbolique, etc
Cependant, il existe de nombreuses mthodes permettant de linariser un grand nombre de
ces courbes. Ainsi, on se retrouve souvent dans des situations o il est alors possible de tester
lexistence dune relation linaire entre les variables auxiliaires.

En partant de lquation y = ax + b , a et b doivent tre choisis convenablement de sorte


que la droite passe au plus proche (ou par le plus possible) des points exprimentaux. Pour ce
faire, on utilise la mthode des moindres carrs : On cherche les coefficients a et b de la droite
qui minimise la somme des carrs des distances entre les points exprimentaux et la droite de
rgression (les points thoriques).

- le coefficient a (pente) se dtermine comme suit :

^
Cov( X , Y )
a=
x2
- le coefficient b (ordonne lorigine) se dtermine comme suit :

Mondher Abrougui Biostatistique I ISEFC - 2008 83


^ ^

b= yax
Ainsi la droite de rgression de Y en X a pour quation :
Cov( X , Y )
y = ax + b = (x X ) + Y
x2

Pour exprimer X en fonction de Y, il suffit dinverser les rles de X et Y


Cov( X , Y )
x = a ' y + b' = (y Y) + X
y 2

Ces quations permettent de dfinir deux droites diffrentes de rgression lintrieur du


nuage de point. Nanmoins cette inversion, qui permet dobtenir lquation x= ay + b
(rgression de x en y) nest pas souvent intressante, car en gnral, Y est une variable
exprimer et X est une variable potentiellement explicative.

Proprit de ces deux droites de rgression :


1) les deux droites de rgression se coupent en un point qui a pour coordonnes les moyennes
de x et de y, point ( x, y ) , (en remplaant dans lquation x par sa moyenne, il est ainsi
possible de retrouver y (qui correspond la moyenne de y)).
2) les coefficients a et a (qui sont les pentes) sont toujours de mme signe (soit (corrlation
ngative) soit + (corrlation positive)), ainsi les deux droites sont orientes dans le mme sens
que le nuage de point.
3) langle maximum des deux droites de rgression est de 90 (droites perpendiculaires). Dans
ce cas, les points sont disperss dans tout le plan. La corrlation est nulle. Les droites sont
respectivement parallles laxe des x et laxe des y.

Remarque : Les fausses corrlations


Qu'est-ce qu'une corrlation ? C'est une relation positive ou ngative entre deux
phnomnes, mais elle nest pas absolue. Ainsi, il y a une corrlation positive entre la
taille et le poids des hommes : ceux qui mesurent un mtre quatre-vingt psent en gnral
plus lourd que ceux dont la taille ne dpasse pas un mtre soixante. Mais il y a des petits
gros et des grands maigres.
Souvent, une corrlation est le signe d'une relation de cause effet. Le plus souvent, on
sait ce qui est la cause et ce qui est l'effet : c'est la consommation de tabac qui provoque le
cancer du poumon et non la prdisposition ce cancer qui donne envie de fumer. Mais dans
certains cas, les choses sont beaucoup moins videntes. Et il peut arriver aussi que chacun
des deux phnomnes soit la fois cause et effet.
En outre, il y a beaucoup de corrlations statistiques qui ne rsultent aucunement d'une
relation de cause effet et qui sont de ce fait trompeuses. C'est notamment le cas pour les
sries statistiques qui voluent paralllement dans le temps, avec le progrs conomique et
scientifique. Certes, si l'esprance de vie augmente, en mme temps que diminue la
frquentation des cinmas (corrlation ngative), personne n'ira soutenir que l'on vit plus
vieux parce que l'on va moins souvent au cinma. Mais dans bien des cas, surtout si l'on veut
prouver quelque chose, on n'hsitera pas voir une relation de cause effet l o il n'y a
rien d'autre que l'volution parallle de deux sries statistiques.

Mondher Abrougui Biostatistique I ISEFC - 2008 84


APPLICATION IX: AJUSTEMENT LINAIRE
I. Savoir reprsenter graphiquement une srie chronologique :

Exemple : On rfrence sur huit annes, le nombre despces affectes par une substance
toxique
Annes 01 02 03 04 05 06 07 08
Nb despces 720 735 730 765 790 810 870 895

Reprsenter graphiquement cette srie.


x (1 xi 8)
Mthode : on porte en abscisse les numros des annes, i et respectivement en
ordonnes les effectifs des espces affectes par cette toxine.

II. Ajuster la srie chronologique par la mthode des points moyens:

Exemple : ajuster la srie prcdente l'aide d'une droite en utilisant la mthode des points
moyens.
Mthode : on dtermine l'quation de la droite passant par deux points moyens A et B.
A a pour abscisse la moyenne des abscisses correspondant des annes 1 4 et pour ordonne
la moyenne des espces. De mme B pour les annes 5 8.
Solution : soient A( x A ; y A ) et B ( xB ; y B ) les deux points moyens.
1 + 2 +L+ 4 720 + 735 + 730+ 765
xA = = 2,5 yA = = 737,5
4 4
5 + 6 +L+ 8 790 + 810 + 870 + 895
xB = = 6,5 yB = = 841,25
4 4
Le coefficient directeur de la droite d'quation gnrale y = ax + b est :
y B y A 841,25 737,5
a= = 25,9
xB x A 6,5 2,5
Sur A on a : y A = ax A + b 737,5 = 25,9 2,5 + b
D'o b = 737,5 25,9 2,5 = 672,75
La droite a donc pour quation : y = 25,9 x + 672,75
Cela permet d'effectuer des prvisions. Par exemple, pour l'anne n 9, le nombre despces
affects prvisionnel sera de : y 9 = 25,9 9 + 672,75 = 905,85 (soit environ 906 espces)

Mondher Abrougui Biostatistique I ISEFC - 2008 85


III. Ajuster la srie par la mthode des moindres carrs :
Exemple : ajuster la srie prcdente l'aide d'une droite en utilisant la mthode moindres
carrs.
Mthode : on commence par calculer la moyenne x des annes (xi) et la moyenne y des
espces (yi).
On obtient le point moyen M de la srie, point par lequel passe la droite d'ajustement.

a=
X iYi
On calcule ensuite le coefficient directeur de la droite : X i2 avec X i = xi x et
Yi = y i y
(carts par rapport aux moyennes respectives).
Solution : on construit le tableau de calculs suivants :

Annes Espces Xi Yi XiYi


xi yi
1 720 - 3,5 -69,38 242,81
2 735 - 2,5 -54,38 135,94
3 730 - 1,5 -59,38 89,06
4 765 - 0,5 -24,38 12,19
5 790 0,5 0,63 0,31
6 810 1,5 20,63 30,94
7 870 2,5 80,63 201,56
8 895 3,5 105,63 369,69
36 6 315 1 082,50

36 6315
x= = 4,5 y= = 789,375
On a : 8 et 8 coordonnes du point moyen M.
1082,50
a= 25,77
Coefficient directeur de la droite : 42
Sur M on a : y = ax + b 789,375 = 25,77 4,5 + b
D'o b = 789,375 25,77 4,5 = 673,41
La droite a donc pour quation : y = 25,77 x + 673,41
Cela permet d'effectuer des prvisions. Par exemple, pour l'anne n 9, le CA prvisionnel
sera de : y 9 = 25,77 9 + 673,41 = 906,34 espces (environ 907 espces) lgrement
diffrente de la mthode des points moyens.

Graphique :

Mondher Abrougui Biostatistique I ISEFC - 2008 86


IV. Mthode des moindres carrs : dmonstration

On dispose de la srie statistique ci-dessous, de N points.


x y
x1 y1
x2 y2
... ...
xN yN

On suppose que la forme du " nuage de points " permet d'envisager lgitimement un
ajustement linaire l'aide d'une droite.
La droite a une quation de la forme y = ax + b . Pour chaque xi, on va chercher minimiser
les carrs des carts entre les ordonnes yi du point correspondant de la srie et les ordonnes
des points de la droite yi = axi + b .

Le problme consiste donc dterminer les coefficients a et b tels que si on calcule


N N

y = ax + b , on doit rendre minimum l'expression :


i i
( y y) = ( y ax b)1
i i
2

1
i i
2

me
Supposons a connu, donc fix. Seul b " bouge ". La fonction du 2 degr
f (b) = ( y i axi b )
2
passe par un minimum quand la drive par rapport b s'annule

( )
( yi axi b) 2 = 0 2 ( yi axi b) = 0 yi a xi Nb = 0
D'o : b =
y i
a
x i
b = y a x avec y =
y i
(moyenne des yi) et
N N N

x=
x (moyenne des xi). Autrement dit, la fonction y = ax + b dont nous cherchons les
i

N
coefficients est telle que y = ax + b , la droite d'ajustement passe donc par le point moyen
M ( x , y ) . On a donc dtermin b en fonction de a.

L'quation cherche devient y = ax + y ax y y = a( x x )


Posons Y = y y et X = x x ce qui revient prendre M ( x , y ) comme nouvelle origine.
Notre droite d'ajustement passant par cette origine aura une quation de la forme Y = aX .
Dans ce nouveau repre, les points de notre srie statistique auront pour coordonnes :
X i = xi x et Yi = yi y . Pour obtenir a, on doit minimiser lexpression
N N N

(y axi b ) = ( y i axi ( y ax ) ) = ( y i y a ( xi x ) ) = (Yi aX i )


2 2 2 2
i .
1 1 1

g (a ) = (Yi aX i )
2
me
Seul a " bouge " et est variable. La fonction du 2 degr passe par un
minimum lorsque la drive par rapport a s'annule.

( )
( Yi aX i ) 2 = 0 2 ( Yi aX i ) X i = 0 X iYi a X i2 = 0
D'o l'on tire :

a=
X Y i i

X i
2

Mondher Abrougui Biostatistique I ISEFC - 2008 87


CHAPITRE III.

INFORMATIQUE ET STATISTIQUE :
Pr-requis, mise niveau et apprentissages

1. INFORMATIQUE : PRE-REQUIS ET MISE A NIVEAU

1.1. Matriels et interfaces utiles (disponible au laboratoire dinformatique)


- Calculatrice scientifique (possible dutiliser celle du PC ou celles fournis)
- PC interface avec office 2003 et plus (Word, Excel,..),
- Autres logiciels et plug-in: adobe acrobate reader (lecture et impression des fichiers PDF),
flash player (plug-in pour navigateur et lecteur danimations SWF (Animations Flash)),
compression/dcompression (winzip et winrar), Exlstat (outil d'analyse de donnes et de
statistiques pour Microsoft Excel), lecteur de format et fichier chm ;

1.2 Pr requis
- Interface Windows (de prfrence XP ou Vista)
- Interface et fichier Word
- Interface et fichier Excel
- Interface et fichier PDF
- Gestion dimages et de format dimages (jpg, gif, png,...)
- Notion dInternet (navigation, tlchargement, mailing, forum,)
- Gestion de fichiers compresss (Winzip, winrar,..)

1.3 Mise niveau thorique et pratique


- Mise niveau des pr-requis

2. APPRENTISSAGES INFORMATIQUE ORIENTE STATISTIQUE


2.1. Gestion de donnes numrique et de tableau sur Word et Excel
2.2. Gestion de calculs et de formules statistique dans Excel
2.3. Gestion et laboration de calcul statistique sur Excel
2.4. Gestion et laboration de reprsentations graphiques sur Excel
2.5. Utilisation et insertion de Macro dans Excel
2.6. Reprsentation de sries et calculs statistique (tableau et graphique)
2.7. Ajustement linaire de sries chronologiques avec et sans variations saisonnires.
2.8. Prsentation et principe de logiciel danalyse de donne statistique
2.9. Utilisation Excel et prsentation d XLSTAT comme outil pour statistique descriptive

Mondher Abrougui Biostatistique I ISEFC - 2008 88


APPLICATIONS ET TRAVAUX DIRIGES

EXERCICES APPLIQUES : STATISTIQUES ET INFORMATIQUE

OBJECTIF

Ces travaux dirigs sont loccasion dillustrer travers des simulations et des exemples
concrets les diffrentes notions de base de statistique vues en cours. Nous insisterons sur les
rsultats fournis par les logiciels statistiques car ceux-ci sont de plus en plus labors, et les
rsultats quils fournissent sont plus ou moins facilement interprtables. Le logiciel que nous
utiliserons tout le long de ces travaux dirigs est Excel et Exstat.

- TD 1 - INITIATION A LA MANIPULATION DUN TABLEUR


(Notion dinformatique) (Tableur Excel)

Activit I : Mise niveau des pr-requis

Exercice 1. Evaluation des pr-requis et mise en pratique

Activit II. Gestion de donnes numriques et de tableau sur Word et Excel

Exercice 1 : Construction de table,


Exercice 2 : Conversion, transformation et ajustement de donnes alphanumriques
Exercice 3 : Trie, slection, substitution de donnes alphanumriques

Activit III : Utilisation de feuille de calcul Excel

Exercice 1 : Construction de table de multiplication dynamique


(Utiliser le tutoriel (table_multiplication.swf) en flash)
Exercice 2 : Fonctions de bases dExcel
Exploitation de la fonction formule

Activit IV : Excel : Construction graphique et application statistique simple

Exercice 1 : Construction dun histogramme


Voir tutoriel: Exemple histogramme 3D sur Excel.avi
Exercice 2: Construction de courbes

Mondher Abrougui Biostatistique I ISEFC - 2008 89


TD2 : Activits : Initiation aux utilitaires mathmatique et statistique de linterface
Microsoft

A. Quelques utilitaires de linterface Microsoft


1- La calculatrice scientifique de linterface Microsoft
2- Linsertion de symbole de Microsoft Word
3- Lditeur dquation de Microsoft Word

Activit A1: Calculez avec la calculatrice scientifique la somme, la moyenne et lcart-type


de la srie statistique suivante : 20, 21, 21, 19, 23, 22

B. Quelques fonctions usuelles dExcel


Rechercher dans laide de Microsoft Excel :
1- les fonctions mathmatiques et trigonomtriques
3- quelques astuces sur Excel (raccourcis claviers, notion de macro...)
2- les fonctions statistiques

C. Application et utilisation de fonctions statistiques sur Excel


1- Passage de donnes en vrac aux donnes ranges et aux donnes condenses.
2- Elaboration de donnes en classes
3- Tableau des frquences
4- Tableau de distribution
5- Elaboration et gestion des graphiques
6- Gestion des calculs
Sommes, Moyenne, Mode, Mdiane, Quartile, Dcile, Centiles, Maximal, Minimal
Frquences, Variance, Ecart-type, Covariance, Coefficient de variation

D. Construction de reprsentations graphiques labores


1- Construction de sries chronologiques
2- Construction de Pyramide
3- Construction et exploitation de barres moustaches

TD3: Activits questions de synthses :


1- Enumrer travers le fascicule lensemble des questions qui peuvent tre poses.
- Enoncer les formules respectives des paramtres suivants :
Moyenne, Moyenne pondr, la variance et lEcart-type avec N>30 et N<30,
- Calculer : les frquences relatives et absolues
- Calculer : la moyenne, le mode, la mdiane, la variance, lcart-type,
- Calculer : les effectifs cumuls croissant et dcroissant
- Calculer la moyenne, la variance et lcart-type en utilisant la mthode des
- Trouver la valeur Xi du rang dcile C
- Trouver le rang dcile C de la valeur Xi
- Elaborer un tableau dtaill de distribution, en indiquant respectivement les valeurs xi, mi,
ni, fi et Fi.
- Tracer un histogramme des effectifs
- Tracer un histogramme des frquences
- Tracer la courbe des frquences cumules croissante et dcroissante, en dduire la mdiane
- Tracer des barres moustaches et comprendre leurs indicateurs
- Ajuster une srie chronologique par les mthodes des points moyens et des moindres carrs

Mondher Abrougui Biostatistique I ISEFC - 2008 90


PLANCHE DACTIVITES
Pour toutes les activits, vous devez formuler un ensemble de questions, puis analyser la
situation en choisissant la procdure et les tests statistiques appropris. La correction doit tre
fournie sur document Word et sur document Excel. Sur le document indiquez : Nom, Prnom,
N dinscription

TABLEAU A TABLEAU C
Adultes Triglycride Primtre Poids de ACTIVITE 1 : Le tableau A
de 18 20 ans du tronc larbre prsente les rsultats dun test de
1 152 358 760 dpistage de triglycrides chez
2 59 375 821 des adultes de 18 20 ans. Avant
3 117 393 928 de faire une analyse statistique,
4 54 394 1009 regrouper ces rsultats sous forme
5 93 360 766
de donnes condenses.
6 176 351 726
7 79 398 1209
8 89 362 750 ACTIVITE 2 : Lors dun examen
9 307 409 1036 mdical, on a voulu mettre en
10 88 406 1094 place un dpistage de lipides
11 299 487 1635 sanguins chez une promotion
12 52 498 1517 dtudiant en mdecine. Le but
13 158 438 1197 tant de sassurer que le taux de
14 98 465 1244 cholestrol moyen des tudiants
15 101 469 1495 est infrieur 190 (taux au dessus
16 71 440 1026 duquel le cholestrol peut tre
17 81 376 912
nocif). Les donnes sont rsumes
18 86 444 1398
19 71 438 1197 dans le tableau B.
20 71 467 1613
21 107 448 1475 ACTIVITE 3 : Les donnes du
22 80 478 1571 tableau C proviennent des
23 47 457 1506 archives dun laboratoire de
24 95 456 1458 recherche. Elles renseignent sur
25 140 389 944 un suivi (de plus de 30 annes) de
26 77 405 1241 lvolution des arbres dune
27 57 405 1023 rserve naturelle. Ces donnes
28 95 392 1067 nous permettent dobtenir des
29 480 327 693
estimations de poids sans avoir
30 94 395 1085
427 1242 couper les arbres pour les peser,
TABLEAU B
Taux de cholestrol 385 1017 mthode destructive et
(30 tudiants) 404 1084 problmatique. Faites une analyse
197 194 137 215 212 416 1151 des relations entre ces 2 variables.
181 155 285 194 175 479 1381 Peut on estimer de faon prcise
190 234 218 207 158 le poids dun arbre dont le
131 201 167 198 115 primtre est gal 525 ?
172 258 170 189 228
233 212 157 216 164

Mondher Abrougui Biostatistique I ISEFC - 2008 91


QUELQUES STATISTICIENS

Pour une histoire de la statistique. Tome 1. Insee, Imprimerie Nationale, 593 pp.

- ACHENWALL Gottfried
Juriste allemand (1719 - 1772). Professeur de droit international et de science politique Goettingue,
il diffusa le mot "statistique". Il emprunta ce mot Marton Schmeizel, qui fut son professeur et qui
tait lui-mme lve de Conring.

- ARBUTHNOT J.
Mdecin et crivain cossais (Arbuthnot, Kincardineshire, 1667 - Londres, 1735). Il remarqua que,
parmi les enfants baptiss Londres chaque anne de 1629 1710, le nombres des garons dpassait
toujours celui des filles. Considrant que cel prouvait que les probabilits, pour chaque naissance,
d'obtenir un garon ou une fille n'taient pas gales, il attribua cette ingalit la "Divine Providence".
Certains font remonter les mthodes non paramtriques cette observation. 1710. An argument for
Divine Providence, taken from the constant regularity observ'd in the births of sexes. Phil. Trans. R.
Soc, 27: 186-190.

- ARISTOTE (en grec Aristotels, dit le Stagirite)


Philosophe grec (Stagire, Macdoine, aujourd'hui Stavro, - 384 - Chalcis, Eube, -322). L'oeuvre
d'Aristote comporte galement des traits de politique (Politique, o apparat l'origine des statistiques
descriptives qui se rpandront en Europe au XVIe sicle; Constitution d'Athnes)

- ARTHASASTRA
Trait de science politique et conomique rdig par Kautilya, ministre du roi Candragupta du premier
Empire indien des Maurya (IVe sicle avant notre re). Il est remarquable, entre autre, par la
description des techniques perfectionnes de recensement de la population et de statistiques.

- BODIN Jean
Economiste et philosophe franais (Angers, 1530 - Laon, 1596). Dans son trait Methodus ad facilem
historiarum cognitionem, il a montr l'importance de la connaissance de l'histoire pour la
comprhension du droit et de la politique. Economiste, il a analys le phnomne de la monte des
prix au XVIe sicle en relation avec l'apport des mtaux prcieux d'Amrique (Rponse aux paradoxes
de Malestroit).Dans son trait de science politique (La Rpublique, 1576), thorie de la monarchie
absolue, il dmontre l'intrt de l'ide de dnombrement, base de la statistique descriptive. Cette ide
connatra un grand succs et sera reprise, plagie sans que les emprunteurs citent leur source; ainsi le
Miroir des Franois de N. de Montand (1581) et le Trait de l'conomie politique d'Antoine de
Montchrtien (1615).

- BURT sir Cyril


Psychologue britannique (Londres, 1883 - 1971). Il fut le psychologue officiel du London County
Council, responsable de l'application et de l'interprtation des tests mentaux dans les coles de
Londres. Il succda Charles spearman la chaire de l'University College de Londres (1932 - 1950).
Spcialiste de la statistique pyschologique, il rifia l'analyse factorielle en assimilant un axe factoriel
mathmatique au concept d'"intelligence gnrale", la suite de C. Spearman. Il considrait que
l'intelligence, concept nbuleux, pouvait s'identifier une "chose" possdant une localisation prcise
dans le cerveau et un degr d'hritabilit, chose que l'on pouvait mesurer et rduire un chiffre
permettant de classer les individus en fonction de la quantit qu'ils en possdent. Sa thorie
hrditariste de l'intelligence tait base sur l'tude de couples de jumeaux vrais (une cinquantaine)
levs sparement dont les QI taient en forte corrlation. Il fut clbre et couvert d'honneurs. Il fut
dmontr, quelques annes aprs sa mort, qu'il tait l'auteur d'une gigantesque supercherie scientifique.
Il avait invent ses couples de jumeaux, sa collaboratrice et ses rsultats.
Mental and scolastic tests. London Country Council, 432 p., 1921; The backward child, Appleton,

Mondher Abrougui Biostatistique I ISEFC - 2008 92


New York, 694 p., 1937; The factors of mind, Univ. London Press, 509 p., 1940; Intelligence and
fertility, Eugenics Society, 43 p., 1946; The Causes and treatment of Backwardness, 1952.

- CONRING Hermann
Juriste allemand (1606 - 1632). Professeur de droit public Helmstedt, il introduisit pour la premire
fois l'enseignement de la statistique l'Universit. Ses notes de cours (Examen rerum publicarum
potiorum totius urbis) furent publi en 1667. Il y dcrit de nombreux pays europens et non europens,
sans apporter de donnes chiffres. La statistique est la science de la constitution de l'tat, mais elle est
purement descriptive.

- FISHER Ronald
Statisticien anglais (1890 - 1962). partir de ses exprimentations agronomiques, il tenta de montrer
que, mme si les postulats de normalit relevaient souvent de l'abus de confiance, cela ne dtriorait
pas trop la validit des conclusions. Dans ce cadre, il fut l'un des premiers dvelopper les tests de
permutations des rangs ou de randomisation avec Pitman et Welch. The design of experiments. Oliver
& Boyd, Edimbourg, 1935.

- GALTON sir Francis


Physiologiste, anthropologue et psychologue anglais (Birmingham, 1822 - Haslemere, 1911). Cousin
de C. Darwin, il fut un pionnier des statistiques modernes. Il pensait que la mensuration tait le critre
primordial de toute tude scientifique. Il entreprit mme une enqute statistique sur l'efficacit de la
prire. Sa croyance, que mme les comportements les plus enracins dans la socit avaient une
composante inne, l'amena tudier l'hrdit et les diffrences individuelles (hrditarisme;
Hereditary Genuis, 1869; English men of science, their nature and nurture, 1874; Inquires into
Human Faculty and its Development, 1883; Natural Inheritance, 1889). L'anthropomtrie et le
mesurage des crnes et des corps furent parmi les critres les plus utiliss. Il tudia le niveau
d'intelligence d'un individu l'aide de l'talonnage des tests. Il fut un des fondateurs de "l'eugnisme"
(Essays on Eugenics, 1909). Mais, il fut un des premiers raliser que les valeurs moyennes attaches
des populations biologiques pleines de variabilit ne sont que des artifices de calcul.

- KAUTILYA
Ministre du roi Candragupta, fondateur de la dynastie et du premier Empire indien des Maurya (313 -
226). Il rdigea un trait de science politique et d'conomie. Il justifie le recours aux recensements, la
statistique et au cadastre pour remplir son rle de planificateur. Il montre l'intrt port par les empires
asiatiques (populationniste) au dnombrement de leur population.

- MORTON Samuel George


Mdecin et anthropologue amricain (Philadelphie, 1799 - 1851). Il collectionna jusqu' sa mort plus
d'un millier de crnes humains et fut reconnu comme le premier objectiviste de la science amricaine.
Cette collection tait ralise en vue d'tablir une classification objective des races humaines en se
fondant sur les caractres physiques du cerveau et de sa taille. Il fournit et analysa les donnes
permettant de soutenir le polygnisme et devint un des dirigeants du mouvement polygniste
amricain. Il publia toutes ses donnes brutes, mais ses rsums sont un ramassis d'erreurs de calcul,
d'astuces et de tripotages de chiffres, inconscients, tendant confirmer ses convictions pralables (voir
S.J. Gould). Crania americana (1839) est un trait sur l'infriorit de l'intelligence chez les indiens,
contenant des erreurs statistiques et un chantillon biais lui permettant de "calculer" une moyenne
faible pour les cerveau des indiens, nettement infrieure celle des blancs. Le Crania Aegyptiaca
(1844) tablit partir d'un chantillon de 100 crnes provenant des catacombes de l'ancienne Egypte
lui permit de parfaire sa thse en dmontrant que l'cart sparant les blancs des noirs tait encore plus
grand. On y retrouve les nombreuses petites erreurs numriques du premier livre et l'erreur, plus
fondamentale, de la non liaison entre capacit crniene et taille, sans compter la variabilit introduite
par sa procdure de mesure de la capacit crnienne.

Mondher Abrougui Biostatistique I ISEFC - 2008 93


- PEARSON Karl
Statisticien anglais (1857 - 1936). "Il s'est donn pour mission de faire fructifier au niveau thorique
les problmes poss par l'application de la statistique la biologie : il se consacre donc l'tude des
probabilits, mettant au point la fameuse formule du chi carr". F. Bdarida, 1977. Statistique et
socit en Angleterre au XIX e sicle. In Pour une histoire de la statistique, INSEE. Il soutint Galton
et sa thorie de "l'eugnisme".

- PITMAN EJG.
Il fut l'un des premiers dvelopper les tests de permutations des rangs ou de randomisation avec
Fisher et Welch. Significance tests that may be applied to samples from any population. J. R. Stat.
Soc., Suppl., 4: 119-130, 1937. Significance tests that may be applied to samples from any population.
III. The analysis of variance test. Biometrika, 29: 322-335, 1938.

- PLAYFAIR William
XIXe sicle. Voyageur, dessinateur, statisticien, conomiste, inventeur. Il inventa la mthode
d'expression des faits statistiques par des procds gomtriques. La premire illustration de la
mthode graphique a t donn dans Commercial and political atlas 1786. Il prsente deux types de
graphiques : des courbes et des histogrammes. Le nom de ce dernier a t invent par Pearson en 1895.
Il prsente les graphes circulaires et les diagrammes sections dans Statistical breviary 1801.

- QUETELET Adolphe
Statisticien belge (1796 -1874). Il fut un disciple de Laplace. Il recherchait des lois dterministes et
esprait calculer les caractristiques de "l'homme moyen", c'est--dire de dcouvrir l'essence (le type)
de l'homme. Les variations n'taient que des "erreurs" autour de la moyenne. Il joua un rle minent
dans la cration de la statistique mathmatique.

- SPEARMAN Charles
Psychologue et statisticien anglais (Londres, 1863 - Londres, 1945). Fondateur de la psychologie
diffrentielle, il mis au point la mthode mathmatique de l'analyse factorielle (1904). Il admit que la
russite une tche (test) est dtermine par une aptitude gnrale, le facteur g (intelligence globale)
intervenant dans toutes les preuves psychologiques et une aptitude spcifique la tche particulire.
Il justifia, d'un point de vue thorique, l'usage d'une chelle linaire de Q.I., que Binet avait propos
comme un simple guide empirique, sur l'analyse factorielle elle-mme. Il s'enferma dans de profondes
erreurs conceptuelles dont la principale fut le rification de l'intelligence. Il identifia un concept
nbuleux, socialement dfini, comme l'intelligence une "chose" possdant une localisation prcise
dans le cerveau et un degr d'hritabilit. Il tait alors possible de mesurer cette chose et de la rduire
un chiffre unique permettant de classer les individus en fonction de la quantit qu'ils en possdent
(Q.I.).
Il proposa le coefficient de corrlation de rangs qui porte son nom, premier test de statistique
nonparamtrique.
The proof and measurement of association between two things. Am. J. Psychol., 15: 72-101, 1904.
The nature of "intelligence" and the principles of cognition. Londres, McMillan, 358p., 1923; Les
aptitudes de l'homme. Leur nature et leur mesure. McMillan, Londres, 1927; Psychology down the
ages. McMillan, Londres, 2 vol., 454 et 355 p., 1937; Spearman C. & J. L. Wynn : Human ability,
McMillan, 198 p., Londres, 1950.

- STUDENT (GOSSET) William Sealy


Statisticien anglais (1876 - 1937). W.S. Gosset a publi sous le nom de Student. Il travaillait pour
l'industrie de la bire (maison Guinness). Il fit progresser la statistique dans le domaine des
probabilits.

Mondher Abrougui Biostatistique I ISEFC - 2008 94


LEXIQUE FRANAIS / ANGLAIS
Ecart-type ou cart quadratique moyen ou dviation standard : Standard deviation
chantillon : Sample
chantillonnage : Sampling
Erreur de seconde espce : Second kind error, bta-error.
Erreur de premire espce : First kind error, alpha-error
Hypothse alternative (H1) : Non-null hypothesis ou Alternative hypothesis
Hypothse nulle (H0) : Null hypothesis
Homoscdasticit : Homoscedasticity
Niveau de signification (alpha ) : Significance level
Population : Population
Pouvoir d'un test : Test power
Rgion d'acceptation ou de non-rejet : Acceptance region
Rgion de rejet ou domaine de rejet ou rgion critique: Rejection region
Seuil de signification ou valeur critique : Significant point ou Critical value
Tests d'ajustement : Test of goodness of fit
Test binomial : Binomial test
Test d'hypothses ou tests de signification : Test of hypothesis ou Significance tests
Tests statistiques bilatraux :Double-tailed test ou two-sided test
Tests unilatraux : Single-tailed test ou one-sided test

Acceptance region : Rgion d'acceptation ou de non-rejet


Binomial test : Test binomial
Double-tailed test or two-sided test : Tests statistiques bilatraux
Double-tailed test or two-sided test : Tests statistiques bilatraux
First kind error, alpha-error : Erreur de premire espce
Homoscedasticity : Homoscdasticit
Non-null hypothesis or Alternative hypothesi s : Hypothse alternative (H1)
Null hypothesis : Hypothse nulle (H0)
Rejection region or critical region : Rgion de rejet
Sample : chantillon
Sampling : chantillonnage
Second kind error, bta-error . : Erreur de seconde espce
Significance level : Niveau de signification (alpha)
Significant point or Critical value : Seuil de signification ou valeur critique
Standard deviation : Ecart-type ou cart quadratique moyen ou dviation standard
Test of goodness of fit : Tests d'ajustement
Test of hypothesis ou Significance tests : Test d'hypothses ou tests de signification
Test power : Pouvoir d'un test

Mondher Abrougui Biostatistique I ISEFC - 2008 95


Bibliographie

BERTIN J. 1977. La graphique et le traitement graphique de l'information. Nouvelle


bibliothque scientifique, Flammarion.

CAPERAA Philippe & VAN CUTSEM Bernard, 1988. Mthodes et modles en statistique
non paramtrique. Expos fondamental. Presses Universit Laval, Dunod, 357 pp.

DAGNELIE Pierre, 1969 - 1970. Thorie et mthodes statistiques. Applications agronomiques


(3 vol.). Duculot, Gembloux, Presses Agron., 378 + 451 pp.

FISHER R.A., 1946.Statistical methods for research workers, Olivier & Boyd, London.
traduction franaise aux Presses Universitaires.

HAYS W. L., 1963. Statistics for psychologists. Holt, Rinehart & Winston.

LE GUELTE L., LE BERRE M., DAHAN G., RAMOUSSE R. & COULON J. 1983.
Traitement statitistique informatis des donnes en thologie. tudes et analyses
comportementales, 1(4) :202-268.

Pour une histoire de la statistique. Tome 1. Insee, Imprimerie Nationale, 593 pp.

SCHWARTZ D. 1963. Mthodes statistiques l'usage des mdecins et des biologistes. Paris,
Flammarion Mdecine Sciences. SIEGEL Sidney, 1956. Non parametric statistics for the
behavioral sciences , McGraw Hill, 312 pp.

SNEDECOR G.W. Calculation and interpretation of analysis of variance and covariance,


Collegiate Press, Ames, Iowa.

SPRENT P. 1992. Pratique des statistiques nonparmtriques. INRA Editions. VESSEREAU A.


1948. Mthodes statistiques en biologie et en agronomie. Baillre et fils, Paris, p.381.

VIGNERON E. 1997. Gographie et statistique. Que sais-je?, PUF. WINER B.J. 1970.
Statistical principles in experimental design. McGraw-Hill, Mladinska Knijiga, p. 672.

Mondher Abrougui Biostatistique I ISEFC - 2008 96

Vous aimerez peut-être aussi