Cours Biostatistique Ortho

Biostatistique
Dr. Khalil Mhadhbi
k_mhadebi@yahoo.fr
Introduction Générale
C’est quoi la biostatistique?
Définition:
La biostatistique est l’application des concepts et principes
statistiques à des données médicales, biologiques et de santé
public.
Exemples:
o Les effets d’un médicament.
o L’effet du niveau du cholestérol sur la pression artérielle.
o Le nombre de patients admis durant les fins de semaine aux
urgences.
o Distribution des pandémies.
o L’étude sur les différentes complications dans le traitement
des patients atteints du virus VIH.
Pour mieux comprendre l’objectif et la démarche de la
statistique, en tant que discipline, il convient d’abord de la
définir. A ce niveau, il faut remarquer que le mot
statistique peut couvrir plusieurs définitions, selon que l’on
utilise en singulier ou en pluriel, sous forme définie ou
indéfinie. Il faut donc faire la distinction entre les
statistiques, une statistique et la statistique.
o Les statistiques constituent l’ensemble des données

d’observation.
o Une statistique est une caractéristique calculée sur un
échantillon, et qui sera utilisée pour estimer les
caractéristiques de toute la population appelées
paramètres.
La statistique comme science renferme les méthodes visant,

d’une part à collecter, à présenter et à synthétiser
l’ensemble des données d’observation, et d’autre part à
tirer des conclusions relatives à toute la population à
partir des mesures calculées sur un échantillon. La
démarche statistique comporte donc, essentiellement et au
premier vu, deux étapes qui sont dans l’ordre: le calcul
des mesures sur un échantillon (statistique descriptive) et
la généralisation à toute la population (la statistique
inductive).
Plus précisément, la statistique descriptive consiste, d’une part à
collecter les données, à les regrouper et à les présenter dans des
tableaux et des graphiques, et d’autre part à décrire et à résumer ou
synthétiser les données statistiques par des mesures comme celles de
tendance centrale, de dispersion et de forme.
La statistique inductive ou mathématique a pour objectif de tirer des
conclusions sur une population à partir des résultats calculés sur un
échantillon, tiré aléatoirement, de cette population. La mesure calculés
sur un échantillon sera appelée statistique ou estimateur servira pour
apporter des informations sur la mesure relative à la population
(paramètre). Si le paramètre est complètement inconnu, alors
l’opération d’inférence est appelée « estimation ». Toutefois, si on
dispose d’une information sur le paramètre et nous voulons juste
vérifier la véracité de cette information, alors l’opération d’inférence
sera appelée « tests d’hypothèses »
Deux remarques s’imposent à ce niveau:

D’abord, il faut remarquer que l’opération d’inférence consiste à tirer
des conclussions sur une population à partir d’une mesure calculée
sur un échantillon choisi aléatoirement à partir de toute la population
implique que l’on ne peut pas être absolument certain de l’exactitude
des conclussions qu’on peut retirer. Ainsi puisqu’on ne peut espérer
des conclussions d’une exactitude certaine, il faut absolument être en
mesure de calculer les probabilités d’erreur reliées à ces conclussions
et essayer de faire en sorte que ces probabilités soient les plus faibles
possibles.
Le calcul de probabilité est alors une étape importante dans la démarche
statistique. Evidemment, elle doit précéder l’étape de la statistique
inductive.
Ensuite, il faut remarquer aussi que le choix d’un échantillon
représentatif de la population est une étape primordiale pour la
réussite de l’opération de l’inférence statistique car la qualité de
la mesure qu’on veut calculer dépendra énormément de
l’échantillon, qui dépendra lui aussi, de la technique utilisée
pour utilisée pour le choix d’un tel échantillon; la partie de la
statistique qui s’intéresse à la présentation de ces techniques est
appelée « Techniques de Sondage ».
Enfin, il est important de signaler que grâce aussi à l’apport des
probabilités et à l’algèbre linéaire, la statistique est devenue
aujourd’hui un outil de prévision. La méthode statistique qui
vise cette objectif est appelée « économétrie ».
Pourquoi la statistique en biologie et en sciences biomédicales?

À cause de la très grande variabilité intrinsèque du matériel
biologique:
 Variabilité génétique entre les individus,
 Variabilité due au développement des individus,
 Variabilité des réactions d’un même individu à différents
moments.
On peut étudier la variabilité du phénomène en répétant une expérience
ou une mesure dans les mêmes conditions.
On peut étudier la loi du phénomène en faisant varier les conditions
d’expérience ou d’observation.
Chapitre I: Le Vocabulaire Statistique
Définitions
Pour pouvoir la démarche statistique, il est intéressant de préciser
un certain nombre de concepts, en l’occurrence: l’individu ou
l’unité statistique, la population, l’échantillon, le caractère ou la
variable, ect…..
1. Unité statistique appelée encore « statistique » ou « unité »
tout court, c’est l’entité de base observée par les statisticien. Ce
peut être une personne, un animal, une colonie bactérienne, un
prélèvement, un événement, une opinion, ect…..
2. Population appelée encore « ensemble » ou « univers
statistique ». C’est l’ensemble de toutes les unités statistiques
dont on cherche à déterminer une ou plusieurs caractéristiques.
Chaque unité statistique est supposée distincte. On peut citer à
titre d’exemple: L'ensemble des séjours hospitaliers pendant
une année dans un hôpital. Les pièces produites en une journée
par la machine M.
• Population biologique: Ensemble des individus de la même
espèce qui occupent un espace et un temps déterminés.
Il est à noter qu’une population peut être finie ou infinie:
L'ensemble des séjours hospitaliers pendant une année dans
un hôpital, toutefois le nombre d’épreuves nécessaires pour
obtenir le résultat ‘Pile’ en lançant une pièce de monnaie est
infinie puisqu’on peut lancer la pièce indéfiniment sans
pouvoir pour autant obtenir le résultat ‘Pile’.
3. Echantillon
Un échantillon est constitué d’un ou plusieurs individus
prélevés dans une population. Il est destiné à fournir une
information ultérieure sur cette population (opération
d’inférence). Pour que cette opération soit valable, il faut
que l’échantillon soit représentatif de la population de
laquelle il est issu.
Population
N
Caractéristiques
-moyenne: m
- écart- type: σ
- Proportion: p
Caractéristiques
Echantillon -moyenne: m
Echantillon représentatif - écart- type: σ
n <<< N
de la population - Proportion: p
4. Caractère Statistique
Un caractère statistique est une grandeur attaché à un
individu et qui susceptible de varier d’un individu à un
autre. Il existe deux catégories de caractères statistiques: le
caractère qualitatif et le caractère quantitatif.
o Le caractère qualitatif est appelé « modalité ». Le caractère
qualité d’une pièce peut prendre les modalités ‘bonne’ et
‘mauvaise’. La couleur des yeux peut prendre la modalité
‘noire’, ‘marron’, ‘vert’, ‘bleu’, donc un caractère, ou une
variable, est de nature qualitative s’il ne peut être mesuré
tout en demeurant susceptible de classement, comme le sexe,
la race, l’espèce etc…
o Un caractère quantitatif est appelé « variable statistique »

ou « variable » tout court. Une variable est de nature
quantitative s’il peut être mesuré, comme la hauteur, la
largeur, le poids etc… .Il faut distinguer deux cas de figure,
selon les valeurs que la variable est susceptible de prendre.
 On parle de variable continue si elle peut prendre n’importe
quelle valeur réelle (c’est-à-dire un nombre avec autant de
chiffres après la virgule que cela est nécessaire). On peut
citer à titre d’exemple la taille, le poids, le salaire, la note,
ect…
 On parle de la variable discrète, si elle ne peut prendre que
des valeurs prises dans un ensemble restreint de valeurs
possible (par exemple les seuls nombres entiers). L’exemple
typique d’une variable discrète est le nombre d’enfants.
Exemple: étudiant(e)s de 3ème année

Population: Ensemble des étudiant(e)s de 3ème année en 2015
Unités d'observation: Chaque étudiant
Variables:
 Sexe: qualitative
 Taille en cm: quantitative continue
 Poids en kg: quantitative continue
 Nombre de frères et sœurs: quantitative discrète
 Couleur des yeux: qualitative
Modalités:
 Sexe: {femme, homme}
 Taille en cm: [40; 280]
 Poids en kg: [20; 400]
 Nombre de frères et sœurs: {0,1,...,50}
 Couleur des yeux: {brun, bleu, vert, noir, gris}
On a tire un échantillon de taille n = 45.
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère
1. Cas d’une variable quantitative discrète
1.1. Tableau statistique
Soit une variable statistique discrète x. Elle définie par la couple (xi,
ni) avec i= {1, 2, 3,……,k}. xi est la modalité et ni est le nombre
d’individus ont la modalité xi, c’est ce qu’on appelle effectif. Le
tableau statistique de cette variable se présente alors comme suit:
Remarque
o On a ∑ ni = N c’est l’effectif total, le nombre total d’individus qui
forme la population.
o Si on divise les effectifs ni par l’effectif total, N, on obtient la
fréquence notée fi, c’est le pourcentage des individus qui ont la
modalité xi
Propriétés de la fréquence
On a 0 ≤ fi ≤ 1 et
Le tableau statistique contenant les couples (xi , fi ) s’appelle la
distribution statistique des fréquences.
Exemple 1.1
Une enquête réalisée sur 20 familles pour étudier leurs
nombres d’enfants. On obtient les résultats suivants:
0 1 3 4 2 1 1 2 3 3
3 2 6 4 3 0 2 1 1 3
Représenter le tableau statistique de ces données.

Calculer les fréquences.
1.2. Représentation graphique: Diagramme en Bâtons
A chaque valeur xi , portée en abscisse, on fait correspondre
un segment vertical de longueur égale à l’effectif ou à la
fréquence.
Pour l’exemple 1.1 la représentation graphique de la
distribution des 20 familles est la suivante:
1.3. La Fonction Cumulative et la Courbe Cumulative

Définition: Prop (X< b) est la proportion des individus qui ont
la variable, X, inférieur à b.
Pour l’exemple 1.1, Prop (X < 4) est la proportion des familles
qui ont un nombre d’enfant inférieur à 4.
Si on étudie les salaires des ouvriers d’une entreprise
Prop (X<500) est la proportion des ouvriers qui touchent un
salaire inférieur à 500 dinars.
Question: calculer pour l’exemple 1.1
Prop (X < 0), Prop (X < 1) , Prop (X≤ 2), Prop (X≤ 3)
F1, F2,F3, Fi: s’appellent des fréquences cumulées, d’une façon
générale:
Pour l’exemple 1.1, les fréquences cumulées sont les suivantes:

xi fi Fréquence cumulée:
Fi = Prop ( X< xi)
0
1
2
3
4
6
F7 = Prop (X≤ 6)= 1, 100% des familles ont un nombre
d’enfants ≤ 6.
La représentation graphique des fréquences cumulées dans le
cas discrète se faits comme suit:
Remarque
Cette courbe ne donne pas les fréquences cumulées des points
(0, 1, 2, 3, 4, 6) mais de tout
En effet, la représentation graphique de ce qu’on appelle la
courbe cumulative ou la fonction F(X). F(X) défini comme suit:
F: [0, 1]
X F(X) = Prop (X< xi)= Fi
Propriétés de la fonction cumulative
o F(-∞) = 0;
o F(+∞) = 1;
o F(X) est une fonction croissante c’est-à-dire x2 > x1, on a
F (x2)≥ F(x1).
Exemple 1.2
Répartition des étudiants d’un amphi selon le nombre de frères et sœurs :
Nombre de frères et sœurs Effectifs ni Fréquences fi
0 18
1 30
2 60
3+ 42
Total
1. Calculer les fréquences.

2. Représenter graphiquement cette distribution.
3. Calculer les fréquences et les effectifs cumulés.
4. Représenter graphiquement la fonction de répartition de cette distribution (Courbe cumulative).
2. Cas d’une variable quantitative continue
2.1. Tableau statistique
Soit une variable statistique continue, définie par des couples
([xi-1, xi[; ni) avec i = {1, 2, ……,k}. [xi-1, xi[ est la modalité, ni
est l’effectif, le tableau statistique de cette variable se
représente comme suit:
Exemple 2.1
Afin de déterminer la teneur en vitamine C de la boisson Tchina,
18 bouteilles représentant un échantillon représentatif de la
production journalière ont été analysées. Les résultats
exprimés en mg/l sont les suivants :
Tableau 1 : Teneur en vitamine C de la boisson Tchina
88 88 97 106 106 97 79 88 106

106 97 114 97 88 88 97 114 97
On demande de présenter ces données dans un tableau statistique

comportant 5 classes. La borne inférieure de la première classe étant
de 79 mg/l et l’amplitude de chaque classe est de 7.
2.2. Représentation graphiques des variables continue:
Histogramme et polygone des fréquences
2.2.1. L’histogramme
Définition 1: Soit la variable statistique continue X définie par
les couples ([xi-1, xi[; ni) avec i= {1, 2, ….., k}. On appelle
histogramme les représentation graphique des fréquences
(ou des effectifs). A chaque classe portée en abscisse, on fait
correspondre un rectangle dans l’aire est proportionnelle à
la fréquence (ou des effectifs).
Définition 2: On appelle amplitude d’une classe [xi-1, xi[, la
différence entre xi-1 et xi définie par ai= xi - xi-1
Le centre de la classe [xi-1 ; xi [ est le réel note ci représentant le
milieu de l’intervalle et donne par : ci = (xi-1 + xi)/2 ; c’est la
moyenne arithmétique des bornes de la classe.
2.2.1.1. Cas d’amplitudes égales

Dans ce cas on a: ai = a ∀ i = {1, 2, ….., k}. La représentation
graphique se fait comme suit: on porte les classes sur l’axe
des abscisses et on trace des rectangles dont la longueur est
égale à la fréquence ou l’effectif.
Exemple
Si on représente graphiquement la distribution de Teneur en
vitamine C de la boisson Tchina (exemple2.1) on aura:
Propriété 2.1
La surface d’un rectangle est proportionnelle à la fréquence.
Propriété 2.1
La surface d’un rectangle est proportionnelle à la fréquence.
2.2.1.2. Cas d’amplitudes inégales

Dans ce cas, la propriété 2.1 n’est plus vérifiée ( autrement l’air
des rectangles ne sont plus proportionnelles à la fréquence). Il
faut alors corriger les fréquences en les divisant par les
amplitudes des classes correspondantes.
Si les amplitudes sont différentes, afin de constituer
l’histogramme, il est nécessaire de :
– Calculer, pour chaque classe, l’amplitude ai ;
– Calculer la densité di = ni/ai pour un histogramme des effectifs,
et di = fi/ai pour un histogramme des fréquences ;
– Affecter à chaque rectangle une hauteur proportionnelle à la
densité di de la classe correspondante.
Soit min(ai) l’amplitude minimale de classe, la hauteur est

alors appelée « effectif corrigé » et notée nic = di × min(ai) ;
cette convention revient à adopter min(ai) comme unité
d’amplitude de classe. Les classes ayant pour amplitudes
min(ai) sont alors représentées par des rectangles dont la
hauteur est l’effectif. De même, il est possible de retenir
comme hauteur la « fréquence corrigée » fic = di min(ai),
avec di = fi/ai dans le cas d’un histogramme des fréquences.
L’utilisation de min(ai) est une convention facultative ; un
histogramme est correct dès lors que les effectifs (ou les
fréquences) corrigés sont proportionnels aux densités.
Exemple 2.2: On considère la répartition des médecins d'une

clinique selon leur ancienneté (exprimée en mois):
Ancienneté Fréquences Amplitude Densité Fréquence
xi fi ai di corrigée fci
[5, 10[ 0.08
[10, 15 [ 0.12
[15, 25[ 0.28
[25, 35 [ 0.23
[35, 40 [ 0.17
[40, 55 [ 0.12
On peut alors tracer l’histogramme a partir des fréquences

corriges.
2.2.2. Le polygone des fréquences

Le polygone nous permet d’avoir une idée générale de la
distribution des fréquences.
Dans le cas de classe à amplitude inégales, on commence par
marquer le milieu du sommet de la petite classe (celle qui a
plus petite amplitude). On reporte ensuite la moitié de cette
amplitude de part et d’autre sur le reste des sommets de
rectangle. (voir l’exemple 2.2)
On ajoute à gauche une classe d’amplitude égale à a1 et de
fréquence 0 et à droite une classe d’amplitude ak et de
fréquence 0. Ainsi on ferme le polygone et on obtient une
surface existante à l’intérieur du polygone égale à celle de
l’histogramme.
2.2.3. La fonction cumulative et la courbe cumulative

La fonction cumulative est donnée par :
La courbe cumulative est la représentation graphique des

fréquences cumulées ou plus exactement de la fonction
cumulative F(x), F(x)= Prop(X≤ x).
Puisque les observations sont regroupées par classes, on ne
connaît la valeur de F(x) que pour les valeur extrêmes des
classes F(xi) = Fi. La courbe cumulative est donc tracée à
partir de ces points.
Exemple: Pour l’exemple 2.2 on a:

Ancienneté xi Fréquences fi Fi
[5, 10[ 0.08

[10, 15 [ 0.12
[15, 25[ 0.28
[25, 35 [ 0.23
[35, 40 [ 0.17
[40, 55 [ 0.12
1
Représentation de la courbe cumulative croissante:

Propriétés de F
F(x) est croissante, F(-∞)=0; F(+∞)= 1; Prop(X > xk)= 1-F(xk);
Prop (xh< X < xk)= F(xk)- F(xh) et 1- Fi = Prop(X > xi)

s’appellent fréquence cumulées décroissante.
3. Cas d’une variable qualitative

3.1 Tableau statistique
Dans ce cas, les modalités sont qualitatives, le tableaux se
représente de la même façon que les variables.
Exemple 3.1
Répartition des stades de diagnostic chez 125 malades atteint
de leucémie.
3.2 Représentation graphique

3.2.1. Le diagramme en secteur ou diagramme circulaire
Le principe de la représentation est le suivant: fréquence totale
représenté par un disque, modalité représentée par un
secteur circulaire dont la surface est proportionnelle à la
fréquence, angle de chaque secteur est égale à:
θi= fi * 360°
Pour l’exemple 3.1
3.2.2. Le diagramme en tuyaux d’orgue
C’est la représentation graphique des fréquences ou des
effectifs des variables qualitatives. Il consiste à représenter
chacune des modalités par un rectangle dont la hauteur est
égale à la fréquence ou à l’effectif. Les bases des rectangles
sont égales et équidistantes. Très souvent, les modalités sont
classées dans un ordre croissant ou décroissant de leurs
fréquences.
Chapitre III: Description numérique d’une variable
statistique
Ayant procédé aux sections précédentes à la mise en tableaux

et la représentation graphique des données collectés, notre
objectif sera maintenant de tenter de faire ressortir les
principales caractéristiques permettent de localiser les
valeurs typiques de la région centrale d’une série (mesure
de tendance centrale), d’autre servent, soit apprécier
l’étalement d’une série (les mesure de dispersion), soit aussi
à situer une donnée dans la série (mesure de forme).
statistique
3.1 Les mesures de tendance centrale
3.1.1. Le mode
On appelle mode, noté M0, la valeur de la variable ou la plus
fréquente. Graphiquement, pour les variables discrète, le
mode est l’abscisse du bâton le plus élevé. Pour les variables
continues, la classe modale est celle qui a le rectangle le plus
haut.
Exemple 1.1: Reprenons l’exemple de 20 familles pour étudier
leurs nombres d’enfants.
Déterminer le mode de la distribution.
statistique
Remarque
Dans le cas où la variable est continue, il convient d’appliquer la
formule suivante:
Où:
o binf : Borne inférieur de la classe modale
o a : Amplitude de la classe modale
o d1 : La différence entre l’effectif ou la fréquence de la classe
modale et celui de la classe précédente
o d2 : La différence entre l’effectif ou la fréquence de la classe
modale et celui de la classe suivante
Chapitre III: Description numérique d’une
variable statistique
Exemple 3.1
Les coûts ( en dinars) d’intervention de 50 médecins d'une
clinique sont les suivants:
300 380 410 370 380 440 420 340 350 340
380 320 450 480 440 480 320 360 330 410
380 405 430 490 370 330 360 420 340 390
410 450 320 380 410 430 440 470 300 500
430 400 380 320 310 390 410 480 330 370
On demande de présenter ces données dans un tableau

statistique comportant 5 classes. La borne inférieure de la
première classe étant de 300 et l’amplitude de chaque classe
est de 40.
Calculer le mode de cette distribution quantitative continue.
3.1.2. La médiane
On appelle médiane d’une variable X, notée, Me, la valeur de la
variable qui partage l’échantillon en deux effectifs égaux. L’image
de la médiane sur la courbe cumulative des fréquence est toujours
égale à ½.
F(Me) = ½
Donc la Prop(X≤ Me)= 0.5 autrement la moitié des
observations ont la variable inférieur à la médiane.
Détermination Pratique
Cas d’une variable Discrète
On considère que: F(xi-1)< F(Me) = 0.5< F(xi) le médiane dans
ce cas est xi
Exemple 3.2
On considère la distribution du nombre d’enfants par ménage
dans 20 familles.
Nombre d’enfants par famille fi Fi
0 0.15
1 0.4
3 0.25
4 0.2
Dans ce cas on parle plutôt de l’intervalle médiane [1, 3]

Détermination Pratique
Cas d’une variable continue
Dans ce cas la fonction cumulative est continue et croissante
sur l’intervalle [0 ; 1]. Par conséquent, F(Me)= 0.5
correspond à une valeur unique. Si cette valeur ne figure
pas dans le tableau statistique on peut la déterminer par
interpolation linéaire.
statistique
Reprenons les données de l’exemple 1.2 portant sur la

distribution des médecins d'une clinique selon leurs coûts
d’intervention et essayons de calculer sa médiane.
Classes [a-b[ 300-340 340- 380 380-420 420-460 460-500 Total

Effectifs ni 10 9 15 10 6
Fréquence fi
Fréquences
cumulées
croissantes Fi
statistique
Exemple 3.3
Selon l’INS la structure de la population tunisienne par
tranche d’âge pour l’année 1999 est la suivante:
Tranche d’âge [0,5[ [5,15[ [15,60[ 60 ans et plus
Fréquence fi 0,09 0,22 0,6 0,09
Fréquences cumulées Fi
Déterminer la médiane analytiquement et graphiquement.

interpréter
3.1.3. La moyenne arithmétique

Elle est calculée en appliquant les formules suivantes:
o Dans le cas d’une variable discrète:
Si n1= n2 =………………..= nk = 1 alors s’appelle

une moyenne arithmétique simple.
oDans le cas d’une variable continue:
Où ci est le centre de classe i

statistique
On aura pour la série portant sur la distribution des étudiants

selon leurs notes:
Note 6 8 11 13 15 Total
Nombre d’étudiants 4 7 12 5 2 30
Pour la série portant sur la distribution des médecins d'une

clinique selon leurs coûts d’intervention, le coût moyen est
calculé ainsi:
Classes [a-b[ 300-340 340- 380 380-420 420-460 460-500 Total
Effectifs ni 10 9 15 10 6
statistique
Les propriétés les plus importantes de la moyenne peuvent

être déduites en effectuant des transformations sur la
variable X. Pour alléger l’écriture, on note la moyenne de X
par
o Soit Y= aX
o Soit b une constante, on aura
o Soit Y= aX+b
Il faut remarquer que ces propriétés sont aussi valables pour
les autres paramètres de position à savoir la médiane et le
mode. En d’autre terme soit Y une variable telle que
Y=aX+b, on aura alors:
Mod Y= a Mod X+b
Med Y= a Med X+b
statistique
3.2 Les mesures de dispersion
3.2.1. L’étendue
On appelle étendue, notée, ETD, l’écart entre la plus élevée et
la plus faible des valeurs observées, soit:
ETD= xmax-xmin
3.2.2. L’écart et l’écart interquartile

On appelle quantile d’ordre α (α Є [0,1]), noté qα, la valeur de
la variable telle que:
F(qα)= Prop(X ≤qα)= α
On note premier quartile, noté Q1, q0,25. On a donc F(Q1)=0,25.
Un quart de la population ont la variable inférieur à Q1.
statistique
On appelle deuxième quartile, noté, Q2, q0,5. On a donc
F(Q2)=0,5. Deux quart de la population ont la variable
inférieur à Q2. (Q2= Me).
On appelle troisième quartile, noté, Q3, q0,75. On a donc
F(Q3)=0,75. Trois quart de la population ont la variable
inférieur à Q3.
Définition: L’écart interquartile
On appelle Ecart interquartile, noté EIQ, la différence entre Q3
et Q1
EIQ = Q3 - Q1
Définition: L’intervalle interquartile
On appelle Intervalle interquartile, noté IIQ, la classe définie
par Q1 et Q3
IIQ =[Q1 ; Q3]
statistique
3.2.3. Variance et L’écart – type
La variance est la moyenne arithmétique des carrés des écarts
des valeurs de la variable à leur moyenne arithmétique. On
la désigne par V ou σ2. D’après cette définition, on peut
écrire:
statistique
La racine carrée de la variance est appelée écart-type (σ)

définie par:
Propriétés:
o Soit Y = aX V(Y) = a2 V(X)
o Soit b une constante, on aura V(b) = 0
o Soit Y = aX +b V(Y) = a2 V(X)
Exemple
Reprenons la même série statistique relative à la répartition de
50 médecins d'une clinique selon leurs coûts d’intervention
et essayons de calculer la variance et l’écart type.
statistique
3.2.4 Le coefficient de Variation
Noté CV, ce coefficient est égal à la valeur absolue du quotient
de l’écart-type sur la moyenne.
C’est un coefficient sans unité qui indique la dispersion relative

ou le degré d’homogénéité des observations. On utilise pour
comparer deux dispersions qui n’ont pas la même moyenne ou
la même unité.
statistique
Exemple
On compare la distribution des salaires dans une clinique
Française et une entreprise Américaine. On a:
σ(X1) = 100 Euro
σ(X2) = 70 $
Les coefficients de variation sont:
CV1= 100/1500= 0.067
CV2= 70/800= 0.087
La dispersion relative est plus faible dans la clinique française,
les salaires dans cet clinique sont donc plus homogènes.
statistique
3.3 Les mesures de forme
3.3.1. Les coefficients d’asymétrie
Définition:
Une distribution est dite symétrique si les valeurs sont
dispersées de la même façon à droite et à gauche de la
tendance centrale (moyenne, mode ou médiane)
A- Lorsque la distribution est symétrique, on a Me=Mo=
statistique
Lorsque la distribution est dite asymétrique, la médiane est
généralement comprise entre le mode et la moyenne. Deux
cas se présentent:
B- Si < Me<Mo , la distribution est asymétrique et étalée à
gauche
statistique
C- Si Mo < Me< , la distribution est asymétrique et étalée à
droite
statistique
3.3.2. Le coefficient de Pearson
Pearson propose le coefficient d’asymétrie suivant:
, la distribution est symétrique.

, la distribution est asymétrique, étalée à droite.
, la distribution est asymétrique, étalée à
gauche.
statistique
3.3.3. Le coefficient de Fisher
Moment centré d’ordre r
On appelle moment centré d’ordre r, noté μr, la quantité suivante:
On a alors µ1 = 0 et µ2 = V(X).
Pour les variables continue, on remplace xi par ci les centres des
classes.
Lorsque la distribution est symétrique, les moment d’ordre
impaire sont tous nuls (µ3, µ5, µ7, ……).
statistique
Fisher propose le coefficient suivant:
o Si γF = 0 ⇔ μ3 = 0, la distribution est symétrique.

o Si γF > 0 ⇔ μ3 > 0, la distribution est asymétrique étalée à
droite.
o Si γF < 0 ⇔ μ3 < 0, la distribution est asymétrique étalée à
gauche.
statistique
3.3.4. Le coefficient d’aplatissement
Ce coefficient permet de comparer la forme de distribution à une
distribution symétrique très connue en statistique, la
distribution normale. Le coefficient d’aplatissement nous
indique que la distribution est plus plate ou plus aigue qu’une
distribution normale ayant la même moyenne et la même
variance. Fisher le définie comme suit:
o γa = 0, la distribution est normale ou mésokurtique.

o γa < 0, la distribution est plus aplatie qu’une distribution
normale ou platykurtique.
o γa > 0, la distribution est moins aplatie qu’une distribution
normale ou leptokurtique.
statistique
fi
leptokurtique
mésokurtique
platykurtique
xi
statistique
3.3.5. Les caractéristiques de concentration
Pour certaine variables comme le salaire ou le revenu, la
distribution des terres agricoles, il est intéressant de savoir
comment elles sont réparties entres les individus de la
population, c’est l’objet de l’étude de concentration.
A/La courbe de concentration
Soit X une variable statistique continue.
On appelle Valeur globale associée au couple (xi, ni), le produit
défini par VGi = ni xi
On appelle Valeur globale totale, qu’on note VGT
statistique
On appelle Valeur globale relative associée au couple (xi, ni), le
rapport, qu’on note qi défini par:
On appelle Valeur globale relative cumulée croissante associée la

valeur xi, centre de classe [bi-1 ; bi[ qu’on note Qi
On appelle Courbe de concentration (ou courbe de lorenz), le

polynôme obtenu en joignent, les points de coordonnées (Fi, Qi)
dans un repère orthonormée, où les Fi portés sur l’axe des
abscisses et les Qi sur l’axe des ordonnées. Cette présentation se
fait dans un carré de cote égale à l’unité.
statistique
Exemple: La répartition des exploitations agricoles en Tunisie, en
fonction de la surface est la suivante :
Superficie Centre ni fi Fi nixi qi Qi

en ha ci
[1-5[ 11
[5-10[ 12
[10-20[ 15
[20-50[ 26
[50-100[ 36
Totale
Construire la courbe de Lorenz de la répartition des exploitations

agricoles précédente.
statistique
Interprétation
Plus la courbe de concentration se rapproche de la diagonale, plus
la répartition est égalitaire, et plus la courbe s’éloigne de la
diagonale, plus la distribution est concentrée, c’est-à-dire
inégalement répartie.
Cas extrême
Cas 1. La courbe de concentration se confond avec la diagonale.
C’est le cas d’une équirépartition parfaite. On dit aussi que la
concentration est nulle.
Cas 2. La courbe de concentration se confond avec les cotés OA et
AB du triangle OAB. C’est le cas, hypothétique, où un seul
individu possède toute la richesse. On dit aussi que la série est
totalement concentrée.
statistique
Surface de concentration
On appelle surface de concentration, qu’on note par S, la surface
comprise entre la diagonale principale OB et la courbe de
concentration. Plus la courbe s’éloigne de la diagonale et plus la
surface de concentration est grande.
B/ Indice de Gini
On appelle indice de Gini (ou indice de concentration), le rapport
entre l’aire de la surface de concentration et l’aire du triangle
OAB. On le note par IG:

Cours Biostatistique Ortho

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Biostatistique Ortho

Transféré par

Droits d'auteur :

Formats disponibles

Biostatistique

Dr. Khalil Mhadhbi

o Les statistiques constituent l’ensemble des données

La statistique comme science renferme les méthodes visant,

Deux remarques s’imposent à ce niveau:

Pourquoi la statistique en biologie et en sciences biomédicales?

o Un caractère quantitatif est appelé « variable statistique »

Exemple: étudiant(e)s de 3ème année

Représenter le tableau statistique de ces données.

1.3. La Fonction Cumulative et la Courbe Cumulative

Pour l’exemple 1.1, les fréquences cumulées sont les suivantes:

Nombre de frères et sœurs Effectifs ni Fréquences fi

1. Calculer les fréquences.

88 88 97 106 106 97 79 88 106

On demande de présenter ces données dans un tableau statistique

2.2.1.1. Cas d’amplitudes égales

2.2.1.2. Cas d’amplitudes inégales

Soit min(ai) l’amplitude minimale de classe, la hauteur est

Exemple 2.2: On considère la répartition des médecins d'une

On peut alors tracer l’histogramme a partir des fréquences

2.2.2. Le polygone des fréquences

2.2.3. La fonction cumulative et la courbe cumulative

La courbe cumulative est la représentation graphique des

Exemple: Pour l’exemple 2.2 on a:

[5, 10[ 0.08

Représentation de la courbe cumulative croissante:

F(x) est croissante, F(-∞)=0; F(+∞)= 1; Prop(X > xk)= 1-F(xk);

Prop (xh< X < xk)= F(xk)- F(xh) et 1- Fi = Prop(X > xi)

3. Cas d’une variable qualitative

3.2 Représentation graphique

Ayant procédé aux sections précédentes à la mise en tableaux

On demande de présenter ces données dans un tableau

Dans ce cas on parle plutôt de l’intervalle médiane [1, 3]

Reprenons les données de l’exemple 1.2 portant sur la

Classes [a-b[ 300-340 340- 380 380-420 420-460 460-500 Total

Déterminer la médiane analytiquement et graphiquement.

3.1.3. La moyenne arithmétique

Si n1= n2 =………………..= nk = 1 alors s’appelle

oDans le cas d’une variable continue:

Où ci est le centre de classe i

On aura pour la série portant sur la distribution des étudiants

Pour la série portant sur la distribution des médecins d'une

Les propriétés les plus importantes de la moyenne peuvent

3.2.2. L’écart et l’écart interquartile

La racine carrée de la variance est appelée écart-type (σ)

C’est un coefficient sans unité qui indique la dispersion relative

, la distribution est symétrique.

Fisher propose le coefficient suivant:

o Si γF = 0 ⇔ μ3 = 0, la distribution est symétrique.

o γa = 0, la distribution est normale ou mésokurtique.

On appelle Valeur globale relative cumulée croissante associée la

On appelle Courbe de concentration (ou courbe de lorenz), le

Superficie Centre ni fi Fi nixi qi Qi

Construire la courbe de Lorenz de la répartition des exploitations

Vous aimerez peut-être aussi