Vous êtes sur la page 1sur 74

Biostatistique

Dr. Khalil Mhadhbi

k_mhadebi@yahoo.fr
Introduction Générale
C’est quoi la biostatistique?
Définition:
La biostatistique est l’application des concepts et principes
statistiques à des données médicales, biologiques et de santé
public.
Exemples:
o Les effets d’un médicament.
o L’effet du niveau du cholestérol sur la pression artérielle.
o Le nombre de patients admis durant les fins de semaine aux
urgences.
o Distribution des pandémies.
o L’étude sur les différentes complications dans le traitement
des patients atteints du virus VIH.
Introduction Générale
Pour mieux comprendre l’objectif et la démarche de la
statistique, en tant que discipline, il convient d’abord de la
définir. A ce niveau, il faut remarquer que le mot
statistique peut couvrir plusieurs définitions, selon que l’on
utilise en singulier ou en pluriel, sous forme définie ou
indéfinie. Il faut donc faire la distinction entre les
statistiques, une statistique et la statistique.

o Les statistiques constituent l’ensemble des données


d’observation.
o Une statistique est une caractéristique calculée sur un
échantillon, et qui sera utilisée pour estimer les
caractéristiques de toute la population appelées
paramètres.
Introduction Générale

La statistique comme science renferme les méthodes visant,


d’une part à collecter, à présenter et à synthétiser
l’ensemble des données d’observation, et d’autre part à
tirer des conclusions relatives à toute la population à
partir des mesures calculées sur un échantillon. La
démarche statistique comporte donc, essentiellement et au
premier vu, deux étapes qui sont dans l’ordre: le calcul
des mesures sur un échantillon (statistique descriptive) et
la généralisation à toute la population (la statistique
inductive).
Introduction Générale
Plus précisément, la statistique descriptive consiste, d’une part à
collecter les données, à les regrouper et à les présenter dans des
tableaux et des graphiques, et d’autre part à décrire et à résumer ou
synthétiser les données statistiques par des mesures comme celles de
tendance centrale, de dispersion et de forme.
La statistique inductive ou mathématique a pour objectif de tirer des
conclusions sur une population à partir des résultats calculés sur un
échantillon, tiré aléatoirement, de cette population. La mesure calculés
sur un échantillon sera appelée statistique ou estimateur servira pour
apporter des informations sur la mesure relative à la population
(paramètre). Si le paramètre est complètement inconnu, alors
l’opération d’inférence est appelée « estimation ». Toutefois, si on
dispose d’une information sur le paramètre et nous voulons juste
vérifier la véracité de cette information, alors l’opération d’inférence
sera appelée « tests d’hypothèses »
Introduction Générale

Deux remarques s’imposent à ce niveau:


D’abord, il faut remarquer que l’opération d’inférence consiste à tirer
des conclussions sur une population à partir d’une mesure calculée
sur un échantillon choisi aléatoirement à partir de toute la population
implique que l’on ne peut pas être absolument certain de l’exactitude
des conclussions qu’on peut retirer. Ainsi puisqu’on ne peut espérer
des conclussions d’une exactitude certaine, il faut absolument être en
mesure de calculer les probabilités d’erreur reliées à ces conclussions
et essayer de faire en sorte que ces probabilités soient les plus faibles
possibles.
Le calcul de probabilité est alors une étape importante dans la démarche
statistique. Evidemment, elle doit précéder l’étape de la statistique
inductive.
Introduction Générale
Ensuite, il faut remarquer aussi que le choix d’un échantillon
représentatif de la population est une étape primordiale pour la
réussite de l’opération de l’inférence statistique car la qualité de
la mesure qu’on veut calculer dépendra énormément de
l’échantillon, qui dépendra lui aussi, de la technique utilisée
pour utilisée pour le choix d’un tel échantillon; la partie de la
statistique qui s’intéresse à la présentation de ces techniques est
appelée « Techniques de Sondage ».
Enfin, il est important de signaler que grâce aussi à l’apport des
probabilités et à l’algèbre linéaire, la statistique est devenue
aujourd’hui un outil de prévision. La méthode statistique qui
vise cette objectif est appelée « économétrie ».
Introduction Générale

Pourquoi la statistique en biologie et en sciences biomédicales?


À cause de la très grande variabilité intrinsèque du matériel
biologique:
 Variabilité génétique entre les individus,
 Variabilité due au développement des individus,
 Variabilité des réactions d’un même individu à différents
moments.
On peut étudier la variabilité du phénomène en répétant une expérience
ou une mesure dans les mêmes conditions.
On peut étudier la loi du phénomène en faisant varier les conditions
d’expérience ou d’observation.
Chapitre I: Le Vocabulaire Statistique
Définitions
Pour pouvoir la démarche statistique, il est intéressant de préciser
un certain nombre de concepts, en l’occurrence: l’individu ou
l’unité statistique, la population, l’échantillon, le caractère ou la
variable, ect…..
1. Unité statistique appelée encore « statistique » ou « unité »
tout court, c’est l’entité de base observée par les statisticien. Ce
peut être une personne, un animal, une colonie bactérienne, un
prélèvement, un événement, une opinion, ect…..
2. Population appelée encore « ensemble » ou « univers
statistique ». C’est l’ensemble de toutes les unités statistiques
dont on cherche à déterminer une ou plusieurs caractéristiques.
Chaque unité statistique est supposée distincte. On peut citer à
titre d’exemple: L'ensemble des séjours hospitaliers pendant
une année dans un hôpital. Les pièces produites en une journée
par la machine M.
Chapitre I: Le Vocabulaire Statistique
• Population biologique: Ensemble des individus de la même
espèce qui occupent un espace et un temps déterminés.
Il est à noter qu’une population peut être finie ou infinie:
L'ensemble des séjours hospitaliers pendant une année dans
un hôpital, toutefois le nombre d’épreuves nécessaires pour
obtenir le résultat ‘Pile’ en lançant une pièce de monnaie est
infinie puisqu’on peut lancer la pièce indéfiniment sans
pouvoir pour autant obtenir le résultat ‘Pile’.
3. Echantillon
Un échantillon est constitué d’un ou plusieurs individus
prélevés dans une population. Il est destiné à fournir une
information ultérieure sur cette population (opération
d’inférence). Pour que cette opération soit valable, il faut
que l’échantillon soit représentatif de la population de
laquelle il est issu.
Chapitre I: Le Vocabulaire Statistique

Population
N

Caractéristiques
-moyenne: m
- écart- type: σ
- Proportion: p

Caractéristiques
Echantillon -moyenne: m
Echantillon représentatif - écart- type: σ
n <<< N
de la population - Proportion: p
Chapitre I: Le Vocabulaire Statistique

4. Caractère Statistique
Un caractère statistique est une grandeur attaché à un
individu et qui susceptible de varier d’un individu à un
autre. Il existe deux catégories de caractères statistiques: le
caractère qualitatif et le caractère quantitatif.
o Le caractère qualitatif est appelé « modalité ». Le caractère
qualité d’une pièce peut prendre les modalités ‘bonne’ et
‘mauvaise’. La couleur des yeux peut prendre la modalité
‘noire’, ‘marron’, ‘vert’, ‘bleu’, donc un caractère, ou une
variable, est de nature qualitative s’il ne peut être mesuré
tout en demeurant susceptible de classement, comme le sexe,
la race, l’espèce etc…
Chapitre I: Le Vocabulaire Statistique

o Un caractère quantitatif est appelé « variable statistique »


ou « variable » tout court. Une variable est de nature
quantitative s’il peut être mesuré, comme la hauteur, la
largeur, le poids etc… .Il faut distinguer deux cas de figure,
selon les valeurs que la variable est susceptible de prendre.
 On parle de variable continue si elle peut prendre n’importe
quelle valeur réelle (c’est-à-dire un nombre avec autant de
chiffres après la virgule que cela est nécessaire). On peut
citer à titre d’exemple la taille, le poids, le salaire, la note,
ect…
 On parle de la variable discrète, si elle ne peut prendre que
des valeurs prises dans un ensemble restreint de valeurs
possible (par exemple les seuls nombres entiers). L’exemple
typique d’une variable discrète est le nombre d’enfants.
Chapitre I: Le Vocabulaire Statistique

Exemple: étudiant(e)s de 3ème année


Population: Ensemble des étudiant(e)s de 3ème année en 2015
Unités d'observation: Chaque étudiant
Variables:
 Sexe: qualitative
 Taille en cm: quantitative continue
 Poids en kg: quantitative continue
 Nombre de frères et sœurs: quantitative discrète
 Couleur des yeux: qualitative
Modalités:
 Sexe: {femme, homme}
 Taille en cm: [40; 280]
 Poids en kg: [20; 400]
 Nombre de frères et sœurs: {0,1,...,50}
 Couleur des yeux: {brun, bleu, vert, noir, gris}
On a tire un échantillon de taille n = 45.
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère
1. Cas d’une variable quantitative discrète
1.1. Tableau statistique
Soit une variable statistique discrète x. Elle définie par la couple (xi,
ni) avec i= {1, 2, 3,……,k}. xi est la modalité et ni est le nombre
d’individus ont la modalité xi, c’est ce qu’on appelle effectif. Le
tableau statistique de cette variable se présente alors comme suit:
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère

Remarque
o On a ∑ ni = N c’est l’effectif total, le nombre total d’individus qui
forme la population.
o Si on divise les effectifs ni par l’effectif total, N, on obtient la
fréquence notée fi, c’est le pourcentage des individus qui ont la
modalité xi

Propriétés de la fréquence

On a 0 ≤ fi ≤ 1 et
Le tableau statistique contenant les couples (xi , fi ) s’appelle la
distribution statistique des fréquences.
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère

Exemple 1.1
Une enquête réalisée sur 20 familles pour étudier leurs
nombres d’enfants. On obtient les résultats suivants:

0 1 3 4 2 1 1 2 3 3
3 2 6 4 3 0 2 1 1 3

Représenter le tableau statistique de ces données.


Calculer les fréquences.
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère
1.2. Représentation graphique: Diagramme en Bâtons
A chaque valeur xi , portée en abscisse, on fait correspondre
un segment vertical de longueur égale à l’effectif ou à la
fréquence.
Pour l’exemple 1.1 la représentation graphique de la
distribution des 20 familles est la suivante:
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère

1.3. La Fonction Cumulative et la Courbe Cumulative


Définition: Prop (X< b) est la proportion des individus qui ont
la variable, X, inférieur à b.
Pour l’exemple 1.1, Prop (X < 4) est la proportion des familles
qui ont un nombre d’enfant inférieur à 4.
Si on étudie les salaires des ouvriers d’une entreprise
Prop (X<500) est la proportion des ouvriers qui touchent un
salaire inférieur à 500 dinars.
Question: calculer pour l’exemple 1.1
Prop (X < 0), Prop (X < 1) , Prop (X≤ 2), Prop (X≤ 3)
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère
F1, F2,F3, Fi: s’appellent des fréquences cumulées, d’une façon
générale:

Pour l’exemple 1.1, les fréquences cumulées sont les suivantes:


xi fi Fréquence cumulée:
Fi = Prop ( X< xi)
0
1
2
3
4
6
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère
F7 = Prop (X≤ 6)= 1, 100% des familles ont un nombre
d’enfants ≤ 6.
La représentation graphique des fréquences cumulées dans le
cas discrète se faits comme suit:
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère
Remarque
Cette courbe ne donne pas les fréquences cumulées des points
(0, 1, 2, 3, 4, 6) mais de tout
En effet, la représentation graphique de ce qu’on appelle la
courbe cumulative ou la fonction F(X). F(X) défini comme suit:
F: [0, 1]
X F(X) = Prop (X< xi)= Fi
Propriétés de la fonction cumulative
o F(-∞) = 0;
o F(+∞) = 1;
o F(X) est une fonction croissante c’est-à-dire x2 > x1, on a
F (x2)≥ F(x1).
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère

Exemple 1.2
Répartition des étudiants d’un amphi selon le nombre de frères et sœurs :

Nombre de frères et sœurs Effectifs ni Fréquences fi

0 18
1 30
2 60
3+ 42
Total

1. Calculer les fréquences.


2. Représenter graphiquement cette distribution.
3. Calculer les fréquences et les effectifs cumulés.
4. Représenter graphiquement la fonction de répartition de cette distribution (Courbe cumulative).
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère
2. Cas d’une variable quantitative continue
2.1. Tableau statistique
Soit une variable statistique continue, définie par des couples
([xi-1, xi[; ni) avec i = {1, 2, ……,k}. [xi-1, xi[ est la modalité, ni
est l’effectif, le tableau statistique de cette variable se
représente comme suit:
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère
Exemple 2.1
Afin de déterminer la teneur en vitamine C de la boisson Tchina,
18 bouteilles représentant un échantillon représentatif de la
production journalière ont été analysées. Les résultats
exprimés en mg/l sont les suivants :
Tableau 1 : Teneur en vitamine C de la boisson Tchina

88 88 97 106 106 97 79 88 106


106 97 114 97 88 88 97 114 97

On demande de présenter ces données dans un tableau statistique


comportant 5 classes. La borne inférieure de la première classe étant
de 79 mg/l et l’amplitude de chaque classe est de 7.
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère
2.2. Représentation graphiques des variables continue:
Histogramme et polygone des fréquences
2.2.1. L’histogramme
Définition 1: Soit la variable statistique continue X définie par
les couples ([xi-1, xi[; ni) avec i= {1, 2, ….., k}. On appelle
histogramme les représentation graphique des fréquences
(ou des effectifs). A chaque classe portée en abscisse, on fait
correspondre un rectangle dans l’aire est proportionnelle à
la fréquence (ou des effectifs).
Définition 2: On appelle amplitude d’une classe [xi-1, xi[, la
différence entre xi-1 et xi définie par ai= xi - xi-1
Le centre de la classe [xi-1 ; xi [ est le réel note ci représentant le
milieu de l’intervalle et donne par : ci = (xi-1 + xi)/2 ; c’est la
moyenne arithmétique des bornes de la classe.
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère

2.2.1.1. Cas d’amplitudes égales


Dans ce cas on a: ai = a ∀ i = {1, 2, ….., k}. La représentation
graphique se fait comme suit: on porte les classes sur l’axe
des abscisses et on trace des rectangles dont la longueur est
égale à la fréquence ou l’effectif.
Exemple
Si on représente graphiquement la distribution de Teneur en
vitamine C de la boisson Tchina (exemple2.1) on aura:

Propriété 2.1
La surface d’un rectangle est proportionnelle à la fréquence.
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère

Propriété 2.1
La surface d’un rectangle est proportionnelle à la fréquence.
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère

2.2.1.2. Cas d’amplitudes inégales


Dans ce cas, la propriété 2.1 n’est plus vérifiée ( autrement l’air
des rectangles ne sont plus proportionnelles à la fréquence). Il
faut alors corriger les fréquences en les divisant par les
amplitudes des classes correspondantes.
Si les amplitudes sont différentes, afin de constituer
l’histogramme, il est nécessaire de :
– Calculer, pour chaque classe, l’amplitude ai ;
– Calculer la densité di = ni/ai pour un histogramme des effectifs,
et di = fi/ai pour un histogramme des fréquences ;
– Affecter à chaque rectangle une hauteur proportionnelle à la
densité di de la classe correspondante.
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère

Soit min(ai) l’amplitude minimale de classe, la hauteur est


alors appelée « effectif corrigé » et notée nic = di × min(ai) ;
cette convention revient à adopter min(ai) comme unité
d’amplitude de classe. Les classes ayant pour amplitudes
min(ai) sont alors représentées par des rectangles dont la
hauteur est l’effectif. De même, il est possible de retenir
comme hauteur la « fréquence corrigée » fic = di min(ai),
avec di = fi/ai dans le cas d’un histogramme des fréquences.
L’utilisation de min(ai) est une convention facultative ; un
histogramme est correct dès lors que les effectifs (ou les
fréquences) corrigés sont proportionnels aux densités.
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère

Exemple 2.2: On considère la répartition des médecins d'une


clinique selon leur ancienneté (exprimée en mois):
Ancienneté Fréquences Amplitude Densité Fréquence
xi fi ai di corrigée fci
[5, 10[ 0.08
[10, 15 [ 0.12
[15, 25[ 0.28
[25, 35 [ 0.23
[35, 40 [ 0.17
[40, 55 [ 0.12

On peut alors tracer l’histogramme a partir des fréquences


corriges.
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère

2.2.2. Le polygone des fréquences


Le polygone nous permet d’avoir une idée générale de la
distribution des fréquences.
Dans le cas de classe à amplitude inégales, on commence par
marquer le milieu du sommet de la petite classe (celle qui a
plus petite amplitude). On reporte ensuite la moitié de cette
amplitude de part et d’autre sur le reste des sommets de
rectangle. (voir l’exemple 2.2)
On ajoute à gauche une classe d’amplitude égale à a1 et de
fréquence 0 et à droite une classe d’amplitude ak et de
fréquence 0. Ainsi on ferme le polygone et on obtient une
surface existante à l’intérieur du polygone égale à celle de
l’histogramme.
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère

2.2.3. La fonction cumulative et la courbe cumulative


La fonction cumulative est donnée par :

La courbe cumulative est la représentation graphique des


fréquences cumulées ou plus exactement de la fonction
cumulative F(x), F(x)= Prop(X≤ x).
Puisque les observations sont regroupées par classes, on ne
connaît la valeur de F(x) que pour les valeur extrêmes des
classes F(xi) = Fi. La courbe cumulative est donc tracée à
partir de ces points.
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère

Exemple: Pour l’exemple 2.2 on a:


Ancienneté xi Fréquences fi Fi

[5, 10[ 0.08


[10, 15 [ 0.12
[15, 25[ 0.28
[25, 35 [ 0.23
[35, 40 [ 0.17
[40, 55 [ 0.12
1

Représentation de la courbe cumulative croissante:


Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère

Propriétés de F

F(x) est croissante, F(-∞)=0; F(+∞)= 1; Prop(X > xk)= 1-F(xk);

Prop (xh< X < xk)= F(xk)- F(xh) et 1- Fi = Prop(X > xi)


s’appellent fréquence cumulées décroissante.
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère

3. Cas d’une variable qualitative


3.1 Tableau statistique
Dans ce cas, les modalités sont qualitatives, le tableaux se
représente de la même façon que les variables.
Exemple 3.1
Répartition des stades de diagnostic chez 125 malades atteint
de leucémie.
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère

3.2 Représentation graphique


3.2.1. Le diagramme en secteur ou diagramme circulaire
Le principe de la représentation est le suivant: fréquence totale
représenté par un disque, modalité représentée par un
secteur circulaire dont la surface est proportionnelle à la
fréquence, angle de chaque secteur est égale à:
θi= fi * 360°
Pour l’exemple 3.1
Chapitre II: Tableaux statistiques et représentation
graphiques d’une distribution à un seul caractère
3.2.2. Le diagramme en tuyaux d’orgue
C’est la représentation graphique des fréquences ou des
effectifs des variables qualitatives. Il consiste à représenter
chacune des modalités par un rectangle dont la hauteur est
égale à la fréquence ou à l’effectif. Les bases des rectangles
sont égales et équidistantes. Très souvent, les modalités sont
classées dans un ordre croissant ou décroissant de leurs
fréquences.
Chapitre III: Description numérique d’une variable
statistique

Ayant procédé aux sections précédentes à la mise en tableaux


et la représentation graphique des données collectés, notre
objectif sera maintenant de tenter de faire ressortir les
principales caractéristiques permettent de localiser les
valeurs typiques de la région centrale d’une série (mesure
de tendance centrale), d’autre servent, soit apprécier
l’étalement d’une série (les mesure de dispersion), soit aussi
à situer une donnée dans la série (mesure de forme).
Chapitre III: Description numérique d’une variable
statistique
3.1 Les mesures de tendance centrale
3.1.1. Le mode
On appelle mode, noté M0, la valeur de la variable ou la plus
fréquente. Graphiquement, pour les variables discrète, le
mode est l’abscisse du bâton le plus élevé. Pour les variables
continues, la classe modale est celle qui a le rectangle le plus
haut.
Exemple 1.1: Reprenons l’exemple de 20 familles pour étudier
leurs nombres d’enfants.
Déterminer le mode de la distribution.
Chapitre III: Description numérique d’une variable
statistique

Remarque
Dans le cas où la variable est continue, il convient d’appliquer la
formule suivante:

Où:
o binf : Borne inférieur de la classe modale
o a : Amplitude de la classe modale
o d1 : La différence entre l’effectif ou la fréquence de la classe
modale et celui de la classe précédente
o d2 : La différence entre l’effectif ou la fréquence de la classe
modale et celui de la classe suivante
Chapitre III: Description numérique d’une
variable statistique
Exemple 3.1
Les coûts ( en dinars) d’intervention de 50 médecins d'une
clinique sont les suivants:
300 380 410 370 380 440 420 340 350 340
380 320 450 480 440 480 320 360 330 410
380 405 430 490 370 330 360 420 340 390
410 450 320 380 410 430 440 470 300 500
430 400 380 320 310 390 410 480 330 370

On demande de présenter ces données dans un tableau


statistique comportant 5 classes. La borne inférieure de la
première classe étant de 300 et l’amplitude de chaque classe
est de 40.
Calculer le mode de cette distribution quantitative continue.
Chapitre III: Description numérique d’une
variable statistique
3.1.2. La médiane
On appelle médiane d’une variable X, notée, Me, la valeur de la
variable qui partage l’échantillon en deux effectifs égaux. L’image
de la médiane sur la courbe cumulative des fréquence est toujours
égale à ½.
F(Me) = ½
Donc la Prop(X≤ Me)= 0.5 autrement la moitié des
observations ont la variable inférieur à la médiane.
Chapitre III: Description numérique d’une
variable statistique
Détermination Pratique
Cas d’une variable Discrète
On considère que: F(xi-1)< F(Me) = 0.5< F(xi) le médiane dans
ce cas est xi
Exemple 3.2
On considère la distribution du nombre d’enfants par ménage
dans 20 familles.
Nombre d’enfants par famille fi Fi
0 0.15
1 0.4
3 0.25
4 0.2

Dans ce cas on parle plutôt de l’intervalle médiane [1, 3]


Chapitre III: Description numérique d’une
variable statistique

Détermination Pratique
Cas d’une variable continue
Dans ce cas la fonction cumulative est continue et croissante
sur l’intervalle [0 ; 1]. Par conséquent, F(Me)= 0.5
correspond à une valeur unique. Si cette valeur ne figure
pas dans le tableau statistique on peut la déterminer par
interpolation linéaire.
Chapitre III: Description numérique d’une variable
statistique

Reprenons les données de l’exemple 1.2 portant sur la


distribution des médecins d'une clinique selon leurs coûts
d’intervention et essayons de calculer sa médiane.

Classes [a-b[ 300-340 340- 380 380-420 420-460 460-500 Total


Effectifs ni 10 9 15 10 6
Fréquence fi
Fréquences
cumulées
croissantes Fi
Chapitre III: Description numérique d’une variable
statistique

Exemple 3.3
Selon l’INS la structure de la population tunisienne par
tranche d’âge pour l’année 1999 est la suivante:
Tranche d’âge [0,5[ [5,15[ [15,60[ 60 ans et plus
Fréquence fi 0,09 0,22 0,6 0,09
Fréquences cumulées Fi

Déterminer la médiane analytiquement et graphiquement.


interpréter
Chapitre III: Description numérique d’une
variable statistique

3.1.3. La moyenne arithmétique


Elle est calculée en appliquant les formules suivantes:
o Dans le cas d’une variable discrète:

Si n1= n2 =………………..= nk = 1 alors s’appelle


une moyenne arithmétique simple.

oDans le cas d’une variable continue:

Où ci est le centre de classe i


Chapitre III: Description numérique d’une variable
statistique

On aura pour la série portant sur la distribution des étudiants


selon leurs notes:

Note 6 8 11 13 15 Total
Nombre d’étudiants 4 7 12 5 2 30

Pour la série portant sur la distribution des médecins d'une


clinique selon leurs coûts d’intervention, le coût moyen est
calculé ainsi:
Classes [a-b[ 300-340 340- 380 380-420 420-460 460-500 Total
Effectifs ni 10 9 15 10 6
Chapitre III: Description numérique d’une variable
statistique

Les propriétés les plus importantes de la moyenne peuvent


être déduites en effectuant des transformations sur la
variable X. Pour alléger l’écriture, on note la moyenne de X
par
o Soit Y= aX
o Soit b une constante, on aura
o Soit Y= aX+b
Il faut remarquer que ces propriétés sont aussi valables pour
les autres paramètres de position à savoir la médiane et le
mode. En d’autre terme soit Y une variable telle que
Y=aX+b, on aura alors:
Mod Y= a Mod X+b
Med Y= a Med X+b
Chapitre III: Description numérique d’une variable
statistique
3.2 Les mesures de dispersion
3.2.1. L’étendue
On appelle étendue, notée, ETD, l’écart entre la plus élevée et
la plus faible des valeurs observées, soit:
ETD= xmax-xmin

3.2.2. L’écart et l’écart interquartile


On appelle quantile d’ordre α (α Є [0,1]), noté qα, la valeur de
la variable telle que:
F(qα)= Prop(X ≤qα)= α
On note premier quartile, noté Q1, q0,25. On a donc F(Q1)=0,25.
Un quart de la population ont la variable inférieur à Q1.
Chapitre III: Description numérique d’une variable
statistique
On appelle deuxième quartile, noté, Q2, q0,5. On a donc
F(Q2)=0,5. Deux quart de la population ont la variable
inférieur à Q2. (Q2= Me).
On appelle troisième quartile, noté, Q3, q0,75. On a donc
F(Q3)=0,75. Trois quart de la population ont la variable
inférieur à Q3.
Définition: L’écart interquartile
On appelle Ecart interquartile, noté EIQ, la différence entre Q3
et Q1
EIQ = Q3 - Q1
Définition: L’intervalle interquartile
On appelle Intervalle interquartile, noté IIQ, la classe définie
par Q1 et Q3
IIQ =[Q1 ; Q3]
Chapitre III: Description numérique d’une variable
statistique
3.2.3. Variance et L’écart – type
La variance est la moyenne arithmétique des carrés des écarts
des valeurs de la variable à leur moyenne arithmétique. On
la désigne par V ou σ2. D’après cette définition, on peut
écrire:
Chapitre III: Description numérique d’une variable
statistique

La racine carrée de la variance est appelée écart-type (σ)


définie par:
Propriétés:
o Soit Y = aX V(Y) = a2 V(X)
o Soit b une constante, on aura V(b) = 0
o Soit Y = aX +b V(Y) = a2 V(X)
Exemple
Reprenons la même série statistique relative à la répartition de
50 médecins d'une clinique selon leurs coûts d’intervention
et essayons de calculer la variance et l’écart type.
Chapitre III: Description numérique d’une variable
statistique
3.2.4 Le coefficient de Variation
Noté CV, ce coefficient est égal à la valeur absolue du quotient
de l’écart-type sur la moyenne.

C’est un coefficient sans unité qui indique la dispersion relative


ou le degré d’homogénéité des observations. On utilise pour
comparer deux dispersions qui n’ont pas la même moyenne ou
la même unité.
Chapitre III: Description numérique d’une variable
statistique

Exemple
On compare la distribution des salaires dans une clinique
Française et une entreprise Américaine. On a:
σ(X1) = 100 Euro
σ(X2) = 70 $
Les coefficients de variation sont:
CV1= 100/1500= 0.067
CV2= 70/800= 0.087
La dispersion relative est plus faible dans la clinique française,
les salaires dans cet clinique sont donc plus homogènes.
Chapitre III: Description numérique d’une variable
statistique
3.3 Les mesures de forme
3.3.1. Les coefficients d’asymétrie
Définition:
Une distribution est dite symétrique si les valeurs sont
dispersées de la même façon à droite et à gauche de la
tendance centrale (moyenne, mode ou médiane)
A- Lorsque la distribution est symétrique, on a Me=Mo=
Chapitre III: Description numérique d’une variable
statistique
Lorsque la distribution est dite asymétrique, la médiane est
généralement comprise entre le mode et la moyenne. Deux
cas se présentent:
B- Si < Me<Mo , la distribution est asymétrique et étalée à
gauche
Chapitre III: Description numérique d’une variable
statistique
C- Si Mo < Me< , la distribution est asymétrique et étalée à
droite
Chapitre III: Description numérique d’une variable
statistique
3.3.2. Le coefficient de Pearson
Pearson propose le coefficient d’asymétrie suivant:

, la distribution est symétrique.


, la distribution est asymétrique, étalée à droite.
, la distribution est asymétrique, étalée à
gauche.
Chapitre III: Description numérique d’une variable
statistique
3.3.3. Le coefficient de Fisher
Moment centré d’ordre r
On appelle moment centré d’ordre r, noté μr, la quantité suivante:

On a alors µ1 = 0 et µ2 = V(X).
Pour les variables continue, on remplace xi par ci les centres des
classes.
Lorsque la distribution est symétrique, les moment d’ordre
impaire sont tous nuls (µ3, µ5, µ7, ……).
Chapitre III: Description numérique d’une variable
statistique

Fisher propose le coefficient suivant:

o Si γF = 0 ⇔ μ3 = 0, la distribution est symétrique.


o Si γF > 0 ⇔ μ3 > 0, la distribution est asymétrique étalée à
droite.
o Si γF < 0 ⇔ μ3 < 0, la distribution est asymétrique étalée à
gauche.
Chapitre III: Description numérique d’une variable
statistique
3.3.4. Le coefficient d’aplatissement
Ce coefficient permet de comparer la forme de distribution à une
distribution symétrique très connue en statistique, la
distribution normale. Le coefficient d’aplatissement nous
indique que la distribution est plus plate ou plus aigue qu’une
distribution normale ayant la même moyenne et la même
variance. Fisher le définie comme suit:

o γa = 0, la distribution est normale ou mésokurtique.


o γa < 0, la distribution est plus aplatie qu’une distribution
normale ou platykurtique.
o γa > 0, la distribution est moins aplatie qu’une distribution
normale ou leptokurtique.
Chapitre III: Description numérique d’une variable
statistique

fi
leptokurtique

mésokurtique

platykurtique

xi
Chapitre III: Description numérique d’une variable
statistique
3.3.5. Les caractéristiques de concentration
Pour certaine variables comme le salaire ou le revenu, la
distribution des terres agricoles, il est intéressant de savoir
comment elles sont réparties entres les individus de la
population, c’est l’objet de l’étude de concentration.
A/La courbe de concentration
Soit X une variable statistique continue.
On appelle Valeur globale associée au couple (xi, ni), le produit
défini par VGi = ni xi
On appelle Valeur globale totale, qu’on note VGT
Chapitre III: Description numérique d’une variable
statistique
On appelle Valeur globale relative associée au couple (xi, ni), le
rapport, qu’on note qi défini par:

On appelle Valeur globale relative cumulée croissante associée la


valeur xi, centre de classe [bi-1 ; bi[ qu’on note Qi

On appelle Courbe de concentration (ou courbe de lorenz), le


polynôme obtenu en joignent, les points de coordonnées (Fi, Qi)
dans un repère orthonormée, où les Fi portés sur l’axe des
abscisses et les Qi sur l’axe des ordonnées. Cette présentation se
fait dans un carré de cote égale à l’unité.
Chapitre III: Description numérique d’une variable
statistique
Exemple: La répartition des exploitations agricoles en Tunisie, en
fonction de la surface est la suivante :

Superficie Centre ni fi Fi nixi qi Qi


en ha ci
[1-5[ 11
[5-10[ 12
[10-20[ 15
[20-50[ 26
[50-100[ 36
Totale

Construire la courbe de Lorenz de la répartition des exploitations


agricoles précédente.
Chapitre III: Description numérique d’une variable
statistique
Interprétation
Plus la courbe de concentration se rapproche de la diagonale, plus
la répartition est égalitaire, et plus la courbe s’éloigne de la
diagonale, plus la distribution est concentrée, c’est-à-dire
inégalement répartie.
Cas extrême
Cas 1. La courbe de concentration se confond avec la diagonale.
C’est le cas d’une équirépartition parfaite. On dit aussi que la
concentration est nulle.
Cas 2. La courbe de concentration se confond avec les cotés OA et
AB du triangle OAB. C’est le cas, hypothétique, où un seul
individu possède toute la richesse. On dit aussi que la série est
totalement concentrée.
Chapitre III: Description numérique d’une variable
statistique
Surface de concentration
On appelle surface de concentration, qu’on note par S, la surface
comprise entre la diagonale principale OB et la courbe de
concentration. Plus la courbe s’éloigne de la diagonale et plus la
surface de concentration est grande.
B/ Indice de Gini
On appelle indice de Gini (ou indice de concentration), le rapport
entre l’aire de la surface de concentration et l’aire du triangle
OAB. On le note par IG:

Vous aimerez peut-être aussi