Vous êtes sur la page 1sur 15

Faculté de Médecine d’Alger

Département de chirurgie dentaire


Module d’odontologie préventive et sociale

BIOSTATISTIQUES

STATISTIQUE DESCRIPTIVE

Dr R. DJEKOUNE

Année universitaire : 2022-2023


I. INTRODUCTION

Les statistiques ont pour origine le besoin des États pour gérer rationnellement
leurs ressources. Pour cela, il était nécessaire après collecte d'informations de
disposer de méthodes permettant de définir les variations, les évolutions, les
ressemblances ou les différences entre régions, entre années, entre catégories.

Les statistiques constituent aussi un outil fondamental dans l’analyse des


problèmes de santé.

La biostatistique est un champ scientifique constitué par l'application de


la science statistique à la biologie et à la médecine.

La science de la biostatistique englobe :

● la conception des expériences biologiques, en particulier dans la médecine


● la collecte des informations,
● La compilation et analyse des données chiffrées de ces expériences,
● L’interprétation des résultats en vue d'avancer une conclusion.

II. NOTIONS DE BASE ET TERMINOLOGIE

1. Populations et échantillons :

1.1. La population correspond à l'ensemble des individus sur lequel


porte l’étude ou la prévision, il est généralement difficile de
l’étudier dans sa totalité, et l’échantillon représente la fraction de
cette population qui est réellement observée ou étudiée :

- Population-cible : ensemble des éléments visés, en principe, par


l'échantillonnage, sur laquelle on aimerait bien que les conclusions de
l'étude portent.
- Individu : la notion d’individu est très large les éléments d’un
échantillon ou d’une population sont appelés généralement des individus,
cependant cette notion peut être remplacé par plusieurs dénominations :
unité statistique, sujet, objet, élément, observation, mesure, doses,…

1.2. Échantillon : fragment d'un ensemble prélevé pour juger de cet


ensemble. Fraction de la population statistique sur laquelle des
mesures sont faites pour connaître les propriétés de cette
population.
- Échantillon représentatif : échantillon qui représente fidèlement
la composition et la complexité de la population statistique. Pour
être représentatif, un échantillon doit être aléatoire (constitué par
tirage au sort).
2. Caractère / Modalité / Variable:
II.1. Caractère : le caractère peut être défini comme une des
caractéristiques ou des attributs d’un individu. Exp : poids, taille,
couleur des yeux, sexe, nombre d’enfant dans une famille…
II.2. Modalité : la modalité (respectivement la mesure) est l’une des formes
particulière d’un caractère. exp : sexe (masculin/féminin), couleur des
yeux (noir, marron, bleu…), poids (0 à10kg, 10 à 20kg..)
II.3. La variable statistique : chaque attribut (ou caractère ou
caractéristique) a des modalités, ou peut s’exprimer selon une mesure,
celles-ci varient d’un individu à l’autre ou d’un groupe d’individus à
un autre groupe d’individus. La variable statistique est le nom que l’on
donne à ces caractères (attributs, caractéristiques).
Il existe deux types de variables (ou observations, celles-ci peuvent être soit
quantitatives soit qualitatives.

2.3.1. Variable quantitatif : c'est un caractère auquel on peut associer un


nombre c'est-à-dire, pour simplifier, que l'on peut "mesurer" (grandeur
mesurable). On distingue alors deux types de caractère quantitatif :

a - Variable discrète ou discontinue : c'est un caractère quantitatif, un tel


caractère ne prend qu'un nombre fini de valeurs (valeur entière dénombrable et
sans aucune valeur intermédiaire). Exemple: (nombre d'enfants, nombre de
pétales d’une fleur, nombre de dents,..) : (1 ; 2 ; 3 ; 4 ; 5 ;….10 ; 11 ;…)

b - Variable continue : c'est un caractère quantitatif, un tel caractère peut,


théoriquement, prendre toutes les valeurs d'un intervalle de l'ensemble des
nombres réels. Toutes les valeurs ne sont pas dénombrables et ne peuvent pas
être établit a priori. Ses valeurs sont alors regroupées en classes (taille, temps,
poids, vitesse, glycémie, altitude, surfaces,….) (1,60 m ; 1,61 m ; 1,62 m ;…..)

2.3.2. Variable qualitative :

Une variable qualitative est une variable susceptible de classement mais pas de
mesure.
C'est une variable qu'on peut classer en deux ou plusieurs catégories mais qu'on
ne peut pas mesurer.
C'est une variable dont les différentes modalités s'expriment par des noms et non
pas par des valeurs numériques comme exemple : le groupe sanguin , grade de
carie dentaire ou l'intensité de la douleur.

Les variables qualitatives peuvent être de deux types : les variables qualitatives
nominales et les variables qualitatives ordinales.

a) Caractère qualitatives nominales


Leurs modalités n'ont aucun rapport les unes avec les autres comme le sexe ou
le groupe sanguin

b) Caractère qualitatives ordinales


Dans ce cas de figure les modalités sont soumises à un certain ordre comme
l'intensité d'une coloration lorsqu'elle est répartie en claire, foncée et très foncée.

3. Effectif absolu :
L'effectif absolu ou la fréquence absolue d'une population ou d'une partie de la
population est tout simplement le nombre d'unités d'observation qui la ou le
constituent.

4. Fréquences relatives :
Lorsqu'une population est répartie en deux ou plusieurs groupes, l'effectif relatif ou
la fréquence relative d'un groupe est l'effectif absolu de ce même groupe rapporté à
l'effectif absolu de la population totale.
L'effectif relatif est exprimé généralement en pourcentage.
NB : L’emploi des fréquences ou fréquences relatives s’avère utile pour comparer
deux distributions de fréquences établies à partir d’échantillons de taille différente.
5. Fréquences cumulées :
Lorsqu'une population est répartie en plusieurs groupes selon un certain ordre,
l'effectif cumulé ou la fréquence cumulée d'un groupe est égal à la somme des
effectifs de ce même groupe et de tous les groupes antérieurs.

La fréquence cumulée croissante de la plus grande modalité ou de la classe à


laquelle appartiennent les plus grandes modalités est égale à 1 (ou à 100 % pour
les fréquences exprimées en pourcentages).

III. REPRESENTATION DES DONNEES

Il existe plusieurs niveaux de description statistique : la présentation brute des


données, des présentations par tableaux numériques, des représentations
graphiques et des résumés numériques fournis par un petit nombre de paramètres
caractéristiques.

1. Tableaux statistiques
En général une série statistique se présente sous la forme :
Variables Effectifs absolus Fréquences Fréquences
(xi) (ni) (fi)% = 𝑛𝑖/𝑁 cumulées (ficum)%
X1
X2
X3
Total N 100%

Dans le cas d'un caractère quantitatif continu, l’établissement du tableau de


fréquences implique d’effectuer au préalable une répartition en classes des
données. Cela nécessite de définir le nombre de classes attendu et donc
l’amplitude associée à chaque classe ou intervalle de classe.
En règle générale, on choisit des classes de même amplitude. Pour que la
distribution en fréquence ait un sens, il faut que chaque classe comprenne un
nombre suffisant de valeurs (ni).
Diverses formules empiriques permettent d’établir le nombre de classes pour un
échantillon de taille n.

le groupement des données en classes :


Une classe est un ensemble de valeurs numériques (modalités) successives.

Elle est caractérisée par ses limites supérieure et inférieure, son amplitude ou sa
largeur et sa valeur centrale ou centre de classe.

L'amplitude
Ou la largeur de la classe est égale à la différence entre la limite supérieure et la
limite inférieure.

Le centre d'une classe :

Est la valeur centrale comprise entre les deux limites c'est à dire la somme des
deux limites divisée par deux.

Les classes sont des intervalles successifs, contigus et ne se recouvrant pas.

Une valeur ou une modalité ne doit appartenir qu'à une seule classe ; et chaque
classe doit être considérée comme un intervalle semi-ouvert à droite c'est à dire
que la limite supérieure d'une classe n'est pas comptabilisée parmi les valeurs de
cette même classe par contre elle représente la limite inférieure de la classe
suivante. Exp [0 – 5[, [5 – 10[, [10 – 15[…..

Nombre de classes :

Il est arbitraire et n'obéit pas à une règle bien définie mais il doit être toujours
compris entre 3 et 15 pour que la série statistique ne soit ni trop comprimée ni
trop dispersée.

Cependant le nombre de classes peut être calculé de différentes manières.


Le nombre de classes peut être calculé comme étant égal à la racine carrée de
l'effectif total (√ N).

L’étendue= est la différence entre la plus grande et la plus petite valeur de la


série statistique.
Exp : dans une classe de 25 élèves, on a reporté le nombre de frères et sœurs de
chaque élève dans un tab :

Nombre de frères et sœurs 0 1 2 3 4


Effectifs 2 8 9 5 1

L’étendue est = 4-0 =4 est donc l’étendue de cette série est de 4


L'amplitude : est calculée ensuite en divisant l'étendue par le nombre de classes

𝐸
𝐴= 𝑛𝑜𝑚𝑏𝑟𝑒
de classe

2. Représentations graphique des séries statistiques

2.1. Caractère discret :

Diagramme en bâtons :
C’est un ensemble de bâtons ayant pour abscisses des valeurs x1 ………xn du
caractère et chacun des point d’abscisses xi a une ordonnée proportionnelle à
l’effectif ni de xi

Exemple :
Répartition de 150 grenouilles suivant le nombre de vers trématodes (parasites)
Quelles hébergent.

Nb de 0 1 2 3 4 5 6
trématodes par
grenouille
Nb de 11 22 45 40 19 11 2
grenouilles
correspondantes
Fréquence 0 .07 0.14 0.30 0.26 0.12 0.07 0.07
relative

Polygone des fréquences

ni
45

40

22

19

11

2
xi
0 1 2 3 4 5 6

Diagramme en bâtons

Polygone des fréquences :

On obtient en joignant par des segments de droite les extrémités des bâtons.
C’est un graphe linéaire passant par les points ayant pour abscisse x le centre de
la classe ou la valeur du caractère étudié et pour ordonnée « y « l’effectif de la
classe ou du caractère.

II. Caractère continu :


Histogramme :
C’est un ensemble de rectangles ayant pour largeur l’amplitude de la classe et
pour hauteur l’effectif de la classe

Exemple : poids des nouveau-nés


Classe Limites de la classe(kg) Centre de la classe effectif Fréquence relative %
1 2.2 - 2.5 2.350 5 0.031 3.1
2 2.5 - 2.8 2.650 11 0.068 6.8
3 2.8 - 3.1 2.950 24 0.148 14.8
4 3.1 - 3.4 3.230 40 0.248 24.8
5 3.4 - 3.7 3.550 42 0.259 25.9
6 3.7 - 4.0 3.850 20 0.124 12.4
7 4.0 - 4.3 4.150 13 0.080 8.0
8 4.3 - 4.6 4.450 6 0.037 3.7
Total =161 =1 =100

ni
42

40

24

20

13

11

1.9 2.2 2.5 2.8 3.1 3.4 3.7 4.0 4.3 4.6

- Histogramme Polygone des fréquences

Polygone des effectifs ou des fréquences relatives :


Le polygone des effectifs est la ligne brisée joignant les milieux des bases
supérieures des différents rectangles adjacents.
Les représentations graphiques des variables qualitatives, sont essentiellement :
● Les diagrammes en bâton
● Les secteurs ou camembert

Le diagramme en bâtonnets et en barres: lorsque la variable est qualitative ou


discrète on utilise le diagramme en bâtons (ou bâtonnets) ou en barres. La
différence entre les bâtonnets et les barres est simplement la largeur des
colonnes, les barres sont plus larges.

* Le diagramme en bâtons: C'est un ensemble de segments de droite dont


la base représente la modalité ou la valeur discrète, tandis que la hauteur
exprime la fréquence simple (effectif) ou relative (%).

* Le diagramme en barres: C'est un ensemble de rectangles non jointifs


ou barres dont la base représente la variable (qualitative ou discrète) et la
hauteur exprime la fréquence: nombre de ménages ou de logements selon la
taille,...

Le diagramme en secteurs: C'est un diagramme circulaire où le cercle se


trouve divisé en secteurs angulaires selon l'importance relative des phénomènes.
L'importance du secteur est mesurée en degrés (grade ou gradient) selon la règle
suivante: a= (ni/n).360 ou a = fi.360.

Ce type de graphique est très utilisé dans la vulgarisation et les travaux


non géographiques, il est souvent plus connu par le diagramme en Camembert.
C'est un graphique intégral qui permet d'exprimer l'importance relative des
classes ou des modalités. L'utilisation de la troisième dimension (graphique en
3D) déforme cependant la vision.

Faculté de Médecine d’Alger


Département de chirurgie dentaire
Module d’odontologie préventive et sociale

BIOSTATISTIQUES

PARAMETRE DE POSITION
ET
PARAMETRE DE DISPERTION

Dr R. DJEKOUNE

Année universitaire : 2022-2023


I . GENERALITES :
Les paramètres de position et de dispersion sont un ensemble de valeurs
caractéristiques qui permettent une représentation condensée de l’information
contenue dans la série statistique.
On distingue deux catégories de valeurs typiques :
Les paramètres de position : la moyenne, la médiane, le mode, et les quantiles
donnent l’ordre de grandeur de l’ensemble des mesures,
Les paramètres de dispersion sont, la variance et l’écart type et le coefficient de
variation

II . PARAMETRE DE POSITION

La moyenne : Il s'agit tout simplement de la moyenne arithmétique qui est égale à


la somme des valeurs rencontrées pour la variable étudiée (modalités) rapportée au
nombre total d'observations, c'est à dire à l'effectif total
Xi
m= ∑ ------
N
m = moyenne
X = valeur de la variable
N = Effectif total
Il s'agit là d'une moyenne arithmétique simple. Lorsqu'une ou plusieurs valeurs
(modalités) se rencontrent plusieurs fois, ou lorsqu'on est en présence d'une série
statistique avec groupement des données, on calcule une moyenne arithmétique pondérée
en multipliant la valeur par le nombre d'observations lui correspondant.

Ni Xi
m= ∑ ----------
N
Xi = centre de classe pour les variables groupées.
Ni = Effectif correspondant à la modalité Xi.
- Le mode : Le mode ou valeur modale ou encore valeur dominante est la valeur
de la variable qui correspond à l'effectif absolu ou relatif non cumulé le plus
élevé.
Lorsque les données sont groupées en classes, on peut parler de classe modale,
c'est à dire celle qui correspond à l'effectif absolu ou relatif non cumulé le plus
élevé; ou bien on peut faire correspondre a la valeur modale le centre de la
classe modale.

Si une série statistique comprend un seul mode, elle est dite monomodale ; si
elle comprend deux valeurs modales, elle est dite bimodale; et si enfin elle
comprend plus de deux modes, elle est dite multimodale.

d1
( ______* A)
Mo = b inf +
d1 +d2

d1 : différence entre l’effectif de la classe modale et la classe qui la précède

d2 : différence entre l’effectif de la classe modale et la classe qui la succède

A : amplitude

b inf. : borne inferieur de la classe modale

Médiane :

A) Série statistique d’un caractère discret :


les valeurs du caractère d’une série statistique sont ordonnées par ordre de
grandeurs croissantes ou décroissantes, la médiane est la valeur qui se situe au
centre de la série ainsi ordonnée.(partage la série en deux partie égales)

Si la serie possède un nombre impair de valeurs 2n+1 la médiane sera la
(n+1 )ième valeur

ex : 1. Dans la serie de 15 valeurs suivantes.


1.2.4.4.4.5.6. (7).8.8.9.9.10.11.12. La médiane : me =7

Si la série compte un nombre pair de valeurs soit 2n valeurs, la médiane
sera la demi-somme de la nième et de la (n+1)ième
Ex : 2. La médiane de la série suivante
4.5.8.8. (9.11).12.14.17.19. La médiane me= 9+11/2

B) Série statistique d’un caractère continu :


La médiane est obtenue par interpolation est donnée par :
N/2 - C
Médiane = LICM + (-------------------------) x a
NiCM

LICM = limite inférieure de la classe médiane.


C = effectif cumulé jusqu'à la classe médiane non comprise.
NiCM = effectif non cumule de la classe médiane.
a = amplitude.

- Les quartiles :

Qui divisent la série statistique en quatre parties égales. Ils sont au nombre de trois. Sur
une série de 100 unités le premier quartile correspond à la 25ème unité, le deuxième
correspond à la 50ème unité et n'est rien d'autre que la médiane et le troisième
correspond quant à lui à la 75ème unité.

- Les déciles :

Ils divisent la série statistique en 10 parties égales.


Ils sont au nombre de 9. Sur une série de 100 unités le premier décile
correspond à la 10ème unité, le deuxième correspond à la 20ème
unité et ainsi de suite.

- Les percentiles ou centiles :


Ils divisent la série statistique en 100 parties égales.
Ils sont au nombre de 99. Sur une série de 1000 unités le premier centile correspond à la
10ème unité, le deuxième correspond à la 20ème unité et ainsi de suite
II Les paramètres de dispersion :

Les paramètres de tendance centrale et les paramètres de position sont insuffisants pour
caractériser une distribution statistique car ils ne donnent qu'une idée sur le centre de
cette distribution et il faut également connaître la manière avec laquelle varient les
termes de la distribution autour de la moyenne.
Cette variabilité est estimée par les paramètres de dispersion qui sont au nombre de
quatre :

- La marge ou l'étendue : qui est égale à la différence entre la plus grande valeur et la
plus petite valeur de la série statistique.

- La variance (S2) : qui est égale à la somme des carrés des écarts par rapport à la
moyenne rapportée à l'effectif total.

∑ ni (xi - m)2
S2 =---------------------
N

OU

∑ (ni xi2) - ∑ (ni xi) 2 / n


S2 = ---------------------------------
n-1

- L'écart-type (S) : qui est égal à la racine carrée de la variance.

S = √ S2

Le coefficient de variation (CV) : c'est un paramètre qui estime le degré


d'homogénéité de la série statistique. Il est exprimé en pourcentage.

S
CV = -------------------- x 100
m

Si cv >0.33 = série statistique est dispersée


Si cv <0.33= série statistique est non dispersée

Vous aimerez peut-être aussi