Vous êtes sur la page 1sur 46

Faculté de Médecine d’Oran

Service de Biostatistique

Rappel sur les statistiques


descriptives

jeudi 6 mai 2021 1


LES CARACTERES

L’étude portera sur


un ou plusieurs caractères
présentés par chacun
des individus de la population :
Taille,poids,taux de glycémie,
couleur des yeux, profession,
nationalité, groupe sanguin,
nombre d’enfants par famille…

jeudi 6 mai 2021 2


CLASSIFICATION SOMMAIRE DES
CARACTERES

Un caractère est dit quantitatif


quand ses différentes modalités
sont mesurables (exprimées par des chiffres).
Ex : tailles, poids, nombres d’enfants par famille…
Un caractère est dit qualitatif
quand ses différentes modalités échappent à la mesure.
Ex : couleur des yeux, profession, nationalité, groupe
sanguin…
Le caractère qualitatif peut être
nominal: le sexe, le groupe sanguin…
ordinal : la douleur, le niveau d’instruction…
jeudi 6 mai 2021 3
LE CARACTÈRE
QUANTITATIF

Variable stat. Variable stat.


continue discontinue
Elle prend toutes elle ne peut
les valeurs prendre
appartenant à son que des valeurs
intervalle. isolées.

jeudi 6 mai 2021 4


TABLEAUX STATISTIQUES ET GRAPHIQUES
Les observations effectuées sur un échantillon sont
en général résumées dans un tableau appelé tableau statistique.
CARACTERE QUALITATIF
Tableau 1 : Profil de la pathologie observée dans une consultation
de médecine à Oran durant l’année 1997

Effectifs Fréquences
Modalités du caractère (fréquences absolues) relatives
( pathologie observée) ni fi ( % )

- Pathologie ORL 153 12


- Intoxications 102 08
- Pathologie 204 16
traumatique 510 40
- Pneumopathie 255 20
- Dermatoses 051 04
- Divers

ni=n = 1275 fi=100

Source : CHU d’Oran.


jeudi 6 mai 2021 5
A- REPRESENTATION GRAPHIQUE
PAR TUYAUX D’ORGUES

600
500
400
Effectif

300
200
100
0

h
RL

,
i,

rs
au

at
ox

at

ive
m
,O

.tr

,p
Int

er
th

D
eu
th

D
Pa
Pa

Pn

jeudi 6 mai 2021


Source : C.H.U d’ Oran. 6
B- REPRESENTATION GRAPHIQUE
PAR SECTEURS CIRCULAIRES

4% 12%
20% 8%

16%
40%

Path,ORL Intoxi, Path.trau.


Pneu,path Dermat, Divers

Source : C.H.U d’ Oran


jeudi 6 mai 2021 7
CARACTERE QUANTITATIF
Variable statistique discrète
Tableau N° : Nombre d’enfants par famille.
Nombre Nombre de Fréquences
d’enfants familles relatives
Xi ni fi (%)
0 4 5
1 5 6
2 10 13
3 16 20
4 18 22
5 14 18
6 7 9
7 6 7
TOTAL 80 100

Source :……………………………….
jeudi 6 mai 2021 8
Variable discontinue
DIAGRAMME
Fig. n° : Répartition du nombre d’enfants par famille

20
Nbre de familles

15

10

0
0 1 2 3 4 5 6 7
Nbre d’enfants
jeudi 6 mai 2021 9
Source :…………….
VARIABLE STATISTIQUE CONTINUE

Tableau n°: ………………………..

Valeurs Nbre de Fréq. HISTOGRAMME


du taux sujets Relative
Xi Ni Fi Fig.n°:………………………
1-2 10 05
2-3 30 14 60
3-4 42 20 50

4-5 60 29 40

5-6 30 14
30

20
6-7 18 09 10

7-8 10 05 0

8-9 08 04

Total 208 100 1 2 3 4 5 6 7 8 9

Source: …………………………..

jeudi 6 mai 2021 10


REMARQUE

Le nombre de classes en général,


doit être commode

(N15)

et significatif

(N5)

jeudi 6 mai 2021 11


jeudi 6 mai 2021 12
–-Les caractéristiques de tendance centrale (de
position)
•Elles permettent d'obtenir une idée de l'ordre de
grandeur des valeurs de la série et indiquent la
position où semble se rassembler les valeurs de
la série
–-Les caractéristiques de dispersion:
•Elle quantifient les fluctuations des valeurs
observées et leur étalement

jeudi 6 mai 2021 13


I- PARAMETRES
DE TENDANCE CENTRALE(de position)

1 - Le mode
2 - La médiane
3 - La moyenne arithmétique.

jeudi 6 mai 2021 14


INTRODUCTION

PARAMETRES DE
TENDANCE CENTRALE
Paramètres de position

Synthétisent et
caractérisent
l'ensemble des données par
un nombre unique,
une valeur type

de telle sorte qu'en première approximation la comparaison de


deux séries puisse se ramener à la comparaison
de deux nombres.
jeudi 6 mai 2021 15
Le Mode (Mo)
Cas des données non groupées
Le mode est la valeur
de la variable statistique
la plus fréquente.
Exemple
soit la série statistique :
3, 5, 7, 15, 16, 16, 16, 17, 17, 3O.
alors
Mo = 16
Cas des données groupées

Variable statistique discontinue


Le mode est la valeur de
la variable statistique qui correspond
à l’effectif le plus élevé.
jeudi 6 Dans
mai 2021 ce cas sa détermination est immédiate 16
Exemple
Tableau N°1 : Nombre d’enfants par famille
Nombre d’enfants Nombre de familles
Xi ni
0 4
1 5
2 10
3 16
Mo=4 4 18
5 14
6 7
7 6
TOTAL 80
Interprétation :
Le nombre d’enfants le plus fréquent dans cet
échantillon est égal à 4.
jeudi 6 mai 2021 17
Variable statistique continue

La classe qui correspond à


l’effectif le plus élevé
est appelée
classe modale.

Le mode
est le centre de la classe modale.

jeudi 6 mai 2021 18


Exemple
Tableau n°2 : Les pesées de 5O nouveau-nés.

Poids (Kg) Xi Effectifs ni


2.O - 2.5 2
2.5 - 3.O 4
3.O - 3.5 6
Classe modale 3.5 - 4.O 3O
4.O - 4.5 8
TOTAL 5O

La classe modale est : 3,5 – 4,0 alors le mode est


Mo = (3,5 + 4,0)/2 = 3,75 Donc Mo = 3,75 Kg
Interprétation :
Le poids
jeudi le plus fréquent dans cet échantillon est égal à 3,75
6 mai 2021 19 kg
Mais si on cherche plus de précision, on applique la méthode
d'interpolation linéaire en utilisant la formule

d1
Mo = bmin+ ---------- K
d1 + d2


bmin : borne inférieure de la classe modale.
d1 : différence entre l’effectif de la classe modale et de la classe
précédente.
d2 : différence entre l’effectif de la classe modale et de la classe
suivante.
K : Amplitude de la classe modale

jeudi 6 mai 2021 20


(3O-6)
Mo = 3,5 + --------------- X O,5
(3O-6) + (3O-8)

Mo = 3,76 Kg
Interprétation :
Le poids le plus fréquent dans cet échantillon est égal
à 3,76 Kg. Pratiquement, on peut dire que les poids les
plus fréquents se situent entre 3,5 kg et 4,O kg.
La détermination du mode est facile (avantage) par
contre sa valeur varie en fonction de la classe modale
qui n'est pas stable et qui change suivant le choix du
nombre de classes et de l'amplitude de celles-ci
(inconvénient).
jeudi 6 mai 2021 21
La médiane (Me)

Cas des données non groupées


La médiane est la valeur de la variable statistique qui
divise la série statistique en deux parties égales
(5O % de l’effectif lui soit inférieur et 5O % supérieur)

- Nombre d'observations impair :


7, 9, 13, 45, 7O, 1O1, 115.
Me = 45
- Nombre d'observations pair :
2, 5, 9, 1O, 12, 14, 2O, 22
Me = (10 + 12)/2 = 11
la demi somme de l'intervalle médian

jeudi 6 mai 2021 22


Cas des données groupées :
Variable statistique discontinue
La médiane est la valeurde la variable statistique qui
occupe le (n/2)ème rang(détermination directe) :
Nombre d’enfants Nombre de familles
Xi ni

0 4
1 5
2 10
3 16
Me 4 18
5 14
6 7
7 6
TOTAL 80
n/2 = 80/2 = 40, la valeur de la variable qui occupe le 40ème rang est égale à 4
donc Me = 4 enfants
Interprétation
Il y ajeudi
5O6 %
mai(soit
2021 4O familles) qui ont moins de 4 enfants et 4O plus de 4 enfants.
23
Variable statistique continue
Tableau n°2 : Les pesées de 5O nouveau-nés.

Poids (Kg) Xi Effectifs ni


2.O - 2.5 2
2.5 - 3.O 4
3.O - 3.5 6
3.5 - 4.O 3O
4.O - 4.5 8
TOTAL 5O

3,5 – 4,0 alors Me = (3,5 + 4,0)/2 = 3,75


Donc Me = 3,75 kg
Interprétation :
Il y a 5O % (soit 25) nouveau-nés qui ont un poids inférieur à
3,75 kg et 50 % (25) qui ont un poids supérieur à 3,75 kg.
jeudi 6 mai 2021 24
Variable statistique continue :

Pour les données groupées en classes, la médiane est obtenue


par interpolation linéaire :

[n/2] -s
Me = bmin + -------- xK
nMe

où :
bmin : borne inférieure de la classe médiane
n : la taille de l'échantillon
S : somme des effectifs de toutes les classes inférieures à la
classe médiane.
nme : l’effectif de la classe médiane
K : l'amplitude
jeudi 6 mai 2021
de la classe médiane 25
Exemple : Les pesées de 5O nouveau-nés
5O/2 - 12
Me = 3,5 + ( ------------- ) O,5
3O

Me = 3,72 kg.
Interprétation :
Il y a 5O % (soit 25) nouveau-nés qui ont un poids inférieur à
3,72 kg et 50 % (25) qui ont un poids supérieur à 3,72 kg.
On peut également déterminer la médiane graphiquement .

jeudi 6 mai 2021 26


LA MOYENNE ARITHMÉTIQUE
Données non groupées
(moyenne arithmétique simple)
La moyenne arithmétique est la somme des observations
divisée par leur nombre. Elle est notée
__
X1 + X2 + X3 + X4 + ...+ Xn
X=
n
(lire x barre)

ce qui donne

__  Xi
X=
n

jeudi 6 mai 2021 27


Données groupées
(moyenne arithmétique pondérée)

Variable statistique discontinue

S'il y a répétition de certaines


observations, c'est à dire le nombre x1 se
produit n1 fois, x2 se produit n2 fois,....., la
formule précédente devient :

__ ∑ ni Xi
X =
n
jeudi 6 mai 2021 28
Exemple
Nombre d’enfants par famille
Xi ni ni . Xi
0 4 0
1 5 5
2 10 20
3 16 48
4 18 72
5 14 70
6 7 42
7 6 42
 ni = n  ni . xi =
= 80 299
_ 299
X = (1/n)  ni xi = (1/80)  ni xi = = 3,74
8O
_
X = 4 enfants, il y a en moyenne 4 enfants par famille.
jeudi 6 mai 2021 29
REMARQUES

•- Dans une distribution symétrique, les


trois paramètres de
tendance centrale
(mode, médiane, moyenne)
sont égaux.

•- Mode, médiane et moyenne sont les


valeurs centrales les plus
utilisées

jeudi 6 mai 2021 30


II- PARAMETRES DE DISPERSION.

jeudi 6 mai 2021 31


On a décrit les distributions statistiques dans les
chapitres précédents en utilisant:

- Les représentations graphiques qui font apparaître


l'allure générale de la distribution (manque de précision).
- Les paramètres de tendance centrale qui décrivent la
zone centrale de la distribution, mais sont incapables de
donner une description sur la structure interne de la
distribution et par conséquent comment sont dispersées
les valeurs de la série statistique autour d'une
caractéristique de position

jeudi 6 mai 2021 32


Citons dans un premier temps un exemple concret :
1 ère série (notes sur 2O) : 4 20
2 ème série (notes sur 2O) : 11 13

On constate que les deux séries ont la même moyenne


(x = 12) , mais la 2 ème série est moins dispersée que la
1 ère.

Donc il est nécessaire de disposer d'autres paramètres


qui étudient la dispersion (structure interne).
Le paramètre le plus efficace pour rendre compte de la
dispersion d'une série d'observations est la variance ou
l'écart-type.
jeudi 6 mai 2021 33
I- La variance.
C'est une distance moyenne des observations à la
moyenne arithmétique qui constitue une mesure de
dispersion, plus précisément c'est la moyenne
arithmétique des carrés des écarts à la moyenne
arithmétique

jeudi 6 mai 2021 34


Cas des données non groupées :
On définit la variance S² d'un ensemble de n valeurs
x1, x2,................,xn par :

n
S² = (1/n)  (Xi-X)²
1

jeudi 6 mai 2021 35


Cas des données groupées :
Quand x1, x2, x3,.........xN ont respectivement
des effectifs
d'apparition n1, n2, n3 .......nN, la variance prend
la forme :

n n _

S² = (1/n) ni (Xi - X)²


1

jeudi 6 mai 2021 36


II- L’écart-type :

La variance est une quantité élevée au carré. Si la


variable x représente un poids exprimé en kg, alors la
variance sera exprimée en kg², unité qui n'a pas de
sens. On utilise l'écart- type qui est la racine carrée de la
variance afin d'obtenir une unité homogène avec celle
de la variable statistique x.

jeudi 6 mai 2021 37


- Plus l'écart-type est faible, plus les valeurs de la série
sont concentrées (moins dispersées) autour de leur
moyenne.
- La moyenne et l'écart-type sont souvent utilisés dans
les tests statistiques, c'est la raison pour laquelle ils
doivent être bien calculés

jeudi 6 mai 2021 38


Exemples :
1) Données non groupées :

Soit la série : 5, 7, 1O, 14.

n 4
La moyenne X = (1/n)  xi = (1/4)  xi = 36 / 4 = 9.

Variance

S²=(1/n)  (Xi-X)² =(1/4) [(5-9)²+(7-9)²+(1O-


9)²+(14-9)²] = 11,5

L'écart-type S = 11,5 = 3,39


jeudi 6 mai 2021 39
2) Données groupées :

Le même calcul pour la variable discontinue et continue.


On prend les données du tableau 2 :
classes centres ni ni.xi (xi-x)² ni(xi-x)²
de
classes
xi
2,0-2,5 2,25 2 4,5 1,90 3,80
2,5-3,0 2,75 4 11 0,77 3,77
3,0-3,5 3,25 6 19,5 0,14 0,87
3,5-4,0 3,75 30 112,5 0,014 0,43
4,0-4,5 4,25 8 34 0,38 3,07
 ni =  ni.xi  ni.(xi-x)²
jeudi 6 mai 2021 50 =181,5 =11,26 40
la variance S² = (1/n)  ni (Xi-X)² = (1/50)  ni (xi-3.63)².
= 11,26/5O = O,22

L'écart-type S = O,22 = O,47 Kg.

jeudi 6 mai 2021 41


CALCUL PRATIQUE DE L'ECART-TYPE ET DE LA
VARIANCE

En développant la formule de définition :


N --- _
S² = (1/n)  ni (Xi -X)² données groupées
1

et

_
n
S² = (1/n)  (Xi - X)² données non groupées.

jeudi 6 mai 2021 42


On obtient une expression adaptée pour les calculs
numériques :
N
S² = (1/n)  ni Xi² - [ x ]² données groupées
1

et
n
S² = (1/n)  Xi² - [ x ]² données non groupées
1

jeudi 6 mai 2021 43


Exemple : les données du tableau 2

Classes Centres de Effectifs ni.xi ni.xi²


en (kg) classes xi ni

2,O - 2,5 2,25 2 4,5 10,125


2,5 - 3,O 2,75 4 11 30,225
3,O - 3,5 3,25 6 19,5 63,375
3,5 - 4,O 3,75 30 112,5 421,875
4,O - 4,5 4,25 8 34 144,5
ni=50 ni.xi=18 ni.xi²=
1.5 670,125

L'écart-type S = O,22 = O,47 Kg


jeudi 6 mai 2021 44
Le coefficient de variation (coefficient de dispersion)

C'est une caractéristique de dispersion relative qui sert


à comparer les dispersions des distributions qui ne sont
pas de même nature. Il est défini par le rapport de
l'écart- type à la moyenne.

CV=S/X

Il est souvent exprimé sous forme de pourcentage, et


est indépendant du choix des unités. Il permet de
comparer les dispersions de deux séries différentes soit
par les unités, soit par leur nature, exemple : une série
de salaires en dinars et une série de salaires en dollars,
ou encore une série de tailles à une série de poids.
jeudi 6 mai 2021 45
En général dans la pratique quand :

CV > O,33 dispersion importante


CV < O,33 dispersion faible.

jeudi 6 mai 2021 46

Vous aimerez peut-être aussi