Vous êtes sur la page 1sur 6

Pr ALLOUN épidemiologie Beggar.

- Un échantillon aléatoire est un sous ensemble de


5- STATISTIQUE DESCRIPTIVE la population. Il est aléatoire c'est-à-dire il est
extrait au hasard.

Définition 2
Définitions
Variable : Contrairement à une constante,
 Statistique : Le terme statistique désigne à la caractéristique ayant la même valeur pour tous
fois un ensemble de données les individus, une variable comporte
d’observations, et l’activité qui consiste en nécessairement plus d’une modalité. Les
leur recueil, leur traitement et leur modalités sont les différentes catégories que
interprétation. peut présenter une variable.
 Les termes statistiques, ou statistiques (au
pluriel) englobent ainsi plusieurs notions
Définitions 3
distinctes : recensement de grandeurs
d’intérêt.
- Chaque individu de la population est décrit par
Nous voyons que la notion fondamentale qui se
un ensemble de caractéristique appelé variable
dégage de cette énumération est celle de généralement notés X, Y, Z lettre capitale.
Population. - Chaque variable peut présenter plusieurs
spécificités appelées Modalités.
Population et échantillon
 Exemple : Variable → Modalité
• On appelle population P un ensemble X= âge → 18, Y= note de mathématique au bac →
généralement très grand souvent impossible et trop 16/20, Z=Série du Bac → science, T=taille →
coûteux. 173cm, P=poids → 60kg, C=couleur → rouge.
• un échantillon permette l’étude de la variabilité
des caractéristiques d’intérêt de la population. Les variables peuvent être classés selon leurs
natures :
Unité statistique
Variable qualitative
Chaque individu, ou unité statistique, appartenant
à une population est décrit par un ensemble de (décrit une qualité), si ses modalités ne sont pas
caractéristiques appelées variables ou caractères. mesurable.
Ces variables peuvent être quantitatives  Exemple : La couleur des yeux, le sexe,
(numériques) ou qualitatives (non numériques) profession, etc.
a) La variable est dit nominal quand ses
Statistique et probabilité modalités appartiennent à un ensemble
dans lequel il n’ya pas d’ordre, ex : le sexe
La théorie (ou le calcul) des probabilités est une (féminin masculin).
branche des mathématiques qui permet de b) La variable est dit ordinal quand ses
modéliser les phénomènes où le hasard intervient modalités appartiennent à ensemble
(initialement développée à propos des jeux de ordonné : exemple le niveau d’instruction.
hasard, puis progressivement étendue à l’ensemble
des sciences expérimentales, dont la physique et la Variable quantitative
biologie).
si ses modalités sont mesurables.
CHAMPS D’APPLICATION  Exemple : poids, taille.
a) Une variable quantitative peut être
Définition 1 discret ou discontinu si ses modalités
prennent des valeurs discrètes (valeur
Les ensembles étudiés par la statistique isolées).
descriptive sont appelés populations (univers  Exemple : X = nombre de fille dans une
statistique). Une population statistique doit être famille de 3 enfants
clairement définie. Modalité
- Les éléments qui constituent cet ensemble sont X = 0, 1, 2,3
appelés individus (unités statistiques) Nombre entier isolé : rien entre deux
nombres
1
Pr ALLOUN épidemiologie Beggar.F

b) Une variable quantitative est continu si


ses modalités prennent toute valeur
appartenant à un intervalle réel de = 8,71 ≈ 9
variation
Ex : Y = note sur 20 à un examen
0,25 0,5 0,75 1 1,25 19,75 20
P = poids 75,6kg

Définition 4

Une série statistique est l’ensemble des valeurs


prises par une variable quantitative, comme par
exemple, les valeurs du poids d’un groupe,
d’étudiants ou les durées de séjour d’un groupe
de malades hospitalisées.

Exemple
Le calcul des fréquences est important car il
- Population : Etudiants de première année permet les comparaisons entre deux ou plusieurs
médecine promotion 2010/2011. populations d’effectif différent et met en
- Echantillon : section B évidence la part de chaque valeur de la variable
Population : n = 1000 par rapport à l’effectif total.
Echantillon : n = 200 - Fréquence absolue :
n : représente le nombre d’individus ou taille de ni = Effectif de la i ème modalité = 2
l’échantillon d’une population. - Fréquence relative :
Remarque : fi = ni/n = 2/50 = 0,04
Une population peut être fini ou infini. - Le calcul des fréquences cumulées et ou de
Exemple d’une population infini : ensemble des l’effectif cumulé.
étoiles La fréquence cumulée Fi est la somme des
fréquences correspondant aux valeurs de la
X = poids de 50 personnes a donné les résultats variable statistique discrète inférieure ou égale à
(en Kg) présentés sous forme d’une série xi.
statistique ordonnée : F1 = f1 = 0,04
37 43 47 50 52 54 55 55 58 61 62 63 63 64 65 66 66 F2 = f1+f2 = 0,04+0,08 = 0,12
67 68 68 69 69 70 71 72 72 72 73 73 74 74 75 76 76 F3 = f1+f2+f3 = 0,12+0,14 =0,26
77 79 79 80 82 82 84 86 87 88 90 92 93 93 98 98 Fi=f1+f2+f3+……….+fi
Les valeurs de Fi sont écrites entre les lignes
II s’agit de diviser le domaine de variation de la correspondant à la valeur de xi
variable, de 37 Kg à 98 Kg en classes.
Chaque classe est définie par : ses limites, son Représentation tabulaire
amplitude nommée a et sa valeur centrale ou 1/ Variable quantitative
centre de classe. - D’abord ordonner (par valeurs croissantes).
- La présentation de ces valeurs peut se faire à
 Le nombre de classes, est proportionnel à l’aide d’un tableau de fréquences (présentation
l’effectif de la population étudiée. tabulaire)
Il est égal à : - Si variable continue ou discrète (grand nombre
nombre de classes = √N de valeurs distinctes) on fait un regroupement
en classes, nombre de classes compris entre 5 et
 Pour calculer l’amplitude des classes, il faut 15.
ordonner la série statistique.

Une fois ordonnée, on applique la formule


suivante afin de calculer l’amplitude :
n = effectif de l’échantillon.
Dans notre exemple → nombre de classes = √n =
7,07 ≈ 7
2
Pr ALLOUN épidemiologie Beggar.F

Exemple : L’étude du poids de 50 personnes a


donné les résultats (en Kg) présentés sous forme Dans le cas de variables ordinales, on les
d’une série statistique ordonnée : représente sous forme de diagrammes, les bâtons
37 43 47 50 52 54 55 55 58 61 62 63 63 64 65 66 66 sont alors des bandes verticales de même largeur
67 68 68 69 69 70 71 72 72 72 73 73 74 74 75 76 76 (en tuyaux d’orgue).
77 79 79 80 82 82 84 86 87 88 90 92 93 93 98 98

POIDS(Kg) Effectifs (ni)= Fréquence


Classes Fréquence relative (fi=)
absolue
[37 46[ 2 0,04
[46 55[ 4 0,08
[55 64[ 7 0,14
[64 73[ 14 0,28 Variables quantitatives regroupées en classes
[73 82[ 11 0,22
[82 91[ 7 0,14 Il s’agit des variables quantitatives continues,
[91 100[ 5 0,1 mais également des variables discontinues
Total 50 1 lorsque le nombre de valeurs possibles est trop
élevé.
Le principe est le même pour les variables
qualitatives Dans ce cas les distributions sont essentiellement
représentées par l’histogramme des fréquences
et le polygone des fréquences.
Représentation graphique

La représentation graphique va dépendre de la


nature de la variable.
Indication préliminaire : Un graphe comprend
trois parties :
- un titre (En principe il est le même que celui du
tableau dont il est issu)
- des coordonnés
- un tracé
Un graphique est toujours précède d’un tableau
mais un tableau peut ne pas être suivi de Variables quantitatives discrètes, non
graphique l’inverse n’est pas vrai. Le titre regroupées en classes
comprendra toutes les indications (ou, quand,
qui, l’unité de mesure). Les courbes de fréquence sont essentiellement
représentées par les diagrammes en bâtons.
Caractère qualitatifs

Secteurs circulaires :(diagramme circulaire ou


camembert) : dans le cas de variables nominales

Exemple: répartition des principaux cancers chez


les femmes dans la région d’Alger

3
Pr ALLOUN épidemiologie Beggar.F

Mode
6- Paramètres de tendance Le mode ou valeur modale ou dominante est la
Centrale valeur de la variable de fréquence maximum. Exp
: distribution du nombre d’épisode du syndrome
Les paramètres de réduction sont des valeurs grippal parmi 19 personnes.
numériques permettant de résumer les
caractéristiques principales de l’ensemble des
mesures d’un caractère quantitatif.
Les paramètres de tendance centrale sont des
mesures qui localisent le centre d’une distribution
les plus utilisés sont :
• La moyenne arithmétique ;
• La médiane ; Dans l’exemple de la taille des nourrissons à la
• Le mode. naissance, la classe modale est 50 – 52 le mode
peut être assimilée au centre de la classe= 51pour
plus de précision il est calculé par méthode
Moyenne arithmétique
d’interpolation linéaire.
 C’est la plus connue et la plus précise des
mesures de tendance de centrale.
- La moyenne arithmétique X = m est la somme de
chacune des valeurs observés divisée par l’effectif
total :

Soit la statistique suivante :


3.3.3.3.4.4.5.5.5.5.7.9  Mo – le mode (la valeur modale) ;
- La moyenne arithmétique simple pour cette  B inf : borne inférieure de la classe
série est : (3+3+3+3+4+4+5+5+5+5+7+9) /12 = 56/12 modale.
= 4,7  d1 - l’écart (différence) entre l’effectif de
 La moyenne arithmétique pondérée la classe modale et celui de la précédente.
permet une simplification des calculs  d2- l’écart (différence) entre l’effectif de la
lorsque certaines observations se classe modale et la classe lui succédant.
répètent :  Amplitude des classes (longueur de
La moyenne pondérée s’écrit : l’intervalle de classe).
m=X (la somme des nixi) / n
n est l’effectif de chaque valeur observée.
Donc la moyenne pondérée de la série statistique
précédente est : Mo=50,25cm

La médiane

a) Variable discontinue :
moyenne pondérée de la série statistique - Dans la série impaire 3 – 5 – 8 – 9 – 12, la médiane
regroupée en classe est égale à 8 il y a deux valeurs à sa droite et deux
valeurs à sa gauche.

- Dans la série paire : 3 – 5 – 8 – 9 – 12 – 13, la


médiane est située entre 8 et 9 soit 8,5 qui est le
point milieu entre 8 et 9. Il a trois valeurs à sa
droite et trois valeurs à sa gauche, la médiane est
une valeur observée de rang n/2.
n étant le nombre total d’observation.

4
Pr ALLOUN épidemiologie Beggar.F

b) Variables continues
- Lorsque les données sont groupées en classe, la
médiane correspond, si on utilise les effectifs - Si la série est regroupée en classes :
cumulés à n/2, si on utilise les fréquences relatives Xi : centres de classes
cumulés à 0,50 ou 50%. Dans l’exemple de la taille ni : effectif de la classe i
des nourrissons à la naissance, la médiane σ est la racine carrée de la variance, σ ,est appelé
appartient à la classe 52-54 cm. On peut à priori écart type. En général, on retrouve:
attribuent à la médiane la valeur centrale de la Plus de 95% des données dans l’intervalle (µ± 2σ)
classe ou elle se trouve soit 53 cm. Toutes les données(ou presque 100%) dans
- Cependant il serait plus juste de tenir compte de l’intervalle (µ± 3σ)
la position de la médiane dans la classe, par la
méthode d’interpolation linéaire. Représentation tabulaire type pour le calcul de la
moyenne, variance et l’écart-type

Me – médiane;
B min - borne minimale de la classe médiane ;
N– taille de l’échantillon.
S – somme des effectifs de toutes les classes
précédente la classe médiane; nme – effectif de la
classe médiane
K - Amplitude des classes.
Le même exemple « taille des nourrissons à la
naissance » Exemple : poids de 50 personnes en Kg

Me = 53,55 cm

Mesure de dispersion

Il existe un grand nombre de mesures de


dispersion. La plus simple est l’étendue.
L’étendue se définit comme étant la différence
entre la plus grande et la plus petite valeur
observées. E= Maximum(x) – Minimum(x)
Dans notre exemple sur la taille des nourrissons à
la naissance, l’étendue est égale à 62-48=14 cm
L’inconvénient de cette mesure est qu’elle ne Le coefficient de variation (coefficient de
tient compte que des valeurs extrêmes. C’est ainsi dispersion)
que la mesure la plus utilisée est la variance ou on
considère la moyenne des différences (xi - CV =
)
Il est souvent exprimé sous forme de
Variance –Ecart-type pourcentage dans la pratique quand :
CV>0, 33 la distribution a une dispersion
- La variance est très utilisée, c’est la moyenne des importante. CV < 0,33 la distribution est moins
carrés des écarts à la moyenne: dispersé. Lorsqu’une distribution est symétrique :
le mode, la médiane et la moyenne ont la même
valeur puisqu’ils sont confondus.

- La variance est toujours positive ou nulle, c’est Percentiles


pourquoi on la note σ² , σ étant l’écarttype qui
s’exprime, contrairement à la variance, dans la - Les percentiles ou centiles, au nombre de 99,
même unité que les xi. sont les valeurs de la variable qui divisent la série
- La variance peut être exprimée autrement. statistique en 100 parties contenant chacune
Après simplification des calculs, on obtient : 1/100ème de l’effectif global.
5
Pr ALLOUN épidemiologie Beggar.F

- De façon générale, les percentiles sont utilisés Exemple : X nombre d’écolier par logement
lorsque le nombre de valeurs de la série 00001111111111222222333345
statistiques est supérieur à 1000.
- Certains percentiles se confondent avec des
quantiles déjà vus. Le dixième percentile, par
exemple se confond avec le premier décile.

Déciles

- Les déciles sont au nombre de 9. Ce sont des Pour le calcule → Q1 : nα = 26 x 1/4 =6,5 ∉N
valeurs de la variable qui partagent la série [nα ] = 6
statistique en 10 parties comprenant chacune 1 Q1= x6+1 =x7
/10ème de l’effectif total. Pour le calcule → Q2 : nα = 26 x 1/2 = 13єN
- Par analogie avec les quantiles, le premier décile Q2 = (x13 + x14)/2 = (1+1)/2 = 1
est la note du dixième sujet sur cent, le deuxième
décile est la note du vingtième sujet sur cent, etc. 2/ Caractère continue :
Le cinquième décile se confond avec le deuxième
quartile et la médiane. Les quartiles sont déterminé par interpolation
linéaire
Quartiles F1 : effectif cumulé de la classe précédente.
F2 : effectif cumulé de la classe (L1 L2)
Les quartiles divisent la série statistique en quatre Q α = [ (L2-L1)(n α – F1) / F2-F1 ] +L1
parties égales comprenant le même nombre de
sujets. Exemple : la taille des nourrissons à la naissance :
Le deuxième quartile n’est autre que la médiane.
On systématisera, dans un but de simplification, Q=q1/4 n α = n1/4 = 40/4 = 10
les différentes situations ainsi : 3<10<13
- Le premier quartile ou quartile inférieur est la 50<Q<52
note Q1 = [ (52-50)(10-3)/(13-3) ] + 50 = 51,4
( ou valeur de la variable du 25ème sujet sur 100.
- Le deuxième quartile ou médiane est la note du
50ème sujets sur 100.
- Le troisième quartile ou quartile supérieur est la
note du 75ème sujet sur 100.

Écart interquartile

Afin de diminuer l’influence des valeurs extrêmes


on peut tenir compte de valeurs plus stables de
la distribution.
Intervalle interquartile( Q1,Q3) ou écart
interquartile=Q3-Q1

Calcul pratiques des quartiles


1/ Caractère discret :
Qα = xnα + (xnα +1) / 2 si nαєN
X(nα )+1 si nα ∉N
il faut prendre [ ] la partie entière

 α = ¼ = Q1 = le premier quartile → 25% des


observations sont <Q1
 α = ½ = Q2 (médiane) = 2éme quartile →
50% <Q2
 α= ¾= Q3 = 3éme quartile → 75% des
observations sont <Q3

Vous aimerez peut-être aussi