Vous êtes sur la page 1sur 6

Pr ALLOUN épidemiologie Beggar:F

- Un échantillon aléatoire est un sous ensemble de


STATISTIQUE DESCRIPTIVE la population. Il est aléatoire c'est-à-dire il est
extrait au hasard.

Définition 2
Définitions
Variable : Contrairement à une constante,
 Statistique : Le terme statistique désigne à la caractéristique ayant la même valeur pour tous les
fois un ensemble de données d’observations, individus, une variable comporte nécessairement
et l’activité qui consiste en leur recueil, leur plus d’une modalité. Les modalités sont les
traitement et leur interprétation. différentes catégories que peut présenter une
 Les termes statistiques, ou statistiques (au variable.
pluriel) englobent ainsi plusieurs notions
distinctes : recensement de grandeurs
Définitions 3
d’intérêt.
Nous voyons que la notion fondamentale qui se
- Chaque individu de la population est décrit par un
dégage de cette énumération est celle de Population. ensemble de caractéristique appelé variable
Population et échantillon généralement notés X, Y, Z lettre capitale.
- Chaque variable peut présenter plusieurs
spécificités appelées Modalités.
• On appelle population P un ensemble généralement
très grand souvent impossible et trop coûteux.  Exemple : Variable → Modalité
• un échantillon permette l’étude de la variabilité des X= âge → 18, Y= note de mathématique au bac →
caractéristiques d’intérêt de la population. 16/20, Z=Série du Bac → science, T=taille → 173cm,
P=poids → 60kg, C=couleur → rouge.
Unité statistique
Les variables peuvent être classés selon leurs
Chaque individu, ou unité statistique, appartenant à natures :
une population est décrit par un ensemble de
caractéristiques appelées variables ou caractères. Ces Variable qualitative
variables peuvent être quantitatives (numériques) ou
qualitatives (non numériques) (décrit une qualité), si ses modalités ne sont pas
mesurable.
Statistique et probabilité  Exemple : La couleur des yeux, le sexe,
profession, etc.
La théorie (ou le calcul) des probabilités est une a) La variable est dit nominal quand ses
branche des mathématiques qui permet de modéliser modalités appartiennent à un ensemble
les phénomènes où le hasard intervient (initialement dans lequel il n’ya pas d’ordre, ex : le sexe
développée à propos des jeux de hasard, puis (féminin masculin).
progressivement étendue à l’ensemble des sciences b) La variable est dit ordinal quand ses
expérimentales, dont la physique et la biologie). modalités appartiennent à ensemble
ordonné : exemple le niveau d’instruction.
CHAMPS D’APPLICATION
Variable quantitative
Définition 1
si ses modalités sont mesurables.
Les ensembles étudiés par la statistique descriptive  Exemple : poids, taille.
sont appelés populations (univers statistique). Une a) Une variable quantitative peut être discret
population statistique doit être clairement définie. ou discontinu si ses modalités prennent des
- Les éléments qui constituent cet ensemble sont valeurs discrètes (valeur isolées).
appelés individus (unités statistiques)  Exemple : X = nombre de fille dans une
famille de 3 enfants
Modalité
Pr ALLOUN épidemiologie Beggar:F

X = 0, 1, 2,3 Une fois ordonnée, on applique la formule suivante


Nombre entier isolé : rien entre deux nombres afin de calculer l’amplitude :
b) Une variable quantitative est continu si ses n = effectif de l’échantillon.
modalités prennent toute valeur Dans notre exemple → nombre de classes = √n =
appartenant à un intervalle réel de variation 7,07 ≈ 7
Ex : Y = note sur 20 à un examen
0,25 0,5 0,75 1 1,25 19,75 20
P = poids 75,6kg = 8,71 ≈ 9

Définition 4

Une série statistique est l’ensemble des valeurs


prises par une variable quantitative, comme par
exemple, les valeurs du poids d’un groupe,
d’étudiants ou les durées de séjour d’un groupe de
malades hospitalisées.

Exemple

- Population : Etudiants de première année


médecine promotion 2010/2011.
- Echantillon : section B
Population : n = 1000 Le calcul des fréquences est important car il permet
Echantillon : n = 200 les comparaisons entre deux ou plusieurs
n : représente le nombre d’individus ou taille de populations d’effectif différent et met en évidence
l’échantillon d’une population. la part de chaque valeur de la variable par rapport
Remarque : à l’effectif total.
Une population peut être fini ou infini. - Fréquence absolue :
Exemple d’une population infini : ensemble des ni = Effectif de la i ème modalité = 2
étoiles - Fréquence relative :
fi = ni/n = 2/50 = 0,04
X = poids de 50 personnes a donné les résultats (en - Le calcul des fréquences cumulées et ou de
Kg) présentés sous forme d’une série statistique l’effectif cumulé.
ordonnée : La fréquence cumulée Fi est la somme des
37 43 47 50 52 54 55 55 58 61 62 63 63 64 65 66 66 fréquences correspondant aux valeurs de la
67 68 68 69 69 70 71 72 72 72 73 73 74 74 75 76 76 77 variable statistique discrète inférieure ou égale à xi.
79 79 80 82 82 84 86 87 88 90 92 93 93 98 98 F1 = f1 = 0,04
F2 = f1+f2 = 0,04+0,08 = 0,12
II s’agit de diviser le domaine de variation de la F3 = f1+f2+f3 = 0,12+0,14 =0,26
variable, de 37 Kg à 98 Kg en classes. Fi=f1+f2+f3+……….+fi
Chaque classe est définie par : ses limites, son Les valeurs de Fi sont écrites entre les lignes
amplitude nommée a et sa valeur centrale ou correspondant à la valeur de xi
centre de classe.
Représentation tabulaire
 Le nombre de classes, est proportionnel à 1/ Variable quantitative
l’effectif de la population étudiée. - D’abord ordonner (par valeurs croissantes).
Il est égal à : - La présentation de ces valeurs peut se faire à l’aide
nombre de classes = √N d’un tableau de fréquences (présentation tabulaire)
- Si variable continue ou discrète (grand nombre de
 Pour calculer l’amplitude des classes, il faut valeurs distinctes) on fait un regroupement en
ordonner la série statistique. classes, nombre de classes compris entre 5 et 15.
Pr ALLOUN épidemiologie Beggar:F

Exemple : L’étude du poids de 50 personnes a


donné les résultats (en Kg) présentés sous forme Dans le cas de variables ordinales, on les représente
d’une série statistique ordonnée : sous forme de diagrammes, les bâtons sont alors
37 43 47 50 52 54 55 55 58 61 62 63 63 64 65 66 66 des bandes verticales de même largeur(en tuyaux
67 68 68 69 69 70 71 72 72 72 73 73 74 74 75 76 76 77 d’orgue)
79 79 80 82 82 84 86 87 88 90 92 93 93 98 98

POIDS(Kg) Effectifs (ni)= Fréquence


Classes Fréquence relative (fi=)
absolue
[37 46[ 2 0,04
[46 55[ 4 0,08
[55 64[ 7 0,14
[64 73[ 14 0,28 Variables quantitatives regroupées en classes
[73 82[ 11 0,22
[82 91[ 7 0,14 Il s’agit des variables quantitatives continues, mais
[91 100[ 5 0,1 également des variables discontinues lorsque le
Total 50 1 nombre de valeurs possibles est trop élevé.
Dans ce cas les distributions sont essentiellement
Le principe est le même pour les variables
qualitatives représentées par l’histogramme des fréquences et
le polygone des fréquences.

Représentation graphique

La représentation graphique va dépendre de la


nature de la variable.
Indication préliminaire : Un graphe comprend trois
parties :
- un titre (En principe il est le même que celui du
tableau dont il est issu)
- des coordonnés
- un tracé
Un graphique est toujours précède d’un tableau Variables quantitatives discrètes, non regroupées
mais un tableau peut ne pas être suivi de graphique en classes
l’inverse n’est pas vrai. Le titre comprendra toutes
les indications(ou, quand, qui, l’unité de mesure). Les courbes de fréquence sont essentiellement
représentées par les diagrammes en bâtons.
Caractère qualitatifs

Secteurs circulaires :(diagramme circulaire ou


camembert) : dans le cas de variables nominales

Exemple: répartition des principaux cancers chez


les femmes dans la région d’Alger
Pr ALLOUN épidemiologie Beggar:F

Paramètres de tendance Mode


Centrale Le mode ou valeur modale ou dominante est la
valeur de la variable de fréquence maximum. Exp :
Les paramètres de réduction sont des valeurs distribution du nombre d’épisode du syndrome
numériques permettant de résumer les grippal parmi 19 personnes.
caractéristiques principales de l’ensemble des
mesures d’un caractère quantitatif.
Les paramètres de tendance centrale sont des
mesures qui localisent le centre d’une distribution les
plus utilisés sont :
• La moyenne arithmétique ;
• La médiane ;
• Le mode. Dans l’exemple de la taille des nourrissons à la
naissance, la classe modale est 50 – 52 le mode peut
Moyenne arithmétique être assimilée au centre de la classe= 51pour plus de
précision il est calculé par méthode d’interpolation
 C’est la plus connue et la plus précise des linéaire.
mesures de tendance de centrale.
- La moyenne arithmétique X = m est la somme de
chacune des valeurs observés divisée par l’effectif
total :

Soit la statistique suivante :


3.3.3.3.4.4.5.5.5.5.7.9
- La moyenne arithmétique simple pour cette série
 Mo – le mode (la valeur modale) ;
est : (3+3+3+3+4+4+5+5+5+5+7+9) /12 = 56/12 = 4,7
 B inf : borne inférieure de la classe modale.
 La moyenne arithmétique pondérée permet
 d1 - l’écart (différence) entre l’effectif de la
une simplification des calculs lorsque
classe modale et celui de la précédente.
certaines observations se répètent :
 d2- l’écart (différence) entre l’effectif de la
La moyenne pondérée s’écrit :
classe modale et la classe lui succédant.
m=X (la somme des nixi) / n
 Amplitude des classes (longueur de
n est l’effectif de chaque valeur observée.
l’intervalle de classe).
Donc la moyenne pondérée de la série statistique
précédente est :

Mo=50,25cm

moyenne pondérée de la série statistique La médiane


regroupée en classe
a) Variable discontinue :
- Dans la série impaire 3 – 5 – 8 – 9 – 12, la médiane
est égale à 8 il y a deux valeurs à sa droite et deux
valeurs à sa gauche.
- Dans la série paire : 3 – 5 – 8 – 9 – 12 – 13, la
médiane est située entre 8 et 9 soit 8,5 qui est le
point milieu entre 8 et 9. Il a trois valeurs à sa droite
et trois valeurs à sa gauche, la médiane est une
valeur observée de rang n/2. n étant le nombre total
d’observation.
Pr ALLOUN épidemiologie Beggar:F

b) Variables continues La variance peut être exprimée autrement. Après


- Lorsque les données sont groupées en classe, la simplification des calculs, on obtient :
médiane correspond, si on utilise les effectifs
cumulés à n/2, si on utilise les fréquences relatives
cumulés à 0,50 ou 50%. Dans l’exemple de la taille
des nourrissons à la naissance, la médiane Si la série est regroupée en classes
appartient à la classe 54-56 cm. On peut à priori Xi : centres de classes
attribuent à la médiane la valeur centrale de la ni : effectif de la classe i
classe ou elle se trouve soit 55 cm. σ est la racine carrée de la variance, σ ,est appelé
- Cependant il serait plus juste de tenir compte de la écart type. En général, on retrouve:
position de la médiane dans la classe, par la Plus de 95% des données dans l’intervalle (µ± 2σ)
méthode d’interpolation linéaire. Toutes les données(ou presque 100%) dans
l’intervalle (µ± 3σ)

Représentation tabulaire type pour le calcul de la


Me – médiane; moyenne, variance et l’écart-type
B min - borne minimale de la classe médiane ;
N– taille de l’échantillon.
S – somme des effectifs de toutes les classes
précédente la classe médiane; nme – effectif de la
classe médiane
K - Amplitude des classes.
Le même exemple « taille des nourrissons à la
naissance »

Me = 53,55 cm Exemple : poids de 50 personnes en Kg

Mesure de dispersion

Il existe un grand nombre de mesures de


dispersion. La plus simple est l’étendue.
L’étendue se définit comme étant la différence
entre la plus grande et la plus petite valeur
observées. E= Maximum(x) – Minimum(x)
Dans notre exemple sur la taille des nourrissons à la
naissance, l’étendue est égale à 62-48=14 cm
L’inconvénient de cette mesure est qu’elle ne tient
compte que des valeurs extrêmes. C’est ainsi que la
mesure la plus utilisée est la variance ou on
considère la moyenne des différences (xi - ) Le coefficient de variation (coefficient de
dispersion)
Variance –Ecart-type
CV =
La variance est très utilisée, c’est la moyenne des
carrés des écarts à la moyenne: Il est souvent exprimé sous forme de pourcentage
dans la pratique quand :
CV>0, 33 la distribution a une dispersion
importante. CV < 0,33 la distribution est moins
La variance est toujours positive ou nulle, c’est dispersé. Lorsqu’une distribution est symétrique : le
pourquoi on la note σ² , σ étant l’écarttype qui mode, la médiane et la moyenne ont la même
s’exprime, contrairement à la variance, dans la valeur puisqu’ils sont confondus.
même unité que les xi.
Pr ALLOUN épidemiologie Beggar:F

Percentiles  α = ¼ = Q1 = le premier quartile → 25% des


observations sont <Q1
- Les percentiles ou centiles, au nombre de 99, sont  α = ½ = Q2 (médiane) = 2éme quartile →
les valeurs de la variable qui divisent la série 50% <Q2
statistique en 100 parties contenant chacune  α= ¾= Q3 = 3éme quartile → 75% des
1/100ème de l’effectif global. observations sont <Q3
- De façon générale, les percentiles sont utilisés Exemple : X nombre d’écolier par logement
lorsque le nombre de valeurs de la série statistiques 00001111111111222222333345
est supérieur à 1000.
- Certains percentiles se confondent avec des
quantiles déjà vus. Le dixième percentile, par
exemple se confond avec le premier décile.

Déciles

- Les déciles sont au nombre de 9. Ce sont des Pour le calcule → Q1 : nα = 26*1/4 =6,5 ∉N [nα ] = 6
valeurs de la variable qui partagent la série Q1= x6+1 =x7
statistique en 10 parties comprenant chacune 1 Pour le calcule → Q2 : nα = 26*1/2 = 13єN
/10ème de l’effectif total. Q2 = (x13 + x14)/2 = 1+1/2 = 1
- Par analogie avec les quantiles, le premier décile
est la note du dixième sujet sur cent, le deuxième Caractère continue
décile est la note du vingtième sujet sur cent, etc.
Le cinquième décile se confond avec le deuxième Les quartiles sont déterminé par interpolation
quartile et la médiane. linéaire
F1 : effectif cumulé de la classe précédente.
Quartiles F2 : effectif cumulé de la classe (L1 L2)
Q α = (L2-L1)(n α – F1) / F2-F1 +L1
Les quartiles divisent la série statistique en quatre
parties égales comprenant le même nombre de
sujets.
Le deuxième quartile n’est autre que la médiane.
On systématisera, dans un but de simplification, les
différentes situations ainsi :
- Le premier quartile ou quartile inférieur est la note
( ou valeur de la variable du 25ème sujet sur 100.
- Le deuxième quartile ou médiane est la note du
50ème sujets sur 100.
- Le troisième quartile ou quartile supérieur est la
note du 75ème sujet sur 100.

Écart interquartile

Afin de diminuer l’influence des valeurs extrêmes


on peut tenir compte de valeurs plus stables de la
distribution.
Intervalle interquartile( Q1,Q3) ou écart
interquartile=Q3-Q1

Calcul pratiques des quartiles


1/ Caractère discret :
Qα = xnα + xnα +1/2 nαєN
X(nα )+1 nα ∉N
il faut prendre [ ] la partie entière

Vous aimerez peut-être aussi