Vous êtes sur la page 1sur 37

Introduction

} Données: faits et chiffres qui sont collectés, analysés,


résumés, et interprétés
◦ En coupe transversale: collectées au même moment
◦ Des séries temporelles: sur plusieurs années

} Éléments (individus): entités auprès desquelles les données


sont collectées

} Variable (caractère): caractéristique des éléments que l’on


désire étudier

} Modalité: les différentes valeurs que peuvent prendre une


variable

} Observations: l’ensemble des mesures collectées pour un


élément particulier
} La population :
◦ L’ensemble de tous les individus concernés lors de
l’étude d’un sujet particulier. (N = taille de la
population)

} Échantillon:
◦ Toute partie ou sous-ensemble de la population
(n = taille de l’échantillon)

} Individu ou unité statistique:


◦ Chaque élément de la population ou de
l’échantillon.
La clinique médicale MD a fait une étude sur tous ses
dossiers de varicelle recensée cette année et on y a
notamment enregistré le nombre de frères et sœurs de
chacun des patients atteints de cette maladie
contagieuse. On relève les données brutes suivantes :
Posons X = la variable statistique représentant le nombre
de frères et sœurs de chacun des patients atteints de
cette maladie contagieuse.
2 1 3 0 6 0 1 2 3 1
3 0 2 0 4 1 0 4 0 2
1 1 3 2 3 3 2 1 1 1
0 1 2 4 1 2 2 7 3 2
0 1 1 2 5 5 3 4 3 0
1 2 2 3 0 1 2 0 2 2
Voir chiffrier Excel: exemple 1 - données non groupées (varicelle)
X: une variable statistique (caractère)
xi : (modalités) valeurs possibles prises par la variable
statistique X
fi : le nombre d’unités (fréquence absolue) présentant la
valeur xi
fi /n : la fréquence relative de xi
F i: la fréquence cumulée des valeurs prises par la
variable X qui sont inférieures ou égales à xi
Fi /n : fréquence relative cumulée - c'est la proportion des
valeurs prises par la variable X qui sont inférieures ou
égales à xi
n: taille de l'échantillon
La distribution de fréquence d’une variable
statistique X est une fonction qui, à chaque
valeur xi de la variable, fait correspondre sa
fréquence absolue fi .

De façon similaire on définit la distribution de


fréquence relative.
} n = 60
} 8 classes
xi fi fi/n Fi/n
Les données sont souvent groupées en
classes lorsque la variable est continue ou
que celle-ci peut prendre un grand nombre
de valeurs différentes (même si cette variable
est discrète)

Pour construire une distribution de fréquence,


de fréquence relative ou de fréquence relative
cumulée, on doit d’abord déterminer le
nombre de classes
Valeurs groupées en classes

5 à 20 classes

Comment calculer le nombre de classes ?

n
Pour obtenir des classes d’amplitude égale :

Trouvons E (l’étendue):
E=Valeur maximale - Valeur minimale

Calculons l’amplitude:
Amplitude=E/nombre de classes
Pour les trois dernières années, le débit mensuel
moyen d'une rivière, exprimé en milliers de
mètres cubes par seconde, a été le suivant :

0,22 0,09 0,08 0,10 1,05 0,36 0,18 0,15 0,15


0,22 0,11 0,09 0,09 0,19 0,68 0,78 0,42 0,15
0,66 0,39 0,34 0,19 0,15 0,08 0,08 0,37 0,67
0,23 0,16 0,35 0,34 0,21 0,11 0,32 0,22 0,36

Voir chiffrier Excel: exemple 2 - données groupées


(Rivière)
Trouvons n le nombre de classes:
n= 36 =6
ou encore: 1 + 3,3 log n = 1+3,3 log 36= 6,1358
Trouvons E (l’étendue):
E=1,05 - 0,08=0,97

Calculons l’amplitude:
Amplitude=0,97/6=0,17
} Les classes sont:
[0,08-0,25 [
[ 0,25-0,42 [
[ 0,42-0,59 [
[ 0,59-0,76 [
[ 0,76-0,93 [
[ 0,93-1,1 [

On choisit la limite inférieure de la première classe égale à la


plus faible valeur observée, 0,08, et on calcule les limites
suivantes en ajoutant 0,17 à chaque fois
} Si les données sont issues d’un échantillon de
n éléments, les mesures numériques sont
calculées en utilisant ces n observations
◦ Ces mesures sont appelées des statistiques
d’échantillon

} Si elles sont issues d’une population, on parle


alors de paramètres de la population
◦ Paramètres souvent inconnus, on cherche à les
estimer en calculant des statistiques d'échantillon
aussi appelées estimateurs ponctuels
} Les caractéristiques de position (tendance
centrale):
◦ La moyenne arithmétique
◦ La médiane
◦ Le mode
Lorsque les données à
traiter sont celles de
toute une population

x
i 1
i
 
N
Lorsque les données à
traiter proviennent d’un
n échantillon

x
i 1
i
x
n
• La statistique la plus utilisée
• Affectée par les valeurs extrêmes

0 1 2 3 4 5 6 7 8 9 10

Moyenne = 5

0 1 2 3 4 5 6 7 8 9 10 12 14

Moyenne = 6
La clinique médicale MD a fait une étude sur tous ses
dossiers de varicelle recensée cette année et on y a
notamment enregistré le nombre de frères et sœurs de
chacun des patients atteints de cette maladie
contagieuse. On relève les données brutes suivantes :
Posons X = la variable statistique représentant le nombre
de frères et sœurs de chacun des patients atteints de
cette maladie contagieuse.
2 1 3 0 6 0 1 2 3 1
3 0 2 0 4 1 0 4 0 2
1 1 3 2 3 3 2 1 1 1
0 1 2 4 1 2 2 7 3 2
0 1 1 2 5 5 3 4 3 0
1 2 2 3 0 1 2 0 2 2
Voir chiffrier Excel: exemple 1 - données non groupées (varicelle)
Pour données non-groupées :
(si on utilise les fréquences absolues)
k
1
x
n f x
i 1
i i

k est le nombre de modalités différentes que prend la variable X


(0*11+1*15+2*16+3*10+4*4+5*2+6*1+7*1)/60 =1,93

xi fi fi/n Fi/n
Notation
n = le nombre total d’observations
fi = la fréquence absolue de la classe i
Mi = le centre de la classe i
xi = les différentes modalités d’un caractère
ou les différentes valeurs prises par
une variable statistique.
Où Mi est le
Pour données groupées : point milieu de
k la ième classe

fM
i 1
i i
x Lorsque les
n données
proviennent d'un
échantillon

f M
i 1
i i Lorsque les données
proviennent d'une
 population
N
Moyenne de données groupées

fM
Rent ($) fi Mi f iM i
420-439 8 429.5 3436.0 i i
440-459 17 449.5 7641.5 i 1
460-479 12 469.5 5634.0 x
480-499 8 489.5 3916.0 n
500-519 7 509.5 3566.5
520-539 4 529.5 2118.0 34, 525
540-559 2 549.5 1099.0
x  493.21
70
560-579 4 569.5 2278.0
580-599 2 589.5 1179.0
600-619 6 609.5 3657.0
Total 70 34525.0
} La médiane est la valeur qui sépare, aussi
exactement que possible, une série
statistique en deux parties égales par rapport
au nombre de données, une fois celles-ci
classées en ordre ascendant
Lorsque les données sont classées en ordre
croissant, la médiane correspond à la valeur
centrale. Si le nombre d’observations est pair, la
médiane est la moyenne des deux observations
centrales. S'il est impair, la médiane est la valeur
de la série dont le rang est n  1 dans le
classement ascendant 2
0 1 2 3 4 5 6 7 8 9 10 11 12
Pas affectée par
les valeurs Médiane = 5
extrêmes

0 1 2 3 4 5 6 7 8 9 10

Médiane = 5
} Le mode d’une série (s’il existe) est la valeur la plus
fréquente.
◦ Pour valeurs non groupées: exemple ci-dessous
◦ Pour valeurs groupées, on parle plutôt de classe modale
◦ Pas affecté par les valeurs extrêmes
◦ Il peut y avoir plusieurs modes
◦ Il peut ne pas y avoir de mode
◦ OK avec données qualitatives et quantitatives

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Aucun mode
Mode = 9
} Elles quantifient les fluctuations des valeurs
observées et leur étalement
Variation

Étendue Variance Écart type

Population: Population:
Variance = Écart type =

Échantillon: Échantillon
Étendue interquartile Écart type=S
Variance=S
C’est la différence entre la plus grande valeur et
la plus petite valeur de la série statistique

E=
x max  x min
*Ignore comment les données sont réparties

Étendue = 12 - 7 = 5 Étendue = 12 - 7 = 5

7 8 9 10 11 12 7 8 9 10 11 12
Cette mesure (la variance) évalue
l’étalement d’une série par rapport à la
moyenne

Variance pour données non groupées :

s2 
 i
 x  x  2
2 
 i
 x    2

n 1 N

Variance d’un Variance d’une


échantillon population
 xi  x  xi  x 2
Salaire Moyenne Écart par Écart au carré
mensuel d’échantillon rapport à la par rapport à
moyenne la moyenne
2350 2440 -90 8 100
2450 2440 10 100
2550 2440 110 12 100
2380 2440 -60 3 600
2255 2440 -185 34 225
2210 2440 -230 52 900
2390 2440 -50 2 500
2630 2440 190 36 100
2440 2440 0 0
2825 2440 385 148 225
2420 2440 -20 400
2380 2440 -160 3 600

2  xi  x 2 301 850   xi  x   0  xi  x 2  301 850


s    27 440,91
n 1 11
Variance pour données groupées :

 f i M i  x 2
 f i M i   2
s2  i
2
  i
n 1 N

Si on a une modalité par classe, alors Mi correspond à la modalité xi

On utilise aussi cette formule lorsqu'on a les fréquences des modalités


Une autre façon de la calculer pour des
données groupées:
 

  2
f i M i  nx 2


  f M 2
  N 2
 i  i i
s2  2   i 
n 1 N

Vous aimerez peut-être aussi