Académique Documents
Professionnel Documents
Culture Documents
1
Introduction
La démarche
scientifique
Introduction
Statistiques descriptives
Statistiques inférentielles
Introduction
Statistiques descriptives
Méthodes statistiques utilisées pour construire
des tables, des graphiques et des résumés
numériques des données.
Statistiques inférentielles
Tirer une conclusion (inférence) objective à
propos d’une population.
Basées sur l’information d’une population.
4
Introduction (quelques définitions)
Population:
Ensemble des éléments qui forment le champ d’analyse
d’une étude particulière. Attention à la connotation
démographique!!
Taille notée : N
Recensement:
Etude de tous les individus composant une population
finie (pas toujours facile bien sûr).
5
Introduction (quelques définitions)
Individu:
Elément composant la population.
Caractère:
Caractéristique propre à chacun des individus
6
Introduction (quelques définitions)
7
Introduction (quelques définitions)
Echantillon (sample) :
Sous-groupe d’une population donnée.
Taille notée : n
Population
Echantillon
8
Statistiques descriptives
9
Statistiques descriptives
• Teneur en Ag
• Origine géographique
• Poids
• Usure
• Motif ….
1. Variables qualitatives
Echelle nominale
Echelle ordinale
2. Variables quantitatives
Variables discrètes
Variables continues
11
Variables qualitatives
Variable qualitative:
Modalité avec des mots ou
des lettres (catégories).
ex :‘homme’, ‘femme’, de la
variable ‘ sexe ’, ‘rouge’, ‘vert’…
de la variable ‘ couleur ’; ‘non
qualifié ’, ‘ semi-qualifié ’,
‘ qualifié ’ de la variable
‘ qualification professionnelle ’
type de silex…
12
Variables qualitatives
Échelle nominale :
On dit d’une variable dont les catégories
ne sont pas naturellement ordonnées,
qu’elle est définie sur une échelle
nominale.
ex : sexe, types de haches, types
d’amphores...
Échelle ordinale :
Si les catégories peuvent être
ordonnées, on est en présence d’une
échelle ordinale.
ex : qualification professionnelle (travail d’un
potier) ‘non qualifié’, ‘semi - qualifié’, ‘qualifié ’
14
Variables quantitatives
Variables quantitatives :
Modalités avec valeurs numériques.
Attention à l’unité!
15
Variables quantitatives
Variables discrètes:
16
Variables quantitatives
Variables continues:
Une variable quantitative est dite continue si les
valeurs possibles ne sont pas dénombrables.
17
Types de variables
18
Types de variables
Type de
variable
Quantitative Qualitative
(numérique) (Catégorie)
19
Statistiques descriptives
20
Méthodes tabulaires
21
Méthodes tabulaires
Duration
Poids of stdde
des fragments calls (in minutes)
poteries trouvés surof
unasite
Melbourne
néolithiquefirm
(g)
Frequency Distribution
Distribution de fréquence
2 up to 5 3 3 0.10 10.00
5 up to 8 6 9 0.30 30.00
8 up to 11 8 17 0.57 56.67
11 up to 14 7 24 0.80 80.00
14 up to 17 4 28 0.93 93.33
17 up to 20 2 30 1.00 100.00
23
Méthodes graphiques
Diagrammes en bâtons
Diagrammes circulaires (pie-chart)
Histogrammes
Polygones de fréquences cumulées
24
Méthodes graphiques
fi ni
f i 1 n
i n
f3 n3
f2 n2
f1 n1
x1 x2 x3 xm x1 x2 x3 xm
25
Méthodes graphiques
REMARQUES 35
30
% frequency
20
26
Méthodes graphiques
Diagrammes circulaires
Proportion of DNA sequence from different sources in the mammoth sample of Poinar et al. (2006).
27
Méthodes graphiques
28
Méthodes graphiques
1400
1000
800 Modalités
contigües
600
Col 2: 1150
Col 2: 50
Col 2: 30
400 Col 2: 20
200
0
-1 0 1 2 3 4
X=1 X=2 X=3 X=4
Nombre de périodes de chômage en une année
Possible mais peu révélateur
car une modalité domine
29
Méthodes graphiques
30
Méthodes graphiques
Histogrammes
A ne pas confondre avec le diagramme baton!
• Tracé aux limites
9
• Convient aux données quantitatives seulement
8
7 Contigües
car continuité
6
frequency
0
0.5
2 3.5 5 6.5 8 9.5 11 12.514 15.5 17 18.5 2O 21.5
call duration in minutes 31
Poids des fragments de poteries trouvés sur un site néolithique (g)
Méthodes graphiques
Histogrammes
32
Méthodes graphiques
Histogrammes
Dans la majorité des cas, une classe se rapporte à
plusieurs valeurs de la variable. 15 g < œuf <= 16 g
33
Méthodes graphiques
Règle de Sturge:
Règle de Yule :
2. 5 4 n
nombre de classes =
34
Méthodes graphiques
Histogrammes
35
Méthodes graphiques
30%
30%
27%
27%
17%
17% ?
5% 14%
14%
7%
0 5 10 15 20 25 30 35 40 45 50 55
36
Méthodes graphiques
25
cumulative frequency
20
15
10
0
2 5 8 11 14 17 20
37
Poids des fragments decall
poteries
durtion introuvés
minutes sur un site néolithique (g)
Statistiques descriptives
38
La tendance centrale
Moyenne
convient aux données quantitatives.
Médiane
convient aux données quantitatives et aux données
qualitatives sur une échelle ordinale.
Mode
convient aux données quantitatives et aux données
qualitatives.
39
La tendance centrale (moyenne)
w i
n i 1 i 1
N
x barre
xi
Population : i 1
N
40
La tendance centrale (moyenne)
xi xi 1
mi
2
On prend comme moyenne de x, la moyenne de la distribution
discrète (mi,ni), avec i de 0 à p-1
41
La tendance centrale (moyenne)
C
la
sses[xi,
xi+
1[ C
en
t
res E
f
fec
tif
s E
f
fec
t
if
s pondé
ré
s
[
x0,
x1[ m
1 n1 n1.
m 1
[
x1,
x2[ m
2 n2 n2.
m 2
… …
[x,
pxp-
1[ m
p n
p n
p.
m p
p p
ni
nim
i
i1
i1
p p
n m i i
En fait :
n mˆ i i
m chapeau
x i 1
x i 1
p p c’est une
n i 1
i n
i 1
i estimation!
42
La tendance centrale (médiane)
Médiane
Les données sont classées par ordre de magnitude.
x n x n
med x n 1 1
med 2 2
2 2
Pour n impair Pour n pair
43
La tendance centrale (médiane)
n / 2 ni (inf)
med L c
ni (med )
Exercice
44
La tendance centrale (médiane)
Médiane :propriétés
45
La tendance centrale (le mode)
Quelques propriétés…
Le mode n’est pas toujours la valeur centrale de la
distribution.
Une distribution peut avoir un ou plusieurs modes.
N’est pas affecté par les valeurs exceptionnelles.
Bon indicateur des populations hétérogènes qui
présentent une ou plusieurs valeurs dominantes
Se prête mal aux calculs stat. et algébriques
Attention, varie si l’on modifie l’intervalle de classe.
46
La tendance centrale (le mode)
R S
1 P Mode corrigé
E F
Q 2
Ak:taille de l’intervalle
contenant la classes modale
T
bk-1 X̂ bk 1
Mod corr . bk 1 Ak
Ak 1 2 47
La tendance centrale
49
Mesure de la dispersion
50
Mesure de la dispersion (range)
Exemple
Valeur maximum x = 174 mm
Valeur minimum x = 140 mm
Etendue de la variation = 174 - 140 = 34 mm
51
Mesure de la dispersion (écarts moyen, écart médian)
Ecart moyen : x x i
E.M . i 1
n
n
Ecart médian :
x med
i
E .med . i 1
n
52
Mesure de la dispersion (la variance)
x
Moyenne : N
i
( x ) 2
Variance de la population: 2 i 1
N
53
Mesure de la dispersion (la variance)
2
i
( x x ) 2
sx i 1
n 1
54
Mesure de la dispersion (la variance)
2
fi xi x 2
sx i 1
n 1
k : nombre de classes
fi : la fréquence de la classe i
xi : la valeur centrale de la classe i
55
Mesure de la dispersion (la variance)
Propriétés:
• La variance est toujours > ou = à 0
56
Mesure de la dispersion (la variance)
1780.5
s
2
x 36.33mm 2
49
57
Mesure de la dispersion (l ’écart type)
2
sx sx
2
population échantillon
58
Mesure de la dispersion (le coefficient de variation))
échantillon
100 s x
C.V .
x
59
Mesure de la dispersion (intervalle interquartile)
Quantiles:
• Quartiles : 4 parties égales
• Déciles : 10 parties égales
• Centiles : 100 parties égales
Qj = x(i) + (k.(x(i+1)-x(i))
61
Mesure de la dispersion (intervalle interquartile)
Exemple: 1 2 4 4 5 5 5 6 7 9
Intervalle interquartile:
62
Mesure de la dispersion (intervalle interquartile)
nq ni (inf)
Q L c
ni ( quartile)
64