Académique Documents
Professionnel Documents
Culture Documents
Maxime Bonhomme
UMR CNRS-UPS 5546, Laboratoire de Recherche en Sciences Végétales, Castanet-Tolosan
12 septembre 2011
généralités statistique descriptive
1 généralités
qu'est-ce que la statistique ?
quelques dénitions
2 statistique descriptive
distribution statistique : variables
distribution statistique : paramètres
représentation
série statistique à deux variables quantitatives
check-list pour une analyse statistique
généralités statistique descriptive
GENERALITES
généralités statistique descriptive
qu'est-ce que la statistique ?
dénition
science formelle, méthode et technique (ensemble de méthodes)
science de collecter, organiser, analyser et interpréter des données
(analyser les variations entre observations)
le but est de disposer d'un outil d'aide à la décision
démarche générale
collecte des données : plan d'expérience, échantillonnage
traitement des données : description, estimation de paramètres, tests
d'hypothèses
interprétation et conclusion
- quantitative :
* discrète (dénombrable) : nombre de racines latérales,...
* continue : taille, poids, concentration, temps, ratio d'expression,...
distinction intervalle / rapport : le zéro est arbitraire dans une variable d'intervalle (ex :
température), et signie l'absence de caractère dans une variable de rapport (ex : poids, vitesse)
généralités statistique descriptive
quelques dénitions
plan d'expérience
dispositif expérimental permettant la collecte des données en vue de
répondre à une question donnée
associé à la méthode statistique utilisée pour analyser les données
- plans factoriels (exemple : deux traitements sur le même lot de personnes, sans interaction
entre traitements)
traitement B placebo de B
(n=200) (n=200)
traitement A traitement A traitement B traitement A placebo B
(n=200) (n=100) (n=100)
placebo A placebo A traitement B placebo A placebo B
(n=200) (n=100) (n=100)
- plans expérimental en blocs aléatoires complets -PEBAC- (exemple : eet de diérents
traitements entre unités expérimentales, en champs). Le but est de réduire l'erreur
expérimentale en éliminant la contribution de sources connues de variation entre les unités
expérimentales
3 2 4 2 1 4
1 5 6 5 6 3
5 3 4 5 2 4
6 1 2 3 6 1
PEBAC relatif à la comparaison de six éléments : exemple de six fumures diérentes, numérotées de 1 à 6
au sein de quatre blocs
généralités statistique descriptive
STATISTIQUE DESCRIPTIVE
généralités statistique descriptive
distribution statistique : variables
Variable qualitative
variable qualitative
fréquence (eectif) absolue : nombre d'observations par catégorie (ni )
fréquences relatives : proportion d'observations de la catégorie par rapport
à l'ensemble p de catégories
n
fi = Pp i (1)
i =1 nk
fréquences cumulées (si variable ordonnée) :
i
Ni = nk (2)
X
i =1
i
Fi = fk (3)
X
i =1
généralités statistique descriptive
distribution statistique : variables
Variable qualitative
500
400
300
200
100
0
réprimé
inchangé
induit
généralités statistique descriptive
distribution statistique : variables
Variable qualitative
représentation : camembert
présidentielle 20XX
UMP PS
Divers
Verts
Centre
Front gauche
FN
généralités statistique descriptive
distribution statistique : variables
Variable quantitative
variable quantitative
répartition en classes
fréquence (eectif) absolue : nombre d'observations par classe (ni )
fréquences relatives : proportion d'observations de la classe par rapport à
l'ensemble p des classes
n
fi = Pp i (4)
i =1 nk
fréquences cumulées (si variable ordonnée) :
i
Ni = nk (5)
X
i =1
i
Fi = fk (6)
X
i =1
généralités statistique descriptive
distribution statistique : variables
Variable quantitative
représentation : histogramme
graphique représentant une distribution statistique par des rectangles
verticaux de surface proportionnelle aux eectifs
log2 fold change
400
300
frequency
200
100
0
−5 0 5 10
i =1
avec pk = nk /n
médiane : valeur en dessous de laquelle sont situées 50% des observations
quartiles : valeurs à 25%, 50% et 75% de l'eectif
centiles : valeurs à x % de l'eectif
mode : valeur (ou classe) la plus fréquente
généralités statistique descriptive
distribution statistique : paramètres
Tendance centrale
0.10
0.04
0.08
0.03
mode
moyenne
médiane
0.06
Density
Density
0.02
0.04
0.01
0.02
0.00
0.00
40 50 60 70 80 90 0 5 10 15 20 25 30 35
généralités statistique descriptive
distribution statistique : paramètres
Tendance centrale
autres moyennes
moyenne arithmétique pondérée : valeurs (X = x1 , x2 , ..., xn ) aectées de
coecients (W = w1 , w2 , ..., wn ).
Pn
wx
m = Pi =n1 i i (9)
i =1 wi
moyenne harmonique, si fractions (ex : calcul de la vitesse moyenne) :
n
m = Pn 1 (10)
i =1 x i
m = t xi (11)
uY
n
i =1
ex : le carré√(rectangle moyen à deux côtés égaux) qui a même surface qu'un rectangle de côtés 3 et 7 a
pour côté 2 3 ∗ 7 = 4.58
généralités statistique descriptive
distribution statistique : paramètres
Dispersion
i =1
valable que si on connait la vraie moyenne de la population. Donc 1 degré de liberté de moins
correspondant au calcul de la moyenne (ddl = nb de valeurs qui sont libres de varier dans le calcul
nal de la statistique) :
s 2−1 = n −1 1 (x − m)2
n
(14)
X
n i
=1
i
notations
écart-type (standard déviation -SD) :s
m et s 2 (s ) : estimateurs de la moyenne et de la variance (écart-type) de la population à partir de
l'échantillon
µ et σ 2 (σ ) : vraie moyenne et variance (écart-type) de la population
E(X ) et Var(X ) : espérance (moyenne) et variance de la variable aléatoire X
coecient de variation cv = s /m
généralités statistique descriptive
distribution statistique : paramètres
Dispersion
0.4
0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4
x x
propriétés de la variance
σ 2 (X ) = Var(X ) = E(X 2 )-E(X )2
σ 2 (X + Y ) = Var(X + Y ) = Var(X )+Var(Y ) (si X et Y indépendantes)
σ 2 (X − Y ) = Var(X − Y ) = Var(X )+Var(Y ) (si X et Y indépendantes)
généralités statistique descriptive
distribution statistique : paramètres
Dissymétrie et aplatissement
0.15
0.15
0.15
0.10
0.10
0.10
frequency
frequency
frequency
0.05
0.05
0.05
0.00
0.00
0.00
0 10 20 30 40 50 60 0 10 20 30 40 50 60 0 10 20 30 40 50 60
0.20
0.20
0.15
0.15
0.15
frequency
frequency
frequency
0.10
0.10
0.10
0.05
0.05
0.05
0.00
0.00
0.00
0 10 20 30 40 50 60 0 10 20 30 40 50 60 0 10 20 30 40 50 60
généralités statistique descriptive
représentation
Représentation d'une série statistique
0.15
0.15
0.10
Density
Density
0.10
0.05
0.05
0.00
0.00
−5 0 5 10 15 0 10 20 30
Q1 Q2 Q3
−5 0 5 10 15 0 10 20 30
Q 1 = quartile 1 (1er quart des données), Q 2 = médiane, Q 3 = quartile 1, 3ème quart des données ;
(nb : dans le cas d'une loi Normale, environ 95% des valeurs sont comprises entre les deux extêmes)
généralités statistique descriptive
série statistique à deux variables quantitatives
Représentation
nuage de points
20
● ●
15
● ●
● ●
● ●
● ● ● ●
note_exam
● ●
10
● ● ●
● ● ●
5
●
0
0 5 10 15 20
note_année
généralités statistique descriptive
série statistique à deux variables quantitatives
Liaison entre deux variables quantitatives X et Y
covariance
n
1X
Cov(X , Y ) = σXY = sxy = (x − x̄ )(yi − ȳ )
n i =1 i
(17)
exemple de corrélation
20
●
● ●
20
●
● ●
● ●
●
●
● ●●
● ●●
●● ●
r = 0.99
15
●
r = −0.99
15
● ●
● ●
● ●●●
● ●● ●
● ● ●
● ● ●
●
●
10
y1
y2
● ●
10
●●
●
●● ● ●
● ●
●●
● ●
●
● ●
● ●
5
● ●
5
● ●
●
● ●
● ●
●● ● ●
●
●
● ●
●
0
0
5 10 15 20 −10 −5 0 5
x1 x2
20
●
30
●
●
r = 0.02 ● r = 0.63 ● ●
●
● ●
20
15
● ● ● ●
●
● ●
●
● ● ●
● ● ● ● ●
●
●
10
● ● ● ● ●
● ●
10
●
y3
y4
● ● ●
● ● ●
● ● ● ●
●
● ●
●
● ● ● ● ●
0
●
●●
5
●
● ●
●
●
−10
●
0
9 10 11 12 13 0 5 10 15 20
x3 x4
généralités statistique descriptive
série statistique à deux variables quantitatives
Notion de régression
BUT : faire passer une droite qui passe au plus près des points
droite de régression yˆi = axi + b
les coecients de la droite de régression sont calculés de manière à minimiser la somme des carrés
des écarts entre les valeurs observées y et les valeurs estimées yˆ (méthode des moindres carrés)
i i
S = min(
X
( y y
− ˆi ) )
2 (19)
i
i =1
sx
20
● ●
15
● ●
● ● y=0.8x+3.8
● ● cov=5.53
● ● ● ● r=0.63
note_exam
● ● r²=0.40
10
● ● ●
● ● ●
5
●
0
0 5 10 15 20
note_année
généralités statistique descriptive
check-list pour une analyse statistique
check-list
individu ?
population étudiée ?
échantillon ou population ?
eectif ?
variables :
nombre
nature
nombre de catégories (cas de var qualitative)
séries -variables- indépendantes ou appariées (ex : mesure à deux temps proches,
correction d'un ensemble de copies par deux examinateurs) ?
variable
xée (25 plantes choisies dans chacune des 4 parcelles d'une récolte : "parcelle" = xée)
aléatoire (100 plantes choisies au hasard sur les 4 parcelles d'une récolte : "parcelle" = aléatoire,
d'où accès à la distribution de la variable)