Vous êtes sur la page 1sur 48

Cours 2 : Rappels de Statistique

descriptive

A- Introduction
B- Statistique descriptive unidimensionnelle
C- Statistique descriptive bidimensionnelle
A- Introduction
A- Introduction

9 Rappel : Srie statistique = ensemble de mesures dune ou


plusieurs variables faites sur une population ou un chantillon
dindividus.
A- Introduction

9 Objectifs de la statistique descriptive (ou exploratoire):


rsumer, synthtiser linformation contenue dans la srie
statistique, mettre en vidence ses proprits.
suggrer des hypothses relatives la population dont est
issu lchantillon.

9 Outils utiliss :
Tableaux (table des frquences, de contingence, )
Graphiques (box-plots, histogrammes,..)
indicateurs (moyenne, corrlation,..).
A- Introduction

9 Le type doutils utilis dpend

De la nature de la srie (uni ou multi dimensionnelle)


De la nature des variables (quantitatives discrtes, continues
ou qualitatives).
A- Introduction

Exemple : observation de la Table des frquences:


squence dun brin dADN valeurs effectifs frequences
A 26 0,26
C 27 0,27
GGGAGTGTBTATTAABTBBGAA G 27 0,27
BTBBBAGBGBTAGBTBGBGBGG T 20 0,2

AGTGABBGAGBBTABATGAGGG Visualisation :
Diagramme en Barres en frquences
TABTGTBAATAABGBATGTTABB
T

AGAAGGA G

Srie unidimensionnelle de taille A

0 0,05 0,1 0,15 0,2 0,25 0,3

100 de la variable qualitative base


Indicateur: Modes=C et G
du brin dADN .
A- Introduction

Exemple : Srie des ges de 50 salaris classes centres amplitudes effectifs frequences eff. Cum. freq. Cum.
dans une entreprise (18.3,26] 22,15 7,7 7 0,14 7 0,14
(26,33.7] 29,85 7,7 8 0,16 15 0,3
36.44460 30.63702 30.36399 56.13572 (33.7,41.5] 37,6 7,7 8 0,16 23 0,46
62.31707 48.87932 25.22967 45.07674 (41.5,49.2] 45,35 7,7 10 0,2 33 0,66
41.22021 18.45797 46.82866 57.83412 (49.2,56.9] 53,05 7,7 7 0,14 40 0,8
26.93824 51.17832 42.42865 25.00991 (56.9,64.7] 60,8 7,7 10 0,2 50 1
39.49332 61.49174 41.12957 48.73509
24.84856 62.86307 31.46099 18.30140 H is to g r a m m e e n fr q u e n c e s d e la s r ie c la s s e box-plot de la srie

58.65384 22.66574 28.69191 43.23656

0.025

60
29.99305 37.23314 25.34647 56.18528

0.020
59.60421 56.78237 34.86674 55.49477

50
52.80441 58.90374 64.61624 57.62305

0.015

age
Density

40
41.92750 39.26187 43.79833 33.12420

0.010
44.39254 58.30465 30.01482 56.69020

30
45.00456 39.18792
0.005

20
0.000

Srie unidimensionelle de la variable 10 20 30 40 50 60 70

quantitative continue age .


a

Min. Q1 Median Mean Q3 Max.


18.30 30.84 42.83 42.95 56.17 64.62
A- Introduction
nuage de points des variables dist et speed

Ex: observation de la vitesse et de la

25
distance de freinage de 50 voitures.

20
speed dist
1 4 2

vitesse

15
2 4 10
3 7 4

10
4 7 22
5 8 16

5
6 9 10
7 10 18 0 20 40 60 80 100 120

8 10 26 distance de freinage

9 10 34
10 11 17
11 11 28

B- Statistique descriptive unidimensionnelle

1-Gnralits
2- Etude dune variable quantitative
3- Etude dune variable qualitative
B-1 Gnralits

9On considre une variable statistique X, observe sur n individus. On dispose alors
dune srie statistique unidimensionnelle x = ( x1 ,..., xn ) que lon peut mettre sous
forme dun tableau de donnes :

xi = valeur de X pour l'individu i de la srie.

9On veut mettre en vidence les principales caractristiques de la srie.


B-1 Gnralits
9 effectif dune valeur de X : nb.
mnage Nb.
dindividus ayant cette valeur.
ni denfants
X
1 3
9 frquence dune valeur de X : prop. ni
dindividus ayant cette valeur : f i = 2 2
n 3 5
9 effectif cumul de la ivaleur de X : 4 3
nb. dindividus ayant lune des i 5 6
6 3
premires valeurs de X : 7 5
i 8 5
N i = n j = n1 + n2 + ... + n j + ...ni 9 1
j =1 10 5
Table des frquences :
9 frquence cumule dune valeur de
X : prop. des individus ayant lune valeurs de X effectif effectif cum. frquence frq. Cum
1 1 1 0.1 0.1
des i premires valeurs de X : 2 1 2 0.1 0.2
i 3 3 5 0.3 0.5

Fi = f j = f1 + f 2 + ... + f j + ... fi 5
6
4
1
9
10
0.4
0.1
0.9
1
j =1
B-2 Etude dune variable quantitative

Les diffrentes tapes de ltude

9 Construction de la table des frquences (par valeurs ou classes


de valeurs).
9 Visualisation de la distribution des frquences (ou des
effectifs) de la srie.
9 rsum des caractristiques de la srie par des indicateurs et
des graphiques.
B-2.1 Etude dune variable quantitative:
Table des frquences

Variable quantitative discrte Variable quantitative continue

9 Cration dune srie classe


9 classement des valeurs de x par regroupement des valeurs de x en m
ordre croissant classes (intervalles) disjointes de
valeurs: I = [ d , d [
k k k +1

9 Dfinitions :
9 Dnombrement des m valeurs borne infrieure (resp.suprieure)
distinctes de la srie de la classe I k : d k (resp. d k +1 )

1 < ... < k < m amplitude de I k : ak = d k +1 d k

centre de I k : ck = 12 (d k + d k +1 )

9 NB : classement dune srie perte


dinformation; la constitution des
classes est une tape dlicate.
B-2.1 Etude dune variable quantitative:
Table des frquences
B-2.1 Etude dune variable quantitative:
Table des frquences
mnage Nb.
denfants
menage 1 2 3 4 5 6 7 8 9 10
1
X
3
superficie 8 8,5 10 12,5 11 13 20 25 33 15
2 2
3 5
9 Nombre de classes par la rgle de Sturges :
4 3 k~5, amplitude des classes gales E/k
5 6 =33-8/5=5.
6 3
7 5
8 5
9 1 9 Classes : [8,13[,[13,18[, [18,23[,
10 5 [23,28[,[28,33].
9 Classement : 1,2,3,3,3,5,5,5,5,6 9 Table des frquences :
9 Modalits : 1,2,3,5,6 classes centres eff. eff.cum freq. freq.cum.
[8,13[ 10,5 5 5 0,5 0,5
9 Table des frquences : [13,18[ 15,5 2 7 0,2 0,7
valeurs de X effectif effectif cum. frquence frq. Cum [18,23[ 20,5 1 8 0,1 0,8
1 1 1 0.1 0.1 [23,28[ 15,5 1 9 0,1 0,9
2 1 2 0.1 0.2 [28,33] 30,5 1 10 0,1 1
3 3 5 0.3 0.5
5 4 9 0.4 0.9
6 1 10 0.1 1
B-2.1 Etude dune variable quantitative:
Table des frquences
Info
Rgle de constitution des classes

Le nombre de classes ne devrait tre ni infrieur 5, ni suprieur


20 (il varie gnralement entre 6 et 12). Ce choix est fonction du
nombre d'observations et de leur dispersion. En pratique, on peut
utiliser la formule de Sturges : le nombre k indiqu de classes pour une
srie de n observations est donn approximativement par :
k = 1 + 3,322log10 n
Cependant, le choix dfinitif du nombre de classes sera dict par un
souci de clart.

Il s'agit ensuite de choisir l'amplitude des classes. On les choisit


gnralement gales, d'amplitude approximativement gale a=E/k
o E = xmax xmin est ltendue de la srie.
B-2.2 Etude dune variable quantitative:
Visualisation
Variable quantitative discrte Variable quantitative continue
Diagramme en btons : valeurs histogramme : rectangles juxtaposs
de X en abscisse, bton de longueur de base gale ak et de hauteur
gale la frquence (ou l'effectif) proportionnelle la frquence (ou
de ces valeurs en ordonne. effectif). Gnralement, on prend
comme hauteur f k / ak ( laire de
lhistogramme est gale 1).
B-2.2 Etude dune variable quantitative:
visualisation
B-2.2 Etude dune variable quantitative:
Visualisation
Remarques :

9 La distribution des frquences d'une srie statistique de la


variable X, considre comme un chantillon prlev sur une
population est une approximation de la distribution de
probabilit de cette variable sur la population. Cest pourquoi il
est prfrable de tracer le diagramme en btons ou
lhistogramme en frquences plutt que celui en effectifs

9 La visualisation dune srie en frquence permet la


comparaison de plusieurs chantillons de tailles diffrentes.
B-2.2 Etude dune variable quantitative:
Visualisation
9 Variable quantitative continue : les polygones des frquences cumules

Objectif : Outils utiles pour rpondre des questions du type : quelle


est la proportion (ou le nombre) de mnages ayant un logement de
moins de 20 m% ? entre 40 et 60 m ? Quelle est la valeur de la
mdiane (des quantiles) de la distribution ?
Polygones des frequences cumuls
8 0 1
13 0,5 0,5 1,2
1
18 0,7 0,3 0,8
0,6
23 0,8 0,2 0,4
28 0,9 0,1 0,2
0
33 1 0 0 5 10 15 20 25 30 35
superficie

frequences croissantes frequences decroissantes


B-2.2 Etude dune variable quantitative:
Visualisation
Mthode :
Faire un tableau :

Le polygone en frquences croissantes (resp. dcroissantes) est


obtenu en traant les points de coordonnes (d k , pk ) (resp. (d k , qk))
et en interpolant linairement entre ces points.
B-2.3 Etude dune variable quantitative:
Indicateurs

9 Objectif : caractriser la distribution de la srie laide de nombres et


ventuellement de graphiques rsumant de faon suffisamment
complte l'ensemble ses valeurs. Ces indicateurs faciliteront la
comparaison d'chantillons.

9 3 types dindicateurs :
Indicateurs de tendance centrale
Indicateurs de dispersion
Indicateurs de forme
B-2.3 Etude dune variable quantitative:
Indicateurs
serie de moyenne 0 serie de moyenne 4

Indicateurs de tendance centrale :

0.4
0.4
fournissent l'ordre de grandeur des

0.2

0.2
valeurs de la srie et la position o

0.0

0.0
se rassemblent ces valeurs. -4 -2 0 2 4 0 2 4 6 8

Indicateurs de dispersion : serie de variance 1 serie de variance 0.5


quantifient les fluctuations des

0.4

0.8
valeurs autour de la valeur centrale.

0.2
Permettent d'apprcier l'talement

0.4
des valeurs de la srie (les unes par

0.0

0.0
rapport aux autres ou la valeur -4 -2 0 2 4 -4 -2 0 2 4

centrale).
serie symtrique serie asymtrique

Indicateurs de forme : donnent une 0.4

0.20
ide de la symtrie et de
0.2

0.10
l'aplatissement d'une distribution.

0.00
0.0

Leur usage est moins frquent. -4 -2 0 2 4 0 5 10 15 20


B-2.3 Etude dune variable quantitative:
Indicateurs de tendance centrale

La moyenne arithmtique

9 Dfinition 1 n x + x + ... + xi + ... + xn


x = xi = 1 2
n i =1 n

1 k
Sur une srie discrte : x = ni vi
n i =1
1 k
Sur srie continue classe : x ni ci (perte dinformation)
n i =1
B-2.3 Etude dune variable quantitative:
Indicateurs de tendance centrale
n
9 Proprits
(x x ) = 0
i =1
i

La moyenne de la srie ( ax1 + b,..., axn + b) est ax + b

Lorsque la distribution des frquences est symtrique par


rapport la droite x=a, la moyenne vaut a.

9 Limites
Indicateur trs affect par les valeurs extrmes (attention aux points
aberrants).
B-2.3 Etude dune variable quantitative:
Indicateurs de tendance centrale
La mdiane

9 Dfinition : cest la valeur observe ou possible de la srie ordonne en


ordre croissant ou dcroissant, qui partage cette srie en deux sous-sries,
chacune comprenant le mme nombre d'observations.

Me = x( n+1) / 2
si n impair
x( n / 2) + x( n / 2) +1
si n pair Me =
2

NB : Si la variable est discrte et n pair, il se peut qu'il n'y ait pas de valeur mdiane
car Me doit correspondre une valeur possible de la srie.
Ex : dans la srie du nombre denfants : 1,2,3,3,3,5,5,5,5,6, Me=4.
dans la srie de la superficie : 8,8.5,10,11,12.5,13,15,20,25,33, Me=12,75.
B-2.3 Etude dune variable quantitative:
Indicateurs de tendance centrale

9 Limites : La mdiane est plus robuste que la moyenne (pas influence


par les valeurs extrmes) mais elle est influence par le nombre
dobservations.

Remarque : La mdiane correspond la valeur telle que la frquence


cumule est gale .
B-2.3 Etude dune variable quantitative:
Indicateurs de tendance centrale
9 CP dune srie continue classe: Ex : Srie superficie :
Approximation de Me partir Par la dfinition : Me=12. 75
de la table des frquences par Par interpolation : Me~13
interpolation linaire.

Reprage de la classe mdiane = Polygones des frequences cumuls


premire classe contenant au
1,2
moins 50% des effectifs cumuls 1
0,8
I j = [d j , d j +1[ 0,6
0,4
0,2
0
Interpolation linaire 0 5 10 15 20 25 30 35
n
N j 1 superficie
Me d j + 2
aj frequences croissantes frequences decroissantes Me
nj
B-2.3 Etude dune variable quantitative:
Indicateurs de tendance centrale

Le mode

9 Dfinition : cest la valeur qui a t observe le plus grand nombre


de fois.

NB : Dans le cas d'une variable continue en classes, ce critre est peu


objectif. On parlera plutt de classe modale : classe ayant la frquence
la plus leve. Le mode nest pas unique.

Ex : srie nombre denfants : mode=5; srie superficie : intervalle modal=


[8,13[.
B-2.3 Etude dune variable quantitative:
Indicateurs de tendance centrale
Info
B-2.3 Etude dune variable quantitative:
Indicateurs de dispersion
La variance et l'cart-type de la srie

9 Dfinition : La variance est la somme pondre des carrs des


carts des valeurs de la srie la moyenne.
1 n
Variance de la srie s = s ( x) = ( xi x )
2
x
2

n i =1

1 n
Variance dchantillonnage
s = s ( x) =
*2
x
*2

n 1 i =1
( xi x )

Lcart type est la racine carre de la variance sx = sx2 s*x = s*2


x
B-2.3 Etude dune variable quantitative:
Indicateurs de dispersion

Lorsque la srie est un chantillon issu dune population et que lon


sintresse aux caractristiques de cette population via lchantillon
(infrence), on utilise plutt sn* qui est un meilleur estimateur de la
variance thorique de la population. Ds lors que la taille n de la srie
est assez grande, ces deux quantits sont pratiquement gales.

Info
B-2.3 Etude dune variable quantitative:
Indicateurs de dispersion
9 Proprits ( sn ou sn* )

La variance (ou cart-type) est toujours positive ou nulle s x 0 sx 0

La variance est une forme quadratique sax2 +b = a sx2 sax +b = a sx


n 1 *2
Thorme de Koenig sx2 = sx = x x
n

Une srie peu disperse (ayant des valeurs regroupes autour de la


valeur moyenne) aura un cart-type plutt faible.

Remarque : Pour une distribution symtrique, pratiquement toutes les


observations sont situes entre x-3s et x+3s.
B-2.3 Etude dune variable quantitative:
Indicateurs de dispersion
Lorsquon fait de linfrence, un faible cart-type de
lchantillon permettra d'indiquer avec une plus grande
prcision entre quelles valeurs peuvent varier les
caractristiques de la distribution de la variable tudie sur la
population.

info
B-2.3 Etude dune variable quantitative:
Indicateurs de dispersion
9 Calcul pratique de la variance (ou de lcart-type):

Par la dfinition

Par la formule de Koenig

A partir de la table des frquences


1 k
s = ni (vi x )
2
x
n i =1
Pour une srie discrete

1 k
Pour une serie en classes s ni (ci x )
2
x
n i =1
B-2.3 Etude dune variable quantitative:
Indicateurs de dispersion

Une mesure de la dispersion relative : le coefficient de


variation

sX
CV = .100
x

Le CV permet d'apprcier la reprsentativit de la moyenne par rapport


l'ensemble des observations. Il donne une bonne ide du degr
d'homognit d'une srie. Il faut qu'il soit le plus faible possible (<15%
en pratique).
B-2.3 Etude dune variable quantitative:
Indicateurs de dispersion
Les quantiles

9 Dfinition : ils correspondent des valeurs de la variable statistique qui


partagent la srie ordonne en l parties gales. Si l=4, les quantiles sont
appels quartiles. Il y a 3 quartiles, appels Q1,Q2=Me et Q3 :
B-2.3 Etude dune variable quantitative:
Indicateurs de dispersion
La boite moustaches (box-and-
Wiskers plot)

Rsume la srie partir de ses valeurs


extrmes, ses quartiles et sa mdiane.

Permet une comparaison visuelle


immdiate de plusieurs sries.

Construction :
- Sur un axe horizontal, on place les valeurs
extrmes et les quartiles.
- on trace un rectangle de longueur
l'interquartile et la largeur proportionnelle
la racine carre de la taille de la srie.
- on partage le rectangle par un segment
vertical au niveau de la mdiane.
B-2.3 Etude dune variable quantitative:
Indicateurs de dispersion
Srie des superficies :

8,8.5,10,11,12.5,13,15,20,25,33

Min. Q1 Me Mean Q3 Max.

8.00 10.25 12.75 15.60 18.75 33.00


B-2.3 Etude dune variable quantitative:
Indicateurs de dispersion
9 Autres indicateurs :
Info

Ltendue E = xmax xmin

1
Lcart arithmtique moyen e=
n
xi x
B-2.4 Etude dune variable quantitative:
Indicateurs de forme
Symtrie

9 Dfinition : Une srie a une distribution symtrique si ses valeurs


sont galement disperses de part et d'autre de la valeur centrale,
c'est--dire si le graphe de la distribution - histogramme ou
diagramme en bton en frquences - admet une axe de symtrie.

Dans une distribution parfaitement symtrique,

Me = x = Mode
B-2.4 Etude dune variable quantitative:
Indicateurs de forme
9 Coefficient dasymtrie de 9 Coefficient de Yule
Pearson

x Me Q3 + Q1 2 Me
= q=
sx Q3 Q1

On a 1 1

=0 symtrie parfaite q =0 symtrie parfaite


<0 srie tale gauche q<0 srie tale gauche
>0 Srie tale droite q >0 srie tale droite
B-2.4 Etude dune variable quantitative:
Indicateurs de forme
Ex : Srie des superficies : Srie tale droite

8,8.5,10,11,12.5,13,15,20,25,33

Min. Q1 Me Mean Q3 Max.

8.00 10.25 12.75 15.60 18.75 33.00

S= 8.082216
d=1.057878
Q=0.4117647
B-2.4 Etude dune variable quantitative:
Indicateurs de forme
Applatissement

Une distribution est plus ou moins aplatie selon que les frquences des
valeurs voisines des valeurs centrales diffrent peu ou beaucoup les une
par rapport aux autres.

9 coefficient daplatissement de Fisher :


m4 1 n
a= m4 = ( xi x ) 4
sx4
n i =1
a=3 pour une distribution qui suit une loi normale centre rduite.
Si a>3, la concentration des valeurs de la srie autour de la moyenne
est forte : la distribution nest pas aplatie
Si a<3, la concentration des valeurs autour de la moyenne est faible : la
distribution est aplatie
B-3 Etude dune variable qualitative

Table des frquences :

Lorsque la variable est ordinale, elle est construite de manire analogue


celle dune variable quantitative discrte

Lorsque la variable est nominale, ny figurent pas les effectifs et


frquences cumules.
B-3 Etude dune variable qualitative

9 Construction

Dnombrement des modalits diffrentes de la srie m1 ,..., mi ,...mk


Table de la distribution des frquences :
B-3 Etude dune variable qualitative

Visualisation : diagramme en barres (analogue au diagramme en


btons) ou reprsentation en secteurs (camembert), reprsentant la
rpartition en effectif ou en frquences des individus dans les
diffrentes modalits de la srie.

Indicateurs : Il nexiste pas, part le mode de caractristiques


communment adaptes pour dcrire une variable qualitative.
B-3 Etude dune variable qualitative
Diagramme en Barres en frquences

T
Exemple : observation de la
G
squence dun brin dADN
B

A
GGGAGTGTBTATTAABTBBGAA
BTBBBAGBGBTAGBTBGBGBGG 0 0,05 0,1 0,15 0,2 0,25 0,3

AGTGABBGAGBBTABATGAGGG
TABTGTBAATAABGBATGTTABB Diagramme en secteur des frquences
AGAAGGA

T A
valeurs effectifs frequences 20% 26%
A
A 26 0,26
C
C 27 0,27 G
G 27 0,27 G T
T 20 0,2 27% C
27%