Vous êtes sur la page 1sur 48

Cours 2 : Rappels de Statistique descriptive

A- Introduction B- Statistique descriptive unidimensionnelle C- Statistique descriptive bidimensionnelle

A- Introduction

A- Introduction
9 Rappel : Srie statistique = ensemble de mesures dune ou plusieurs variables faites sur une population ou un chantillon dindividus.

A- Introduction
9 Objectifs de la statistique descriptive (ou exploratoire): rsumer, synthtiser linformation contenue dans la srie statistique, mettre en vidence ses proprits. suggrer des hypothses relatives la population dont est issu lchantillon. 9 Outils utiliss : Tableaux (table des frquences, de contingence, ) Graphiques (box-plots, histogrammes,..) indicateurs (moyenne, corrlation,..).

A- Introduction

9 Le type doutils utilis dpend De la nature de la srie (uni ou multi dimensionnelle) De la nature des variables (quantitatives discrtes, continues ou qualitatives).

A- Introduction
Exemple : observation de la squence dun brin dADN GGGAGTGTBTATTAABTBBGAA BTBBBAGBGBTAGBTBGBGBGG AGTGABBGAGBBTABATGAGGG TABTGTBAATAABGBATGTTABB AGAAGGA Srie unidimensionnelle de taille 100 de la variable qualitative base du brin dADN .
Table des frquences:
valeurs A C G T effectifs 26 27 27 20 frequences 0,26 0,27 0,27 0,2

Visualisation :
Diagramme en Barres en frquences
T G B A 0 0,05 0,1 0,15 0,2 0,25 0,3

Indicateur: Modes=C et G

A- Introduction
Exemple : Srie des ges de 50 salaris dans une entreprise
36.44460 30.63702 30.36399 56.13572 62.31707 48.87932 25.22967 45.07674 41.22021 18.45797 46.82866 57.83412 26.93824 51.17832 42.42865 25.00991 39.49332 61.49174 41.12957 48.73509 24.84856 62.86307 31.46099 18.30140 58.65384 22.66574 28.69191 43.23656 29.99305 37.23314 25.34647 56.18528 59.60421 56.78237 34.86674 55.49477 52.80441 58.90374 64.61624 57.62305 41.92750 39.26187 43.79833 33.12420 44.39254 58.30465 30.01482 56.69020 45.00456 39.18792

classes centres amplitudes effectifs frequences eff. Cum. (18.3,26] 22,15 7,7 7 0,14 (26,33.7] 29,85 7,7 8 0,16 (33.7,41.5] 37,6 7,7 8 0,16 (41.5,49.2] 45,35 7,7 10 0,2 (49.2,56.9] 53,05 7,7 7 0,14 (56.9,64.7] 60,8 7,7 10 0,2
H is to g r a m m e e n fr q u e n c e s d e la s r ie c la s s e
0.025

freq. Cum. 7 0,14 15 0,3 23 0,46 33 0,66 40 0,8 50 1

box-plot de la srie

0.020

0.015

Density

age

0.010

0.005

Srie unidimensionelle de la variable quantitative continue age .

0.000

10

20

30

40
a

50

60

70

Min. 18.30

Q1 30.84

Median 42.83

Mean 42.95

20

30

40

50

60

Q3 56.17

Max. 64.62

A- Introduction
nuage de points des variables dist et speed

Ex: observation de la vitesse et de la distance de freinage de 50 voitures. speed dist 1 4 2 2 4 10 3 7 4 4 7 22 5 8 16 6 9 10 7 10 18 8 10 26 9 10 34 10 11 17 11 11 28

vitesse

5
0

10

15

20

25

20

40

60

80

100

120

distance de freinage

B- Statistique descriptive unidimensionnelle


1-Gnralits 2- Etude dune variable quantitative 3- Etude dune variable qualitative

B-1 Gnralits
9On considre une variable statistique X, observe sur n individus. On dispose alors dune srie statistique unidimensionnelle x = ( x1 ,..., xn ) que lon peut mettre sous forme dun tableau de donnes :

xi = valeur de X pour l'individu i de la srie.


9On veut mettre en vidence les principales caractristiques de la srie.

B-1 Gnralits
9 effectif dune valeur de X : nb. dindividus ayant cette valeur.

ni

mnage

9 frquence dune valeur de X : prop. ni = f i dindividus ayant cette valeur : n 9 effectif cumul de la ivaleur de X : nb. dindividus ayant lune des i premires valeurs de X :

N i = n j = n1 + n2 + ... + n j + ...ni
j =1

Table des frquences :


valeurs de X 1 2 3 5 6 effectif 1 1 3 4 1

1 2 3 4 5 6 7 8 9 10

Nb. denfants X 3 2 5 3 6 3 5 5 1 5

9 frquence cumule dune valeur de X : prop. des individus ayant lune des i premires valeurs de X :
Fi = f j = f1 + f 2 + ... + f j + ... fi
j =1 i

effectif cum. frquence 1 0.1 2 0.1 5 0.3 9 0.4 10 0.1

frq. Cum 0.1 0.2 0.5 0.9 1

B-2 Etude dune variable quantitative


Les diffrentes tapes de ltude

9 Construction de la table des frquences (par valeurs ou classes de valeurs). 9 Visualisation de la distribution des frquences (ou des effectifs) de la srie. 9 rsum des caractristiques de la srie par des indicateurs et des graphiques.

B-2.1 Etude dune variable quantitative: Table des frquences


Variable quantitative discrte 9 classement des valeurs de x par ordre croissant Variable quantitative continue
9 Cration dune srie classe regroupement des valeurs de x en m classes (intervalles) disjointes de valeurs: I = [ d , d [
k k k +1

9 Dnombrement des m valeurs distinctes de la srie

9 Dfinitions : borne infrieure (resp.suprieure) de la classe I k : d k (resp. d k +1 ) amplitude de I k :

1 < ... < k < m

ak = d k +1 d k

centre de I k : ck = 1 2 ( d k + d k +1 ) 9 NB : classement dune srie perte dinformation; la constitution des classes est une tape dlicate.

B-2.1 Etude dune variable quantitative: Table des frquences

B-2.1 Etude dune variable quantitative: Table des frquences


mnage 1 2 3 4 5 6 7 8 9 10 Nb. denfants X 3 2 5 3 6 3 5 5 1 5

menage 1 superficie 8

2 8,5

3 10

4 12,5

5 11

6 13

7 20

8 25

9 33

10 15

9 Nombre de classes par la rgle de Sturges : k~5, amplitude des classes gales E/k =33-8/5=5. 9 Classes : [8,13[,[13,18[, [18,23[, [23,28[,[28,33]. 9 Table des frquences :
classes [8,13[ [13,18[ [18,23[ [23,28[ [28,33] centres 10,5 15,5 20,5 15,5 30,5 eff. 5 2 1 1 1 eff.cum 5 7 8 9 10 freq. 0,5 0,2 0,1 0,1 0,1 freq.cum. 0,5 0,7 0,8 0,9 1

9 Classement : 1,2,3,3,3,5,5,5,5,6 9 Modalits : 1,2,3,5,6 9 Table des frquences :


valeurs de X 1 2 3 5 6 effectif 1 1 3 4 1 effectif cum. frquence 1 0.1 2 0.1 5 0.3 9 0.4 10 0.1 frq. Cum 0.1 0.2 0.5 0.9 1

B-2.1 Etude dune variable quantitative: Table des frquences


Rgle de constitution des classes

Info

Le nombre de classes ne devrait tre ni infrieur 5, ni suprieur 20 (il varie gnralement entre 6 et 12). Ce choix est fonction du nombre d'observations et de leur dispersion. En pratique, on peut utiliser la formule de Sturges : le nombre k indiqu de classes pour une srie de n observations est donn approximativement par :

k = 1 + 3,322log10 n
Cependant, le choix dfinitif du nombre de classes sera dict par un souci de clart. Il s'agit ensuite de choisir l'amplitude des classes. On les choisit gnralement gales, d'amplitude approximativement gale a=E/k o E = xmax xmin est ltendue de la srie.

B-2.2 Etude dune variable quantitative: Visualisation


Variable quantitative discrte Diagramme en btons : valeurs
gale la frquence (ou l'effectif) de ces valeurs en ordonne.

Variable quantitative continue histogramme : rectangles juxtaposs de X en abscisse, bton de longueur de base gale ak et de hauteur
proportionnelle la frquence (ou effectif). Gnralement, on prend comme hauteur f k / ak ( laire de lhistogramme est gale 1).

B-2.2 Etude dune variable quantitative: visualisation

B-2.2 Etude dune variable quantitative: Visualisation


Remarques : 9 La distribution des frquences d'une srie statistique de la variable X, considre comme un chantillon prlev sur une population est une approximation de la distribution de probabilit de cette variable sur la population. Cest pourquoi il est prfrable de tracer le diagramme en btons ou lhistogramme en frquences plutt que celui en effectifs 9 La visualisation dune srie en frquence permet la comparaison de plusieurs chantillons de tailles diffrentes.

B-2.2 Etude dune variable quantitative: Visualisation


9 Variable quantitative continue : les polygones des frquences cumules Objectif : Outils utiles pour rpondre des questions du type : quelle est la proportion (ou le nombre) de mnages ayant un logement de moins de 20 m% ? entre 40 et 60 m ? Quelle est la valeur de la mdiane (des quantiles) de la distribution ?
8 13 18 23 28 33 0 0,5 0,7 0,8 0,9 1 1 0,5 0,3 0,2 0,1 0
Polygones des frequences cumuls
1,2 1 0,8 0,6 0,4 0,2 0 0 5 10 15 20 25 30 35 superficie frequences croissantes frequences decroissantes

B-2.2 Etude dune variable quantitative: Visualisation


Mthode : Faire un tableau :

Le polygone en frquences croissantes (resp. dcroissantes) est obtenu en traant les points de coordonnes (d k , pk ) (resp. (d k , qk)) et en interpolant linairement entre ces points.

B-2.3 Etude dune variable quantitative: Indicateurs


9 Objectif : caractriser la distribution de la srie laide de nombres et
ventuellement de graphiques rsumant de faon suffisamment complte l'ensemble ses valeurs. Ces indicateurs faciliteront la comparaison d'chantillons.

9 3 types dindicateurs :
Indicateurs de tendance centrale Indicateurs de dispersion Indicateurs de forme

B-2.3 Etude dune variable quantitative: Indicateurs


serie de moyenne 0

serie de moyenne 4
0.4

Indicateurs de tendance centrale : fournissent l'ordre de grandeur des valeurs de la srie et la position o se rassemblent ces valeurs. Indicateurs de dispersion : quantifient les fluctuations des valeurs autour de la valeur centrale. Permettent d'apprcier l'talement des valeurs de la srie (les unes par rapport aux autres ou la valeur centrale). Indicateurs de forme : donnent une ide de la symtrie et de l'aplatissement d'une distribution. Leur usage est moins frquent.

0.2

0.4

0.0

-4

-2

0.0
0

0.2

serie de variance 1
0.4

serie de variance 0.5


0.8

0.2

0.0

-4

-2

0.0
-4

0.4

-2

serie symtrique

serie asymtrique
0.20

0.2

0.4

-4

-2

0.00
0

0.0

0.10

10

15

20

B-2.3 Etude dune variable quantitative: Indicateurs de tendance centrale


La moyenne arithmtique 9 Dfinition

x1 + x2 + ... + xi + ... + xn 1 n x = xi = n i =1 n 1 k x = ni vi n i =1
(perte dinformation)

Sur une srie discrte :

1 k Sur srie continue classe : x ni ci n i =1

B-2.3 Etude dune variable quantitative: Indicateurs de tendance centrale


9 Proprits

(x x ) = 0
i =1 i

La moyenne de la srie ( ax1 + b,..., axn + b) est

ax + b

Lorsque la distribution des frquences est symtrique par rapport la droite x=a, la moyenne vaut a.

9 Limites Indicateur trs affect par les valeurs extrmes (attention aux points aberrants).

B-2.3 Etude dune variable quantitative: Indicateurs de tendance centrale


La mdiane 9 Dfinition : cest la valeur observe ou possible de la srie ordonne en
ordre croissant ou dcroissant, qui partage cette srie en deux sous-sries, chacune comprenant le mme nombre d'observations. si n impair si n pair

Me = x( n+1) / 2
Me = x( n / 2) + x( n / 2) +1 2

NB : Si la variable est discrte et n pair, il se peut qu'il n'y ait pas de valeur mdiane car Me doit correspondre une valeur possible de la srie. Ex : dans la srie du nombre denfants : 1,2,3,3,3,5,5,5,5,6, Me=4. dans la srie de la superficie : 8,8.5,10,11,12.5,13,15,20,25,33, Me=12,75.

B-2.3 Etude dune variable quantitative: Indicateurs de tendance centrale


9 Limites : La mdiane est plus robuste que la moyenne (pas influence par les valeurs extrmes) mais elle est influence par le nombre dobservations.

Remarque : La mdiane correspond la valeur telle que la frquence cumule est gale .

B-2.3 Etude dune variable quantitative: Indicateurs de tendance centrale


9 CP dune srie continue classe: Approximation de Me partir de la table des frquences par interpolation linaire. Reprage de la classe mdiane = premire classe contenant au moins 50% des effectifs cumuls I j = [d j , d j +1[ Interpolation linaire
Me d j +
n 2

Ex : Srie superficie : Par la dfinition : Me=12. 75 Par interpolation : Me~13

Polygones des frequences cumuls


1,2 1 0,8 0,6 0,4 0,2 0 0 5 10 15 20 25 30 35 superficie
frequences croissantes
frequences decroissantes
Me

N j 1 nj

aj

B-2.3 Etude dune variable quantitative: Indicateurs de tendance centrale


Le mode 9 Dfinition : cest la valeur qui a t observe le plus grand nombre de fois.

NB : Dans le cas d'une variable continue en classes, ce critre est peu objectif. On parlera plutt de classe modale : classe ayant la frquence la plus leve. Le mode nest pas unique.

Ex : srie nombre denfants : mode=5; srie superficie : intervalle modal= [8,13[.

B-2.3 Etude dune variable quantitative: Indicateurs de tendance centrale


Info

B-2.3 Etude dune variable quantitative: Indicateurs de dispersion


La variance et l'cart-type de la srie 9 Dfinition : La variance est la somme pondre des carrs des carts des valeurs de la srie la moyenne. Variance de la srie
1 n s = s ( x) = ( xi x ) n i =1
2 x 2 *2 x *2

1 n ( xi x ) s = s ( x) = Variance dchantillonnage n 1 i =1

Lcart type est la racine carre de la variance

2 sx = sx

s* s*2 x = x

B-2.3 Etude dune variable quantitative: Indicateurs de dispersion


Lorsque la srie est un chantillon issu dune population et que lon sintresse aux caractristiques de cette population via lchantillon * (infrence), on utilise plutt sn qui est un meilleur estimateur de la variance thorique de la population. Ds lors que la taille n de la srie est assez grande, ces deux quantits sont pratiquement gales.

Info

B-2.3 Etude dune variable quantitative: Indicateurs de dispersion


9 Proprits
* ( sn ou sn )

La variance (ou cart-type) est toujours positive ou nulle La variance est une forme quadratique Thorme de Koenig
2 sx = 2 2 sax = a s +b x

s x 0 sx 0
sax +b = a sx

n 1 *2 sx = x x n

Une srie peu disperse (ayant des valeurs regroupes autour de la valeur moyenne) aura un cart-type plutt faible. Remarque : Pour une distribution symtrique, pratiquement toutes les observations sont situes entre x-3s et x+3s.

B-2.3 Etude dune variable quantitative: Indicateurs de dispersion


Lorsquon fait de linfrence, un faible cart-type de lchantillon permettra d'indiquer avec une plus grande prcision entre quelles valeurs peuvent varier les caractristiques de la distribution de la variable tudie sur la population.

info

B-2.3 Etude dune variable quantitative: Indicateurs de dispersion


9 Calcul pratique de la variance (ou de lcart-type): Par la dfinition Par la formule de Koenig A partir de la table des frquences Pour une srie discrete Pour une serie en classes

1 k s = ni (vi x ) n i =1
2 x

1 k s ni (ci x ) n i =1
2 x

B-2.3 Etude dune variable quantitative: Indicateurs de dispersion


Une mesure de la dispersion relative : le coefficient de variation

CV =

sX .100 x

Le CV permet d'apprcier la reprsentativit de la moyenne par rapport l'ensemble des observations. Il donne une bonne ide du degr d'homognit d'une srie. Il faut qu'il soit le plus faible possible (<15% en pratique).

B-2.3 Etude dune variable quantitative: Indicateurs de dispersion


Les quantiles
9 Dfinition : ils correspondent des valeurs de la variable statistique qui partagent la srie ordonne en l parties gales. Si l=4, les quantiles sont appels quartiles. Il y a 3 quartiles, appels Q1,Q2=Me et Q3 :

B-2.3 Etude dune variable quantitative: Indicateurs de dispersion


La boite moustaches (box-andWiskers plot) Rsume la srie partir de ses valeurs extrmes, ses quartiles et sa mdiane. Permet une comparaison visuelle immdiate de plusieurs sries.

Construction : - Sur un axe horizontal, on place les valeurs extrmes et les quartiles. - on trace un rectangle de longueur l'interquartile et la largeur proportionnelle la racine carre de la taille de la srie. - on partage le rectangle par un segment vertical au niveau de la mdiane.

B-2.3 Etude dune variable quantitative: Indicateurs de dispersion


Srie des superficies :

8,8.5,10,11,12.5,13,15,20,25,33

Min. Q1

Me

Mean

Q3

Max.

8.00 10.25 12.75 15.60 18.75 33.00

B-2.3 Etude dune variable quantitative: Indicateurs de dispersion


9 Autres indicateurs :

Info

Ltendue

E = xmax xmin

Lcart arithmtique moyen

e=

1 xi x n

B-2.4 Etude dune variable quantitative: Indicateurs de forme


Symtrie 9 Dfinition : Une srie a une distribution symtrique si ses valeurs sont galement disperses de part et d'autre de la valeur centrale, c'est--dire si le graphe de la distribution - histogramme ou diagramme en bton en frquences - admet une axe de symtrie.

Dans une distribution parfaitement symtrique,

Me = x = Mode

B-2.4 Etude dune variable quantitative: Indicateurs de forme


9 Coefficient dasymtrie de Pearson 9 Coefficient de Yule

x Me sx

q=

Q3 + Q1 2 Me Q3 Q1

On a

1 1
symtrie parfaite srie tale gauche Srie tale droite

=0 <0 >0

q =0 q<0 q >0

symtrie parfaite srie tale gauche srie tale droite

B-2.4 Etude dune variable quantitative: Indicateurs de forme


Ex : Srie des superficies : Srie tale droite

8,8.5,10,11,12.5,13,15,20,25,33

Min. Q1

Me

Mean

Q3

Max.

8.00 10.25 12.75 15.60 18.75 33.00

S= 8.082216 d=1.057878 Q=0.4117647

B-2.4 Etude dune variable quantitative: Indicateurs de forme


Applatissement Une distribution est plus ou moins aplatie selon que les frquences des valeurs voisines des valeurs centrales diffrent peu ou beaucoup les une par rapport aux autres. 9 coefficient daplatissement de Fisher :

a=

m4 4 sx

1 n m4 = ( xi x ) 4 n i =1

a=3 pour une distribution qui suit une loi normale centre rduite. Si a>3, la concentration des valeurs de la srie autour de la moyenne est forte : la distribution nest pas aplatie Si a<3, la concentration des valeurs autour de la moyenne est faible : la distribution est aplatie

B-3 Etude dune variable qualitative


Table des frquences : Lorsque la variable est ordinale, elle est construite de manire analogue celle dune variable quantitative discrte Lorsque la variable est nominale, ny figurent pas les effectifs et frquences cumules.

B-3 Etude dune variable qualitative


9 Construction
Dnombrement des modalits diffrentes de la srie Table de la distribution des frquences :

m1 ,..., mi ,...mk

B-3 Etude dune variable qualitative


Visualisation : diagramme en barres (analogue au diagramme en btons) ou reprsentation en secteurs (camembert), reprsentant la rpartition en effectif ou en frquences des individus dans les diffrentes modalits de la srie. Indicateurs : Il nexiste pas, part le mode de caractristiques communment adaptes pour dcrire une variable qualitative.

B-3 Etude dune variable qualitative


Diagramme en Barres en frquences

Exemple : observation de la squence dun brin dADN


GGGAGTGTBTATTAABTBBGAA BTBBBAGBGBTAGBTBGBGBGG AGTGABBGAGBBTABATGAGGG TABTGTBAATAABGBATGTTABB AGAAGGA

T G B A 0 0,05 0,1 0,15 0,2 0,25 0,3

Diagramme en secteur des frquences

valeurs A C G T

effectifs 26 27 27 20

frequences 0,26 0,27 0,27 0,2

T 20%

A 26%

G
G 27%

T
C 27%