Vous êtes sur la page 1sur 10

Les statistiques pourquoi ?

Multiplicit des champs dapplication

Chapitre 3
Statistique descriptive une variable

Informatique, robotique
Climatologie, hydrologie, agriculture
Economie, gestion
Biologie, mdecine

Bachelor 2 Fondation 2iE


2010-- 2011
2010

Planification urbaine, .
 Outil d aide la prise de dcision

H. Moussa
1

Caractristiques dune tude statistique

Lusage de la statistique ne garantit


pas lobjectivit

La prcision ne garantit pas la vrit

Linterprtation doit primer sur le calcul

Prsentation et Caractrisation
de donnes

Populations et chantillons
Population dindividus

Sondages et recensements


Recensement
enqute mene auprs de toute la population

Sondage
enqute mene auprs dun chantillon
 chantillon reprsentatif (non biais) de la
population cible
Quel chantillon choisir ?

chantillon
Individu

Caractre


Qualitatif
Sexe, Qualit,
secteur dactivits,

Quantitatif
ge, dbit de
5
cours deau,
cours boursier,..

Choisir un bon chantillon : lchantillon alatoire

Echantillonnage
LEchantillonnage
"Un chantillon est reprsentatif si les units qui le
constituent ont t choisies par un procd tels que tous
les membres de la population ont la mme probabilit
de faire partie de l'chantillon" (Ghiglione
(Ghiglione & Matalon,
Matalon,
1998).
1998
).

l'lection prsidentielle amricaine de 1936, la revue Literacy Digest a procd un


sondage partir des immatriculations et des listes des bottins tlphoniques.
Elle a envoy 10 millions de bulletins fictifs et a reu 2,3 milllions de rponses.
Ses prdictions :
le candidat Landon : 55% des voix
le candidat Roosevelt : 41% des voix.

Echantillonnage alatoire: chaque lment de la


population a une chance gale d'tre choisi.
choisi.

La maison Gallup a prlev un chantillon alatoire de 6 500 personnes et a obtenu


comme prdictions :
Landon : 35% et Roosevelt : 64%.

Echantillonnage par quotas (strates): chantillonnage


permettant de retrouver les mmes proportions de
caractristiques juges essentielles dans l'chantillon
que dans la population.

Les rsultats de l'lection : Landon 37% et Roosevelt 61%.

Pourquoi la mthode d'chantillonnage de la revue


Literacy Digest n'tait-elle pas valable ?

Variable statistique

Lobservation statistique


But : dterminer les caractristiques de la population


que l'on veut tudier

Comment ? Par estimation ie en prlevant un


chantillon pour recueillir des donnes sur les
caractristiques tudier . Les dune caractristique
sont prsentes sous forme de tableaux et de
graphiques..
graphiques
statistique descriptive

NB :Caractristique tudier = Variable statistique


=> Variable alatoire

10

Fiabilit dun chantillonnage




Les rsultats obtenus lors


de l'tude d'un chantillon
sont--ils valables pour toute
sont
la population?

statistique infrentielle :
 Estimation (moyenne,
variance, cart-type)
 Tests de validit
 Intervalle de confiance

Partie 1

STATISTIQUE DESCRIPTIVE
UNIVARIE
11

12

Collecte de donnes


Variables discrtes
la variable ne prend qu'un nombre fini de valeurs :
les modalits (xi)

Exemple 1

les 50 notes attribues par un jury un examen


Dans lexemple 1, on regroupe les notes par ordre
croissant :

xi
ni
Effectif de la modalit xi

13

Frquence

Variables continues
la variable prend ses valeurs dans un intervalle
(classe )

Frquence de la mesure xi du caractre

fi =

Exemple : Regroupement par classes des 50 notes


ni

Classe
[xi-1; xi [

14

fi =

effectif attach

xi

effectif total
ni

effectif total
ni =N

15

16

Exemple

Effectifs et Frquences cumuls




Effectifs cumuls (Ni)


Ni =

n
k =1

Notes

Effectifs
(ni)

[ 0; 5 [

10

[ 5; 8 [

[ 8; 12 [

12

= n1 + n2 + ... + ni 1 + ni

Effectifs
cumuls
(Ni)

Frquences Frquences
cumules
(fi)
(Fi)

Frquences cumules (Fi)


i

Ni

k=1

Fi = fk = f1 + f2 + ...+ fi1 + fi =

[12; 15 [ 11
17

[15; 21 [

N = ni =

Interprtation?

18

Diagramme en btons ou par secteurs

Variables continues


Exemple 1

Statistiques du
personnel dune
PME suivant le
nombre denfants
charge

Histogramme

Polygones et polygones cumulatifs

13 13 0,43 0,43

2
3

9
5

22 0,3 0,73
27 0,17 0,90

29 0,07 0,97

30 0,03 1

Total 30

19

Frquences
cumules

Frquences

Variables discrtes

Effectifs
cumuls

Nombre
denfants
charge
Effectifs

Diagramme en btons

Reprsentation graphique

20

Histogramme

Diagramme en btons ou en barres

Exemple 2:
tude de la taille (en m) dun groupe dindividus

Nombre de salaris (effectifs)

Classes
[1,700 ; 1,720 [
[1,720 ; 1,740 [
[1,740 ; 1,760 [
[1,760 ; 1,780 [
[1,780 ; 1,800 [
[1,800 ; 1,820 [
Nombre denfants par salari

8
6
4
2
0
1.71 1.73 1.75 1.77 1.79 1.81

mme
amplitude :
0,02 m

21

22

Histogramme

n
E
o
F
F
m
E
b
C
r
T
Ie
F
S

Effectifs (ni)
3
3
5
6
4
3
24

Histogramme : influence des amplitudes des


classes
Fp
30 % Ro
Eu
Qr
20 % Uc
Ee
Nn
10 % Ct
E
a
S
g
0%
e

Dans un histogramme, les effectifs et les


frquences sont traduits par les surfaces
des rectangles. On a la relation suivante :

Base du rectangle = amplitude


Hauteur du rectangle =

TAILLE
taille (m)
23

Effectif
Amplitude
24

Polygone des effectifs ou des frquences

Exercice : tracer lhistogramme


Classes
[47,50 ; 52,50[
[52,50 ; 57,50[
[57,50 ; 60,50[
[60,50 ; 63,50[
[63,50 ; 67,50[
[67,50 ; 80,50[

Effectifs (ni)
10
30
60
72
40
48
260

F
R
E
Q
U
E
N
C
E
S

E
F
F
E
C
T
I
F
S

25

26

Exemple 3: Notes de Maths

Le polygone des frquences cumules




Pour la mme srie , tracer le polygone des


effectifs cumuls (ou des frquences
cumules)

 ordonnes

= effectifs cumuls ou
frquences cumules
 Abscisses = bornes suprieures des classes
 Les points sont relis par des segments de
droite

Classes

Effectifs
ni

[6 - 9[
[9 - 11[
[11 - 14[
Total

7
5
3
15

Frquences
Effectifs
Frquences
cumuls
cumules
fi en %
Ei
Fi en %
7
46,70
46,70
12
33,30
80,00
15
20,00
100,00
100,00

27

28

Exemple : Polygone des effectifs


cumuls

Caractrisation numrique des donnes




Rpartition des notes obtenues en MATH


16
14

Effectifs cumuls

12

Approche graphique : histogramme et


polygone donnent une vue globale et
dtaille de la distribution des individus
dans un chantillon ou une population

10
8

 Pour extraire les caractristiques


essentielles des sries , on utilise des
grandeurs numriques

6
4
2
0
0

11

14

20

Classe des notes


29

30

Paramtres numriques de sries statistiques


Mesures de tendance centrale ou de position
 mode
 mdiane
 Moyenne
 Mdiale (voir TD 3)

Mesures de dispersion
 tendue,
 cart
cart--type,
type, variance,
 cart moyen
 Intervalle interquartile

Mesures de tendances
centrale ou de position

31

32

Exemples

Le mode


correspond la variable qui prsente leffectif


(ou la frquence) le plus lev

f
r

q
u
e
n
c
e

f
r

q
u
e
n
c
e

 reprsentation graphique : le sommet de la


distribution

le mode est la valeur la plus frquente

Taille des individus dans


une population adulte

taille
modepour
les femmes

modepour
les hommes

distribution unimodale
distribution bimodale

33

45 68 89 74 62 56 49 52 63

kg

La mdiane

Avantages et inconvnients du mode



-


-

34

Avantages
Dtermination graphique aise
Inconvnients du mode
Significatif uniquement si unique
Variable continue : le mode peut varier en
fonction du dcoupage des classes
35

La mdiane est un paramtre de position,


qui permet de couper la population tudie
en deux groupes contenant le mme
nombre d'individus.

 50 % de la population tudie a une


modalit infrieure la mdiane et 50 %
une modalit suprieure la mdiane.
36

45 68 89 74 62 56 49 52 63

kg

45 68 89 74 62 56 49 52 63

Calcul de la mdiane : cas discret (1/2)





Exemple 1
Poids dun chantillon de 9 personnes :

Calcul de la mdiane : cas discret (2/2)





45 68 89 74 62 56 49 52 63 (kg)

kg

Exemple 2
Si le nombre dindividus est pair, on prend la
moyenne entre les deux valeurs centrales :

La srie est classe suivant lordre croissant :

mdiane =

56 + 62
2

= 59

37

38

Mdiane : variable continue


Interpolation Linaire

Exemple 3
Classes

Effectifs
ni

[6 - 9[
[9 - 11[
[11 - 14[
Total

7
5
3
15

Effectifs
cumuls
Ni
7
12
15

Frquences
fi en %
46,70
33,30
20,00
100,00

Frquences
cumules
Fi en %
46,70
80,00
100,00

Colonne des frquences cumules


la mdiane est ici la note correspondant la frquence
cumule 50% : F(Me) = 50%
La mdiane se trouve donc dans l'intervalle [9 ;11[
 On la dtermine par interpolation linaire

39

Dtermination graphique de la mdiane

Frq uences cu mu les


en %

100

Me 9
0,50 0,467
=
11 9
0,80 0,467

60
50
40

M'
A M

Mdiane : variable continue


Par interpolation linaire, f(c) est approche par la
valeur I. Do daprs le thorme de Thals

Rpartition des notes obtenues en MATH

80

40

20

Soit Me 9,2

0
0

9 Me

11

14

20

Notes
41

50 % des personnes ont eu une note infrieure 9,2


et 50 % des individus ont eu plus de 9,2 .
42

Formule gnrale de la mdiane


(variable continue)


Dtermination graphique de la mdiane

Par interpolation linaire, on a :

Me x i
xi + 1 xi

Sur le polygone des frquences cumules


Me correspond labscisse du point de
coordonne : F(Me) = 50%

Sur le polygone des effectifs cumuls, Me


correspond labscisse du point de
coordonne N ( N: effectif total)

f ( Me ) f ( x i )

f (xi + 1 ) f (xi )

43

44

Avantages et inconvnients de la mdiane




Avantages
-

La moyenne arithmtique

Calcul ais
Donne une ide satisfaisante de la tendance centrale
Robuste : elle nest pas influence par les valeurs aberrantes de
la srie.
Minimise la somme des carts moyens

n1, n2, n3, .........,nN sont les effectifs correspondants aux


modalits x1, x2, x3, .......,xN., si la srie est discrte ,
ou centres de chaque classe, si la srie est continue.

Inconvnients
-

Pas toujours dfinie dans le cas dune srie discrte.


Exemple : 12 nest pas la mdiane de la srie :

6 7 7 8 10 11

12

12 12 14 17 17 17

2me formule
45

46

La moyenne : srie discrte




La moyenne : srie continue

Calculer la moyenne de la srie suivante :

47

Calculer la moyenne de la srie suivante :

48

45 68 89 74 62 56 49 52 63

kg

Avantages et inconvnients de la moyenne



-


-

Avantages
Meilleure caractristique de position : elle prend en
compte toutes les valeurs dune srie
Elle minimise la somme des carts quadratiques

Les caractristiques de
dispersion

Inconvnients
Moins robuste que la mdiane : elle est influence par
les valeurs aberrantes ( exagrment faibles ou
exagrment leves) de la srie.
49

50

Lintervalle interquartile

L tendue dune distribution statistique




Ltendue est la diffrence entre la plus grande


valeur et la plus petite valeur de la srie :

Le premier quartile (Q1) est la valeur telle que 25


% des valeurs prises par la variable lui soit
infrieures et 75% lui soit suprieures.

Exemple (diapo n
n48),
48), le calcul exact donne :
20 - 0 = 20

Le troisime quartile (Q3) est la valeur telle que


75 % des valeurs prises par la variable lui soit
infrieures et 25% lui soit suprieures.

Un calcul approch ( centre des classes)


17.5 - 2.5 = 15

Remarque : deuxime quartile = mdiane. Les


quartiles sont des caractristiques de position

Intervalle interquartile : Q3 - Q1

51

Variance et cart type

52

Exemple

V: variance

Complter le tableau suivant :

L'cart - type est le nombre : .


Autre formule :
53

54

Courbe de concentration
La courbe de concentration, ou courbe de
Lorenz, joint, par des segments de droite, les
points ayant, pour :
- abscisses : les frquences cumules (en %)
- ordonnes : le rapport des xi ni cumuls sur la
somme totale des xk nk ( en %)
Exemple
ime ordonne = x1 n1 + + xi ni
somme de tous les (x
(xk nk )

Complments de TD N
N3
3
Concentration indice de GiniGiniMdiale

Indice de Gini

L'indice de Gini G est le


double de la surface S
comprise entre la diagonale
et la courbe de Lorenz :
G=2S
S = [1
[1 fi (qi + qi-1)]

Pourcentage cumul du
caractre (qi )

Mdiale
Valeur partageant en 2 fractions de poids
gale la masse cumule des xi ni

 Correspond labscisse ( lue sur laxe des classes)


classes) du point
dordonne 50% , pris sur la courbe de concentration

 dtermination par interpolation linaire

Frquences cumules : Fi

fi = Fi Fi-1

10

Vous aimerez peut-être aussi