Vous êtes sur la page 1sur 17

COURS DE STATISTIQUES (24h)

Introduction
Statistiques descriptives (4 h)
Rappels de Probabilits (4 h)
Echantillonnage (4 h)
Estimation ponctuelle (6 h)
Introduction aux tests (6 h)

Quest-ce que la statistique?


Les statistiques (descriptives) sont nes de lactivit de recueil des
donnes rpondant aux besoins dorganisation et de gouvernement des
grands empires (arme, impts, organisation des richesses). Ex:
premiers recensements connus vers 3000 ans avant notre re en
Sumrie.
Les statistiques sont aujourdhui utilises dans tous les secteurs
dactivit :
- Industrie : fiabilit, contrle qualit, .
- Economie et finance: sondages, enqute dopinion, assurance,
marketing
- Sant, environnement,
- Partout o lon dispose de donnes
ont connu un grand essor avec larrivage des ordinateurs performants

Quest-ce que la statistique?


Vient du latin status = tat . Le terme statisticum apparat
la fin du XVII sicle.
Statistique = ensemble de mthodes permettant de dcrire et
danalyser des observations (ou donnes). Ces observations
consistent gnralement en la mesure dune ou plusieurs
caractristiques communes sur un ensemble de personnes ou
dobjets quivalents.

Remarque : une statistique = grandeur calcule partir des

observations recueillies (ex : moyenne dge des lves dune


mme classe, balance commerciale de la France, etc..)

Quelques dfinitions de base


Lensemble de personnes ou dobjets quivalents tudi sappelle la
population.
Chaque objet dune population sappelle un individus ou unit
statistique.
Les caractristique que lon mesure sappellent des variables.
Les mesures sappellent des observations.
La srie dobservations recueillies sappelle srie statistique. Elle est
gnralement retranscrite dans un tableau de donnes.

Rq : La statistique traite des proprits des population plus que des


individus particuliers de ces populations.

Quelques dfinitions de base


Exemple 1 : On sintresse aux dbits annuels du Nil entre 1871 et 1970.
Variable tudie=dbit annuel ;
population= 100 annes de 1871 1970.
Un individu= 1900 par exemple.
Srie statistique (unidimensionnelle):
[1] 1120 1160 963 1210 1160 1160 813 1230 1370 1140 995
935 1110 994 1020 960 1180 799 958 1140 1100 1210 1150
[24] 1250 1260 1220 1030 1100 774 840 874 694 940 833
701 916 692 1020 1050 969 831 726 456 824 702 1120
[47] 1100 832 764 821 768 845 864 862 698 845 744
796 1040 759 781 865 845 944 984 897 822 1010 771
[70] 676 649 846 812 742 801 1040 860 874 848 890
744 749 838 1050 918 986 797 923 975 815 1020 906
[93] 901 1170 912 746 919 718 714 740

Quelques dfinitions de base


Exemple 2 : On sintresse la fcondit en relation avec certains indicateurs socioconomiques dans 47 provinces francophones suisses vers 1888.
La srie statistique (multidimensionnelles) est donne dans le tableau de donnes suivant :
population
1 individus
Fertility Agriculture Education Catholic Infant.Mortality
Courtelary
Delemont
Franches-Mnt
Moutier
Neuveville
Porrentruy

80.2
83.1
92.5
85.8
76.9
76.1

17.0
45.1
39.7
36.5
43.5
35.3

12
9
5
7
15
7

9.96
84.84
93.40
33.77
5.16
90.57

22.2
22.2
20.2
20.3
20.6
26.6

Fertility=indice de fcondit
Agriculture= % de males agriculteurs
Education= % dindividus ayant tudi aprs le primaire
Catholic=% de catholiques
Infant.Mortality=% mortalit infantile

1 variable

1 observation

Quelques dfinitions de base


Recensement= Etude de tous les individus dune population. Difficile
en pratique lorsque les populations sont grandes pour des questions de
cot et de temps.

Sondage= recueil dune partie de la population. La partie des individus


tudis sappelle lchantillon. Le recueil dun chantillon partir de la
population initiale se fait par des techniques statistiques, appeles
mthodes dchantillonnage.

Quelques dfinitions de base


Il existe diffrent types de variables
9 Variables quantitatives : caractristiques numriques (taille,
age,). Sexpriment par des nombres rels sur lesquels les
oprations arithmtiques de base (somme, moyenne,) ont un
sens. Peuvent tre discrtes (nombre fini ou dnombrable de
valeurs : age,...) ou continues (toutes les valeurs relles sont
susceptibles dtre prises : taille,).
9 Variables qualitatives : caractristiques non numriques dans le
sens o les oprations de base nont pas de sens. Peuvent tre
nominales (sexe,..) ou ordinales lorsque lensemble des catgories
est muni dun ordre total (trs rsistant, assez rsistant, peu
rsistant,..). Les diffrents niveaux dune variable qualitative
sappellent des modalits (ou catgories).

Quelques dfinitions de base


INFO
Une variable quantitative peut tre mise sous forme qualitative ordinale
en constituant des classes dappartenance.
Exemple : On considre la population des salaris de France, le salaire
mensuel S est une variable quantitative. On peut construire la variable
SS qualitative ordinale quatre modalits (S<6000 : modalit 1 ;
6000<S<10000 : modalit 2 ; 10000<S<20000 : modalit 3 ;
S>20000 : modalit 4).
La cration des amplitudes des classes est un problme dlicat, qui
ncessite un arbitrage entre information et simplification.

Les diffrentes problmatiques de la statistique


La statistique descriptive (ou exploratoire)
9 Objectifs :
rsumer, synthtiser linformation contenue dans une srie
statistique, mettre en vidence ses proprits.
suggrer des hypothses relatives la population dont est issu
lchantillon.
9 Outils utiliss :
Tableaux (table des frquences,..)
Graphiques (box-plots, histogrammes,..)
indicateurs (moyenne, corrlation,..).
9 Mthodes :
Statistique descriptive classiques (uni et bidimensionnelles)
Mthodes dADD.

Les diffrentes problmatiques de la statistique


Exemple 1 :
Graphiques :
1400

N il e

800

0.4
-0.2

600

0.0

600

0.2

800

Nile

ACF

1000

1000

0.6

1200

0.8

1200

1.0

1400

S e r ie s

1880

1900

1920

1940

1960

T im e

10

15

20

Lag

Indicateurs :
Min. 1st Qu. Median
456.0
798.5
893.5

Mean 3rd Qu.


919.4 1033.0

Max.
1370.0

Les diffrentes problmatiques de la statistique


INFO

La statistique descriptive sest enrichie ces dernires annes de


nombreuses techniques de visualisation de donnes
multidimensionnelles, connues sous le nom danalyse des donnes,
puis de data mining. Parmi ces mthodes on trouve :
9 les mthodes de classification (partitionnement, CAH), visant
rduire la taille de lchantillon en classant les individus dans des
groupes de caractristiques homognes.
9 les mthodes danalyse factorielle (ACP, AFCM,) qui cherchent
rduire le nombre de caractristiques dune population en les
rsumant par un petit nombre de composantes synthtiques.

Les diffrentes problmatiques de la statistique


La statistique infrentielle (ou dcisionnelle)

Infrence. Opration par laquelle


on passe d'une vrit une autre
vrit, juge telle en fonction de son
lien avec la premire. (Petit Larousse)

9 Spcificit :
La srie de donnes est considr comme un chantillon dune
population
suppose un modle probabiliste sur la population.
Ncessite des mthodes dchantillonnage.

9 Objectifs :
tendre (infrer) les proprits constates sur lchantillon la
population.
Valider ou infirmer des hypothses sur la population nonces a priori
ou formules aprs une phase exploratoire.
9 Mthodes :
Estimation : approcher des paramtres de la population partir de
lchantillon.
Tests : valider ou dinfirmer des hypothses mises sur ces paramtres.
Modlisation et de prvision : recherche dune relation entre une
variable et plusieurs autres, valable pour lensemble de la population.

Les diffrentes problmatiques de la statistique


Ex 2 : Modlisation par RLM : F 62.1 0.15 A 0.98 E + 0.12C + 1.08 I
Residuals:
Min
1Q
-14.6765 -6.0522
Coefficients:

Median
0.7514

3Q
3.1664

Max
16.1422

estimations

tests

Estimate Std. Error t value Pr(>|t|)


(Intercept)
62.10131
9.60489
6.466 8.49e-08 ***
Agriculture
-0.15462
0.06819 -2.267 0.02857 *
Education
-0.98026
0.14814 -6.617 5.14e-08 ***
Catholic
0.12467
0.02889
4.315 9.50e-05 ***
Infant.Mortality 1.07844
0.38187
2.824 0.00722 **
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 7.168 on 42 degrees of freedom
Multiple R-Squared: 0.6993,
Adjusted R-squared: 0.6707
F-statistic: 24.42 on 4 and 42 DF, p-value: 1.717e-10

Rle de la thorie des probabilits dans les


problmes de statistique
Probabilits = thorie permettant de modliser des phnomnes alatoires
Statistiques = repose sur lobservation de donnes issues dun phnomne
concret.
Le rle des probabilits est nul en statistique descriptive, prpondrant
en statistique infrentielle.
Les caractristiques dune grande population peuvent tre considres
comme des variables alatoires (on recode celles sont qualitatives). Les
observations recueillies dans une srie statistique peuvent tre
considres comme des ralisations de ces variables.
Lorsque lchantillonnage est bien fait, on pourra approcher les
caractristiques thoriques (probabilistes) de la population (loi de
probabilits etc) laide de statistiques calcules partir dun
chantillon.

Rle de la thorie des probabilits dans les


problmes de statistique

Srie de 50 observations issue


dune population gaussienne

Srie de 1000 observations issue


dune population gaussienne
Histogram of p

0.2

Density

0.1

0.2

0.0

0.1
0.0

Density

0.3

0.3

0.4

0.4

His to g r a m o f p

-2

-1

-4

-2

0
p