Vous êtes sur la page 1sur 35

Chapitre 1: Introduction à la statistique

Ecole Nationale d’Informatique

24 juillet 2014
Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Table des matières

1 Généralités

2 Variable qualitative nominale

3 Variable qualitative ordinale

4 Variable quantitative discrète

5 Variable quantitative continue

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

plan

1 Généralités

2 Variable qualitative nominale

3 Variable qualitative ordinale

4 Variable quantitative discrète

5 Variable quantitative continue

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Définitions

I Statistique : méthode scientifique du traitement des


données quantitatives,
I Etymologiquement : science de l’état
La statistique s’applique à beaucoup des disciplines :
agronomie, biologie, démographie, sociologie, lingustique, . . .

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Le logiciel R

I Shareware : gratuit et installé en 10 minutes.


I Open source (on sait ce qui est réellement calculé).
I Développé par le communauté des chercheurs, contient
énormément de fonctionnalités.
I Possibilité de programmer.
I Manuel :
http ://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Mesure et variable

I On s’intéresse à des unités statistiques ou unités


d’observations : individus, entreprises, ménages, . . .
I Sur ces unités, on mesure une caractèrte ou une
variable :chiffre d’affaires de l’entreprise, le revenu du
ménage, l’âge de la personne, la catégorie
socio-professionnelle d’une personne, . . .
I Les valeurs possibles de la variables sont appellées
modalités

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Typologie des variables

I variable qualitative : variable dont les modalités sont des


catégories
• variable qualitative nominale : quand les modalités ne
peuvent pas être ordonnées
• variable qualitative ordinale : quand les modalités peuvent
être ordonnées
I variable quantitative : variable dont les modalités
possibles sont numériques
• variable quantitative discrète : quand l’ensemble des
valeurs possibles est dénombrables
• variable quantitative continue : quand l’ensemble des
valeurs possibles est continu

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Série statistique

On appelle série statistique la suite des valeurs prises par une


variable X sur les unités d’observation.
I Le nombre d’unités d’observation est notées n
I Les valeurs de la variable X sont notées

x1 , x2 , . . . , xn

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Exemple 1
On s’intéresse à la variable “état-civil” notée X et la série
statistique des valeurs prises par X sur 20 personnes. La
codification est

C: célibataire
M: marié(e)
V: veuf(ve)
D: divorcé(e)

Considérons la série statistique suivante :


M M D C C M C C C M
C M V M V D C C C M
Ici,
n = 20 et x1 = M, x2 = M, x3 = D, . . . , x20 = M

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

plan

1 Généralités

2 Variable qualitative nominale

3 Variable qualitative ordinale

4 Variable quantitative discrète

5 Variable quantitative continue

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Effectifs, fréquences et tableau statistique

On note J le nombre de valeurs distinctes ou modalités. Les


valeurs distinctes sont notées x1 , x2 , . . . , xJ
I effectifs de la modalité xj , j = 1, . . . , 20 : nombre de fois
que la modalité xj apparâit. On le note nj
I fréquence de la modalité xj : rapport entre l’effectif ni et le
nombre d’unités d’observation n
nj
fj = , xj , j = 1, . . . , 20
n

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Exemple

Avec la série de l’exemple précedent, on obtient le tableau


statistique

xj nj fj
C 9 0.45
M 7 0.35
V 2 0.10
D 2 0.10

En langage R
> X<-c("M", "M", "D", "C", "C", "M", "C", "C", "C","M","C", "M", "V", "M", "V" ,"D", "C","C",
"C","M")
> T1=table(X)
> V1=c(T1)
> data.frame(Eff=V1,Freq=V1/sum(V1))

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Diagramme en secteur

Les fréquences d’une variable qualitative nominale peut être


repésentées par un diagramme en secteurs (ou camembert)
diagramme en secteur des fréquences

célibataire

En langage R
> pdf("figure1.pdf")
divorcé(e)
> pie(T1,labels=c("célibataire", "divorcé(e)",
"marié(e)", "veuf(ve)"),main="diagramme en veuf(ve)
secteur des fréquences")
> dev.off()
marié(e)

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Diagramme en barre

Les effectifs d’une variable qualitative nominale peut être


repésentées par un diagramme en barre
diagramme en barre des effectifs
En langage R

10
8
> m<-max(T1)
>pdf("figure2.pdf")

6
> bar-
plot(T1,ylim=c(0,m+1),axisname=T,names.arg=c("célibataire",

4
"divorcé(e)", "marié(e)",
"veuf(ve)"),main="diagramme en barre des

2
effectifs")

0
> dev.off() célibataire divorcé(e) marié(e) veuf(ve)

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

plan

1 Généralités

2 Variable qualitative nominale

3 Variable qualitative ordinale

4 Variable quantitative discrète

5 Variable quantitative continue

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Tableau statistique
Les valeurs distinctes d’une variable ordinale peuvent être
ordonnées, ce qu’on écrit
x1 < x2 < · · · < xj < · · · < xJ−1 < xJ

Effectifs cumulés et fréquences cumulées


I Effectifs cumulés :
j
X
Nj = nk , j = 1, 2, . . . , J avec N1 = n1 et NJ = n
k=1

I Fréquences cumulées :
j
Nj X
Fj = = fk , j = 1, 2, . . . , J
n
k=1
ENI/L1 Chapitre 1: Introduction à la statistique
Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Exemple 2

On interroge 50 personnes sur leur dernier diplôme obtenu


(variable X ). La codification a été faite selon le Tableau
ci-dessous
Derinier diplôme obtenu xj
Sans diplôme Sd
Primaire P
Secondaire Se
Supérieure non-universitaire Su
Universitaire U

La série statistique associée est

Sd Sd Sd Sd P P P P P P P P P P P Se Se
Se Se Se Se Se Se Se Se Se Se Se Se Su Su Su Su Su
Su Su Su Su U U U U U U U U U U U U

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Tableau statistique

xj nj Nj fj Fj
Sd 4 4 0.08 0.08
P 11 15 0.22 0.30
Se 14 29 0.28 0.58
Su 9 38 0.18 0.71
U 12 50 0.24 1.00

en langage R
>X <- c("Sd","Sd","Sd","Sd","P","P","P","P","P","P","P","P","P","P","P","Se","Se","Se","Se","Se","Se","Se","Se","Se",
"Se","Se","Se","Se","Se","Su","Su","Su","Su","Su","Su","Su","Su","Su","U","U","U","U","U","U","U","U","U","U","U","U")
>XF<-factor(X,levels=c("Sd","P","Se","Su","U"))
>T2<-table(XF)
>V2<-c(T2)

>data.frame(Eff=V2,EffCum=cumsum(V2),Freq=V2/sum(V2),FreqCum=cumsum(V2/sum(V2)))

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Diagramme en secteur des fréquences

Primaire

Sécondaire
Sans diplôme

Universitaire

Supérieure non−universitaire

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Diagramme en barre des effectifs

14
12
10
8
6
4
2
0

Sans diplôme Primaire Sécondaire Universitaire

en langage R
> pdf("figure4.pdf")
> m<-max(T2)
> barplot(T2,ylim=c(0,m+1),axisname=T,names.arg=c("Sans diplôme", "Primaire", "Sécondaire", "Supérieure
non-universitaire", "Universitaire"))

> dev.off()
ENI/L1 Chapitre 1: Introduction à la statistique
Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Diagramme en barre des effectifs cumulés

50
40
30
20
10
0

Sans diplôme Primaire Sécondaire Universitaire

en langage R
> pdf("figure5.pdf")
> T3<-cumsum(T2)
> barplot(T3,axisname=T,names.arg=c("Sans diplôme", "Primaire", "Sécondaire", "Supérieure non-universitaire",
"Universitaire"))

> dev.off()
ENI/L1 Chapitre 1: Introduction à la statistique
Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

plan

1 Généralités

2 Variable qualitative nominale

3 Variable qualitative ordinale

4 Variable quantitative discrète

5 Variable quantitative continue

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Exemple 3

Un quartier est composés de 50 ménages, et la variable X


représente le nombre de personnes par ménage. Les valeurs
de la variable sont

1 1 1 1 1 2 2 2 2 2
2 2 2 2 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 4
4 4 4 4 4 4 4 4 4 5
5 5 5 5 5 6 6 6 8 8

Comme pour les variables qualitatives ordinales, on peut


calculer les effectifs, les effectifs cumulés, les fréquences, les
fréquences cumulées. A nouveau, on peut construire le tableau
statistique.

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Tableau statistique

xj nj Nj fj Fj
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00

en langage R
> X<-c(1,1,1,1,1,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,6,6,6,8,8)
> T4=table(X)
> T4c=c(T4)

> data.frame(Eff=T4c,EffCum=cumsum(T4c),Freq=T4c/sum(T4c),FreqCum=cumsum(T4c/sum(T4c)))

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Diagramme en bâtons des effectifs

15
10
effectifs

5
0

1 2 3 4 5 6 8

nombre de personnes par ménage (X)

en langage R
> pdf("figure6.pdf")
> plot(T4,type="h",xlab="nombre de personnes par ménage (X)",ylab="effectifs",main="",frame=1,lwd=3)

> dev.off()

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Fonction de répartition

Les fréquences cumulées sont représentées au moyen de la


fonction de répartition, définie de R dans [0, 1] par


0
 si x < x1
F(x) = Fj si xj ≤ x < xj+1 , où Fj est la fréquence cumulée

1 si xJ ≤ x

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Courbe cummulative

Fonction de répartition d'une variable quantitative discrète

1.0

0.8

0.6

0.4


0.2


0.0

0 2 4 6 8

en langage R
> pdf("figure7.pdf")
> plot(ecdf(X),xlab="",ylab="",main="Fonction de répartition d’une variable quantitative discrète",frame=0)

> dev.off()

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

plan

1 Généralités

2 Variable qualitative nominale

3 Variable qualitative ordinale

4 Variable quantitative discrète

5 Variable quantitative continue

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Tableau de statistique
I Une variable quantitative continue peut prendre une infinité
de valeurs possibles. Le domaine de la variable est alors R
ou un intervalle de R,
I Pour faire des représentations graphiques et construire le
tableau statistique, il faut procéder à des regroupements
en classes,
I Si l’intervalle [cj−1 ; cj [ designe la classe j, on note
c +c
• xj = j−12 j le centre de la classe j,
• cj − cj−1 l’amplitude de la classe j,
• nj l’effectif de la classe j,
• Nj l’effectif cumulé de la classe j
• fj la fréquence de la classe j,
• Fj la fréquence cumulée de la classe j
I La répartition en classes des données nécessite de définir
a priori le nombre de classes J et donc l’amplitude de
chaque classe.
ENI/L1 Chapitre 1: Introduction à la statistique
Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Exemple 4

On mesure la taille en centimetres de 50 élèves d’une classe

152 152 152 153 153


154 154 154 155 155
156 156 156 156 156
157 157 157 158 158
159 159 160 160 160
161 160 160 161 162
162 162 163 164 164
164 164 165 166 167
168 168 168 169 169
170 171 171 171 171

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Tableau statistique

classes nj Nj fj Fj
[151.5; 155.5[ 10 10 0.20 0.20
[155.5; 159.5[ 12 22 0.24 0.44
[159.5; 163.5[ 11 33 0.22 0.66
[163.5; 167.5[ 7 40 0.14 0.80
[167.5; 171.5[ 10 50 0.20 1.00
50 1.00

en langage R
> X<-c(152,152,152,153,153,154,154,154,155,155,156,156,156,156,156, 157,157,157,158,158,
159,159,160,160,160,161,160,160,161,162, 162,162,163,164,164,164,164,165,166,167,168,168,168,169,169,
170,171,171,171,171)
> T5=table(cut(X, breaks=c(151,155,159,163,167,171)))
> T5c=c(T5)

> data.frame(Eff=T5c,EffCum=cumsum(T5c),Freq=T5c/sum(T5c),FreqCum=cumsum(T5c/sum(T5c)))

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Histogramme
Représenter les effectifs (ou les fréquences) des classes par
des rectangles contigus dont la surface (et non la hauteur)
représente l’effectif (ou la fréquence)
I pour un histogramme des effectifs, la hauteur du rectangle
correspondant à la classe j est donc donnée par la densité
d’effectif :
nj
hj =
aj

I pour un histogramme des fréquences, la hateur du


rectangle correspondant à la classe j est donnée par la
densité de fréquence
fj
dj =
aj

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Histogramme des fréquences

0.06
0.05
0.04
0.03
0.02
0.01
0.00

151.5 155.5 159.5 163.5 167.5 171.5

en langage R
> pdf("figure8.pdf")
> hist(X,breaks=c(151.5,155.5,159.5,163.5,167.5,171.5), freq=FALSE, xlab="",ylab="",main="",xaxt = "n")
>axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))

>dev.off()

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Fonction de répartition

Fonction définie de R dans [0, 1] par



0
 si x < c1
fj
F(x) = Fj−1 + aj (x − cj ) si cj ≤ x < cj+1

si cJ ≤ x

1

I c1 : le centre de la première classe


I Fj : la fréquence cumulée de la classe j
I aj : l’amplitude de la classe j

ENI/L1 Chapitre 1: Introduction à la statistique


Généralités Variable qualitative nominale Variable qualitative ordinale Variable quantitative discrète Variable quantitative continu

Fonction de répartition
1.0

● ●

en langage R
0.8


0.6

>pdf("figure9.pdf")


>y=c(0,0,cumsum(T5c/sum(T5c)),1)
0.4

>x=c(148,151.5,155.5,159.5,163.5,167.5,171.5,175)

>plot(x,y,type="b",xlab="",ylab="",xaxt = "n") >axis(1,


0.2

c(151.5,155.5,159.5,163.5,167.5,171.5)) >dev.off()
0.0

● ●

151.5 155.5 159.5 163.5 167.5 171.5

ENI/L1 Chapitre 1: Introduction à la statistique

Vous aimerez peut-être aussi