Académique Documents
Professionnel Documents
Culture Documents
Statistica I
Ex. 1. Următoarea serie de date arată preţul de vânzare (sute lei) pentru 13 lucrări de grafică la o licitaţie de
obiecte de artă: 51, 60, 72, 35, 32, 57, 63, 61, 48, 33, 67, 54, 37.
Stabiliţi valoarea de adevăr a următoarelor afirmaţii, justificând răspunsurile:
a) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei;
b) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei;
c) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei;
d) pentru 75% dintre obiecte s-a obtinut un pret de cel putin 36 sute lei;
e) precizati care dintre urmatoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt outliers in raport
cu datele initiale.
Rezolvare:
Cele n=13 valori ale seriei de date se ordonează crescător:
x(1)=32, x(2)=33, x(3)=35, x(4)=37, x(5)=48, x(6)=51, x(7)=54, x(8)=57, x(9)=60, x(10)=61, x(11)=63, x(12)=67, x(13)=72.
36
Cu interpretarea:
• 25 % dintre termenii seriei au valori mai mici decat 36 sute lei (Q1 este percentila de ordinul 25), iar
75% dintre termenii seriei au valori mai mari ca 36 sute lei;
sau
• 25% dintre lucrarile de grafica licitate s-au vandut pentru un pret mai mic decat 36 sute lei, iar restul de
75% dintre ele s-au vandut cu un pret mai mare de 36 sute lei.
Q2=Me – cuartila de ordinul 2 sau mediana seriei de date statistice.
n + 1 13 + 1
Locul lui Q2=Me este = = 7 ∈ N ⇒ Me = x( 7 ) = 54 sute lei
2 2
x( 1) ≤ x( 2 ) ≤ x( 3) ≤ x( 4 ) ≤ x( 5 ) ≤ x( 6 ) ≤ x( 7 ) ≤ x( 8 ) ≤ x( 9 ) ≤ x(10 ) ≤ x(11) ≤ x(12 ) ≤ x(13)
↑
50% Me 50%
54
Cu interpretarea:
• jumatate dintre termenii seriei au valori mai mici ca 54 sute lei (Me este percentila de ordinul 50), iar
restul au valori mai mari ca 54 sute lei;
sau
• jumatate dintre lucrarile de grafica licitate s-au vandut cu mai putin de 54 sute lei, iar restul s-au vandut
cu un pret mai mare de 54 sute lei.
Q3 – cuartila de ordinul 3 sau cuartila superioara
n +1 13 + 1
Locul lui Q3 este ⋅3 = ⋅ 3 = 10,50 ∉ N, dar 10 < 10,50 < 11
4 4
x + x(11) 61 + 63
⇒ x( 10 ) ≤ Q3 ≤ x( 11) si Q3 = (10 ) = = 62 sute lei.
2 2
x( 1) ≤ x( 2 ) ≤ x( 3) ≤ x( 4 ) ≤ x( 5 ) ≤ x( 6 ) ≤ x( 7 ) ≤ x( 8 ) ≤ x( 9 ) ≤ x( 10 ) ≤ x( 11) ≤ x( 12 ) ≤ x( 13 )
25% ↑ 75%
Q3
62
Cu interpretarea:
• 75 % dintre termenii seriei au valori mai mici decat 62 sute lei (Q3 este percentila de ordinul 75), iar
25% dintre termenii seriei au valori mai mari ca 62 sute lei;
sau
• 75% dintre lucrarile de grafica licitate s-au vandut pentru un pret mai mic decat 62 sute lei, iar restul de
25% dintre ele s-au vandut cu un pret mai mare de 62 sute lei.
36 62
Jumatate din termenii din mijlocul seriei au valori cuprinse intre Q1=36 sute lei si Q3=62 sute lei.
Abaterea intercuatilica este IQR=Q3-Q1=26 sute lei.
Definitie: Spunem ca o valoare x este outlier pentru un set de date statistice numerice daca:
x < Q1 − 1,5 ⋅ IQR sau x > Q3 + 1,5 ⋅ IQR
sau
valoarea x este outlier pentru un set de date statistice daca daca se gaseste in afara intervalului
[ Q1 − 1,5 ⋅ IQR; Q3 + 1,5 ⋅ IQR] .
In cazul nostru, [ Q1 − 1,5 ⋅ IQR; Q3 + 1,5 ⋅ IQR] = [ − 3; 101] , deci numai valoarea 124 este outlier in
raport cu setul initial de date statistice.
In concluzie, a) fals; b) adevarat; c) adevarat; d) adevarat; e) numai valoarea 124 sute lei este
outlier in raport cu seria initiala de date.
Ex. 2. Se considera urmatoarea serie, reprezentand valoarea inregistrata a 9 facturi emise de o societate
comerciala in ultima luna: 47; 58; 41; 36; 54; 42; 65; 43; 37 (mil. lei).
Alegeti afirmatiile false:
a) Cuartilele inferioara si superioara sunt 43 si respectiv 58 mil. lei.
b) Abaterea intercuartilica este de 10 mil. lei;
c) Jumatate dintre termenii seriei, plasati pe mijocul distributiei, se regasesc intre 39 si 56.
d) Percentilele de ordinul 25 si 75 sunt 39 si respectiv 56 mil. lei
e) In raport cu datele initiale, valorile: 73, 29, 18, 73, 23 sunt toate outliers.
f) Daca fiecare valoare s-ar mari intai cu 4,25 lei, apoi de 2 ori, dispersia noilor valori ar fi 396.
2
Ex. 3. Structura unui esantion de 90 de copii dupa nivelul maxim atins al unui joc pe calculator este:
A
E 11%
22%
B
13%
C
20%
D
34%
Ex. 4. Pentru 39 de actrite care au obtinut premiul Oscar se cunoaste varsta, in ani impliniti, la momentul
castigarii premiului:
50, 44, 35, 80, 26, 28, 41, 21, 61, 38, 49, 33, 74, 30, 33, 41, 31, 35, 41, 42,
37, 26, 34, 34, 35, 26, 61, 60, 34, 24, 30, 37, 31, 27, 39, 34, 26, 25, 33 ani.
Se cere:
a) sa se determine si sa se interpreteze indicatorii tendintei centrale si cuartilele acestei serii de date;
b) sa se construiasca diagrama box-plot (sau diagrama cu mustati box-and-whisker), punand in
evidenta daca seria are valori extreme;
c) sa se calculeze indicatorii variatiei si sa se stabileasca daca seria este omogena;
d) analizati asimetria;
e) Descriptive Statistics.
Rezolvare: a)
o Populatia statistica este multimea actritelor care au castigat premiul Oscar.
o Unitatea statistica este o actrita.
o Variabila sau caracteristica de interes, notata X, este variabila ce arata varsta unei actrite la
momentul obtinerii premiului; variabila numerica, discreta.
o Pentru un esantion de volum n = 39 de actrite se cunosc valorile variabilei X, adica {x1=50,
x2=44, x3=35, x4=80, ..., xn=x39=33 ani}, care reprezinta o serie simpla sau nesistematizata de date
statistice numerice.
n
x1 + x2 + ... + xn ∑
xi
o Media unei serii simple de date numerice { x1 , x2 , ..., xn } este .
x= = i =1
n n
3
In cazul acestei serii, varsta medie a unei actrite din esantion care a castigat premiul Oscar este
39
x1 + x2 + ... + x39 ∑
xi
1486 ani.
x= = i =1
= = 38,1025
39 39 39
o Pentru a determina mediana, vom proceda astfel:
- seria simpla de date se ordoneaza crescator x( 1) ≤ x( 2 ) ≤ ... ≤ x( n ) , unde x( i ) , i = 1, n este
elementul cu rangul i din seria ordonata crescator,
n +1
- locul medianei este = 20 ∈ N ⇒ Me = x( 20 ) = 34 ani.
2
Jumatate dintre actritele din selectie au obtunut premiul Oscar la o varsta de cel mult 34 de ani (jumatate
dintre actritele din esantion au castigat premiul Oscar la o varsta de peste 34 de ani).
o Exista doua valori care au frecventa maxima si anume valorile 26 ani si 34 ani,
care apar pentru 4 actrite fiecare.
Se observa ca intervalul cuprins intre marginea inferioara si cea superioara diagramei box-plot,
adica intervalul de numere reale [21; 50] nu contine toate valorile observate, in afara lui ramanand valorile
x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 ani.
Valoarea x este outlier pentru seria de date statistice numerice daca x se gaseste in afara intervalului
[ Q1 − 1,5 ⋅ IQR; Q3 + 1,5 ⋅ IQR] = [13,5; 57,5] , x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 sunt outliers si vor
fi reprezentate distinct in diagrama box-plot.
5
*
* * * *
21 30 41 50 60 61 74 80
34
(Q1) (Me) (Q3)
c) Dispersia de selectie (sample variance) pentru o serie simpla de date numerice asupra variabilei X este
n
∑ ( xi − x ) 2
s =
2 ( x1 − x ) + ... + ( xn − x )
2 2
= i =1 ,
x
n −1 n −1
39
∑( x − x)
2
i
adica 6791,5897 ,
s x2 = i =1
= = 178,7260
39 − 1 39 − 1
6
abaterea standard (standard deviation) este s x = s x2 = 13,3688 ani.
sx
Coeficientul de variatie este v x = ⋅ 100 = 35,09% > 35% , ceea ce indica faptul ca seria de date
x
nu este omogena, iar media nu este reprezentativa pentru colectivitate, ca indicator al tendintei centrale.
7
34 27 -11,1025 123,2669
35 39 0,8974 0,8053
36 34 -4,1025 16,8310
37 26 -12,1025 146,4720
38 25 -13,1025 171,6771
39 x39=33 -5,1025 26,0361
39 39 39
∑x
i =1
i = 1486 ∑ ( xi − x ) = 0 ∑ ( xi − x ) 2 = 6791,5897
i =1 i =1
x = 38,1025 s x2 = 178,7260
s x = s x2 = 13,3688
v x = 35,09%
∑( x − x)
3
i
- Indicatorul asimetriei este coeficientul de asimetrie (Skewness) CAS = i =1 , al carui semn si
n ⋅ ( sx )
3
marime arata tipul asimetriei (pozitiva sau negativa), iar marimea arata gradul mai putin accentuat sau mai
accentuat al asimetriei seriei de date sau al distributiei. In cazul acestei serii de date, CAS = 1,5734 , o
valoare pozitiva si mai mare ca 1, ceea ce arata ca seria de date prezinta o asimetrie pozitiva pronuntata.
- Sistematizarea printr-o serie de distributie de frecvente pe r = 6 intervale de variatie de marime egala
a dat urmatoarea distributie a celor n=39 de actrite din esantion dupa varsta la momentul obtinerii premiului
Oscar:
Frecventa absoluta nk
Centrul xk
Intervalul k de variatie a intervalului k de variatie
Nr. crt. al intervalului k de
(clasa de varsta) (numarul de actrite
variatie
din fiecare clasa de varsta)
1 20-30 ani 11 25
2 30-40 ani 16 35
3 40-50 ani 7 45
4 50-60 ani 1 55
5 60-70 ani 2 65
6 70-80 ani 2 75
6
∑n
k =1
k = 39=n
8
care apar cu frecventa mai mica. Intre cele 39 de actrite castigatoare ale premiului Oscar, predomina cele cu
varste relativ mai mici.
16
14
14
Numarul de actrite
12
12 11 11
10
actrite)
10
8
8 7 7
6
6
4 4
2 2
2 1 2 2 2
1
0 0
0 10 20 30 40 50 60 70 80
20-30 30-40 40-50 50-60 60-70 70-80
ani ani ani ani ani ani Varsta, in ani (centrele intervalelor)
e) Indicatorii tendintei centrale, principalii indicatori ai variatiei si ai formei distributiei pentru o serie
simpla de date numerice pot fi calculati in Excel si in SPSS, output-urile fiind de forma:
Output-ul Descriptive Statistics in Excel Output-ul Descriptive Statistics in SPSS
9
Statistics
N Valid 39
Missing 0
Mean x = 38.10
Std. Error of Mean 2.141
Median Me=34.00
Mode Mo=26a
Std. Deviation s x = s x2 = 13.369
Variance s x2 = 178.726
Skewness CAS = 1.573
Std. Error of Skewness .378
Kurtosis 2.383
Percentiles 25 Q1 = 30.00
50 Q2 = Me = 34.00
75 Q3 = 41.00
n −1
In cazul acestei serii de date statistice, CAB = 2,383 > 0 , ceea ce indica o distributie leptocurtica (cu
cocoasa, asa cum se poate vedea si din histograma sau poligonul frecventelor).
Ex. 5. Un agent al companiei de asigurari W vinde contracte de asigurare de locuinte. In luna iulie a
incheiat: 2 contracte cu prime anuale de 50 Eur, 3 contracte cu prime anuale de 60 Eur, 6 contracte cu prime
de 70 Eur, 9 contracte cu prime de 90 Eur, 16 contracte cu prime anuale de 120 Eur, 8 contracte cu prime
anuale de 130 Eur si 6 contracte cu prime de 140 Eur. Se cere:
a) Construiţi seria de distribuţie de frecvenţe şi analizaţi grafic tendinţa de normalitate a acesteia.
b) Caracterizaţi omogenitatea şi asimetria distribuţiei contractelor în funcţie de valoarea primelor
anuale.
c) Calculati media si abaterea standard a variabilei alternative care evidentiaza contractele cu prime
anuale de valoare mai mica sau egala cu 90 Eur.
Rezolvare: a)
o Populatia statistica este multimea contractelor de asigurare de locuinte din portofoliul
companiei W.
o Unitatea statistica este un contract de asigurare de locuinta.
o Variabila statistica sau caracteristica de interes, notata X, este variabila ce arata marimei
primei anuale, in Eur, pentru un contract de asigurare de locuinta incheiat de un agent al companiei;
variabila numerica, continua.
o Agentul a incheiat intr-o luna n=50 de contracte, seria de date statistice referitoare la primele anuale ale
acestor contracte fiind sistematizata intr-o serie de distributie de frecvente pe r=7 variante distincte.
Astfel distributia celor n=50 de contracte dupa valoarea primei anuale, in Eur, este:
∑n
k =1
k = 50 = n contracte
11
Poligonul frecventelor absolute - distributia celor 50 de contracte
incheiate de agentul de asigurari dupa valoarea primei anuale
18
16
12
10
0
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150
o Poligonul frecventelor sugereaza ca distributia are tendinta de normalitate, dar prezinta asimetrie la
stanga, coada poligonului freventelor absolute fiind mai alungita spre stanga.
o Poligonul frecventelor se mai poate reprezenta si cu ajutorul frecventelor relative
nk
Nr. Valoarea xk Eur Numarul de contracte, nk , Frecventa relativa nk* = ∈ [ 0,1]
crt. a unei prime anuale (frecventa absoluta) n
1 x1 = 50 Eur n1 = 2 contracte n1* = 0,04
2 x2 = 60 Eur n2 = 3 n2* = 0,06
3 x3 = 70 Eur n3 = 6 n3* = 0,12
4 x4 = 90 Eur n4 = 9 n4* = 0,18
5 x5 = 120 Eur n5 = 16 n5* = 0,32
6 x6 = 130 Eur n6 = 8 n6* = 0,16
7 x7 = 140 Eur n7 = 6 n7* = 0,12
7 7
∑ nk = 50 = n
k =1
contracte ∑n
k =1
*
k =1
12
Poligonul frecventelor relative
0,35
0,3
0,25
Frecventa relativa
0,2
0,15
0,1
0,05
0
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150
Prima anuala, in Eur, pentru un contract de asigurare
b)
o Media pentru o serie de distributie de frecvente pe r variante distincte ale variabilei de interes este
r
x ⋅ n + ... + xr ⋅ nr ∑x k ⋅ nk
,
x= 1 1 = k =1
n1 + ... + nr n
{ }
r
unde xk , k = 1, r sunt variantele distincte observate ale variabilei, iar ∑n
k =1
k = n volumul esantionului.
7
13
Valoarea nk ,
Nr.
crt.
distincta,
(frecventa x k ⋅ nk Fck = n1 + ... + nk ( x k − x ) 2 ⋅ nk
xk Eur absoluta)
∑ nk = 50 = n ∑ xk ⋅ nk = 5310 ∑( x − x ) ⋅ nk = 37378
2
k
k =1 k =1 k =1
x = 106,2 s x2 = 762,8163265
s x = s x2 = 27,61912972
v x = 26,01%
o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r variante distincte este acea
varianta sau valoare care apare cu frecventa absoluta sau relativa cea mai mare:
• Frecventa absoluta cea mai mare este:
16 = n5 = max nk , k = 1, r . { }
• valoarea modala este deci a 5-a varianta sau valoare distincta de raspuns a
variabilei de interes, Mo = x5 = 120 Eur, aceasta fiind valoarea cea mai des intalnita a unei
prime anuale pentru contractele incheiate de respectivul agent.
o Relatia in care se gasesc indicatorii tendintei centrale, x < Me = Mo , ca si reprezentatrea grafica pentru
poligonul frecventelor absolute sau relative, arata ca distributia contractelor dupa valoarea primelor
anuale prezinta asimetrie negativa, in serie predominand valorile mai mari ale primelor anuale, iar coada
distributiei este alungita spre stanga.
o Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de variatie este
r
∑( x − x ) ⋅ nk
2
s x2 =
( x1 − x ) 2
⋅ n1 + ... + ( xr − x ) ⋅ nr
2
= k =1
k
,
( n1 + ... + nr ) − 1 n −1
{ }
r
unde xk , k = 1, r sunt variantele distincte observate ale variabilei, ∑n
k =1
k = n volumul esantionului.
7
∑( x − x ) ⋅ nk
2
k
In cazul nostru, 37378 , iar abaterea standard sau abaterea medie
s x2 = k =1
= = 762,8163
50 − 1 50 − 1
patratica este s x = s x2 = 27,6191 Eur, care arata cu cat se abat, in medie, valorile observate fata de
nivelul mediu in esantion al primelor anuale.
sx 27,6191
o Coeficientul de variatie in esantion este v x = ⋅100 = ⋅100 = 26,01% < 30% , ceea ce arata ca
x 106,2
distributia este omogena si media este reprezentativa pentru colectivitate.
14
c) Definim “evenimentul favorabil” ca evenimentul ca un contract de asigurare are o prima anuala de
valoare mai mica sau egala cu 90 Eur. Variabila alternativa care evidentiaza contractele ale caror prime
0 1
anuale sunt de valoare mai mica sau egala cu 90 Eur este Y : ,
n − m m
unde Y = 1 pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este numarul
de unitati statistice din esantion care verifica evenimentul favorabil, m = n1 + n2 + n3 + n4 = 20
contracte,
iar Y = 0 pentru unitatile statistice din esantion care nu verifica evenimentul favorabil, n − m este
numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil,
n − m = 30 de contracte cu prime anuale mai mari de 90 Eur.
m 20
Media variabilei alternative este y = = = 0,4 , adica 40% dintre contracte au valori ale primelor
n 50
anuale mai mici sau egale cu 90 Eur.
m m
Dispersia variabilei alternative este s y = ⋅ 1 − = 0,24 , iar abaterea standard
2
n n
m m
sy = ⋅ 1 − ≅ 0,48
n n
Ex. 6. Distributia a 1100 de absolventi ai Universitatii din Florida dupa salariul castigat, in $, in primul an
dupa terminarea studiilor este urmatoarea serie de distributie de frecvente pe intervale de variatie:
Nr. crt. Intervalul de variatie al salariului, $ Numarul de absolventi
1 [7200; 12500] 30
2 (12500; 17800] 69
3 (17800; 23100] 302
4 (23100; 28400] 308
5 (28400; 33700] 263
6 (33700; 39000] 95
7 (39000; 44300] 20
8 (44300; 49600] 6
9 (49600; 54900] 5
10 (54900; 60200] 1
11 (60200; 65500] 1
Se cere:
a) sa se reprezinte grafic aceasta serie de distributie;
b) sa se determine si sa se interpreteze indicatorii tendintei centrale;
c) sa se reprezinte grafic poligonul frecventelor absolute cumulate crescator si sa se estimeze proportia
absolventilor care:
i) au obtinut un salariu mai mic de 21000 $ in primul an de dupa finalizarea studiilor,
ii) au obtinut un salariu mai mic decat media in primul an de dupa finalizarea studiilor,
iii) au castigat in primul an intre 25000 $ si 40000 $,
iv) au castigat mai mult de 52000 $;
d) sa se stabileasca daca media este reprezentativa pentru colectivitate;
e) sa se analizeze asimetria acestei distributii.
Rezolvare: a)
Populatia statistica este multimea absolventilor Universitatii din Florida, promotiile anilor 1989 si
1990, asa cum se specifica in fisierul University of Florida graduate salaries.sav al programului SPSS.
Unitatea statistica este un absolvent.
Variabila sau caracteristica de interes, notata X, este variabila ce arata salariul unui absolvent, in $,
din primul an de dupa finalizarea studiilor, variabila numerica, continua.
15
Pentru un esantion de volum n = 1100 de absolventi s-au inregistrat valorile variabilei, iar setul de
date s-a sistematizat intr-o serie de distributie de frecvente pe r = 11 intervale de variatie de marime
egala, data in enuntul problemei.
Reprezentarea grafica a acestei serii de distributie de frecvente pe intervale de variatie se poate realiza
prin histograma si poligonul frecventelor absolute.
11
∑n k =1
k = n = 1100
Histograma
350
Frecventa absoluta (numarul de absolventi)
302 308
300
263
250
200
150
95
100
69
50 30
20
6 5 1 1
0
]
]
]
]
]
00
00
00
00
00
00
00
00
00
00
0
50
2
8
5
12
17
28
33
39
44
49
54
60
65
23
0;
0;
0;
0;
0;
0;
0;
0;
0;
0;
;
00
0
0
0
2
25
31
84
37
90
43
96
49
02
78
[7
(1
(2
(3
(4
(5
(6
(1
(2
(3
(4
Fig. ..... Histograma – Distributia celor 1100 de absolventi ai Universitatii din Florida dupa salariul
castigat in primul an de dupa finalizarea studiilor.
16
Poligonul frecventelor absolute
350
308
302
300
Frecventa absoluta (numarul de
263
250
absolventi)
200
150
100 95
69
50
20
30 6 5 1 1
0
0 10000 20000 30000 40000 50000 60000 70000
Salariul, in $ (centrele intervalelor de variatie)
Fig. ..... Poligonul frecventelor absolute – Distributia celor 1100 de absolventi ai Universitatii din
Florida dupa salariul castigat in primul an de dupa finalizarea studiilor.
∑ nk = n = 1100
k =1
∑x
k =1
k ⋅ nk = 28563500
x = 25966,82
o Media pentru o serie de distributie de frecvente pe r intervale de variatie este
r
x ⋅ n + ... + xr ⋅ nr ∑x k ⋅ nk
,
x= 1 1 = k =1
n1 + ... + nr n
{ }
r
unde xk , k = 1, r sunt centrele celor r intervale, iar ∑n
k =1
k = n volumul esantionului.
17
11
∑x k ⋅ nk
28563500 $ a castigat, in medie, un absolvent in primul an.
⇒x= k =1
= = 25966,82
1100 1100
o Mediana pentru o serie de distributie de frecvente pe r intervale de variatie se calculeaza parcurgand
urmatorii pasi:
n +1
• Se determina locul medianei, adica = 550,5 .
2
• Se calculeaza frecventele absolute cumulate crescator ale intervalelor de variatie
Fck = n1 + ... + nk , k = 1, r .
• Intervalul median este primul interval cu proprietatea ca frecventa sa absoluta
cumulata crescator depaseste locul medianei
Fc1 = 30 < 550,5
Fc 2 = 99 < 550,5
Fc 3 = 401 < 550,5
si Fc 4 = 709 ≥ 550,5 , deci al 4-lea interval de variatie (23100; 28400] $ este intervalul
median.
n +1
− Fc Me−1
• Me = xinf Me + hMe ⋅ 2 =
nMe
550,5 − 401
= 23100 + 5300 ⋅ = 25672,56 $, adica jumatate dintre absolventi au castigat
308
cel mult 25672,56$ in primul an sau jumatate au castigat cel putin 25672,56 $.
o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r intervale de variatie se
calculeaza astfel:
• Se determina intervalul cu frecventa absoluta cea mai mare:
{
308 = n4 = max nk , k = 1, r , }
deci al 4-lea interval de variatie (23100; 28400] $ este intervalul modal.
∆1
• Mo = xinf Mo + hMo ⋅ =
∆1 + ∆ 2
308 − 302
= 23100 + 5300 ⋅ = 23723,52 $, aceasta este valoarea cea mai
( 308 − 302 ) + ( 308 − 263)
des intalnita a castigului salarial al unui absolvent intr-un an.
18
cu limita inferioara a primului interval de variatie x( 1) inf , in cazul nostru 7200 $, a carui frecventa absoluta
cumulata este 0, Fc ( x( 1) inf ) = Fc ( 7200 ) = 0 , deoarece pentru nicio unitate statistica din esantion, nivelul
variabilei nu este mai mic decat x( 1) inf .
1200
1087 1093 1098 1100
1067
1099
1000
972
(numarul cumulat de absolventi)
Frecventele absolute cumulate
800
709
600
400
401
200
99
30
0
0
0 10000 20000 30000 40000 50000 60000 70000
19
i) Fc ( 21000 ) este numarul de absolventi care au obtinut un salariu mai mic de 21000 $ in primul an de
dupa finalizarea studiilor.
Valoarea 21000 $ se gaseste in intervalul de variatie (17800; 23100] $, iar Fc ( 21000 ) se determina
prin interpolare liniara, utilizand urmatoarea egalitate de rapoarte, asa cum se poate observa in figura de
mai jos:
21000 − 17800 Fc ( 21000 ) − Fc (17800 )
=
23100 − 17800 Fc ( 23100 ) − Fc (17800 )
3200 Fc ( 21000 ) − 99
⇒ =
5300 401 − 99
281
⇒ Fc ( 21000 ) = 281,33 ≅ 281 absolventi, adica o proportie de ⋅100 = 25,54% dintre cei 1100
1100
de absolventi din esantionul considerat au avut un salariu anual mai mic de 21000 $.
Fig. .... Interpolare liniara - detaliu din figura reprezentand poligonul frecventelor absolute cumulate
crescator, pentru intervalul (17800; 23100] $ in care se gaseste 21000 $.
ii) Fc ( 25966 ,82 ) este numarul de absolventi care au obtinut un salariu mai mic decat nivelul mediu
x = 25966,82 $ al salariului in esantion.
Din relatia
25966,82 − 23100 Fc ( 25966,82 ) − Fc ( 23100 )
= ,
28400 − 23100 Fc ( 28400 ) − Fc ( 23100 )
obtinem ca Fc ( 25966 ,82 ) = 567,8 ≅ 568 absolventi,
20
568
adica o proportie de ⋅ 100 = 51,63% dintre cei 1100 de absolventi din esantionul considerat au
1100
avut un salariu anual mai mic de nivelul mediu.
iii) Fc ( 40000 ) − Fc ( 25000 ) = 559,35 ≅ 559 este numarul de absolventi care au castigat in primul an
intre 25000 $ si 40000 $, adica 50,81% dintre cei 1100 de absolventi.
iv) n − Fc ( 52000 ) = 1100 − Fc ( 52000 ) = 4,73 ≅ 5 absolventi au castigat mai mult de 52000 $, adica o
proportie de 0,45%.
11 11
∑n ∑( x − x ) ⋅ nk = 55482218864
2
k = n = 1100 k
k =1 k =1
s x2 = 50484275,58
s x = 7105,2287
Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de variatie
este
r
∑ ( x k − x ) 2 ⋅ nk
(
s x2 = 1
x − x ) 2
⋅ n1 + ... + ( x r − x ) 2
⋅ n r
= k =1
,
( n1 + ... + nr ) − 1 n −1
{ }
r
unde xk , k = 1, r sunt centrele celor r intervale, ∑n
k =1
k = n volumul esantionului.
11
∑( x − x ) ⋅ nk
2
k
5548221886 4 , iar abaterea standard este s x = 7105,2287 $, care
⇒ s x2 = k =1
= = 50484275 ,58
1100 − 1 1100 − 1
arata cu cat se abat, in medie, valorile observate fata de nivelul mediu al salariului din esantion.
sx 7105,2287
Coeficientul de variatie in esantion este v x = ⋅100 = ⋅100 = 27,36% < 30% , ceea ce
x 25966 ,82
arata ca media este reprezentativa pentru colectivitate.
21
e) Asimetria unei serii de distribuţie de frecvenţe se observă din reprezentarea grafică prin histogramă
sau poligonul frecvenţelor, si prin modalitatea în care sunt situaţi, unul faţă de celălalt, indicatorii
tendinţei centrale.
Histograma
302 308
300 350
263 308
302
300
263
200 250
absolventi)
150 200
95
100 150
69
50 30 100
20 95
6 5 1 1 69
0 50
20
30 6
]
]
]
5
00
00
00
00
00
00
00
00
00
00
0
1 1
50
6
8
5
12
17
23
28
33
39
44
49
54
60
65
0
0;
0;
0;
0;
0;
0;
0;
0;
0;
0;
;
00
0
0 10000 20000 30000 40000 50000 60000 70000
2
25
78
31
84
37
90
43
96
49
02
[7
(1
(1
(2
(3
(3
(4
(5
(6
(2
(4
Reprezentarea grafica seriei de distributie sugereaza ca aceasta are tendinta de normalitate si ca in seria
de date predomina valorile mai mici ale variabilei de interes, castigul salarial intr-un an, adica este
asimetrica spre dreapta (cu coada mai lungă a distribuţiei spre valorile mari, care apar cu frecventa mai
mica).
Indicatorii tendintei centrale se gasesc in urmatoarea relatie Mo < Me < x , ceea ce indica faptul ca
distributia de frecvente prezinta asimetrie pozitiva, in serie predominand valorile mici.
Gradul de asimetrie prezent în serie poate să fie şi măsurat printr-un indicator specific, numit coeficient
de asimetrie (Skewness), care in cazul unei serii de distributii de frecvente pe r intervale de variatie se
calculeaza dupa
r
∑( x − x ) ⋅ nk
3
k
CAS x = k =1 ,
n ⋅ ( sx )
3
{ }
r
unde xk , k = 1, r sunt centrele celor r intervale, ∑n
k =1
k = n volumul esantionului.
Intervalul k Centrul nk
Nr.
crt.
(Salariul anual al unui
xk
Frecventa absoluta
( x k − x ) 3 ⋅ nk
absolvent, in $) (numarul de absolventi)
1 [7200; 12500] 9850 30 -1,25591E+14
2 (12500; 17800] 15150 69 -8,73269E+13
3 (17800; 23100] 20450 302 -5,07076E+13
4 (23100; 28400] 25750 308 -3139415056
5 (28400; 33700] 31050 263 3,45432E+13
6 (33700; 39000] 36350 95 1,06344E+14
7 (39000; 44300] 41650 20 7,71494E+13
8 (44300; 49600] 46950 6 5,54326E+13
9 (49600; 54900] 52250 5 9,07828E+13
10 (54900; 60200] 57550 1 3,15041E+13
11 (60200; 65500] 62850 1 5,01747E+13
11 11
∑n ∑(x − x ) ⋅ nk = 1,82302E+14
3
k = n = 1100 k
k =1 k =1
CAS = 0,462
Cum 0 < CAS < 1 , avem asimetrie pozitivă, coada distribuţiei este mai alungită la dreapta, în serie
predominând valorile mici (modul < mediana < media).
22
Ex. 7. La o banca se analizeaza distributia a 500 de debitori restantieri dupa situatia datelor de intarziere a
rambursarii creditelor. Datele au fost sistematizate astfel:
Intervale de variatie Ponderea cumulata
a numarului de zile de intarziere a platii a debitorilor (%)
mai putin 25 de zile 25
25-35 de zile 75
35-45 de zile 85
45-55 de zile 93
55-65 de zile 98
peste 65 de zile 100
Se cere:
a) sa se scrie distributia de frecvente pe intervale de variatie;
b) sa se reprezinte grafic distributia de frecvente absolute;
c) sa se calculeze si sa se analizeze indicatorii tendintei centrale si sa se stabileasca daca durata medie
de intarziere a platilor este reprezentativa;
d) sa se calculeze media si abaterea standard pentru variabila alternativa care evidentiaza debitorii ce
au intarziat mai mult de 45 de zile cu efectuarea platilor.
Rezolvare: a)
o Populatia statistica – mutimea debitorilor cu intarziere in efectuarea platilor pentru
rambursarea unor credite.
o Unitatea statistica – un debitor.
o Variabila sau caracteristica de interes, X, este variabila ce arata numarul de zile de intarziere
a efectuarii platii catre banca de catre un deitor; variabila numerica, discreta.
o S-a realizat o selectie de volum n = 500 de debitori restantieri pentru care s-a inregistrat
numarul de zile de intarziere, datele obtinute fiind sistematizate intr-o serie de distributie de frecvente
pe r = 6 intervale de variatie de marime egala.
Notam cu:
• nk , k = 1, r , frecventa absoluta a intervalului k de variatie (numarul de debitori restantiei pentru care
numarul de zile de intarziere apartine intervalului k de variatie), n1 + ... + nr = n ;
nk
• nk = ∈ [ 0;1], k = 1, r , frecventa relativa a intervalului k de variatie, n1 + ... + nr = 1 ;
* * *
n
nk
• nk % = 100 ⋅ , k = 1, r , frecventa relativa exprimata procentual a intervalului k de variatie sau
*
n
ponderea debitorilor cu numarul de zile de intarziere din intervalul sau clasa k,
n1* % + ... + nr* % = 100% ;
• Fck = n1 + ... + nk , k = 1, r , este frecventa absoluta cumulata crescator a intervalului k;
• Fck = n1 + ... + nk , k = 1, r , este frecventa relativa cumulata crescator a intervalului k;
* * *
23
Intervalul k de Frecventa Frecventa
variatie a Ponderea cumulata Ponderea absoluta,
Nr. relativa,
numarului de zile a debitorilor (%) intervalului k,
crt. n* % nk = n ⋅ nk* =
de intarziere a Fck % = n1* % + ... + nk* %
*
nk* % nk* = k
platii 100 = 500 ⋅ nk*
1 15-25 de zile Fck* % = n1* % = 25% n1* % = 25% n1* = 0,25 n1 = 125
2 25-35 de zile F % = n % + n % = 75%
*
c2
*
1
*
2 n2* % = 50% n = 0,50
*
2
n2 = 250
3 35-45 de zile F % = n % + ... + n % = 85%
*
c3
*
1
*
3 n % = 10%
*
3 n = 0,10
*
3
n3 = 50
4 45-55 de zile Fc*4 % = n1* % + ... + n4* % = 93% n4* % = 8% n4* = 0,08 n4 = 40
5 55-65 de zile Fc*5 % = n1* % + ... + n5* % = 98% n5* % = 5% n5* = 0,05 n5 = 25
6 65-75 de zile Fc*6 % = n1* % + ... + n6* % = 100% n6* % = 2% n6* = 0,02 n6 = 10
6 6 6
∑ nk* % = 100%
k =1
∑ nk* = 1
k =1
∑n
k =1
k = 500 = n
Distributia celor 500 de debitori dupa numarul de zile de intarziere a platii este urmatoarea serie de
distributie de frecvente pe intervale:
Intervalul k de variatie Numarul de debitori Centrul xk al
Nr. (frecventa absoluta),
a numarului de zile intervalului k de
crt. nk
de intarziere a platii variatie
1 15-25 de zile n1 = 125 debitori x1 = 20
2 25-35 de zile n2 = 250 x2 = 30
3 35-45 de zile n3 = 50 x3 = 40
4 45-55 de zile n4 = 40 x4 = 50
5 55-65 de zile n5 = 25 x5 = 60
6 65-75 de zile n6 = 10 x6 = 70
6
∑n
k =1
k = 500 = n debitori
b)
300
300
250
250
250
Numarul de debitori
200
200
Numarul de debitori
150
125 150
100
100
50
50 40
25 50
10
0
0
15-25 25-35 35-45 45-55 55-65 65-75
de zile de zile de zile de zile de zile de zile 0 10 20 30 40 50 60 70 80
Numarul de zile de intarziere N u maru l z ile lo r d e in tarz ie re
24
Fig. .... Poligonul frecventelor absolute pentru distributia celor
intarziere a platii
500 de debitori dupa numarul de zile de intarziere a platilor
c)
Numarul de Centrul
Nr.
crt.
Intervalul k
debitori, nk xk x k ⋅ nk Fck ( x k − x ) 2 ⋅ nk
6 65-75 de zile
n6 = 10 x6 = 70 x6 ⋅ n6 = 700 Fc 6 = 500 ( x6 − x ) 2
⋅ n6 = 14137,6
6 6 6
x = 32,4 s x2 = 138,5170
s x = s x2 = 11,7693
v x = 36,33%
6
x1 ⋅ n1 + ... + xr ⋅ n6 ∑
x k ⋅ nk
o Media este 16200 , deci x = 32,4 zile este numarul mediu de zile
x= = k =1
=
n1 + ... + n6 n 500
de intarziere a platilor pentru un debitor restantier.
n +1 n +1
o Locul medianei este = 250,5 ; primul interval cu proprietatea ca Fck ≥ este intervalul 25-35 de
2 2
zile, deoarece Fc1 = 125 < 250,5 , dar Fc 2 = 375 ≥ 250,5 , deci:
n +1
− Fc Me−1
Me = xinf Me + hMe ⋅ 2 =
nMe
250,5 − 125
= 25 + 10 ⋅ = 30,02 zile, adica jumatate dintre debitorii restantieri au intarziat cel
250
putin 30 de zile cu efectuarea platilor.
o Intervalul modal este intervalul 25-35 de zile deoarece are frecventa absoluta cea mai mare
{
250 = n2 = max nk , k = 1,6 , atunci }
∆1
Mo = xinf Mo + hMo ⋅ =
∆1 + ∆ 2
250 − 125
= 25 + 10 ⋅ = 28,84 zile; numarul cel mai intalnit de zile de intarziere
( 250 − 125) + ( 250 − 50 )
a platilor celor 500 de debitori restantieri este de aproximativ 29 de zile.
o Relatia in care se gasesc cei trei indicatori ai tendintei centrale este Mo < Me < x , ceea ce indica o
asimetrie pozitiva.
25
6
∑( x − x ) ⋅ nk
2
= k =1
k
=
69120 , deci
( n1 + ... + n6 ) − 1 500 − 1 500 − 1
s x2 = 138,5170 , iar abaterea standard s x = s x2 = 11,7693 zile, care arata cu cate zile se abat, in medie,
valorile observate ale seriei de date fata de numarul mediu de zile de intarziere.
s 11,7693
o Coeficientul de variatie in esantion este v x = x ⋅100 = ⋅100 = 36,33% > 35% , ceea ce arata ca
x 32,4
distributia nu este omogena si media, ca indicatot al tendintei centrale, nu este reprezentativa pentru
colectivitate.
d) Definim “evenimentul favorabil” ca evenimentul ca un debitor intarzie cu platile mai mult de 45 de zile.
Variabila alternativa care evidentiaza debitorii ce au intarziat mai mult de 45 de zile cu efectuarea platilor
0 1
este Y : ,
n − m m
unde Y = 1 pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este numarul
de unitati statistice din esantion pentru care se verifica evenimentul favorabil, m = n4 + n5 + n6 = 75
debitori,
iar Y = 0 pentru unitatile statistice din esantion care nu verifica evenimentul favorabil, n − m este
numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil,
n − m = 425 debitori.
m 75
Media variabilei alternative este y = = = 0,15 , adica 15% dintre debitori au intarziat mai mult
n 500
de 45 de zile.
m m
Dispersia variabilei alternative este s y = ⋅ 1 − = 0,1275 , iar abaterea standard
2
n n
m m
sy = ⋅ 1 − ≅ 0,36 .
n n
Ex. 8. Un cercetător face un studiu asupra unor firme, privind şansele pe care acestea le oferă tinerilor
angajaţi de a promova repede şi de a avansa în carieră. Pentru aceasta el a cuprins în studiu un număr de 20
de companii producătoare de tehnologie de vârf şi a înregistrat timpul scurs de la angajarea iniţială a unui
salariat în firmă până la prima promovare a acestuia. Firmele au fost grupate după mărime, iar datele
înregistrate sunt:
Mărimea firmelor Număr de săptămâni de la angajare până la prima promovare
Mici 30; 26; 30; 32; 38; 24; 32; 28;
Medii 34; 32; 25; 36; 33
Mari 47; 41; 43; 48; 40; 49; 40.
Se cere:
a) să seprecizeze care este grupa de firme cu un grad mai ridicat de omogenitate;
b) sa se determine in ce proportie marimea companiei influenteaza variatia timpului pana la prima
promovare a unui salariat.
Rezolvare: a)
o Populatia statistica este multimea companiilor producatoare de tehnologie de varf.
o Unitatea statistica este o companie (firma).
26
o Caracteristicile urmarite sunt:
X - variabila ce arata marimea unei firme;
- variabila nenumerica avand r=3 categorii sau variante de raspuns: firme mici, firme mijlocii si
firme mari:
aceste categorii ale variabilei X vor determina impartirea populatiei statistice in r =3 grupe si
anume:
Grupa 1 (grupa firmelor mici),
Grupa 2 (grupa firmelor mijlocii),
Grupa 3 (grupa firmelor mari);
- astfel, variabila X, marimea firmei, se mai numeste si factor de grupare.
si
Y - variabila ce arata durata de timp, in saptamani, de la angajare la prima promovare a unui salariat
al unei firme producatoare de tehnologie de varf;
- variabila numerica de interes.
• Din Grupa 1 (grupa firmelor mici) se selecteaza un subesantion de volum n1 = 8 firme pentru
care se inregistreaza valorile variabilei Y:
{ y1, 1 = 30 ; y1, 2 = 26 ; y1, 3 = 30 ; y1, 4 = 32 ; y1, 5 = 38; y1, 6 = 24 ; y1, 7 = 32 ; y1, 8 = y1, n1 = 28 }
saptamani.
n1
∑( y − y1 )
n1
2
s12 =
(y1, 1 (
− y1 ) + ( y1, 2 − y1 ) + ... + y1, n1 − y1
2 2
) 2
=
j =1
1, j
= 18,2857
,
n1 − 1 n1 − 1
abaterea standard de selectie de grupa este s1 = s12 = 18,2857 = 4,2762 saptamani,
s1 4,2762
iar coeficientul de variatie al acestei grupe este v1 = ⋅ 100 = ⋅ 100 = 14,25% .
y1 30
∑(y − y2 )
n2
2
s22 =
(y (
2 , 1 − y 2 ) + ( y 2 , 2 − y 2 ) + ... + y 2, n2 − y 2
2 2
) 2
=
j =1
2, j
= 17,5
,
n2 − 1 n2 − 1
abaterea standard de selectie de grupa este s2 = s22 = 17,5 = 4,1833 saptamani,
s2 4,1833
iar coeficientul de variatie al acestei grupe este v2 = ⋅ 100 = ⋅ 100 = 13,07% .
y2 32
27
• Din Grupa 3 (grupa firmelor mari) se selecteaza un subesantion de volum n3 = 7 firme pentru
care se inregistreaza valorile variabilei Y:
{ y3, 1 = 47; y3, 2 = 41; y3, 3 = 43; y3, 4 = 48; y3, 5 = 40; y3, 6 = 49; y3, 7 = y3, n2 = 40 } saptamani.
n3
∑( y − y3 )
n3
2
s32 =
(y 3, 1 (
− y3 ) + ( y3, 2 − y3 ) + ... + y3, n3 − y3
2 2
) 2
=
j =1
3, j
= 15,3333
,
n3 − 1 n3 − 1
abaterea standard de selectie de grupa este s3 = s32 = 15,3333 = 3,9158 saptamani,
s3 3,9158
iar coeficientul de variatie al acestei grupe este v3 = ⋅100 = ⋅100 = 8,89% .
y3 44
Cum coeficientii de variatie pentru cele trei grupe sunt mai mici ca 30%-35%, atunci toate grupele
sunt omogene. Grupa 3 (grupa firmelor mari) este mai omogena in privinta duratei de timp de la angajare la
prima promovare a unui salariat deoarece are cel mai mic coeficient de variatie v3 < v2 < v1 .
28
Fereastra de dialog este prezentata in Figura 2.
Output-ul consta din urmatorul tabel, corepunzator prelucrarii datelor din cele trei grupe:
Grupa 1 Grupa 2 Grupa 3
(firme mici) (firme mijlocii) (firme mari)
Count 8= n1 5= n2 7= n3
b)
o Media totala la nivelul intregului esantion de volum n = n1 + n 2 + n3 = 20 firme este
y ⋅ n + y 2 ⋅ n2 + y 3 ⋅ n3 30 ⋅ 8 + 32 ⋅ 5 + 44 ⋅ 7
y= 1 1 =
n1 + n2 + n3 20
⇒ y = 35,4 saptamani.
29
o Pe baza datelor de selectie calculam:
• Variatia dintre grupe (Sum of Squares Between Groups)
SSB = ( y1 − y ) 2 ⋅ n1 + ( y 2 − y ) 2 ⋅ n2 + ( y 3 − y ) 2 ⋅ n3 =
= ( 30 − 35,4 ) 2 ⋅ 8 + ( 32 − 35,4 ) 2 ⋅ 5 + ( 44 − 35,4) 2 ⋅ 7
⇒ SSB = 808,8
• Variatia din interiorul grupelor (Sum of Squares Within Groups)
SSW = ( n1 − 1) ⋅ s12 + ( n2 − 1) ⋅ s22 + ( n3 − 1) ⋅ s32 =
= ( 8 − 1) ⋅18,2857 + ( 5 − 1) ⋅17,5 + ( 7 − 1) ⋅15,3333
⇒ SSW = 290
• Variatia totala
SST = SSB + SSW
= 808,8 + 290
⇒ SST = 1098,8
• Coeficientul de determinatie este
SSB 404,4
R2 = = = 0,368
SST 1098,8
SSB 404,4
sau, exprimat procentual, R% = ⋅100 = ⋅100 = 36,8% arata ca factorul de grupare, tipul
2
SST 1098,8
companiei, explica variatia totala a duratei de timp pana la prima promovare in proportie de 36,8%,
restul de 63,2% din variatia totala a timpului se datoreaza altor factori care nu au fost considerati de
cercetator.
o Dispersia de selectie la nivelul intregului esantion de volum n = 20 de firme este
Variatia totala la nivelul intregului esantion SST 1098,8
s 2y = = = = 57,8315
n −1 n − 1 20 − 1
sy 7,6047
iar coeficientul de variatie este v y = ⋅100 = ⋅100 = 21,48% .
y 35,4
Ex. 9. Managerul unei agentii imobiliare doreste sa efectueze o analiza referitoare la pretul de vanzare (zeci
mii euro) al caselor din doua zone ale Bucurestiului: zona Cotroceni si zona Piata Victoriei. Datele
inregistrate au fost prelucrate cu Excel si s-au obtinut urmatoarele rezultate:
Cotroceni Piata Victoriei a) Caracterizati comparativ cele
doua subcolectivitati pe baza output-
Mean 38,98 Mean 59,45 ului prezentat (in particular,
Median 36,18 Median 59,8 caracterizaţi omogenitatea şi asimetria
Mode 36 Mode 59
fiecărei grupe);
Standard Deviation 12,04 Standard Deviation 17,23
b) Determinati in ce proportie zona
Sample Variance 144,93 Sample Variance 296,88
Kurtosis 1,91 Kurtosis -1,01
influenteaza pretul de vanzare al
Skewness 1,30 Skewness 0,09 caselor.
Range 53,20 Range 61,37
Minimum 21,77 Minimum 29,9
Maximum 74,97 Maximum 91,27
Sum 1169,50 Sum 1783,37
Count 30 Count 30
30