Skripta Za Statistiko

Vpraanja in odgovori za ustni izpit Statistike maLa maLca
OPOZORILO!
Odgovori, ki so napisani k vpraanjem niso popolni, tako kot tudi seznam vpraanj ni popoln. Vpraanj je
namre neteto, zato naj ti listi ne bodo edini vir vaega znanja. Z njimi si lahko le pomgate, nikakor pa se
nanje ne zanaajte preve. Predvsem si morate zapomniti, da je statistika natanna veda in da kakrnokoli
bluzenje ni dovoljeno. Veliko sree z izpitom vam elim!

I. UVODNA TEORIJA
1. Kaj je statistika? Kako jo delimo?
STATISTIKA je aplikativna, uporabna matematika, ki se ukvarja z zbiranjem, organiziranjem, sumiranjem,
prikazom in analizo podatkov, iz esar potem podajamo ZAKLJUKE in ODLOITVE. Operira s tevili
in simboli, odkriva odnose med njimi. Je torej nek znansetveni jezik, ki nam pomaga pri opisovanju in
napovedovanju mnogih znanstvenih pojavov. Delimo jo na:
- DESKRIPTIVNO/OPISNO statistiko, ki opisuje vzorce, ki jih preuujemo. Sem spada prikazovanje
podatkov, izraunavanje mer centralne tendence, mer razprenosti, tudi korelacije, asimetrija, oblike
distribucij,...
- INDUKTIVNO statistiko, ki pa se ukvarja s sklepanjem na lastnosti populacije na podlagi podatkov, ki jih
dobimo iz vzorca., s tehnikami, ki analizirajo! Zajema vzorenje, ocenjevanje parametrov in odloanje.

Poznamo tudi delitev na podlagi nivoja variabel, torej kvalitativna in kvantitavna, oziroma nominalna,
ordinalna, intervalna in racionalna. Poleg tega loimo tudi parametrino in neparametrino statistiko ter
delitev na vzorno in populacijsko.

Mi smo se pri statistiki najprej ukvarjali z deskriptivno statistiko, in sicer smo obdelali mere centralne
tendence, mere razprenosti, oblike distribucij, vrste distribucij, verjetnosti. Nato smo se posvetili
inferenni statistiki, kjer smo se ukvarjali z vzorenjem, ocenjevanjem populacijskih parametrov na podlagi
vzornih statistik, z odloanjem v zvei s populacijo, nato pa e z raznimi testi, ki so nam pri tem odloanju
pomagali (hi - kvadrat in anova). Nato smo se posvetili korelacijam, povezavam med dvema ali veimi
variablami. Vse to spada pod parametrijsko statistiko, na koncu pa smo se posvtili e neparametrinim
testom in multivariatnim metodam.

2. Populacija in vzorec
Statistike ponavadi zanima neka populacija, to je skupina osebkov, ki jo preuujemo. V veini primerov je
ta le prevelika in zato iz nje izberemo nek vzorec, ter iz njegovih lastnosti sklepamo na lastnosti populacije.
Populacija je lahko konna (ljudje rojeni 28. februarja 1979) ali neskonna (ljudje rojeni 28. februarja
kateregakoli leta).
Tako govorimo o parametrih in ocenah. Parametri so statistike (na primer aritmetina sredina) celotne
populacije. Ker pa nam parameter ponavadi ni znan (iz zgoraj natetih vzrokov), pa uporabljamo oceno
parametra. To dobimo tako, da statistiko izraunamo na nekem reprezentativnem vzorcu in to statistiko
uporabimo kot oceno parametra.

3. Opii znanstveni proces:

PROBLEM

GENERALIZACIJA HIPOTEZA

ANALIZA PODATKOV RAZISKAVA

ZBIRANJE DOLOITEV
PODATKOV MERITVENIH
POSTOPKOV

4. Opii znanstveno metodologijo:
Avtorske pravice pridrane! Stran: 1
Psihologija vedno operira z nekimi problemi, zato je zelo pomembno, da jih najdemo, detektiramo in
seveda imbolje formuliramo.
1. Detekcija - e je problem slabo formuliran, so nadaljni korani zelo teavni.
2. Kolekcija vseh podatkov, Potrebno je opredeliti naine, metode zbiranja podatkov. Te metode so zelo
dodelane in obiutljive
3. Analiza - ureditev, kondenzacija, sistematiziranje. Gre za pripravo podatkov, za prvo obdelavo, za
izraunavanje osnovnih parametrov, za zgoevanje poatkov in nadaljne postopke, e so le - ti
potrebni.
4. Screening - lahko tabularini ali grafini
5. Interpretacija ali pojasnjevanje
6. Zakljuevanje - toje ugotavljanje, v kolikni meri smo pojasnili zadeve, e esa ne pojasnimo, iemo
vzreoke, zakaj!
Z zakljuevanjem nikoli ne konamo, saj se ponovno odpre nov problem. Pri zannstveni metodologiji je
zelo pomembn povezava med teorijo in metodo. Dobra metoda temelji na dobri teoriji, skupaj pa data nato
dober rezultat.

5. Kako lahko delimo variable?
VARIABLA - vrednost, pri kateri se posamezniki med seboj razlikujejo
- KONSTANTA - vedno zavzame enakto vrednost

- DISKRETNA - variabla, ki lahko zavzame le doloene vrednosti in ne vmesnih
- KONTINUIRANA - variabla, ki lahko teoretino vedno zavzame katerokoli vrednost med dvema danima.

Lestvice tevil delimo takole:
1. NOMINALNE - imamo le imena za vsako posamezno vrednost. Te vrednosti niso v nikakrnem
vrstnem redu. Primer: nogometno motvo - vsakega poimenujemo s svojo tevilko, nihe ni pred/za
drugim.
2. ORDINALNE - vrednosti so e razporejene v nekem vrstnem redu, vendar pa razlike med njimi niso
enake. Takni so na primer rezultati krosa, kjer ne objavimo asov, temve le mesto, ki ga tekmovalec
dosee. e je bil Miha prvi, Janez drugi in Peter tretji ne vemo, ali so pritekli vsi v isti sekundi, ali so
bile med njimi minutne razlike.
3. INTERVALNE - interval med vrednostmi je enak - tako bi bilo, e bi vsi tekmovalci na krogi pritekli
ob polnih minutah - razlika od prvega do drugega bi bila ena minuta, prav tako od drugega do
tretjega,... Vendar pa tu e nimamo absolutne nile in zato ne moremo uporabljati razmerij.
4. RAZMERNOSTNE - imamo absolutno nilo, zato lahko uporabljamo razmerja. Prime je Kelvinova T
skala - Celzijeva se zane pri absolutni vrednosti 273 in zato spada med intervalne lestvice.
Kadar govorimo o kvalitativnih in kvantitativnih variablah, so nominalne in ordinalne enabe oznaene kot
KVANTITATIVNE, intervalne in racionalne pa kot KVALITATIVNA.
Variable pa lahko konec koncev loimo tudi na odvisne in neodvisne.
OSNOVE MATEMATIKE, ki jih moramo poznati, preden se zanemo resneje ukvarjati s statistiko
SETEVANJE - lastnosti:
a + b = b + a
(a + b) + c = a + (b + c)
a + (-b) = a - b
a - (-b) = a + b
MNOENJE - lastnosti:
a * b = b * a
(a * b)*c = a * (b*c)
(a + b)*c = a*c + b*c
(a + b)*(c + d) = a*c + a*d + b*c + b*d
(a + b) **2 = a**2 + 2*a*b + b**2
(a - b) **2 = a**2 - 2*a*b + b**2
a**2 = a*a
a**3 = a*a*a
a**4 = a*a*a*a

SUMACIJSKI ZNAK - lastnosti
Znak sigma nam pove, da moramo seteti vse vrednosti x od indeksa, ki je napisan pod znakom, do tevila,
ki je napisan nad njim.

Ta znak torej pove, a moramo seteti vse X-e, ki imajo indekse od 1 pa tja
do 16.

Xi = X1 + X2 + ... + Xn
(c*Xi) = c * Xi
C = N*C
(x + y + z) = x + y + z
prvih N naravnih tevil = N*(N+1)/2
(x*y) x * y
Funkcije:
e vsaki vrednosti x ustreza neka vrednost y, potem reemo, da je y=f(x). Lahko imamo pri enem x eno ali
ve vrednosti y.

Graf = slikovni prikaz nekega odnosa
X - abscisa Y - ordinata 0 = izhodie Celotna ravnina se deli na tiri kvadrante.

Enaba je stavek napisan v obliki A=B, kjer je A leva stran enabe, B pa desna. Obema stranema lahko
pritevamo in odtevamo enako tevilo, lahko jih delimo, mnoimo z enakim tevilom, razen z 0!
Neenaba je enaba, v kateri nastopajo neenakostni simboli (<>). Pri teh izjavah velja enako kot pri
enabah, le v primeru mnoenja ali deljenja z negativnim tevilom se obrne neenakost.

6. Kako zaokroujemo?
Vedno zaokroimo na najblijo tevilko. Primer:
14,54 zaokroi na eno decimalko - rezultat je 14,5
14,56 zaokori na eno decimalko - rezultat je 14,6
e pa imamo revilko 5, zaokroimo tako, da je na zadnjem mestu parna tevilka.
14,55 zaokroi na eno decimalko - rezultat je 14,6

7. Kdaj uporabimo znanstveno notacijo?
Ko imamo tevila, ki vsebujejo precej niel in podobno, ga lahko zapiemo s potenco tevila 10.
Tako je na primer 14 000 enako 14*10**3. Zakaj? 14 000 = 14 * 1000
1000 pa je 10**3 oziroma 10*10*10
V primeru, da imamo decimalna tevila, pa uporabljamo negativne potence tevila 10. Tako je 0,014 enako
14 * 10 **(-3), saj moramo tevilo 14 deliti s 1000, da dobimo takno decimalko.

8. Kaj so pomembna mesta?
Pomembna mesta so mesta, ki popolnoma doloajo tevilo.
tevilo 45300 ima pet pomembnih mest, saj ga doloajo ena tirica, ena petica, ena trojka in dve nili. V
primeru, da imamo tevilo, kjer so nile spredaj, pa le-teh ne tejemo kot pomembna mesta. 0,0018 in tako
le dve pomembni mesti. ZAKAJ?
0,0018 lahko zapiemo kot 18 * 10**(-3), torej imamo le dve pomembni mesti in sicer 1 in 8.
Tudi 45300 bi lahko zapisali kot 4,53 * 10**3, samo to tevilo ni ve popolnoma enako prejnjemu ravno
zaradi pomembnih mest. Prej smo govorili o kontinuiranih tevilih. e torej zapiemo 4,53 *10**3, bi to
tevilo zavzemalo vrednosti od 4,525*10**3 do 4,535*10**3, e pa zapiemo 45300, to tevilo sega od
45299,5 do 45300,5. Tako vidimo, da tevilo ni enako, zato nile zadaj tejemo kot pomemba mesta, tiste
spredaj pa ne.

9. Kako raunamo s pomembnimi tevili?
Ko mnoimo, ima rezultat toliko pomembnih mest, kot tevilo z manj pomembnimi mesti. Primer:
73,24*4,52 = 331 (3 pomembna mesta, kot 4,52)

POZOR!!!!
V primeru 8,416 * 50, ko je 50 NATANNA VREDNOST, rezultat zaokroimo na 4 pomembna mesta. Pri
natannih vrednostih napre ne tejemo pomembnih mest, ker jih imajo neteto. e imamo 50 hi, to ne
pomeni, da jih je lahko tudi 49,999999. NE! Imamo jih 50 in to je to. Lahko bi napisali
50,00000000000000000000000000000000000000000, pa e in e niel bi lahko napisali, pa jih nikoli ne bi
bilo dovolj. Zapomnimo si torej - NATANNE VREDNOSTI IMAJO NETETO TEVILO
POMEMBNIH MEST!

Pri setevanju je nekoliko drugae. Rezultat ima toliko pomembnih mest ZA DECIMALKO, kolikor tiste
tevilo, ki jih ima manj. Tu moramo spet paziti na natanne vrednosti!
Primer:
3,16 + 2,7 = 5,9

II. FREKVENNE DISTRIBUCIJE in PRIKAZ REZULTATOV
1. Opii postopek obdelave podatkov!
Rezultati, ki jih dobimo z neko raziskavo niso razvreni po velikosti ali po kakrnemkoli vrstnem redu,
temve so v vrste zbrani po nakluju. Taknim rezultatom, ki so torej e popolnoma neobdelani, pravimo
VRSTINI PODATKI.
Da se v zmedi tevil laje znajdemo, jih je najbolje razporediti po velikosti, ponavadi jih razporedimo od
najmanjega do najvejega. Taknim podatkom pravimo POLJE/ARRAY. Razlika med najvejim in
najmanjim podatkom je obseg.
Nekatere vrednosti se pojavljajo vekrat, zato se odloimo, da rezultate prikaemo v obliki FREKVENNE
DISTRIBUCIJE. To so distribucije vseh vrednosti, ki se pojavljajo z doloeno frekvenco. Gre za to, da za
vsako izmed vrednosti pretejemo, kolikokrat se pojavlja in tako vsaka vrednost dobi doloeno frekvenco.
Frekvenca je torej koliina, ki pove, kolikokrat se neka vrednost pojavlja.
Precej bolj pregledno je, e vse vrednosti razvrstimo v neke razrede, pravimo, da GRUPIRAMO podatke.
Skupaj zdruujemo po ve vrednosti in nato razredu pripiemo neko frekvenco, ki je vstota frekvenc vseh
vsebpvanih vrednosti.
Nazadnje sledi e GRAFINI PRIKAZ dobljenih skupin.

2. Pravila za formiranje razredov!
Ko govorimo o pravilih formiranja razredov se moramo najprej spoznati z osnovnimi pojmi.

RAZREDNI INTERVAL - simbol, ki definira razred. Omejen je z mejami.
SPODNJA MEJA - najnija vrednost, ki e spada v razred. Pri tem pazimo, da je ta vrednost enaka
pravemu podatku. e imamo torej med rezultati same cele vrednosti, mora biti tudi meja razreda cela
vrednost.
ZGORNJA MEJA - najveja vrednost, ki e spada v razred (eprav je morda med podatki ni). Tudi ta je
seveda enaka pravim podatkom.
NATANNA SPODNJA MEJA - Od spodnje meje odtejemo pol enote in dobimo natanno spodnjo mejo.
Ta vrednost ni enaka pravemu podatku, torej e so pravi podatki cela tevila, bodo natanne vrednosti
polovike.
NATANNA ZGORNJA MEJA - Zgornji meji pritejemo pol enote. Tudi ta vrednost ni enaka pravemu
podatku.
ZAKAJ NATANNE MEJE? Interval 60 - 62 pravzaprav sega od 59,5 do 62,5, saj vrednost 60 zavzema
interval od 59,5 do 60,5, vrednost 62 pa sega od 61,5 do 62,5.
ODPRT INTERVAL - je interval, ki nima obeh mej. Tak je na primer interval, ki zavzema vse vrednosti
nad 30. Taken interval uvedemo takrat, ko imamo nad doloeno vrednostjo tako majhno frekvenco, da bi
bilo nesmiselno tvoriti nadaljne razrede.
VELIKOST RAZREDA - je razlika med obema natannima mejama razredi. Ponavadi naj bi imeli vsi
razredi enako velikost.
PREDSTAVNIK RAZREDA - je srednja toka razreda, ki pa MORA BITI ENAK PRAVI VREDNOSTI.
Dobimo jo tako, da setejemo obe meji in vsoto delimo z 2. Pri kakrnemkoli nadaljnem raunanju se ne
oziramo ve na posamezne vrednosti znotraj razreda, temve si predstavljamo, da frekvenca razreda sodi
kar k predstavniku razreda.

GRUPIRANJE!
1. Kot prvo je potrebno doloiti obseg, torej razliko med najvejo in najmanjo vrednostjo.
2. Celoten obseg razdelimo na enake dele. Veinoma se drimo dveh pravil:
tevilo razredov naj bi bilo 5 do 20
velikosti intervala naj bi bile 1, 2, 3, 5, 10 ali 20
3. Za vsak razred pretejemo frekvence
Vedno pa moramo paziti naslednje:
Predstavnik razreda in meje so enake PRAVIM REZULTATOM!
Natanne meje razreda niso enake pravim rezultatom.

Rzredi naj bodo ravno prav veliki - e so preveliki, izgubimo preve informacij o razpritvi, e so
premajhni, pa samo grupiranje nima pomena, saj preglednost ni dovolj bolja.

3. Prednosti in pomanjkljivosti grupiranja?
Prednost je predvsem, da je pregled bolji, pomanjkljivost pa je v izgubi podatkov.

4. Kakne grafine prikaze poznamo in kaj je pri njih pomembno?
Precej enostaven je HISTOGRAM, to je graf, kjer si pomagamo s stolpci. Na absciso nanaamo interval (od
natanne spodnje do natanne zgornje meje), nato pa nanaamo frekvenco. Viina stolpca pomeni torej
frekvenco, irina pa velikost intervala. Prednost histograma je, da je precej pregleden, na alost pa daje
precej odsekano sliko. Histogram dostikrat uporabljamo pri nominalnih podatkih.
To odsekanost nato popravi POLIGON, kjer na absciso nanaamo srednje vrednosti, nato pa na ordinato
njim odgovarjajoe frekvence. Te toke nato poveemo in slika je e bolj podobna pravi. Paziti pa moramo,
da vleemo ravne, ostre rte in ne zaokroujemo grafov, kar radi ponemo. rte lahko zaoblimo, e imamo
za to neko teoretsko podlago. Prednost poligona je tudi v tem, da lahko nanesemo po dva ali ve krivulj na
isti graf. Pri tem moramo seveda paziti, da je N pri obeh distribucijah enak. e sta Numerusa razlina, si
pomagamo z relativnimi frekvencami. Tu raje prikazujemo intervalne in racionalne spremenljivke.
Pri obeh grafih moramo paziti na to, da je razmerje med Absciso in Ordinato 4:3.
Pri prikazu si lahko pomagamo tudi s strukturnimi stolpci ali s strukturnimi krogi, pitami. Te naine
uporabljamo pri nominalnih podatkih.

5. Kaj je kumulativna frekvenna distribcuija in ogiva?
Spoznati pa se moramo tudi s kumulativno frekvenno distribucijo. Kumulativna frekvenna distribucija na
spodnjo mejo nam pove, koliko je vrednosti pod spodnjo mejo nekega razreda. To frekvenco dobimo tako,
da setejemo vse frekvence prejnjih razredov. Kumulativna frekvenca na zgornjo mejo pa nam pove,
koliko vrednosti je pod zgornjo mejo tega razreda, torej moramo prejnji kumulativni frekvenci priteti e
frekvenco trenutnega razreda. Imamo pa e kumultaivno frekvenco sredine razreda, ki pa jo dobimo tako,
da kumulativno frekvenci na spodnjo mejo pritejemo polovico frekvence trenutkega razreda.

Ko riemo kumulativne ogive moramo vedeti, da je tu razmerje med Absciso in Ordinato 3:4. K. ogivo na
spodnjo mejo nariemo tako, da na abscisi oznaimo natanne spodnje vrednosti in nato na ordinato
nanaamo pripadajoe kumulativne frekvence. Pri K. ogivi na zgornjo mejo pa imamo na abscisi natanne
zgornje meje.

Vse opisane grafe lahko nariemo tudi, ko imamo relativne frekvence, paziti moramo le, da vrednost ne
presee 100 %. Ko imamo na ordinati e vrednost 100%, ne smemo narisati puice navzgor, saj nad to
vrednostjo ne more biti ni.

6. Kakne krivulje poznamo?
Krivulj je ve vrst. Kot prvo je lahko krivulja simetrina ali pa asimetrina v katerokoli stran (levo ali
desno).
Glede na tevilo maksimumov loimo unimodalne, bimodalne in multimodalne distribucije. Poznamo e
distribucije J in U oblike.

7. Kaj so prednosti grafinih prikazov?
- takoj opazimo posebne karakteristike distribucije, kar samo iz tevilnega prikaza ni mono
- opazimo morebitne napake, ki jih naredimo
- zelo hitro lahko razberemo modus
- lepo prikaejo razmerja - to pa ne velja za 3D grafe, ki spremenijo razmerja, zato jih raje ne uporabljamo

III. POLOAJ POSAMEZNIKA V SKUPINI
e na izpitu izvemo le tevilo tok, ki smo jih dosegli, s tem najverjetneje nismo zadovoljni. Hoemo
vedeti tudi, kaken je bil rezultat drugih, v kateri del spadamo - med bolje/slabe?

Kot prvo nam veliko pove e ABSOLUTNI RANG (Rx). Ta nam pove, kateri po vrsti smo, ne glede na to,
koliko ljudi je opravljalo test. Tu ne smemo pozabiti na vezane range. e torej ve ljudi zasede isto mesto,
dobijo vsi isti rang, kateri pa je odvisno od mesta, na katerem so in od tevila teh ljudi. Na primer, da smo
prve tri range e oddali, ko prideta na vrsto dva z enakim tevilom tok. e di se le malo razlikovala, bi en
dobil 4, drugi pa 5 tok. Ker sta si enaka, jima obema damo enak rang in sicer povpreje obeh, to pa je 4,5.
e bi bili na tem mestu trije, bi morali dobiti povpreje etrega, petega in estega mesta, torej bi dobili vsi
rang 5. ENOSTAVNO!

Dostikrat nam sam absolutni rang ne pove dovolj, sploh e ne vemo, koliko ljudi je reevalo test. Zato si
pomagamo z relativnim rangom (P), ki ga izraunamo:

P= (R-0,5)/N
0,5 odtejemo zato, ker mora biti R zvezna spremenljivka (1 sega od 0,5 do 1,5).

Lahko pa raunamo tudi obratno:

R= P*N + 0,5
Vasih se zgodi, da elimo izraunati, koliken rang bi imel nekdo z doloenim tevilom tok, ki pa na jih
med rezultati ni. Takrat si pomagamo z naslenjo formulo:

(R - R0)/(R1 - R0) = (X - X0)/(X1 - X0)
X pomeni vrednost, katere rang iemo, R je njen rang.
X0 pomeni najblijo vrednost, ki je pod X, R0 je njen rang.
X1 pomeni najblijo vijo vrednost, R1 je njen rang.

Razlika med enim rangom nije in enim vije je ponavadi 1, saj rangom dajemo zaporedna naravna tevila.
Zato je torej R1 - R0 kar enako 1, torej dobimo iz zgornje enabe:
R = R0 + (X - X0)/(X1 - X0)

Za grupirane podatke lahko celotno formulo zapiemo takole:
(R - Fo) /f o = (X - Xo)/i
kar lahko zapiemo tudi:
R = Fo + (f o(X - Xo))/i
kjer je f = frekvenca razreda, v katerem je vrednost
i= razredni interval
Xo pa je natanna spodnja meja
Fo je spodnji rang razreda

e nariemo K. ogivo, lahko iz nje oditamo, koliko odstotkov vrednosti je bilo pod vrednostjo, ki nas
zanima.. Tako lahko najdemo precentil - to je vrednost, pri kateri je imel doloen odstotek ljudi manji
rezultat.
Xp (percentil) = Xo + [ (X1 - Xo)*(Rp - Ro)] / (R1 - Ro)

Pri grupiranih podatkih:
Xp (percentil) = Xo + [ i*(Rp - Fo)] / fo
Percentili torej delijo rezultate na 100 delov. Govorimo o Centilih. Imamo pa e kvartile, ki delijo podatke
na tiri dele. Tako velja:
Q1 = X0.25
Q2 = X0.50
Q3 = X0.75
Q4 = X1.00
Drugi kvartil pa je hkrati tudi mediana - mera centralne tendence, ki jo bomo spoznali kasneje.
Poznamo tudi decile, ki pa delijo podatke na decet delov. Tako velja:
D1 = X0.10 D2 = X0.20 D3 = X0.30 D4 = X0.40 D5 = X0.50 D6 = X0.60
D7 = X0.70 D8 = X0.80 D9 = X0.90
Vse dane vrednosti pa lahko oditamo iz kumulativne ogive.

III.a RELATIVNA TEVILA
Relativna tevila so primerna zato, ker nam omogoajo LAJO PRIMERJAVO. Poznamo pa ve vrst
relativnih tevil:
1. Strukturna tevila
2. Koeficienti (kvocienti)
3. Indeksi

STRUKTURNA TEVILA
... so proporci in procenti.

Gre za to, da primerjamo del s celoto, ali pa da primerjamo rezultate na veih vzorcih ali na veih testih.
KOEFICIENTI / KVOCIENTI
Gre za raznavrstne podatke, kjer imamo neko enoto. Poznamo osnovne in reciprone kvociente.
OSNOVNI - 7,4 zdravnika /1000 prebivalcev
RECIPRONI - 135,1 prebivalcev/zdravnika (delimo 1000 s 7,4)

INDEKSI
Tu imamo istovrstne podatke, kjer ni enote, elimo pa na primer primerjati z nekim zaetnim stanjem ali s
povprejem. Baza je lahko stalna ali pomina (tu govorimo o verinih indeksih).

I = lani/letos (na primer)* 100%

ISTA OSNOVA - stanje primerjamo vsako leto z istim stanjem. Primer je na primer, ko raunamo indekse
92 do 93, nato 92 do 94,...

PREMINA OSNOVA - VERINI INDEKS - vsaki primerjamo s stanjem, ki je bilo prej - leto 93
primerjamo z 92, 94 s 93,... Skupni indeks nato izraunamo kot zmnoek vseh.
iskupni = 100 * (ii/100)

Povpreni verini indeks pa raunamo s pomojo geometrine sredine.
_
i = 100 m isk/100

Povpreno relativno tevilo iz razlinih vzorcev vedno raunamo ponderirano:
__
r = (rj*nj)/nj

IV. MERE CENTRALNE TENDENCE
1. Kaj so to mere centralne tendence?
To so vrednosti, katerim se rezultati pribliujejo. Ponavadi je okoli teh vrednosti gostota rezultatov
najveja, posebej v normalnih ali vsaj priblino normalnih distribucijah. Vendar pa mera centralne tendence
ni sinonim za povpreje - povpreje je namre le ena izmed teh mer.

2. Katere mere centralne tendence pozna? Natej lastnosti in naine izraunavanja vsake posebej!
Najbolj pogosto uporabljana in tudi najbolj znana mera centralne tendence je zagotovo ARITMETINA
SREDINA. Dobimo jo tako, da setejemo vse rezultate in dobljeno vrednost delimo z Numerusom. Kadar
jo raunamo iz podatkov, ki so razporejeni v frekvenno distribucijo, vsako vrednost pomnoimo seveda
tudi z odgovarjajoo frekvenco, ter ele nato setevamo in delimo.
Podobno je pri grupiranih podatkih, le da tu uporabimo namesto posaminih vrenosti kar sredine razreda.
Te pomnoimo s frekvenco razreda in ponovno delimo z Numerusom (ne s tevilom razredov!). Osnovna
formula je torej:
M = (x)/N
za grupirane podatke pa se spremeni v:
M = (fx)/N
Lahko imamo ve skupin, za katere poznamo aritmetine sredine in Numeruse. e elimo izraunati
skupno aritmetino sredino, si pomagamo s tehtano aritmetino sredino. To dobimo tako, da vsako M
skupine pomnoimo z N te skupine, vse setejemo, nato pa vse delimo s celotnim N. Formula je torej:
M = (Nk * Xk)/N

LASTNOSTI ARITMETINE SREDINE:
1. Suma odklonov okoli aritmetine sredine je 0!
(X - M) = 0
2. Suma kvadratov odklonov okoli aritmetine sredine je minimum!
(X - M)**2= 0
3. Lahko raunano tehtano aritmetino sredino, tako da M vsake skupine pomnoimo s pripadajoim N,
nato vse setejemo in delimo s skupnim N.
4. Aritmetino sredino lahko raunamo tudi tako, da od vsakega X odtejemo neko konstanto, izraunamo
aritmetino sredino dobljenih vrednosti, nato pa le - tej pritejemo konstanto.
Aritmetino sredino lahko uporabljamo na RACIONALNEM IN INTERVALNEM nivoju.

Naslednja tudi precej pogosta in uporabna mera centralne tendence je MEDIANA. Uporabljamo jo takrat,
ko kakni ekstremni rezultai aritmetino sredino zelo spremenijo, saj ta mera ni tako obutljiva na
ekstreme. To je vrednost, pod in nad katero imamo polovico vseh rezultatov. Kadar imamo naparno tevilo
rezultatov, je mediana kar srednji rezultat.
Ko pa je tevilo rezultatov parno, vzamemo srednji dve tevili in kot mediano vzamemo njuno srednjo
vrednost.
e imamo taken primer:
7, 7, 7, 8, 8, 8, 9, 9, 10, 10;
torej mediana nastopi med drugo in tretjo sedmico. Tu ne moremo rei, da je mediana kar 8, saj se te tri
osmice enakomerno razporedijo po intervalu od 7,5 do 8,5. Spodnji vrednosti moramo torej priteti dve
tretjini intervala, kar je torej 0,66. Mediana v tem primeru je torej 7,5+0,66 = 8,16!

Pri grupiranih podatkih pa doloamo mediano po naslednjih korakih:
1. Doloimo kumulativne frekvence za vse razrede
2. Izraunamo vrednost N:2 in pogledamo, v katerem razredu se nahaja ta rezultat.
3. Vzamemo spodnjo mejo tega razreda in interpoliramo, kar pomeni, da moramo interval razdeliti na f
delov, nato pa najti ravno tisti rezultat, ki je na sredini.

Formula izgleda takole:
Me = SM + ((N/2 - cf)*i)/f
kjer cf pomeni kumulativno frekvenco
f pomeni frekvenco razreda, kjer naj bi bila mediana
Mediana nam torej deli celotno distribucijo na dva enako velika dela, torej gre pravzaprav za 50. percentil.
Mediano lahko uporabljamo tudi na ORDINALNEM nivoju.

Naslednja mera centralne tendence je MODUS. To je najbolj pogosta vrednost, torej vrednost, ki se
najvekrat pojavlja. V eni distribuciji imamo lahko ve modusov, zato govorimo o uni-, bi- ali
multimodalni distribuciji. Lahko pa se zgodi, da distribucija sploh nima modusa (e imajo vse vrednosti
isto frekvenco), ali pa, da se le ta nahaja med dvema vrednoszima. e imata dve vrednosti, ki sta skupaj
enako frekvenco, potem vzamemo za modus srednjo vrednost med njima. Na modus vpliva le frekvenca,
ne pa tudi numerus. Pri grupiranih podatkih vzamemo za modus kar sredino razreda, ki ima najvejo
frekvenco. Modus lahko uporabljamo na vseh nivojih.

Imamo pa e tri zelo redko uporabljane mere centralne tendence. Prva takna mera je GEOMETRINA
SREDINA, to je N-ti koren produkta N tevil. Uporablja se pri indeksih, pri izraunavanju mere hitrosti
nekih sprememb. Pogoj, da sploh lahko pristopimo k raunanju katrekoli G je, da so vse vrednosti
pozitivne.

Nadalje poznamo HARMONINO SREDINO, ki se uporablja takrat, ko raunamo povpreje nekih
odnosov, ulomkov. e tedaj raunamo M pride do napak, ker ne upotevamo koliine. Izraunamo jo kot
reciprono aritmetino sredino recipronih vrednosti. Za boljo predstavljivost naj raje zapiem formulo:

Ponavadi velja, da je H < G < M. Enaki so takrat, ko so vse vrednosti x enake.

Zadnja mera centralne centendce, ki jo bomo spoznali pa bo POVPRENA KVADRATNA SREDINA, ki
jo namesto M uporabljamo takrat, ko imamo velike ekstreme, saj je precej manj obutljiva nanje kot M.
Izraunamo jo kot aritmetino sredino kvadriranih vrednosti x.

3. Kdaj uporabljamo glavne tri mere centralne tendence, kaj so njihove prednosti in
pomanjkljivosti?
Aritmetina sredina ima nedvomno precejnjo prednost pred drugima dvema, saj nam omogoa precej
nadaljnih izraunov, poleg tega je dobro definirana. Obutljia je na vse podatke, kar pa je hkrati tudi njena
pomanjkljivost, saj to pomeni, da jo nakljuni ekstremni podatki zelo izkrivijo. Uporabimo jo takrat, ko je
distribucija vsaj priblino simetrina, ko elimo vedeti center gravitacije. Vendar pa moramo vedeti, da
lahko to mero uporabljamo le na intervalnem ali racionalnem nivoju. Kadar so torej vrednosti na nijih
nivojih, se moramo izraunu M kar lepo izogniti.

Mediana je zelo hitro izraunljiva, zato jo uporabljamo, kadar nimamo asa za raunanje M. Mediana
zamenja M tudi takrat, ko imamo ekstremne vrednosti, ko je torej distribucija izkrivljena, ali pa, e je
nepopolna, torej e imamo na koncu odprt interval. Zelo je uporabna tudi tedaj, ko nas zanima, na kateri
strani distribucije leijo rezultati. Merski nivo, kjer e lahko uporabljamo mediano je ordinalni. Prednost
mediane je, da sicer zavzema vse podatke, a ni obutljiva na njihovo odstopanje, temve le na N.
Na nominalnem nivoju nam lahko pomaga le modus, ki je groba, hitra ocena. Izraunamo ga pa tudi tedaj,
ko nas zanima najpogosteji rezultat. Pomanjkljivost le-te mere je v tem, da upotevamo le rezultate
modalnih razredov. To lahko tudi korigiramo z interpolacijo s pomojo sosednjih dveh razredov.

4. Razmerja med temi tremi merami v razlinih distribucijah!
Pri popolnoma simetrini distribuciji so vse tri mere enake. e imamo distribucijo, ki je asimetrina v
desno, bo najmanji modus, nato mediana, aritmetina sredina, ki pa je najbolj pod vplivom ekstremov, pa
bo najveja. Pri asimetrinosti v levo bo seveda ravno obratno - najmanja bo M, nato mediana, najvejo pa
bo modus.

V. MERE RAZPRENOSTI
1. Kaj je variiranje?
Rezultati, iz katerih dobimo mere centralne tendence, se zbirajo k tem vrednostim. Vendar pa vsi rezultati
hkrati teijo tudi k neki razpritvi. Ko govorimo o variiranju torej govorimo o tendenci rezultatov po
oddaljevanju od mer centralne tendence. Prav vsak vzorec ima kot karakteristiko variranje rezultatov. Samo
podatek o merah centralne tendence nas lahko popolnoma zavede in dve popolnoma razlini skupini
proglasimo za enaki.

2. Kako delimo mere razprenosti?
Delimo jih na CENTRALNO in DISTANNO orientirane. Centralno orientirane so povpreni odklon,
standardna deviacija in varianca, distanno pa obseg, interkvartilni in percentilni razmik. Za centralno
orientirane je znailno, da upotevajo distance in da se opirajo na centralne mere.

3. Katere so glavne mere razprenosti? Kako jih izraunamo in kaj so njihove osnovne lastnosti?
Najbolj osnova mera, ki nam govori o razprenosti je TOTALNI INTERVAL, ki je pravzaprav razlika med
najvejim in najmanjim rezultatom v vzorcu. Njegovi pomanjljivosti sta, da ga ekstremi zelo preoblikujejo
in pa da naraa z N (veinoma). Pri velikih vzorcih je zelo nestabilen, zato naj bi ga uporabljali le na
vzorcih, ki so manji ali enaku 10. e so podatki homogeni je ta mera precej veljavna.

Nekoliko bolj veljavna mera je POVPRENI ABSOLUTNI ODKLON, ki je aritmetina sredina absolutnih
vrednosti odklonov. Za razliko od TI ta zavzame vse podatke, vendar pa zanemari predznak. e bi ga
namre upotevali, bi dobili 0. Vendar pa se v statistiki raje izgobamo absolutnih vrednosti.

Zato si pomagamo v VARIANCO, kjer namesto absolutnih vrednosti uporabimo kvadrate odklonov.
Formula za izraun je:

Zakaj N-1 in ne N? e delimo z N-1 dobimo nepristrano oceno populacijske variance, e pa delimo z N, je
ta ocena pristranska. N pomeni numerus, torej tevilo podatkov, N-1 pa je tevilo stopenj svobode, torej
tevilo vrednosti, ki lahko prosto variirajo.
e varianco korenimo, dobimo bolj pogosto uporabljano mero, imenovano STANDARDNA DEVIACIJA.

Lastnosti SD:
1. Minimalna je takrat, ko jo raunamo okoli AS
2. V normalni distribuciji velja: AS SD 68.27%
AS 2SD 95.45%
AS 3SD 99.73%
3. Lako raunamo tehtano SD.

Zelo redko uporabljani meri sta INTERKVARTILINI RAZMAK in PERCENTILNI RAZMAK. Gre za
mere razpritve, ki temeljijo na izraunih kvantilov. Formuli:
Q = (Q3 - Q1) P = P90 - P10
e interkvartilni raznak razpolovimo, dobimo semiinterkvartilni razmak.

3. Kako raunamo varianco iz grupiranih podatkov in kaj so posledice grupiranja?
Kot prvo izberemo nek razred nekje na sredini, ki mu damo oznako 0, nato pa razredi nad njim dobijo
zaporedne oznake 1, 2, 3, ... pod njim pa -1, -2, -3, ... Te dobljene vrednosti pomnoimo z dano frekvenco,
nato pa jih kvadriramo in ponovno pomnoimo s f. Nato si pomagamo s formulo:

Vendar pa z grupiranjem pride do nekih sprememb. Znotraj intervala namre nimamo ve pravih podatkov
o razpritvi, ampak se obnaamo, kot da so podatki notri enakomerno razporejeni. Zato ponavadi dobljena
aritmetina sredina ni prava aritmetina sredina, mi pa kljub temu raunamo variacijo okoli te vrednosti.
Kot pa vemo e od prej, so odkloni okoli katerekoli vrednosti veji kot odkloni okoli AS, zato je torej nova
varianca veja kot prava. e so razredi majhni, je razlika zanemarljiva, e pa so veliki, uporabimo
Sheppardovo korekcijo:

Sedaj, ko poznamo tako M kot SD se lahko lotimo e ene mere, ki doloa poloaj posameznika v skupini,
to pa je STANDARDNI SKOR, ki ga dobimo:
e poznamo AS in SD lahko torej za vsak rezultat izraunamo, na katerem delu distribucije je. Tako tudi
vemo, koliko je vejih/manjih rezultatov. S pomojo teh vrednosti so podatki med seboj laje primerljivi -
lahko primerjamo med seboj posameznike na istem testu ali pa rezultate enega posameznika na veih testih.
Iz z-tabel nato oditamo p-vrednost, ki nam pove, na katerem delu lei dani rezultat.
4. Kaj je koeficient variacije?
e poznamo AS in SD lahko posamezne SD primerjamo med seboj samo, e so AS enake. e pa so
razline, jih moramo nekako standardizirati:

Koeficient je zelo uporaben, e elimo vedeti, v kateri skupini je variacija veja ali v kateri lastnosti ista
skupina bolj variira.

5. Kdaj uporabljamo posamezne mere variacije in kaj vpliva na odloanje o uporabi le teh?
Na odloanje vpliva brzina izrauna, stabilnost mere (kar je v nasprotnem razmerju) in pa to, katere
nadaljne izraune potrebujemo. Obseg uporabimo takrat, ko nimamo asa, ali pa potrebujemo informacije o
ekstremih. Kvartilni razmik raunamo takrat, ko imamo le informacijo o mediani, imamo nepopolno ali
zelo asimetrino distribucijo z ekstremi. Uporabimo ga tudi takrat, ko elimo rezultate srednje polovice.
Povpreni absolutni odklon uporabimo takrat, ko imamo razne ekstreme, ki SD preve izkrivijo (ker so tam
razlike kvadrirane), ko potrebujemo tonost, a ni asa za SD. Ko imamo podatek o MD v normalni
distribuciji, pa lahko SD ocenimo sami iz MD.
MD = SD *4/5 Q = SD*2/3

Va. MOMENTI, ASIMETRIJA IN SPLOENOST
1. Kaj so momenti, kakne momente poznamo?
Momenti so skupina deskriptivnih statistik, ki so blizu druinama M in SD. Gre za odkone od nekih
vrednosti - od AS ali od 0. Imamo tiri vrste momentov:

1. OKOLI VREDNOSTI A
... je pravzaprav osnovna formula za vse momente
2. ZAETNI
X1 = M
3. CENTRALNI
m1 = 0, m2 = varianca
4. BREZDIMENZIONALNI
a1 = 0, a2 = 1

2. Odnosi med momenti!
S pomojo nekaterih formul lahko iz enih momentov izraunamo druge.

3. Kako raunamo asimetrijo?
Asimetrija je stopnja odstopanja od simetrinosti ND. Pri ugotavljanju mere asimetrije si pomagamo s
tretjim brezdimenzionalnim momentom, zato temu koeficientu reemo tudi MOMENT KOEFICIENT
ASIMETRIJE.
Pri simetrinih distribucijah je ta koeficient 0, oziroma pri zanemarljivo asimetrinih od 0.5 do - 0.5. e je
koeficient pozitiven, je distribucija pozitivno asimetrina, e je negativen, pa je negativno asimetrina.
Zakaj? Pri pozitivno asimetrini distribuciji imamo namre veliko ve, in tudi veje odklone v desno stran,
torej imamo ve pozitivnih odklonov. Pri negativni pa je obratno, saj imamo ve odklonov na levi strani, ki
prinaa negativne odklone. Slika:

Lahko pa si pomagamo s e enim koeficientom asimetrije, ki mu pravimo Pearsonov koeficient asimetrije,
ki pa sloni na e omenjenih odnosih med M, Me in Mo pri normalnih in asimetrinih distribucijah.

4. Kako raunamo sploenost?
Sploenost je mera odstopanja koninosti/sploenosti gldene na ND. Pri merjenju si pomagamo s etrtim
brezdimenzionalnim momentom. Pri normalni distribuciji ta dosee vrednost 3. e je dobljen koeficient
veji od 3, je distribucija leptokurtina, e pa je manji od 3, je platokurtina.

Imamo pa e kvartilni in 10-90 percentilni koeficient:

VI. OSNOVE TEORIJE VERJETNOSTI
1. Natej definicije verjetnosti!
SUBJEKTIVNA - nanaa se na lastno preprianje o monem dogodku v prihodnjosti.
KLASINA/MATEMATINA - verjetnost je razmerje med tevilom iskanih dogodkov in vseh monih
dogodkov, ki so enako moni.
... ali: e se nek dogodek lahko zgodi na h nainov v N ponovitvah, je verjetnost tega dogodka h/N
Vendar pa ta definicija ni dobra, ker uporablja sinonim.
RELATIVNO - FREKVENNA - ocena verjetnosti nekega je e relativna frekvenca tega dogodka. Z
veanjem tevila poskusov je ta ocena blije in blije pravi verjetnosti. Verjetnost je torej limita, h kateri se
pribliuje relativna frekvenca z veanjem N.

2. Kaj je to pogojna verjetnost?
Pogojna verjetnst je verjetnost dogodka A pod pogojem, da se je prej e zgodil dogodek B. Ker se je
dogodek B e zgodil se torej spremeni vzorni prostor. Kaj pa je vzorni prostor? To je mrea vseh monih
izzidov, iz katere enostavno oditamo verjetnost vsakega izmed dogodkov. Formula za neodvisna dogodka:
Sploen obrazec:

3. Kaj je to kombinirana verjetnost?
Kombinirana verjetnost je verjetnost, da bo en osebek hkrati v dveh skupinah, da se torej zgodita dva
dogodka. Poznamo pa tudi izkljuujoa se dogodka, kar pomeni, da se - v primeru, da se zgodi eden, drugi
ne more ve.

4. Razloi pravilo adicije in multiplikacije!
Kadar nas zanima verjetnost, da se zgodi eden ali drugi dogodek, je verjetnost disjunkcije vsota obeh
verjetnosti (aditivnost). e pa elimovedeti verjetnost, da se zgodita dva dogodka hkrati (govorimo o
konjunkciji), pa je verjetnost produkt obeh verjetnosti.

5. Kaj je matematino upanje?
Matematino upanje je zmnoek vrednosti in verjetnosti. Gre torej za aritmetino sredino vzorca velikosti
N, kjer se neke vrednosti X pojavljajo z doloenimi frekvencami.

6. Kaj so permutacije in kombinacije?
Permutacije uporabljamo tedaj, ko imamo n objektov in jih elimo razporediti po nekem redu. Lahko jih
razporedimo na n! nainov, kjer n! pomeni zmnoek vseh tevil od n in nije.
V primeru, da imamo n objektov, pa moramo iz njih izbrati r objektov in jih razporediti kakorkoli, imamo
n!/(n-r)! monosti.
Pri komibacijah pa vrstni red ni pomemben, raunamo pa jih:

VII. VERJETNOSTNE DISTRIBUCIJE
1. Kakne distribucije pozna?
Distribucije delimo na:
- VZORNE - dobimo jih, ko opazujemo, kako se parametri vseh monih vzorcev distribuirajo. Lahko jih
dobimo za katerikoli parameter.
- VERJETNOSTNE - opisujejo pojav z vidika verjetnosti. So distribucije verjetnosti za vsak X.
- FREKVENNE - dobimo jih, ko obdelujemo podatke in za vsako izmed vrednosti pretejemo, kolikokrat
se pojavlja.
Verjetnostne distribucije so lahko naprej diskretne ali kontinuirane. Diskretna verjetnostna distribucija
lahko zavzame diskretni set vrednosti X z verjetnostmi p. Ta naj bi bila idealna frekvenna distribucija. Pri
kontinuirani distribuciji je X kontinuirana variabla.

2. Kaj ve o normalni distribuciji?
Normalna distribucija je KONTINUIRANA in dosee maksimum, ko je z enak 0. Njene glavne lastnosti
so:

Poleg tega pa e:
1. Simetrinost - M, Me in Mo so enaki
2. Maximalna vrednost y je doseena, ko je z=0, to je 0.3982
3. Asimptotinost - vedno bolj in bolj se pribliuje osi x, a je nikoli ne dosee, poleg tega pa se razteza v
neskonnost na obeh straneh.
4. Infleksija pri 1 - takrat preide iz konvekse v konkavno
5. z............68.26%
2z...........95.44%
3z...........99.73%

Pogoji, da dobimo takno distribucijo so:
1. Normalno distribuiranje variable
2. Velik N
3. Enaki pogoji za vse preizkuance
4. Heterogenost v iskani in homogenost v vseh drugih lastnostih
Enaba normalne krivulje je:

3. Kaj ve o binomski distribuciji?
Tudi binomska distribucija je KONTINUIRANA verjetnostna distribucija. Osnovna enaba je binomski
izrek, pri razlenitvi pa si lahko pomagamo s Pascalovim trikotnikom:

Nastane s kombinacijo faktorjev, katerih pojavljanje je enako verjetno, normalna distribucija pa ne!
Njene lastnosti so:

4. Odnos med tema dvema distribucijama!
Binomska distribucija se z veanjem N pribliuje normalni, vendar je nikoli ne dosee. To lahko vidimo e
iz lastnosti obeh - e je torej tretji moment binomske distribucije enak 0, potem etrti kljub temu ni enak 3
(ker morata biti p in q enaka 0.5, e pa to vstavimo v formulo, rezultat ni enak 3). Normalna distribucija pa
je klub temu lahko aproksimacija za binomske verjetnosti.

5. Poissonova distribucija in znailnost x-osi!
Ta distribucija pa je diskretna verjetnostna distribucija, kar pomeni, da je os x diskretna. Formula:

Lastnosti:

Znailna je za redke dogodke: Np < 5 N>50.

6. Kaken pa je odnos med Poissonovo in binomsko: podobnosti in razlike?
Ko je p zelo majhen, se pribliata. Enaki pa ne moreta biti e zaradi razlik v oseh x (diskretnost oziroma
kontinuiranost). Vedno moramo biti pozorni na izhodine pogoje - znailnost x-osi, v tem se razlikujeta.

7. Zakaj so te tridistribucije za psihologe tako pomembne?
Zato, ker se pojavi, ki jih psihologi merimo, pogosto tako distribuirajo, ali pa vsaj predpostavljamo, da se.

VII. TEORIJA VZORENJA
1. Kaj je teorija vzorenja?
Teorija vzorenja je tudija odnosa med vzorcem in populacijo, ki je zelo uporabna za oceno populacijskih
parametrov. Uporabna je pri ugotavljanju, e dva vzorca izhajata iz iste populacije in ali je razlika med
dvema vzorcema pomembna, v kolikni meri nek vzorec odslikava poulacijo. Pomaga nam pri izvjanju
zakljukov o populaciji. Ta teorija doloa mejo velikosti vzorcev - ti morajo biti dovolj veliki, da so bolj
reprezentativni. Najbolj reprezentativen vzorec je tisti, ki ima N kot Npopulacije. vendar pa je preuevanje
prevelikih vzorceh precej drago, poseben problem pa imamo tedaj, ko s testiranjem uniujemo objekte (na
primer, e moramo odpirati konzerve hrane, da stehtamo vsebino).

2. Reprezentativni vzorci!
Populacija so vsi lani skupine, katere lastnost merimo. Skupina je lahko tudi neomejena, ali pa zelo velika,
zato vzamemo ponavadi omejeno tevilo primerkov, ki pa mu reemo vzorec. Statistike tega vzorca so
ocene parametrov.
Z vzorenjem se ikvarja posebno podroje metodologije, to je nartovanje eksperomenta.
NART EKSPERIMENTA = kako opredeliti vzorec, da bo reprezentativen
EKSPERIMENTALNI NART = opredeljije nart in evalvacijo rezultatov
Vzorec naj bi bil iz populacije izvleen sluajno. Vzorimo lahko na ve nainov:
- SLUAJNO VZORENJE - iz populacije izbiramo vsak n-ti len na podlagi tabele sluajnih tevil.
Vendar pa moramo paziti, da ta seznam, iz katerega vleemo ni pristranski (na primer seznam telefonskih
naronikov, kjer so doloeni ljudje izpueni). Sluiajni vzorec pomeni, da ima vsak objekt v populaciji
enkao monost, da je izbran v vzorec.
- PROCENTUALNO/STRATISFICIRANO VZORENJE - procentualno mora biti v vzorcu enako
podskupin kot v populaiji. Vendar pa je tu problem, e so kake skupine zelo majhne, ali pa e imamo
mnoice, ker teh odstotkov ne poznamo dobro.

V vsakem primeru naj bi bil vzorec reprezentativen, kar pomeni, da mora imbolje predstavljati populacijo.
Ravno zato se odloamo za sluajni izbor - vsak lan populacije ima enako monosti vkljuitve v vzorec.

Vzorimo lahko z ali brez nadomeanja. Ko nadomeamo, to pomeni, da izbrani objekt ponovno vrnemo
v izbor in je lahko ponovno izbran. S tem simuliramo neskonno mnoico.

3. Kaj so napake vzorenja?
Napake vzorenja so razlike med parametrom in oceno. Ponavadi pa ne poznamo populacijskega
parametra, zato napake ne moremo izraunati. lahko pa naredimo neko izjavo, ki nam pove, kolikna
napaka se lahko vee ob oceno. Napake se s ponavljanjem pode enakimi pogoji izniijo.

4. Kaj so vzorne distribucije?
Vzorne distribucije so distribucije statistik vzorcev, ki jih nakljuno vleemo iz populacije. Dobimo jih, ko
opazujemo, kako se distribuirajo parametri vseh monih vzorcev. Izhodie je vzorenje vseh monih
vzorcev neke velikosti in distribucija parametrov za vse te vzorce.
Iz populacije torej izbiramo vse mone vzorce in za vsakega izraunamo doloeno statistiko. Distribucija,
ki jo dobimo naj bi bila primerna za ocenjevanje populacijskega parametra.
Vzorci med seboj variirajo, ta variacija pa je odvisna od pouplacije in sestavljenosti. e iz vzorca
zakljuujemo na populacijo, moramo upotevati vse sluajne variacije. Variabilnost vzorcev je maksimalna,
ko je maksimalna tudi variabilnost v populaciji.

e izbiramo veje vzorce, je standardna napaka vzorne distribucije manja, kar pomeni, da je ocena
parametra bolj UINKOVITA.
Manji vzorci - ve jih je in okoli parametra se razporejajo tako, kot je v resnici, torej imamo boljo oceno
standardne deviacije.

5. Katere vzorne distribucije smo obdelali?
Vzorne distribucije statistik so lahko normalno distriburane (na primer vzorne distribucije aritmetinih
sredin) ali pa mono izkrivljene (vzorne distribucije korelacijskih koeficientov).
Kot prvo smo spoznali VD aritmetinih sredin. Aritmetina sredina te VD je tudi populacijska aritmetina
sredina. Standardno deviacjo te VD izraunamo pri konni mnoici tako:
pri neskonni pa:

e je distribucija normalna, ima stndardna deviacija vzorne distribucije takne lastnosti, kot standardna
deviacija.
Pri vzorni distribuciji proporcec je aritmetina sredina VD enaka pravemu proporcu v populaciji. e pa
elimo namesto proporcev imeti tevila, uporabljamo formule:

Vasih pa nas zanimajo distribucije razlik med dvema statistikama. e vleemo vzorce iz dveh populacij, ki
imata enako aritmetino sredino, bi morala biti aritmetina sredina teh razlik med dvema vzorcema enaka 0.

7. Kaj je standardna napaka?
Standardna napaka je standardna deviacija vzorne distribucije. V primerih, ko se N ve od 30 in je vzorna
distribucija priblino normalna, velja naslednje:

Pri velikih vzorcih je ta napaka manja.

8. Kaj je teorem centralne meje?
e je N ve od 30, se aritmetine sredine razporejajo v obliki normalne distribucije, eprav morda v
populaciji ni takne distribucije.
IX. OCENJEVANJE PARAMETROV
1. Kaj je teorija ocenjevanja parametrov?
Teorija ocenjevanja parametrov se ukvarja z ocenjevanjem parametrov populacije na podlagi statistik
vzorca. Te teorija si pomaga tudi s teorijo vzorenja. Gre za del inferenne statistike.

2. Kaj so lastnosti ocen?
NEPRISTRANOST - nepristramo oceno dobimo s ponavljanjem meritev. Nepristrana ocena ne stremi v pre
ali podcenjevanju. Pristrana ocena se razlikuje od parametra, primer je varianca, ki jo raunamo samo z N
in ne z N - 1.
DOSLEDNOST - ocena je dosledna, e se z veanjem N pribliuje pravemu parametru.
UINKOVITOST - se nanaa na standardno napako. Veja je ta napaka, manj uinkovita je ocena.
ZMOGLJIVOST

3. Kakne ocene poznamo?
Kot prvo imamo TOKOVNO OCENO, kjer je statistika vzorca ocena populacijskega parametra. Lahko pa
doloimo tudi INTERVALNO OCENO. Najdemo namre neko obmoje, znotraj katerega z veliko
verjetnostjo lei parameter. Slednje ocene so bolj zanesljive.

4. Kaj je interval zaupanja, meje zaupanja in kako jih dobimo? Kaj so osnovne enote?
Interval zaupanja je obmoje, znotraj katerega se z doloeno verjetnostjo nahaja nek populacijski
parameter. Meje zaupanja so vrednosti, ki to obmoje omejujejo. Interval zaupanja dobimo s pomojo e
znane standardne napake. Osnovna formula za izraun intervala zaupanja je:

Nato pa obstajajo seveda manje razlike med posameznimi parametri:
aritmetine sredine
proporci
standardne deviacije
Verjetnost, da je parameter znotraj tega parametra je pri z=1.96 95%, pri z=2.58 99% itd.
Osnovne enote intervala zaupanja so torej:
nivo tveganja (z-vrednost)
standardna napaka
sam parameter (aritmetina distribucija VD)

5. Kaj je verjetnostna napaka?
Verjetnostna napaka je meja intervala, ki zavzema 50% distribucije.

X. ODLOANJE
1. Kaj je teorija odloanja?
Teorija odloanja je del inferenne statistike, ki se ukvarja z ocenjevanjem hipotez. Pri tem ocenjevanju si
pomagamo z veimi postopki, ki so navedeni spodaj. Pomembna je zato, ker nam daje eksperimentalno
delo veliko podatkov, ki zahtevajo primerjavo, evalvacijo dveh ali ve parametrov.

2. Kaj je statistina odloitev in kaj hipoteza?
Statistina odloitev je odloitev v zvezi s populacijo na osnovi vzorca. Vasih naredimo predpostavke v
zvezi s populacijo in temu pravimo hipoteza. Hipoteza je podlaga, domena, podmena, nek stavek, ki e ni
dokazan, a je znanstveno sprejemljiv, mi pa se trudimo dokazati ga.

3. S kaknimi hipotezami imamo opravka pri odloanju?
Nielna hipoteza vedno predpostavlja, da je populacijski parameter enak vzorni statistiki, oziroma, da ni
pomembne razlike med parametri populacij, iz katerih vzorca izhajata. To hipotezo vedno skuamo
zavreu, kajti dokazati je nikoli ne moremo. Po Fisherju je nielna hipoteza vsaka hipoteza, ki jo elimo
preveriti.
Kaknakoli druga hipoteza (ponavadi nasprotje nielne) pa je alternativna.

4. Kako preizkuamo H0?
Pomagamo si s testi pomembnosti, to so statistine procedure, ki nam pomagajo do odloitve, ali naj
proglasimo razlike med statistikami za nakljuje ali za posledico razlik med skupinama.
Ti testi nam povejo verjtnost, da se neka razlika pojavi sluajno. e je ta verjetnost majhna, pomeni, da
razlika ni sluajna in torej zavrnemo H0.

5. Kakne napake lahko naredimo?
Obstajajo tiri monosti:
e nielna hipoteza dri, jo lahko:
- potrdimo, torej se odloimo pravilno
- zavremo, kar pomeni, da naredimo ALFA napako

e nielna hipoteza ne dri, jo lahko:
- potrdimo, torej naredimo napako tipa BETA
- zavremo, torej se ne zmotimo

ALFA napako naredimo takrat, ko zavrnemo H0, ko je le-ta pravilna. Vejetnost te napake je odvisna od
nivoja pomembnosti. BETA napaka se zgodi, ko potrdimo H0, ki je v resnici napana. Odvisna je od N in
dejanske razlike med populacisjkima paramwetroma. e manjamo eno napako, veamo drugo, razen v
primeru, ko zveamo N in se torej zmanjata obe.

6. Kaj je nivo pomembnosti?
Nivo pomembnosti je maksimalni riziko napake tipa alfa. Ta nivo raziskovalec ponavadi doloi vnaprej. e
je verjetnost manj ali enaka 5%, to pomeni, da je razlika pomembna na 5% ravni. Ko izbiramo nivo
pomembnosti, izbiramo nivo tveganja. e izberemo 5% nivo, to pomeni, da je 5% verjetnosti, da se v
odloitvi zmotimo.

7. Kaj so enosmerni in kaj dvosmerni testi in kdaj jih uporabljamo?
Dvosmerni testi so imenovani tudi nedirektni in jih uporabljamo takrat, ko nas zanima, ali obstaja razlika
med dvema parametroma, ne glede na smer. Polovico verjetnosti napake imamo na eni, polovico na drugi
strani. Pri 5% nivoju imamo torej v zgornjem in v spodnjem delu po 2,5% verjetnosti napake.
Lahko se zanimamo tudi za smer razlike. Tako je H0: razlika med AS je ve od ni (na primer). Takrat je
vsa vrednost na eni strani.

8. Kaj je mo testa?
Mo testa je verjetnost potrditve pravilne hipoteze in je torej veja, e je verjetnost beta napake manja.

9. Kako testiramo pomembnost pri malih vzorcih?
Problem malih vzorcev je v tem, da njihove distribucije niso niti priblino normalne, kot smo predpostavili
pri velikih. Namesto z vrednosti izraunamo t s pomojo formule:

Z veanjem stopenj svobode se t-distribucija blia normalni, drugae pa so vrednosti p odvisne od stopenj
svobode.
t - DISTRIBUCIJA je simetrina, a bolj sploena od normalne. Z veanjem df postaja bolj in bolj
koniasta in pri veliem df je blizu nd.

10. Kaj so stopnje svobode?
Stpnje svobode so ptevilo neodvisnih opazovanj v vzorcu - tevilo parametrov, ki morajo biti izmerjeni.
Gre za mero prostosti variiranja parametrov.

11. Kako raunamo razliko med dvema aritmetinima vzorcema pri velikih vzorcih?
NEODVISNI
O statistino pomembni razliki govorimo tedaj, ko ni sluajna in najverjetneje res obstaja. e lahko
parametru pritejemo in odtejemo 3 standardne napake, pa vseeno ne zavzamemo vrednosti 0, to pomeni,
da je razlika zagotovo pomembna. Razlike med pari vzorceh lahko vnaamo v vzorno distribucijo in
sredina te dobljene distribucije je prava razlika med vzorcema. Kot prvo moramo dobiti skupno varianco in
sicer nepristransko oceno le-te, nato pa izraunamo e standardno napako ter t-vrednost:

Psihologi imamo kriterij 1,96 in e je dobljeni t veji od tega pomeni, da je razlika statistino pomembna
(glej pogoje za t-test).
Lahko testiramo tudi pomembnost razlike med aritmetino sredino in pa neko fiksno vrednostjo. Takrat
izraunamo standardno napako:

e je v intervalu M SE naa fiksna vrednost, potem razlika ni pomembna. e nas zanima, ali razlika dveh
aritmetinih sredin statistino pomemno odstopa od neke fiksne vrednosti, potem uporabimo tole formulo:
ODVISNI
e sta variabli, ki ju obravnavamo povezani, potem si pomagamo z enabo:

12. Kako raunamo razliko med aritmetinimi sredinami malih vzorcev?
Formule za male teste so bolj natanne in jih zato lahko uporabljamo tudi na velikih. Obratno pa ne smemo
postopati. Pomagamo si s t- distribucijo, kjer se kriterij kritine vrednosti t menja glede na tevilo
rezultatov. Pogoj za uporabo t-testa je homeoscedastinost varianc, zato moramo kot prvo preveriti, ali se
varianci pomembno razlikujeta. To naredimo z F razmerjem:

e ta razlika ni statistino pomembna, izraunamo skupno standardno deviacijo, in nato e standardno
napako:

S pomojo e znane formule izraunamo t-vrednost, za df pa velja:
df = (N1 - 1) + (N2 - 1)
ODVISNI
Pri odvisnih si pomagamo z metodo razlik, kjer se kot vzorec vzamejo individualne razlike parov. S to
metodo si pomagamo lahko tudi, e ne poznamo mere povezanosti in sicer takole:
poiemo razliko v vsakem paru
izraunamo skupno razliko s formulo:
izraunamo oceno variance

ter t vrednost:

Kot vidimo, korelacija zmanja varianco.

13. Kaj so predpogoji za uporabo t-testa?
Kot prvo, morajo biti vzorci iz populacije z normalno distribucijo, veljati pa mora tudi homogenost varianc.
Ta pogoj lahko izpustimo, ko imamo podobna vzorca ali podobne oblike populacije.
14. Kaj naredimo, e so razlike med variancami statistino pomembne?
V primeru, da razlika med variancama je statistino pomembna, si pomagamo s Cohran Coxovo
aproksimacijo in sicer je najprej potrebno izraunati standardno napako po formuli:

...in t, ter df, nato pa pogledamo obe t vrednosti, za obe df. S pomojo teh vrednosti izraunamo korigirano
kritino vrednost t:
Velja enako: e je dobljeni t veji od kritinega, je razlika pomembna.

Lahko si pomagamo tudi z aproksimacijo Welcha, ki je korigiral df:

... nato pa zaokroimo.

15. Kaj naredimo, e distribucije niso normalne?
e je N velik, se distriucija e dovolj priblia normalni, da lahko uporabljamo zgoraj omenjene metode.
Nenormalnost se pri velikih N ne pozna. Pri dvosmernem testu se tudi pri malih vzorcih ne pozna drastino,
e niso normalni. Zatakne pa se pri enosmernih testih, kjer si pomagamo z neparametrinimi testi.

16. Kako si pomagamo pri kombinaciji dveh testov?
Razlika se lahko pri veih testih ponovi v isto smer, a nikoli ni statistino pomembna. Pomagamo si z
nomogramom, to je nek grafini prikaz verjetnosti. Obe p vnesemo na nomogram (vsako na svoj rob) in
potegnemo rto. Iz diagonal se nato odita priblino verjetnost.

17. Kako je pri velikih vzorcih proporcev?
Standardno napako dobimo s pomojo formule:
NEODVISNI
Izraunamo standardno napako:
Da lahko to izraunamo, pa potrebujemo skupni p:

In nato e z-vrednost:
Pogoj za to je velik N in ne preve ekstremen p. pN>5 je pogoj.
ODVISNI
Raunamo lahko na dva naina in sicer lahko izraunamo standardno napako:

in nato e t-vrednost, ali pa si pomagamo s tabelami. Takrat je standardna napaka enaka:

kjer sta a in d proporca, kjer pride do spremembe. Pogoj za uporabo tega testa je, da vsota obeh celic
presega 10.

18. Mali vzorci?
NEODVISNI
Kot prvo izraunamo skupen p:

Nato pa e standardno napako razlike s pomojo le-tega:

t-vrednost je enaka:
ODVISNI
Korelacija spremeni izgled. Sestavimo 2x2 tabelo in izraunamo SE:
Temu testu pravimo McNemarov test spremembe. t-vrednost dobimo:

19. Kakne so teave pri delu s proporci?
e so vzorci preveliki ali premajhni dobimo nenatanno sliko. e za nek odstotek poveamo neko vrednost,
ne dobimo iste vrednosti, e nazaj zmanjamo za isti odstotek.

20. Pomembnost razlik med variancami!
Pri variancah si lahko pomagamo z razliko ali z razmerjem. Distribucija teha razmerij je F-distribucija, kjer
imamo stopnje svobode:

Imamo dve nepristrani oseni variance in sicer:

F razmerje je razmerje, kjer je zgoraj VEJA varianca. V tabeli pa imamo verjetnosti za enosmerno
testiranje, zato jih podvojimo.
ODVISNI
Lahko se zgodi, da imamo povezane podatke, e na primer testiramo isto skupino pred in po nekem
vplivanju nanje. e je varianca kasneje veja, to pomeni, da je to vplivanje bolj razprilo podatke. e pa se
zmanja to pomeni, da jih je zdruila, da so odgovori postali bolj uniformni.

21. Kaj ve o F-distribuciji in kano je razmerje med F in t?
F distribucija je distribucija razmerij varianc in je asimetrina v desno. Z veanjem stopenj svobode se
pribliuje normalni. F je t**2.

22. Kaj moramo paziti pri zakljuevanju?
Ne moremo se brez podlage zatekati h kavzalnim zakljukom.
Statistino pomembna razlika ne pove dovolj in e stvar ni statistino pomembna, ne pomeni, da ne obstaja.
H0 nikoli ne potrdimo - lahko ugotovimo, da so razlike, ne da niso.
Statistino ni tudi praktino pomembno.

XI. HI - KVADRAT
1. Kaj je hi-kvadrat?
Hi - kvadrat je mera diskrepance med teoretskimi (priakovanimi) in empirinimi (opazovanimi)
frekvencami. Teoretske frekvence so tiste, ki jih priakujemo glede na teorijo verjetnosti, glede na nao
nielno hipotezo. Empirine so tiste, ki jih dejansko dobimo s preizkuanjem in pogosto odstopajo od
priakovanih. Te razlike med obema so lahko tudi zanemarljive in ko nas zanima, e je razlika pomembna,
uporabimo hi-kvadrat. Osnovna formula za izraun hi-kvadrata je:

e dobimo sumljivo majhno vrednost hi-kvadrata, je prav tako lahko prilo do napak.

2. Kako testiramo pomembnost hi-kvadrata?
Kot prvo na osnovi H0 doloimo teoretske frekvence, nato uporabimo osnovno formulo. e je dobljeni hi-
kvadrat manji od kritinega, ki ga razberemo iz tabele, potem razlike NISO POMEMBNE, torej hipoteze
ne zavrnemo. Vejo vrednost zavzame hi-kvadrat pri isti df, bolj je pomembna diskrepanca. Z veanjem N
ponavadi veamo tudi hi-kvadrat, saj pritevamo ve in ve razlik (ki pa so e kvadrirane).
Ko raunamo t.i. goodness of fit postopamo takole:
- doloimo natanne zgornje meje intervalov
- za te vrednosti doloimo z vrednosti
- iz tabel normalne distribucije oditamo p, ki nam pomeni kumulativen proporc
- z odtevanjem izraunamo p, ga pomnoimo z N in dobimo priakovane frekvence
Kot teoretsko distrbucijo lahko vzamemo katerokoli. Stopnje sovobode pri posameznih distribcuijah so: pri
Poissonovi distribuciji imamo N-2 stopenj svobode, pri normalni distribuciji N-3 in pri pravokotni N-1.

3. Kako postopamo v kontingennih tabelah?
Kontingenne tabele so tabele z opazovanimi frekvencami, ki imajo lahko h vrstic in k stolpcev. V vsaki
celici lahko doloimo teoretske frekvence po naslednji formuli:

Konne frekvence so marginalne vsote. Stopnje svobode raunamo: (fv*fs)/N, kjer fv pomeni marginalno
vsoto frekvenc v vrsticah, s pa pomeni v stolpcih.

4. Kdaj uporabimo Yatesovo korekturo?
Uporaba te korekture je nujno potrebna takrat, ko imamo tevilo stopenj svobode 1, ali ko so teoretske
frekvence manje od 5. Ko korigiramo moramo vse opazovane frekvence, ki so veje od teoretskih
zmanjati za 0.5, vse manje od teoretskih pa poveamo. S tem torej zmanjamo diskrepanco in tako
zmanjamo tudi hi-kvadrat. Lahko si pomagamo tudi s posebno formulo:

Vasih pa majhne frekvence kar zdruujemo, da nam ni potrebno uporabiti te korekcije.

5. Kaj so pogoji in pomembna znailnost hi-kvadrata?
Pomemna znailnost hi-kvadrata je, da ima lastnost aditivnosti - lahko setejemo nekaj hi-kvadratov,
stopnje svobode vseh pa prav tako setejemo, in ponovno oditamo iz tablice - pomembnost se lahko
spremeni.
Glavno je, da teoretske frekvence niso premajhne:
- e imamo ve kot 20% teoretskih f manj od pet, spajamo celice
- pri tabelah 2x2 ne sme biti niti ena priakovana frekvenca manj od 5
- ko so tabele veje lahko hi-kvadrat raunamo le, e ima manj kot 20 % celic teoretsko
frekvenco manj od 5 in nobena celica nima manje od 1. e tega ni, moramo spajati celice
pri 2x2 tabelicah mora biti N>40, e pa se giba med 20 in 40 imamo e dodatni pogoj - teoretske
f morajo biti vsaj 5
- pri zelo majhnem N uporabimo Fisherjev test, s katerim se izognemo konstantnim zaokroevanjem in
priblikom.

- pri df = 1 je obvezna Yatesova korekcija
- delamo s frekvencami, ne s %
- teoretskih frekvenc = empirinih frekvenc (vsaj priblino)
- vkljuimo vse dogodke - merimo pojav/nepojav
- vsak posameznik le enkrat
Lahko ga uporabljamo na kateremkoli nivoju in pri kakrnikoli distribuciji.

6. Kako lahko uporabljamo hi-kvadrat - na kaknih vzorcih?
Ko imamo en vzorec lahko ugotavljamo, v kolikni meri odstopajo dobljene frekvence od priakovanih. V
2xk tabelo vpiemo prave f in priakovane, ki jih dobimo s pomojo H0. e H0 predpostavlja normalno
distribucijo, uporabimo goodnes of fit, e priakujemo pravokotno, razdelimo N na k delov in damo vsem
celicam enako teoretsko frekvenco in tako dalje.
e je hi-kvadrat majhen, razlike niso statistino pomembne, torej pravimo, da se distribucija ujema s
priakovano. e pa preseemo kritino vrednost hi-kvadrata, pravimo, da so razlike pomembne. e je hi-
kvadrat manji od tevila stopenj svobode, hipotezo o distribuciji potrdimo.

Pri dveh ali veih neodvisnih vzorcih oblikujemo 2x2 ali 2xk tabelo. Teoretske frekvence predpostavimo s
pomojo formule: ( fv*fs)/N
Pri 2x2 tabelah si pomagamo z Yatesom, ki smo ga e omenjali.
Vrednost hi-kvadrata nam ne pove ni o smeri odstopanj, o tem, katere skupine se pomembno in katere
nepomembno razlikujejo. Tu si pomagamo s pogledom v tabelo.

Hi kvadrat test lahko uporabimo tudi pri dveh odvisnih vzorcih in sicer nas zanima, e obstaja korelacija
med rezultati skupine pred in po nekem posegu. Upotevamo tiste rezultate, ki se spremenijo in si
pomagamo s formulo:

7. Hi-kvadrat test in korelacije!
Hi-kvadrat test govori o povezanosti dveh variabel in e je ta vrednost pomebna, je tudi povezanost
pmebna. Samo velikost korelacije dobimo s fi ali kontingennim koeficientom.
rezultate, katerih povezanost elimo ugotoviti, vnesemo v kontingenno tabelo. Stpnje svobode, katere
poiemo v tabeli izraunamo: (v - 1)(s - 1), kjer v pomeni tevilo vrstic, s pa tevilo stolpcev.

8. Kakna je distribucija hi-kvadrata?
Pri razlinih df imamo razline oblike distribucije. Na splono so distribucije asimetrine v desno, z
veanjem df pa se bliajo ND. Hi-kvadrat ne more biti nikoli negativen, vedno je veji od 0.

9. Aplikacija na test pomembnosti razlik med proporci!
Pri 2x2 tabeli velja, da je hi-kvadrat enak z na kvadrat. Ko nas zanimajo neodvisni proporci, si pomagamo s
formulami:


Pri odvisnih pa:

10. Zakaj je hi-kvadrat pomemben za psihologe?
Zelo pomemben je zato, ker ga lahko uporabljamo na nominalnih podatkih, od njega pa dobimo veliko
informacij - o
XII. KORELACIJA in REGRESIJA
1. Kaj je korelacija in kaj predikcija?
Med variablami pogosto obstaja nek odnos, ki ga preizkuamo prikazati tudi matematino. Tedaj si
pomagamo s korelacijo in regresijo. Regresija je napovedovanje vrednosti odvisne spremenljivke na
podlagi neodvisne spermenljivke in poznanega odnosa med njima. Korelacija je mera povezanosti med
obema (ali veimi) variablami, ki nam torej pove nek odnos med njima. Pove nam, kako dobro regresijska
enaba opie odnos. e iz grafinega prikaza lahko razberemo priblino velikost korelacije in smer. E JE
KORELACIJA 0, NE MOREMO NAPOVEDOVATI, SAJ NAM x NE POVE NI O y.

2. Prilagajanje krivulj in napovedovanje!
Govorimo o iskanju aproksimativnih krivulj. Kot prvo je potrebno zbrati podatke, ki jih nato parno
vnesemo v graf imenovan scatter plot. Na podlagi tega lahko prostorono rto, ki bi najbolj ponazarjala
odnos. To je aproksimativna krivulja. Imamo ve monih krivulj, katera pa najbolje ustreza, razberemo iz
diagrama. Najenostavneja je premica Y = a + bX, kjer naklon (b) izraunamo: (Y2-Y1)/(X2-X1); a je
odsek na osi y.
Vendar pa je bolj natanna in zato vekrat uporabljana metoda najmanjih kvadratov. Iemo krivuljo, ki bo
najbolj ustrezala naim tokam in bodo kvadrirana odstopanja od nje dala najmanjo vrednost. Vsaka toka
od dane premice lahko odstopa za nek d, mi pa iemo premico, ki bo dala najmanjo vsoto kvadratov teh
d.
e imamo podano enano premice, lahko zakaterikoli X izraunamo pripadajoo vrednost Y, ki bo seveda
tem bolj natanna, tem bolja bo korelacija.

3. Normalne enabe in vrednosti a in b!
Normalni enabi krivulje, ki najbolj ustreza naim tokam sta:
Y = aN + bX
XY = aX + bX**2

Vrednosti a in b dobimo:
Y X**2 - XY
a = NX**2 - (X)**2

NXY - (X) Y
b= NX**2 - (X)**2
__ __
e enabo krivulje izrazimo z odkloni (majhen y = Y - Y in x = X - X )
xy xy
y= x**2 * x = x**2 * y

4. Kakne so lahko korelacije?
Imamo:
pozitivne in negativne
linearne in nelinearne
mnotone in nemonotone
pozitvno in negativno pospeene
popolna/je ni/nepopolna
e ugotovimo, da je koeficient linearne povezanosti 0, to lahko pomeni, da korelacije ni, ali pa je
nelinearna. V psihologiji je praktino nemogoe dobiti popolno povezanost zaradi velike variabilnosti
merjenih pojavov.

5. Kako delimo totalno varianco? Razloi vse pojme!
Totalno varianco delimo na nepojasnjeno in pojasnjeno.
Totalna varianca je odvisna od odstopanja pravih vrednosti Y od njihove aritmetine sredine.
Pojasnjena varainca je varianca napovedanih vrednosti Y' od aritmetine sredine. Pojasnjena ji pravimo
zato, ker vse vrednosti - kot e vemo variirajo okoli centralnih mer. Drugo ime za to varianco je tudi
varianca napovedanih vrednosti.

Nepojasnjena varianca je varianca razlik med dobljenimi in napovedanimi vednostmi. Nepojasnjena ji
pravimo zato, ker mi priakujemo, da je ni, saj priakujemo, da so nae napovedi najbolje. Pravimo ji tudi
rezidualna varianca, ker gre za neke ostanke, torej odstopanja med napovedmi in pravimi Y.Imamo e tretje
ime zanjo, to je standardna napaka napovedi.

Ta standardna napaka je seveda manja, e imamo vejo povezanost, saj so v primeru veje povezanosti
ocene blije pravim vrednostim. SN ocene ima podobne lastnosti kot SD. e ob regresijski premici na
razdalji ene Snocene v obe smeri potegnemo vzporednici,dobimo obseg, ki zajemo 68 % rezultatov.
SN le pri nelinearni povezanosti prikrojena:

6. Kaj je to rezidual?
Rezidual je ostanek, je razlika med napovedanimi in pravimi vrednostmi Y.

7. Kaj je koeficient determinacije in kaj eta-kvadrat?
Eta kvadrat je odnos med pojasnjeno in totalno varianco in nam torej pove, koliko variacije Y lahko
pojasnimo z variacijo X. Pri linearni korelaciji je ta vrednost kar enaka r**2, kar je imenovano tudi
koeficient determinacije. Eta-kvadrat je zato lahko indikator nelinearne povezave.
e je eta-kvadrat veja od koeficienta determinacije, je razlika v nelinearni povezanosti.
V primeru, ko je eta kvadrat enaka 0, je vsa varianca nepojasnjena, e je enaka 1, je vsa pojasnjena, torej je
povezanost popolna.

8. Kako raunamo eta-kvadrat?
lahko kot prvo izrazimo z ulomkom pojasnjena/totalna varianca. Imamo pa e nadaljno formulo:

Kot lahko vidimo, zgornji izraz vkljuuje tudi formulo za varianco med skupinama, kakrno uporanljamo
pri anovi.
lahko uporabimo, ko je ena variabla na intervalnem, druga pa tudi na nominalnem nivoju. e imamo x
vrednost dihotomno, imamo pravzaprav enako vrednost kot biserialni koeficient. Ta vrednost, ki jo dobimo
nato variira od 0 do 1, v splonem pa je veja od r (ker je tudi indikator nelinearne povezanosti).

9. Kako pridemo do koeficienta korelacije na podlagi pojmov variance?
Koeficient determinacije je pojasnjena varianca deljena s totalno. Ta koeficient je r**2. Govori nam le o
velikosti, ne pa tudi o smeri povezanosti. e ga korenimo, dobimo tako negativne, kot pozitivne vrednosti.
Sega lahko od -1 do +1, nanj pa ne vpliva,ali je NV X ali Y. Koeficient korelacije je torej koren koeficienta
determinacije.
Y je odvisen od Y' in od napake:

r dobimo torej:

10. Z regresijsko terminologijo razloi, kako pridemo do pojma korelacije!
Formuli za linijo najmanjih kvadratov lahko zapiemo:
y = (r * Sy * x)/Sx in x= (r*Sx*y)/Sy

V primeru, ko sta nakolona (r*Sy/Sx in r*Sx/Sy) enaka, je r lahko le + ali -1. V tem primeru sta obe liniji
identini in korelacija je popolna. e je r enak 0, se premici oravokotno sekata.
r**2 = a*b
Imamo torej regresijsko premico, na kateri imamo vse ocene, ki jih doloamo. Te ocene se okoli lastne
aritmetine sredine distribuirajo razpreno, govorimo o POJASNJENI VARIANCI. Vendar pa se tudi prave
vrednosti distribuirajo okoli te povprene vrednosti, tedaj govorimo o TOTALNI varianci. Razmerje med
tema dvema variacijama - torej razmerje med variiranjem ocen in pravih vrednosti, je koeficient
determinacije. e to korenimo, dobimo koeficient korelacije. e je korelacija popolna, bi morali biti obe
varianci enaki, saj so torej ocene enake pravim vrednostim.

11. Naini izraunavanja Pearsonovega koeficienta korelacije!
Kot prvo si lahko pomagamo s produkt moment formulo:

V formuli lahko vidimo simetrijo med X in Y.

Naprej si lahko pomagamo s standardiziramo kovarianco:

Naslednja formula, ki jo lahko uporabimo, je formula z z-vrednostmi:

e sta Zx in Zy v istem vrstnem redu, je ta vrednost maximalna, minimalna pa je, e je vrstni red obrnjen -
tedaj imamo negativno korelacijo. e so te vrednosti brezsmiselno nametane, je korelacijo 0.
Vzroki - maximalna korelacija: ZxZy = Zx**2 = Zy**2 = N - 1
minimalna: ZxZy = - (N-1)

e pred Pearsonom se je uporabljala enaba:

e bi bila povezanost maximalna, bi bil ta koeficient 0. Majhen rezultat dobljen iz te formule je govoril o
visoki pozitivni povezanosti, nekoliko veji o tem, da ni povezanosti in zelo visok rezultat je prial o visoki
negativni povezanpsti. Rezultat se giblje od 0 do 4, veliko laje pa ga interpretiramo, e uporabimo
formulo:

Ta ima lastnosti, da nam vrednost 0 pove, da ni povezanosti, velikost koeficienta kae na koliino
povezanosti, predznak pa kae smer. Maksimalna vrednost je lahko 1, minimalna pa -1. Iz tega se potem
izpelje Pearson z z vrednostmi.

12. Zakaj se zgornja formula imenuje produkt moment formula?
To ime dobi zato, ker gre za mnoenje centralnih momentov x in y.

13. Kaj so pogoji Pearsonovega koeficienta korelacije?
Za raunanje r vrednosti moramo imeti neodvisna opazovanja, najmanj intervalni nivo. Meri le linearno
povezanost. Pogoj za uporabo je tudi HOMEOSCEDASTINOST in pa normalna razporeditev rezidualov,
ni pa potrebna ND vrednosti. e tem pogojem ni zadoeno, si moramo pomagati z drugimi meramo
korelacije, ki bodo opisane v naslednjem poglavju.

14. Korelacijska in regresijska vzorna teorija!
Poopulacijski koeficient korelacije oznaimo z rho, r je le ocena. Vzorna distribucija r-ov je pri rho=0
simetrina, pri vejem ali manjem populacijskem koeficientu, pa je izrazito asimetrina. Zato moramo
raunati pomembnost koeficienta glede na populacijski koeficient. Zakaj je pri nenielnem rho distribucija
nesimetrina? Ker ima r v obe smeri omejitev (1) in e Modus ni na sredi, pride do asimetrije. Slika:

Rho = 0

Rho = 0 Pomagamo si s Fisherjevo transformacijo! ta nam r-vrednosti pretvori tako, da se normalno
dostribuirajo.

Pomembnost razlik med dvema korelacijskima koeficientoma raunamo:

Pri regresiji imamo H0: a1 = A1 in to preverimo:

15. Fisherjeve z-vrednosti!
Pearsonov r transformiiramo zato, ker je vzorna distribucija preve izkrivljena. Z z-vrednostmi dobimo
normalno distribuirane vrednosti, ki se distribuirajo okoli vrednosti 0 z deviacijo 1.

16. Kaj lahko deformira r?
Grupiranje r vrednosti ne spremeni. Nelinearnost lahko deformira r. e sami izbiramo objekte glede na
rezultate (na primer poberemo le najbolje na nekem testu) zniamo korelacijo.

17. Interpretacija korelacije!
Mnogokrat napano interpretiramo in sicer s brez podlage doloamo kavzalno zvez (Y je vzrok/posledica
X). To ni vedno res, morda obstaja neka druga V, ki vpliva na oboje.

18. Kaj je kovarianca?
Kovarianca je suma produktov odklonov X od aritmetine sredine vseh X in Y od aritmetine sredine Y
ulomljeno z N.

XII. DRUGE MERE KORELACIJE
1. Katere mere korelacij uporabljamo za koreliranje rangov, opii postopke in povej pogoje uporabe!
Pri rangiranju r ni primeren, ker imamo le vrstni red, za r pa so pomembne z vrednosti, to pa so razlike.
Druge mere korelacije so manj natanne od r, zato jih uporabljamo le, ko ni pogojev za r.
Kadar nimamo vezanih rangov najraje uporabljamo SPEARMANOV RHO, ko si pomagamo z diferencami
rangov. Osnovna formula je:

Ko je d**2 enaka 0, je torej korelacija popolna, rho dosee vrednost 1. Imamo N-2 stopenj svobode.
Razlika s Pearsonom je v drugani interpretaciji. Tukaj pride do disperzije dobljenih podatkov, pri
Pearsonovem koeficientu pa je predpostavka o normalnosti e vkljuena. Rho je poseben primer
Pearsonovega r-a. e raunamo po formuli:

dobimo identien rezultat. Pri vezanih rangih sicer lahko uporabvljamo rho, a e jih je preve, ga raje
pustimo. Lahko uporabljamo korekcijo, ki zmanja vrednost rho in ga tako priblia r.
Rho lahko sega od -1 do +1
POMEMBNOST: e je N manji od 10, obstajajo tablice za kritine vrednosti, nad tem N pa raunamo po
formuli:

Za majhne N je rho bimodalno distribuiran. Z veanjem N se distribucija pibliuje normalni.

Ko imamo ve vezanih rangov si laje pomagamo s Kendallovim koeficientom rang korelacije - (TAU).
Spet imamo dve seriji podatkov na ordinalnem nivoju. Sam postopek temelji na naravnem zaporedju. Vse
X vrednosti razporedimo v naravno zaporedje, nato pa primerjamo zaporedne y med seboj. e sta y-na v
naravnem zaporedju damo oceno 1, e v inverznem -1 in e sta enaka 0. Vrednost 0 damo tudi tedaj, ko
imamo na x ali y vezane range. Pokazatelj urejenosti povezave je S, ki je vsota vseh teh vrednosti. e je S
pozitiven, imamo pozitivno korelacijo.
Formula za je: = S / S max, kjer je Smax enak N(N-1)/2.
Drugae je pri vezanih rangih, kjer je formula bolj zapletena:

Vezane vrednosti zamenjamo s povprenim rangom.
Ta koeficient lahko uporabljamo tudi tedaj, ko je ena variabla dihotomna in sicer jo umetno pretvorimo v
umetne range.
POMEMBNOST:
e so vezani rangi samo na Y, uporabimo formulo:
pri emer je aprokcimacija :

Z rangi pa lahko raunamo tudi KENDALLOV KOEFICIENT KONKORDANCE W. Tega uporabljamo
tedaj, ko imamo veje tevilo ocenjevalcev, ki rangirajo iste objekte. W testira odnos med realno in
maksimalno stopnjo ujemanja. Za vsakega ocenjevalca izraunamo sumo rangov, ki ji reemo Ri. e je
ujemanje popolno, so sume rangov ocenjevanih m, 2m, 3m, ... Totalna suma rangov je torej: mN(N+1)/2
skupna suma rangov je lahko: m(N+1)/2, kjer je m tevilo ocenjevalcev, N pa tevilo objektov. Skladanje
med ocenjevalci se kae kot variiranje sume rangov. Maximalno variiranje pomeni maximalno skladanje in
obratno. Sam koeficient izraunamo po formuli:

e imamo tudi vezane range, od Smax odtejemo T = ((t**2-t))/12
Kendalov koeficient konkordance lahko sega le od 0 do 1. e pa imamo ve kot 2 ocenjevalca, ne more biti
W nikakor 0. Lahko ga tudi pretvorimo v rho:

2. Na em temelji Kendallov ?
Izhodie je iskanje naravnega zaporedja.

3. Kaj je poliserialna korelacija in katere koeficiente poznamo?
??O poliserialni korelaciji govorimo tedaj, ko imamo eno intervalno in eno dihototomno spremenljivko.
Kot prvo imamo TOKOVNO BISERIALNI KOEFICIENT, ki ga uporabljamo takrat, ko imamo eno
spremenljivko na intevalnem in eno naravno dihotomizirano variablo (na primer moki-enska). Praviloma
ne dosee 1, saj so dihotomizirane tevilke nenatanne. Izpeljan je iz r za ta poseben primer in sicer iz
formule:

Formula za tokovno biserialni koeficient pa je:

kjer sta p in q proporca tevila primerov v obeh kategorijah variable y. Alternativni obrazc je:

POMEMBNOST: Raunamo jo s t-testom:

Sega od -1 do +1, a skrjnih vrednosti ne dosee, e ni p=0.5.
e imamo v osnovi kontiniurano variablo, pa smo jo mi umetno dohotomizirali, uporabimo BISERIALNI
KOEFICIENT. Ta je ponavadi veji od tokovnega. Uporabljamo ga pri bolj okrnjenih, asimetrinih
distribucijah. Formula zanj je:

Pri velikem N si lahko pri iozraunu POMEMBNOSTI pomagamo s:

Odnos med tokovnim in biserialnim:

4. Katere koeficiente lahko uporabimo v kontingennih tabelah?
Koeficient KONTINGENCE C uporabljamo pri nominalnih ali ordinalnih spremenljivkah. Pomagamo si s
hi-kvadratom:

Maximalna vrednost je enaka:
Pravo vrednost C dobimo, e C delimo s Cmax. C lahko sega od 0 do 1, vendar 1 nikoli ne dosee. C ne
zahteva simetrije.

Pri 2 naravno dihotomiziranih variablah pa uporabimo PHI KOEFICIENT , pri katerem si prav tako
pomagamo s hi-kvadratom:

Za oba koeficienta velja, da sta pomembna, e je pomemben hi-kvadrat. Lahko pa raunamo tudi s pomojo
p:
Tudi ta izraz je poseben odraz r. Phi koeficient lahko sega od -1 do +1, a to lahko doseemo le , e sta obe
p=0.5. e to ne velja, imata obe distribuciji razlino obliko in je popolno ujemanje nemogoe.
Omenim naj e TETRAHORINI koeficient, ki ga uporabljamo pri dveh umetno dihotomiziranih
variablah, ki sta v osnovi normalno distribuirani in kontinuirani.. Uporabljamo aproksimacijo koeficienta,
ki pa je dobra predvsem, e velja p=q=0.5 za obe variabli. Formula:

POMEMBNOST lahko raunamo s hi-kvadrat, e pa je populacijski r=0, lahko uporabimo:

5. Natej vse korelacijske koeficiente in povej, na katerem nivoju jih uporabljamo ter obseg!
Pearsonov r - intervalni ali racinalni med -1 in +1
Pearsonov rho - ordinalni med -1 in +1
Kendallov tao - ordinalni, lako je ena tudi nominalna, dihotomizirana med -1 in +1
Kendallov W - ordinalni - ve serij ordinalnih razporeditev med 0 in +1
Tokovno biserialni - naravno dihotmizirana in intervalna ali vija med -1 in +1
Biserialni - umetno dihotomizirana in intervalna med -1 in +1
Kontingenca C - nominalen nivo med 0 in +1
Fi - koeficient - naravno dihotomizirani med -1 in +1
Tetrahorini - umetno dihotmizirani ( v osnovi ND, kontinuiranost) med -1 in +1

6. Kaj je razlika med C in ?
C ali koeficient kontingence se uporablja pri veih vrednostih v kontingenni tabeli, ne le, ko imamo
dihotomizirane variable, fi pa se uporablja le tedaj, ko imamo 2x2 tabelo (naravno dihotomizirani). Fi
koeficient lahko dosee tudi negativno povezanost, C pa ne.

7. Kosinus pi korelacija in pogoji zanjo!
To je pravzaprav tetrahorini koeficient, pogoj sta torej dve umetno dihotomizirani variabli. Mi imamo le
formulo za aproksimacijo tega koeficienta.

8. Glede na kaj loujemo korelacijske postopke?
Loimo jih glede na nivo variable, na katerih lahko raunamo korelacijo.

XIII. MULTIPLA IN PARCIALNA KORELACIJA
1. Kaj je to parcialna korelacija?
Vasih nas zanima korelacija med neodvisno in odvisno variablo z izkljuitvijo vpliva ostalih, ki lahko
vplivajo na oboje. Ostale variable, ki bi lahko vplivale, moramo torej drati konstantne, pri vseh objektih
naj bi bila enaka vrednost te variable. Da to lahko umatno naredimo si pmagamo s koeficientom parcialne
korelacije:

POMEMNBOST raunamo s t-testom:

2. Kaj je multipla korelacija?
To je mera povezanosti med tremi ali veimi variablami. Odvisnim variablam reemo KRITERIJ,
neodvisnim pa PREDIKTOR. Ponavadi imamo ve prediktorjev, ki vplivajo na en kriterij. Koeficient
multiple korelacije je:

in lahko sega od 0 do 1. e ga kvadriramo, dobimo koeficient multiple determinacije, ki ima torej enako
vlogo kot r**2 pri korelaciji z dvema V. SN ocene je:

Vsak prediktor ima lahko razlino teo, zat doloimo tudi ponderje:

Iz tabele:

3. Multipla regresija!
Pri treh variablah (en kriterij in dva prediktorja) uporabimo formulo:

b-ji so konstante. Rezultat, ki ga dobimo je neka ravnina, ne ve krivulja. Pri ve kot dveh prediktorjih pa
imamo e verazsenostni prostor.

XIV. ANALIZA VARIANCE
1. Kaj je analiza variance?
Analiza variance je metoda deljenja variacije, ki smo jo opazovali na razline dele, ki bodo posledica
razlinih faktorjev. V osnovi se analiza variance uporablja za testiranje pomembnosti razlik med veimi
vzorci. H0 je, da vzorci izhajajo iz populacij z enako AS.

2. Potek analize variance!
Celotno variacijo v skupini lahko delimo na variacijo zaradi NV (to je med skupinama) in zaradi OV (to je
znotraj skupin). Tako imamo 3 vrste variacije:
- TOTALNA = vsota kvadratov odklonov vsakega mejenja od M
- ZNOTRAJ SKUPINE = vsota kvadratov deviacij vsakega merjenja od M skupine - povzroajo jo
individualne razlike in razne napake merjenja.
- MED SKUPINAMI = vsota kvadratov deviacij vsake vzorne M od skupne M (suma kvadratov odklonov
pravih rezultatov)
V osnovi lahko reemo, da e so variacije med skupinami manje kot znotraj njih, to ni pomembno. Tadva
dela - variacija znotraj in med - sta med seboj neodvisna.

3. Matematini modela ANOVE!

Xjk = j + jk (Vrednost x dobimo z vsoto prave arotmetine sredine in neke napake)

4. Potek analize variance!
Izraunamo vse posamezne variacije s pomojo formul:

Stopnje svobode so:
- totalna N - 1
- znotraj N - k
- med k - 1
kjer k pomeni tevilo vzorcev, N pa tevilo vseh osebkov.

Nato delimo variacijo znotraj in med s pripadajoimi stopnjami svobode in tako dobimo dve vrednosti
ocene variance ali MS (mean square). Nazadnje doloimo e F vrednost:

F = MSb/MSw
Pogledamo v F tabele in e na F presee kritinega, je pomembna razlika med vzorci.

V sumarni tabeli analize variance napiemo variacije, stopnje svobode, MS, F razmerje in p

5. Pogoji analize variance!
- sluajni vzorec
- enake variance (prej preverimo z F testom) - e to ne dri si lahko pomagamo s transformacijo
- ND v vzorcu (testiramo z goodnes of fit)
- ADITIVNOST raznih faktorjev
- OS je intervalna, NS pa nominalna

6. Kaken je odnos med analizo (F) in t testom (t)?
Analizo variance uporabljamo tedaj, ko imamo ve kot dva vzorca. e bi delali ve t testov, bi dobili vejo
mejo sluajnosti. t-test je za sluajne vzorce, e pa mi izmed vseh vzorcev izberemo dva, to ni sluajno. S t-
testi izgubljamo na natannosti variance, ki bi jo morali raunati za vse skupine.
Kadar imamo dve skupini, lahko dokaemo, da je f=t**2:

7. Kaj je rezidual?
Rezidual je napaka, je razlika

XV. NEPARAMETRINI TESTI
1. Kdaj in zakaj uporabljamo neparametrine teste?
Neparametrine teste uporabljamo:
ko imamo variable na nominalnem ali ordinalnem nivoju, ko imamo na primer le predznak ali rang
ne zakljuujemo o parametrih populacije
vzorna disribucija ni odvisna od predopstavk o distribuciji
ko imamo zelo majhne vzorce
Ti testi pridejo na vrsto zato, ker parametrinih zaradi nezadostnih pogojev ne moremo uporabiti. Posledice
uporabe teh testov so:
izguba informacij
manja mo
manja uinkovitost moi

2. Katere naparametrijske vzorce poznamo za en vzorec?
NOMINALNI NIVO
Uporabljamo lahko uporabljamo BINOMSKI test, in sicer izraunamo priakovane verjetnosti glede na H0,
nato izraunamo aritmetino sredino in standardno deviacijo po formulah:

Nato pa se lotimo e z testa, kjer raunamo razliko, odstopanje doblene vrednosti od priakovane
aritmetine sredine.
Poleg tega si lahko pomagamo tudi s hi-kvadratom, o katerem smo e govorimili (primerjamo goodness of
fit).

ORDINALNI:
Test homogenega niza, Kolmogorov-Smirnov test, Test toke spremembe

INTERVALNI:
Test simetrinosti porazdelitve

3. Kaj uporabimo pri dveh vzorcih, ki sta odvisna?
NOMINALNI:
Na nominalnem nivoju lahko uporabimo McNemarov test pomembnosti sprememb, to je hi-kvadrat test za
dva odvisna vzorca. Pomagamo si s formulo:

ORDINALNI:
Na ordinalnem nivoju uporabimo Test predznaka, ki je lahko eno ali dvosmeren. Vzamemo pare in za
vsakega oznaimo, ali je drugi v paru veji (+), manji (-) ali enak (0). Po H0 naj bi bila razlika med + in -
enaka 0. Osnovna ideja je, da je polovica razlik + in polovica -. Nato oblikujemo 2x2 tabelo in izraunamo
hi-kvadrat z Yatesom. Lahko pa tudi s formulo:

Na tem nivoju lahko uporabimo e Wilcoxonov test ekvivalentnih parov.

INTERVALNI:
Na tem nivoju uporabljamo Walshev test in randomizacijski test ekvivalentnih parov.

4. Kaj uporabimo pri dveh neodvisnih vzorcih?
NOMINALNI:
Kot prvo lahko uporabljamo hi-kvadrat za dva neodvisna vzorca (kontingenne tabele), lahko pa si
pomagamo tudi s Fisherjevim testom natanne verjetnosti.

ORDINALNI:
Medianski test uzvedemo tako, da doloimo skupno mediano obeh vzorcev. H0 je, da ni razlike med Me.
Temelji, da bo v obeh vzorcih enako objektov nad in pod mediano. Ko torej doloimo skupno Me,
oznaimo vrednosti nad njo s + pod njo pa z -. Oblikujemo 2x2 tabelo in izvedemo hi-kvadrat.

5. Ve odvisnih vzorcev?
Cohranov Q test lahko uporabljamo e na nominalnem nivoju.

6. Neodvisni vzorci?
Na nominalnem nivoju lahko uporabljamo hi-kvadrat, na ordinalnem pa tudi Razirjeni medianski test.
Doloimo skupno mediano, spet oznaimo + in -, nato pa spet oblikujeo kntingenno tabelo in hi-kvadrat.

XVI. MULTIVARIATNE METODE
1. Kako poteka faktorska analiza?
Namen te analize je iz veih manifestnih spremenljivk dobiti manj latentnih, ki pa med seboj ne bodo
korelirale. elimo najti te latentne spremenljivke, nato pa e odnose med latentnimi in manifestnimi.
Snovna faktorska enaba:

kjer je F vrednost na posameznem faktorju, U pa unikvitetni faktor, znailen za posamezno variablo.

h je KOMUNALITETA, dele variance, skupen vsem
s je SPECIFINOST - lastna spremenljivki, a ni posledica napake
e je NAPAKA
s + e = uUNIKVITETA

POTEK:
1. Najprej izloimo faktor, ki najve pojasnjuje, sledi naslednji in tako dalje. Vsak naslenji faktor pojasni
tisti del variance, ki ga prejnji ni.
2. Podatke damo v SPSS in dobimo ven:
- LASTNE VREDNOSTI: pove, koliko variance pojasni nek faktor
- odstotek variance, ki jo faktor pojasni (delimo lastno vrednost s tevilom spremenljivk
3. Doloiti moramo, koliko faktorjev bomo obdrali. V zvezi s tem imamo tri kriterije:
- KAISER GUTTMANOV obdri faktorje, ki imajo lastno vrednost nad 1
- Doloimo odstotek variance, ki ga morajo pojasniti vsi faktorji in potem izloimo ostale, ki pojanujejo
"odveno"
- Cattellov scree test/test drobirja - na graf nanaamo lastne vrednosti faktorjev in od najmanjega
potegnemo premico. Faktorji, ki se dvignejo nad to premico veljajo, jih vzamemo.
4. Dobimo matrike faktorske strukture, v kateri so korelacije med faktorji in manifestnimi spremenljivkami.
Lahko izraunamo kumunaliteto ali lastne vrednosti faktorjev.
5. Raunamo reproducirane korelacije, torej korelacije brez faktorjev, ki smo jih izloili.
6. Zadnji korak je interpretacija, doloanje imena faktorjev. Ime doloamo glede na variable, s katerimi
faktor variira. Da si to olajamo, si pomagamo z rotacijamo, ki nam faktorje in skupine variabel bolj
pribliajo. Poznamo pravokotne in poevnokotne rotacije. Pri pravokotnih ohrnimo kot med F in zato
ostanejo korelacije med njimi 0. Poevnokotne spremenijo kot in zato znejo faktorji korelirat.
rotacija ne spremni odnosov med variablami, temve med variablami in F. Matematino so tako rotirane
kot nerotirane variable enakovredne, a ratirane laje interpretiramo.

2. Katere multivariatne metode e poznamo?
KANONINA KORELACIJSKA ANALIZA
Imamo dva seta variabel - odvisne in neodvisne spremenljivke. Asnaliza jih med seboj tako ponderira, da
najbolje razloi korelacijo. Ie latentno variablo, ki je v osnovi variiranj za oba seta. rezultat je serija
ponderjev, ki povejo, v kolikni meri vsaka variabla korelira z latentno.
ANALIZA GLAVNIH KOMPONENT
Pogledamo vse variable in izberemo tiste, ki med seboj najbolj korelirajo. Dobimo glavne komponente.
DISKRIMINANTNA ANALIZA
Iemo neodvisno variablo, s katero najbolje doseemo loevanje med dvema skupinama.
HIERARHINA CLUSTER
Zdruujemo najbolj podobne enote skupaj.
MULTIDIMENZIONALNO SKALIRANJE
Matriko razdalj med objekti predstavimo v prostoru.
LOGISTINO LINEARNI MODELI
Imamo odnose med variablami na nominalnem nivoju - analiza kontingennih tabel, ko imamo ve kot dve
variabli. Logaritmiramo in dobimo linearne faktorje.
VZORNO MODELIRANJE
Postavimo model odnosov, predpostavimo vpliv latentnih faktorjev na manifestne in to nato preverjamo.

Dodatki k odgovorom Katje Zakrajsek na ustna vprasanja pri statistiki
V/3 Zakaj je pri ocenjevanju standardne deviacije populacije na osnovi vzorcnega v imenovalcu namesto N,
N -1 (po Petzu, 1997, str. 125)? Aritmeticna sredina vzorca bo imela redko isto vrednost kot aritmeticna
sredina populacije. Vemo, da je vsota kvadriranih odklonov najmanjsa od njihove aritmeticne sredine. Tako
bo vsota kvadriranih odklonov manjsa pri odklonih od vzorcne kot pri odklonih pri populacijske
aritmeticne sredine. S tem bo tudi standardna deviacija populacije, kar zakljucujemo na podlagi vzorcnega
rezultata, manjsa kot je v resnici v populaciji. To korigiramo s tem, da delimo povprecne kvadrirane
odklone z N - 1 (s tem namrec standardno deviacijo povecamo).


Skripta Za Statistiko

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Skripta Za Statistiko

Transféré par

Droits d'auteur :

Formats disponibles

Vpraanja in odgovori za ustni izpit Statistike maLa maLca

Vous aimerez peut-être aussi