Vous êtes sur la page 1sur 894

Redakcja: Anna Matczak

Tumaczenie:
Aleksandra Jaworowska - rozdz. 3, 4, 5. 6. 7
Anna Matczak
- Przedmowa, rozdz. 1, 2, 8. 9, 10,
11. 12
Teresa Szustrowa
rozdz 13, 14. 15. 16, 17, 18

Testy Psychologiczne
ANNE ANASTASI
Wydzia Psychologii, Fordham University

SUSANA URBINA
Wydzia Psychologii, University of North Florida

Pracownia Testw Psychologicznych


Polskiego Towarzystwa Psychologicznego

JFJTY-I

Spis treci
Przedmowa

Przedmowa do wydania polskiego

13
16

CZ PIERWSZA
FUNKCJE I RDA TESTW PSYCHOLOGICZNYCH
1. Natura testw psychologicznych i ich stosowanie

. .18

Zastosowania i odmiany testw


19
Czyni jest test psychologiczny?
21
Dlaczego stosowanie testw psychologicznych powinno podlega
kontroli?
27
Przeprowadzanie testu
32
Zmienne zwizane z osob badajcego i sytuacj
- .37
Perspektywa osoby badanej
40
Wpyw wiczenia na wykonywanie testu
44
rda informacji o testach
49

Z. Historyczne rda wspczesnych bada testowych


Wczesne zainteresowania klasyfikacj i ksztaceniem osb
upoledzonych umysowo
Pierwsi psychologowie eksperymentalni
Zasugi Francisa Galtona
Cattell i wczesne "testy umysowe"
Binet i powstanie testw inteligencji
Testy grupowe
Testy uzdolnie
Standaryzowane testy osigni
Badanie osobowoci

. .56
57
58
59
60
62
64
.65
68
70

CZ DRUGA
ZAGADNIENIA PSYCHOMETRYCZNE
3. Normy i znaczenie wynikw testowych
Pojcia statystyczne
Normy rozwojowe

76
78
. 84
7

SPIS TRECI

Normy wewntrzgru powe


9
99
Wzgldno norm
Komputery i interpretacja wynikw testowych
108
Interpretacja testu zorientowanego na standard wykonania . . I I I
Minimum kwalifikacji i wyniki graniczne
117

4. Rzetelno

*22

Wspczynnik korelacji
Rodzaje rzetelnoci
Rzetelno testw szybkoci
Zaleno wspczynnikw rzetelnoci od badanej prby
Bd standardowy pomiaru
Rzetelno testw badajcych biego oraz rzetelno wynikw
granicznych

5. Trafno: podstawowe pojcia

124
131
144
148
150
156

158

Ewolucja pojcia trafnoci testu


Sposoby badania trafnoci treciowej
Sposoby badania trafnoci kryterialnej
Procedury identyfikowania konstruktw
Uwagi kocowe i podsumowanie

159
160
165
175
187

6. Trafno: pomiar i interpretacja


Wspczynnik trafnoci i bd oszacowania
Trafno testu i teoria decyzji
czenie informacji pochodzcych z rnych testw
Zastosowanie testw w decyzjach klasyfikacyjnych
Analizy statystyczne stronniczoci testu

7. Analiza pozycji testowych


Trudno pozycji . . ,
Moc dyskryminacyjna pozycji
Teoria odpowiedzi na pytania testu
Analiza pozycji w testach szybkoci
Krzyowe badanie trafnoci
Zjawisko rnego funkcjonowania pozycji
Badania nad konstruowaniem pozycji

192
193
197
212
217
223

233
234
242
252
259
261
264
268

Spis

Treci

CZ TRZECIA
TESTY ZDOLNOCI
8. Testy indywidualne
Stanfordzka Skala Inteligencji Blneta
Skale Wechslcra .
Skale Kaufmanw
Skale Zrnicowanych Zdolnoci
System Diagnozy Poznawczej Dasa-Nagliert'ego

9. Testy dla specjalnych populacji


Testy dla niemowlt i dzieci w wieku przedszkolnym
Wieloaspektowa diagnoza osb upoledzonych umysowo
Badanie osb z upoledzeniami fizycznymi
Testy wielokulturowe

10. Testy grupowe


Testy grupowe a testy indywidualne
Badanie adaptacyjne i przeprowadzanie testw przy pomocy
komputera
Wielopoziomowe baterie
Pomiar wielu zdolnoci

11. Natura inteligencji


Znaczenie ilorazu inteligencji
Odzledziczalno i podatno na zmiany
Motywacja a inteligencja
Analiza czynnikowa inteligencji
Teorie organizacji cech
Natura i rozwj cech

12. Kwestie psychologiczne zwizane z testowym


badaniem zdolnoci
Badania podune nad inteligencj dzieci
Inteligencja we wczesnym dziecistwie
Problemy pomiaru Inteligencji dorosych
Populacyjne zmiany wynikw testw inteligencji
Rnorodno kulturowa

272
274
285
295
300
308

309
311
325
.332
341

355
.356
359
363
374

382
. 383
386
390
393
400
410

416
417
421
426
433
437

10

SPIS TRECI

CZ CZWARTA
TESTOWE BADANIA OSOBOWOCI
13. Samoopisowe inwentarze osobowoci

448

Procedury odwoujce si do odpowiednioci treciowej


Procedury odwoujce si do kryteriw empirycznych
Rola analizy czynnikowej w konstruowaniu testw
Rola teorii osobowoci w konstruowaniu testw
Postawy wobec testu i tendencyjno odpowiedzi
Cecha, stan, osoba i sytuacja
Aktualny stan inwentarzy osobowoci

14. Pomiar zainteresowa i postaw

494

Inwentarze zainteresowa - aktualny stan


Inwentarz Zainteresowa Stronga
Kilka najwaniejszych inwentarzy zainteresowa
Niektre istotne tendencje
Sondae opinii i skale postaw
Poczucie kontroli

15. Techniki projekcyjne


Natura technik projekcyjnych
Techniki plam atramentowych
Techniki obrazkowe
Techniki werbalne
Wspomnienia autobiograficzne
Techniki wykonaniowe
Ocena technik projekcyjnych

16. Inne techniki diagnostyczne


Narzdzia pomiaru stylw i typw
Testy sytuacyjne
Pojcie Ja i konstrukty osobiste
Techniki obserwacyjne
Dane biograficzne

449
451
465
471
479
486
492

496
498
506
513
516
520

.523
. .

524
525
533 V
540
543
545
549

561
561
, .570
574
584
592

Spis treci

11

CZ PITA
ZASTOSOWANIE TESTW W PRAKTYCE
17. Gwne obszary zastosowania testw

598

Testy w edukacji
..
Testy zawodowe
Zastosowanie testw w psychologii klinicznej i w poradnictwie
psychologicznym

18. Etyczne i spoeczne aspekty bada testowych

598
618
641

. . .670

Etyczne problemy stosowania testw I diagnozy psychologicznej 672


Kwalifikacje i kompetencje zawodowe osb stosujcych testy
.674 I
Odpowiedzialno wydawcw testw
676
Ochrona prywatnoci
678
Poufno
681
Komunikowanie wynikw bada testowych
682
Badania testowe rnych populacji
684

Literatura
Materiay rdowe

692
* . . . .822

Dodatek A. Alfabetyczny spis testw i innych narzdzi


diagnostycznych

827

Dodatek B. Adresy wydawcw i dystrybutorw testw oraz


pokrewnych organizacji
832
Angielsko-polski sownik terminw psychologicznych
wystpujcych w tekcie

840

Indeks testw angielsko-polski

846

Indeks testw polsko-angielski

854

Indeks nazwisk

862

Indeks rzeczowy

890

Przedmowa

. 90. s wiadectwem dalszego gwatownego wzrostu zainteresowa


Bbadaniami testowymi, jaki mia miejsce w latach 80. Rozwoju w tym
fzakresie dowodz zarwno nowo powstajce testy, wrd ktrych
pojawiaj si narzdzia reprezentujce cakowicie nowe sposoby podejcia. jak i kontynuacja prac nad testami stworzonymi wczeniej oraz ich
kolejne rewizje. Jakakolwiek prba wyczerpujcego omwienia w naszej
ksice lego obszaru psychologii - czy choby jego znaczcej czci byaby skazana na niepowodzenie: autorki, dokonujc wyboru uwzgldnionych tu narzdzi, miay na celu unaocznienie czytelnikom bogactwa i
rnorodnoci dostpnego dzi ich repertuaru, a zarazem wskazanie na
niektre testy i techniki posiadajce znaczenie historyczne.
Coraz wiksz uwag zwraca si dzi na jednostk poddawan badaniu testowemu. Uytkownikw testw zachca si. by szukali przyczyn
wynikw uzyskiwanych przez osob badan w jej yciorysie i historii
dowiadcze, stawiajc sobie pytanie: Jakie informacje dotyczce
rodowiska jednostki mog pomc w zrozumieniu jej odpowiedzi
testowych i zwikszy prognostyczn warto wynikw testu dla
przewidywania przyszego funkcjonowania tej osoby - w szkole, pracy i
innych sytuacjach, w jakich przebiega jej aktywno yciowa? Wie si
to ze zwikszon odpowiedzialnoci uytkownika testw za wybr
odpowiednich narzdzi i sposobw badania, interpretacj wynikw oraz
sposb ich przekazywania zainteresowanym I wykorzystywania.

13

14

PRZEDMOWA

Ze wzgldu na lo. niniejszy podrcznik ma na celu przede wszystkim


dostarczenie podstaw pozwalajcych na wlaciwc stosowanie testw.
Efektywne uywanie testw wymaga posiadania pewnej wiedzy o tym.
jak si je konstruuje. Wiedza la jest potrzebna, by mc ocenia rne
testy, dokonywa ich wyboru odpowiednio do celw badania i cech
badanego oraz waciwie interpretowa wyniki. Cho wic ksika nasza
nie jest adresowana specjalnie do konstruktorw testw, zawiera tc
informacje na lemat ich tworzenia, ktre s potrzebne uytkownikom.
W tym wydaniu podicznika przedstawiamy elementarne wyjanienia
pewnych ju szeroko stosowanych i wci gwatownie rozwijajcych si
poj i procedur, ktre prawdopodobnie bd miay wpyw na ksztat
psychometrii 21. wieku. S to na przykad, adaptacyjne testowanie komputerowe, metaanalizy. modelowanie za pomoc rwna strukturalnych,
posugiwanie si przedziaami ufnoci zamiast tradycyjnymi poziomami
istotnoci statystycznej, badania midzykulturowe oraz wykorzystywanie
przy tworzeniu testw zdolnoci i osobowoci analizy czynnikowej.
W praktyce podejcie oparte na analizie czynnikowej pozwala na opracowywanie norm umoliwiajcych interpretowanie wynikw na rnych
poziomach szczegowoci czy oglnoci, wybieranych przez uytkownika odpowiednio do osoby czy sytuacji.
We wspczesnych badaniach testowych szczeglnie, wyranie ujawniaj si dwie wane, dugofalowe tendcncjc; zamiast powicania im
osobnych rozdziaw, zdecydowaymy si na omawianie ich w calcj
ksice - we wszystkich stosownych po temu miejscach, Pierwsz z tych
Lendencji jest wzrastanie roli komputerw, ktre - obok dobrze znanych
ich zastosowa przy ocenianiu i przetwarzaniu wynikw - zaczynaj by
coraz czciej wykorzystywane przy konstruowaniu testw, ich opracowywaniu i przeprowadzaniu bada. Szybko rozwoju technologii jest
imponujca, przez co mona odnie wraenie, e rzeczywisty postp
wiedzy psychologicznej pozostaje za ni w tyle. Jednake wanie technologia znacznie przyczynia si do rozwoju bada i teorii. Na przykad
dziki atwoci, z jak badacze z caego wiata mog zdobywa i wymienia midzy sob informacje, oywieniu ulegy wzajemne inspiracje i
szybko postpuje integracja wiedzy prezentowanej w literaturze psychologicznej. Dostrzeenie cech poznawczych i osobowociowych jako
nierozdzielnych i pozostajcych we wzajemnej interakcji aspektw jednostki - ktra z kolei jest nierozerwalnie powizana ze swoim fizycznym
ja. histori ycia i rodowiskiem stanowi jeden z najwyraniejszych i
najbardziej obiecujcych przejaww wspomnianej integracji.
Druga tendencja, ktra w znaczcy sposb wpywa na psychologiczne
badania testowe, polega na coraz wyraniejszym wkraczaniu w t dziedzin kwestii politycznych i prawnych. Cho podnoszenie tych kwestii
prowadzi do niezgody i potencjalnych zagroe, moe te mie aspekty
pozytywne, stymulujc twrcze pomysy i uwraliwiajc uytkownikw

lesiw na zamierzone i niezamierzone konsekwencje ich stosowania.


W rnych miejscach ksiki przytaczane s numery aktw prawnych,
ktre wywary wpyw na praktyk bada testowych.
Cho sze pierwszych wyda lej ksiki miao jednego autora,
wydanie obecne Jest rzeczywicie dzieem wsplnym. Obie autorki razem
planoway reorganizacj poszczeglnych rozdziaw i ustalay gwne
tematy. Podzia zada szczegowych by nastpujcy: Anastasi bya
odpowiedzialna za rozdziay 1-7 i 10-12, Urbina - za rozdziay 8,9 oraz
13-18; la druga autorka sprawowaa te rol gwnego organizatora i
koordynatora. Kada Jednak z aulorek przeczytaa wstpn wersj
rozdziaw napisanych przez drug, proponujc ulepszenia, ktre zwykle byy wprowadzane.
Oczywicie ksika nasza nic powstaaby bez dostpu do bada i publikacji wielu psychologw, zarwno wspczesnych, jak i dawnych,
pochodzcych z rnych czci Stanw Zjednoczonych i z innych krajw.
Nazwiska tych autorw pojawiaj si w tekcie - przy odsyaczach do ich
prac, w notach pod rysunkami i tabelami oraz w bibliografii zamieszczonej na kocu ksiki. Jednake pewne osoby z tej znamienitej grupy
trzeba wyrni z uwagi na ich szczeglny wkad. Nale do nich przede
wszystkim Dianne Brown z zarzdu naukowego Amerykaskiego
Towarzystwa Psychologicznego, Aurelio Prifitera i Joann Lenke z
Psychological Corporation, Lonn Letendre z Consulting PsychologLsts
Press. Carol Walson z National Computer Systems. Elisabcth McGrath i
John Oswald z Riuerside Puhlishing Company oraz Wayne Camara z
College Board. Serdeczne podzikowania skadamy te pracownikom
bibliotek Uniwersytetu Fordhama i Uniwersytetu Pnocnej Karoliny za
pomoc w wiciu rnych sprawach zwizanych z przygotowywaniem tej
ksiki.
AA.
S.U

Przedmowa do wydania polskiego


W ostatnich latach testy, dotd uywane u nas gwnie w psychologicznej diagnozie indywidualnej, znajduj coraz szersze zastosowania.
Zaczyna si je na przykad na wiksz skal wykorzystywa do celw
selekcji zawodowej i rozmieszczania kadr; wkrtce ju maj by
powszechnie uywane do sprawdzania osigni szkolnych uczniw;
wzrasta wiadomo potrzeby stosowania ich w wojsku. Przykady takie
z pewnoci mona by mnoy. Coraz bardziej odczuwalny staje si w
zwizku z tym brak na naszym rynku wydawniczym obszerniejszych
publikacji, ktre dotyczyyby caoci problematyki zwizanej z badaniami testowymi. By przynajmniej czciowo zapeni t luk. Pracownia
Testw Psychologicznych PTP postanowia wyda niniejsz ksik przekad sidmego ju wydania znanego w wiecie podrcznika Anny
Anastasi. cenionej badaczki rnic indywidualnych, ktrej prace nale
w tym obszarze psychologii do klasyki.
Wybr nasz pad na t wanie ksik z co najmniej trzech powodw,
Po pierwsze, czy ona wysoki poziom naukowy i rzetelno z przystpnoci sposobu prczcntacji treci, w tym stosunkowo zoonych problemw metodologicznych. Mona wic j zaleci nie tylko badaczom,
ktrzy zreszt na og korzystaj z bardziej specjalistycznych, wszych
opracowa, ale take, a moe nawet przede wszystkim, czyLelnikom
mniej przygotowanym metodologicznie - studentom psychologii i nauk
pokrewnych oraz praktykom - zarwno bezporednio stosujcym testy,
jak i tym. ktrzy s ich uytkownikami w szerszym lego sowa znaczeniu
- jako odbiorcy wynikw bada testowych. Oczywicie dla tych rnych
odbiorcw ksiki w niejednakowym stopniu przydatne bd
poszczeglne jej fragmenty.
Druga bardzo cenna waciwo tego podrcznika to silny akcent, jaki
pooono w nim na znaczenie kontekstu bada testowych. Uyteczno
testw w ogle, a poszczeglnych ich typw i odmian w szczeglnoci,
wymagania, ktrym musz one odpowiada, sposb ujmowania wynikw
oraz ich wykorzystywania - wszystko to jest cile zalene od celu, w
jakim przeprowadza si badanie testowe. Ta niesychanie wana - a
zarazem rzadko realizowana w naszej praktyce testowej - idea jest konsekwentnie wyraana na kartach ksiki i bogato egzemplifikowana.
Wreszcie trzeci godny podkrelenia rys tej pracy to dynamiczno
prezentowanego tu ujcia problematyki. Autorki pokazuj nie tylko stan
aktualny, lecz take historyczne korzenie testw i bada testowych,
rda i kierunki zmian, jakim ulegay, oraz perspektywy dalszego rozwoju. Wiedza na ten lemat Jest warunkiem dobrego zrozumienia idei
testw, a co za tym idzie - rozumnego Ich stosowania.
Anna Matczak
16

kesty psychologiczne s narzdziami. Naley pamita o lym podstaIwowym fakcie, jeli chce si rzeczywicie odnosi korzyci, jakie
"mog pyn z ich stosowania. Kade narzdzie moe by poyteczne
lub szkodliwe, w zalenoci od tego. jak si. go uywa. Testy rozwijaj
si we wzrastajcym tempie i znajduj zastosowanie w coraz to bardziej
licznych dziedzinach ycia codziennego.1 Zarazem jednak rozwojowi
temu towarzyszy wzrost nierealistycznych oczekiwali i przypadkw
niewaciwego stosowania testw. Uytkownicy powinni wiedzie, jak
ocenia testy. W jakim stopniu dany test nadaje si do tego konkretnego
celu, w ktrym ma by zastosowany? Jakiego rodzaju informacji moe
dostarczy o osobie badanej? Jak mona jego rezultaty zintegrowa z
innymi danymi, by uzyska podstaw do podjcia takiej czy innej
decyzji? Takie wanie pytania miano przede wszystkim na uwadze przygotowujc t ksik. Jest ona przeznaczona nie dla wskiego krgu
specjalistw, lecz dla wszystkich osb studiujcych psychologi.
Podstawowa wiedza o testach jest dzi bowiem potrzebna nie tylko lym.
ktrzy je konstruuj i przeprowadzaj, ale take kademu, kto wykorzystuje ich wyniki jako rdo danych pomocnych przy decydowaniu o
sobie samym lub innych ludziach.
1 Dobre ilustracje potencjalnych zastosowa testw psychologicznych, wraz z
przykadami pochodzcymi z ycia codziennego, podaje Dahlstrom (1993b).

18

Natura testw psychologicznych i ich stosowanie

18

ZASTOSOWANIA I DDMIANY TESTW


Tradycyjn funkcj testw psychologicznych Jest mierzenie rnic
midzy osobami lub midzy reakcjami tej samej osoby w rnych
warunkach. .Jednym z najwczeniejszych stymulatorw rozwoju testw
psychologicznych bya potrzeba Identyfikowania osb umysowo
upoledzonych. Wykrywanie deficytw Intelektualnych do dzi pozostaje
wanym cclem stosowania pewnego typu testw. Pokrewne zastosowania
kliniczne testw obejmuj badanie osb z powanymi problemami
emocjonalnymi i innymi typami zaburze zachowania. Wan sil napdow pobudzajc wczesny rozwj testw stanowiy tez potrzeby szkolnictwa. Tak wanie byo w przypadku znanych testw Bineta, ktre
zapocztkoway testowy pomiar inteligencji. Dzi szkoy nale do
najpowaniejszych uytkownikw '.estw. Wrd wielu zastosowa
testw w edukacji wymieni mona klasyfikowanie dzieci w zalenoci od
ich zdolnoci do korzystania z rnych typw szkolnego nauczania, identyfikowanie osb szczeglnie wolno i szczeglnie szybko uczcych si.
doradztwo szkolne i zawodowe dla starszych uczniw oraz selekcj
kandydatw do szk zawodowych.
Inne wane zastosowanie testw psychologicznych to selekcja i klasyfikacja pracownikw. Wrd rnych zawodw, od robotnika pracujcego
przy tamie montaowej czy prostego urzdnika po kierownika wyszego
szczebla, trudno znale takie, w odniesieniu do ktrych jakie testy psychologiczne nie mogyby si okaza pomocne przy zatrudnianiu, przydziale pracy, przenoszeniu na inne stanowiska, awansowaniu czy zwalnianiu. Jednake by mie pewno, e we wszystkich takich sytuacjach,
zwaszcza w przypadku prac wymagajcych wysokich kwalifikacji, testy
zostan trafnie wykorzystane, zwykle naley je stosowa w poczeniu z
umiejtnie przeprowadzanym wywiadem, co pozwoli na waciw interpretacj wynikw testowych w wietle innych informacji o czowieku.
Niemniej badania testowe stanowi wany element caego procesu oceny
kadry pracowniczej. Innym zastosowaniem testw, cile zwizanym z
powyszym, jest ich wykorzystywanie przy selekcji i klasyfikacji kadry
wojskowej. Zakres i rnorodno zastosowa testw psychologicznych
w wojsku, zapocztkowanych w czasie pierwszej wojny wiatowej, ulegy
niezwykemu wzrostowi podczas drugiej wojny. Dzi prace nad rozwojem
testw s kontynuowane na du skal we wszystkich rodzajach sub
zbrojnych.
Zastosowanie testw w poradnictwie indywidualnym, sprowadzajce
si pocztkowo do wsko rozumianego doradztwa dotyczcego planw
szkolnych i zawodowych, ulego stopniowemu rozszerzeniu, obejmujc
swym zasigiem wszystkie aspekty ycia jednostki. Coraz waniejszymi
celami porad zaczy si stawa dobre samopoczucie emocjonalne
czowieka i Jego udane relacje interpersonalne. Coraz wikszy akcent

20

FUNKCJE I RCTOLA TESTW PSYCHOLOGICZNYCH

kadzie si te na wykorzystywanie testw w celu doskonalenia samopoznama jednostki i wzmagania jej osobistego rozwoju. Wyniki testw
stosowanych w poradnictwie s istotnym elementem Informacji
udzielanych badanemu, by pomc mu w podejmowaniu Wanych dla
niego decyzji yciowych.
Oczywiste jest. e testy psychologiczne s dzi wykorzystywane do
rozwizywania rnego rodzaju problemw praktycznych. Nie mona jednak nie dostrzega faktu, e odgrywaj te wan rol w badaniach
naukowych. Na przykad niemal wszystkie problemy psychologii rnic
indywidualnych wymagaj stosowania testw jako sposobu zbierania
danych. W charakterze przykadw wymieni mona badania nad natur
i zasigiem rnic indywidualnych, organizacj cech psychicznych,
rnicami mldzygrupowymi czy biologicznymi i kulturowymi czynnikami zwizanymi 2e zrnicowaniem zachowa. Wc wszystkich tych i wielu innych - dziedzinach bada konieczny jest precyzyjny pomiar
rnic Indywidualnych, jaki umoliwiaj dobrze skonstruowane testy.
Testy psychologiczne su te jako wystandaryzowane narzdzia W
badaniach ukierunkowanych na rozstrzyganie tak rnych problemw,
jak pytania o zmiany rozwojowe dokonujce si w trakcie biegu ycia jednostki, porwnawcz efektywno rnych sposobw ksztacenia,
skuteczno psychoterapii, wpywy takich czy innych programw
spoecznych lub znaczenie zmiennych rodowiskowych dla funkcjonowania czowieka.
Rnego rodzaju testy, skonstruowane do tych odmiennych celw,
rni si te midzy sob innymi wanymi cechami. Rny jest sposb
badania - testy mog by przeprowadzane indywidualnie z kad osob
przez specjalnie wyszkolonego badajcego, wykonywane jednoczenie
przez du grup, podawane przez komputer. Rni je te to. jakiego
aspektu zachowania ludzkiego dotycz. Niektre koncentruj si na ocenie waciwoci poznawczych, czyli zdolnoci. Ich przedmiot pomiaru
moe mie rny zakres, od szeroko rozumianych uzdolnie - takich jak
zdolno do uczenia si w szkole redniej czy wyszej - do bardzo specyficznych zdolnoci scnsomotorycznych potrzebnych przy wykonywaniu
prostych czynnoci manualnych. Inne testy mierz zmienne osobowociowe, takie jak waciwoci emocjonalne czy motywacyjne, cechy
zachowa interpersonalnych, zainteresowania, postawy i wartoci.
Co wic - przy tak duej rnorodnoci charakteru testw psychologicznych i celw, jakim su - stanowi ich specyficzn cech wspln?
Czym rni si one od innych metod zbierania informacji o czowieku?
Odpowied na te pytania mona znale, zwracajc uwag na pewne podstawowe waciwoci zarwno budowy testw, jak i sposobu badania.
O nich wanie traktuje niniejszy rozdzia.

Natura testw psychologicznych i ich stosowanie 18

CZYM JEST TEST PSYCHOLOGICZNY?


Prbka zachowania. Test psychologiczny Jest w istocie obiektywn i
wystandaryzowan miar prbki zachowania. Przypomina wic z tego
punktu widzenia testy stosowane w innych dziedzinach wiedzy, gdzie
przedmiot obserwacji stanowi mae, ale starannie dobrane prbki.
Psycholog postpuje bardzo podobnie Jak biochemik, ktry dokonuje
analizy krwi pacjenta lub dostarczanej do mieszka wody, badajc materia pochodzcy z Jednego lub kilku pobra. Jeli psycholog chcc pozna
zakres sownika dziecka, zdolno urzdnika do wykonywania oblicze
arytmetycznych czy koordynacj oko-rka" u pilota, sprawdza, jak
radz sobie oni z reprezentatywnym zestawem sw, problemw arytmetycznych czy zada motorycznych. To. czy test adekwatnie odzwierciedla cao diagnozowanych zachowa, zaley oczywicie od liczby i
rodzaju pozycji skadajcych si na prbk. Na przykad test arytmetyczny, ktry zawieraby tylko pi zada albo obejmowa tylko zadania
wymagajce mnoenia, stanowiby sab miar umiejtnoci liczenia.
Podobnie test sownikowy zoony wycznie z terminw zwizanych z gr
w baseball trudno byoby uzna za narzdzie pozwalajce na niezawodne
oszacowanie penego zakresu sownika dziecka.
Warto diagnostyczna lub prognostyczna ic&iu poycuulogicznego
zaley od stopnia, w jakim jego wyniki s wskanikami informujcymi o
stosunkowo szerokiej i wanej klasie zachowa. Pomiar tego zachowania,
ktre jest bezporednio uwzgldnione w tecie, rzadko, jeli w ogle,
stanowi cel badania testowego. To. czy dziecko zna 50 znajdujcych si
na licie sw, nie jest samo przez si zbyt interesujce, podobnie jak nie
jest szczeglnie wane to, czy kandydat do pracy poradzi sobie z konkretnym zestawem 20 zada arytmetycznych. Jeli jednak mona wykaza,
e istnieje cisy zwizek midzy znajomoci sw z listy a ogln
sprawnoci sownikow dziecka czy midzy wynikiem uzyskanym przez
kandydata przy rozwizywaniu zada a tym. jak radzi on sobie z liczeniem w pracy, testy dobrze su swoim celom.
W zwizku z tym naley zauway, e pozycje testowe wcale nie musz
cile przypomina zachowa, ktre test ma przewidywa. Konieczne jest
jedynie to. by wykazany by empiryczny zwizek midzy nimi. Stopie
podobiestwa midzy testem a przewidywanym zachowaniem moe by
bardzo rny. I tak, zachowanie uwzgldnione w tecie moe by w peni
tosame z czci zachowania stanowicego przedmiot przewidywa.
Przykadem mgby by test sownikowy z jzyka obcego zawierajcy 20
spord 50 nowych sw. Jakie poznali uczniowie w toku nauki; Inny
przykad moe stanowi test drogowy wykonywany przed uzyskaniem
prawa jazdy Z mniejszym stopniem podobiestwa mamy do czynienia w
przypadku wielu testw uzdolnie zawodowych, stosowanych przed
szkoleniem; zadania wczane do takich testw Jedynie umiarkowanie

22

FUNKCJE I RCTOLA TESTW PSYCHOLOGICZNYCH

przypominaj te, ktre s rzeczywicie wykonywane podczas pracy. Na


drugim kracu omawianego kontinuum mona znale projekcyjne testy
osobowoci, takie jak test Rorschacha. w ktrym na podstawie skojarze
podawanych przez badanego w odpowiedzi na plamy atramentowe
prbuje si przewidywa jego zachowania wobec innych ludzi, sposb
reagowania na bodce o zabarwieniu emocjonalnym i postpowanie w
rnych zoonych sytuacjach ycia codziennego. Jednake mimo
powierzchownych rnic midzy nimi wszystkie te testy stanowi prbki
zachowa jednostki. 1 warto kadego z nich musi by udowodniona
przez empiryczne wykazanie zwizku midzy tym. jak badany wykonuje
test, a tym. jak funkcjonuje w innych sytuacjach.
Midzy uywanymi w tym kontekcie terminami diagnoza" i ..prognoza" nie ma wikszej rnicy. Prognoza oznacza zwykle przewidywanie
przyszoci - np. przyszych sukcesw zawodowych badanego - na
podstawie jego aktualnych wynikw testowych. Jednake, szerzej rzecz
ujmujc, nawet diagnoza stanu aktualnego, takiego jak upoledzenie
umysowe czy zaburzenia emocjonalne, zawiera w sobie przewidywanie
lego. jak jednostka bdzie si potem zachowywaa w innych sytuacjach.
Prociej z punktu widzenia logiki jest wic traktowa wszystkie testy jako
prbki zachowa, na podstawie ktrych mona przewidywa inne
zachowania. Rne typy testw da si scharakteryzowa jako warianty
lego pudslawowego wzorca.
Inna kwestia, wymagajca rozwaenia na wstpie, dotyczy pojcia
moliwoci Da si na przykad stworzy test pozwalajcy przewidywa,
zanim jeszcze kto rozpocznie nauk jzyka francuskiego, jak dobrze si
go nauczy. Test taki mierzyby prbk zachowa potrzebnych przy uczeniu si jzyka obcego, ale nic zakadaby posiadania przez badanego
adnej znajomoci francuskiego. Mona by wtedy powiedzie, e lesl ten
mierzy potencjalne zdolnoci" jednostki, czyli jej moliwoci" nauczenia
si tego jzyka. Wymienionych terminw naley jednak w odniesieniu do
testw psychologicznych uywa ostronie. Test mierzy moliwoci"
tylko w lym sensie, e prbka aktualnego zachowania traktowana jest
jako wskanik innego zachowania w przyszoci. aden test psychologiczny nie pozwala na nic wicej, jak tylko pomiar zachowania. To za,
czy dane zachowanie moe by efektywnym wskar.ikiem innych
zachowa, mona stwierdzi jedynie na drodze weryfikacji empirycznej.
Standaryzacja. Przypomnijmy, e w podanej na pocztku definicji lesl
psychologiczny zosta okrelony jako miara wystandaryzowana.
Standaryzacja oznacza ujednolicenie procedury przeprowadzania testu i
oceny wynikw. Jeli wyniki uzyskane przez rne osoby maj by
porwnywalne, warunki badania testowego musz by oczywicie dla
wszystkich takie same. Wymg ten stanowi tylko szczegowy przypadek
zastosowania zasady kontrolowania warunkw, obowizujcej we

Natura testw psychologicznych i ich stosowanie 18

wszystkich badaniach naukowych. W sytuacji testowej jedyn zmienn


niezalen Jest czsto osoba badana.
W celu zapewnienia Jednolitoci warunkw badania konstruktor
kadego nowego lestu opracowuje szczegowe instrukcje dotyczce
sposobu przeprowadzania go. Sformuowanie instrukcji stanowi cz
procedury standaryzowania nowego testu. Standaryzacja obejmuje takie
elementy, jak wykorzystywane pomoce testowe, dopuszczalny czas
wykonywania zada, podawane instrukcje sowne, demonstracje wstpne, sposb reagowania na pytania zadawane przez badanych i wszystkie
pozostae szczegowe aspekty sytuacji. Na wyniki pewnych lesiw
wpywa te wiele innych, bardziej subtelnych czynnikw. 1 lak, jeli
podaje si instrukcje czy prezentuje zadania ustnie, trzeba zwrci
uwag na tempo mwienia, ton i modulacj gosu, pauzy, wyraz twarzy.
Na przykad w przypadku zada wymagajcych wykrywania
niedorzecznoci poprawna odpowied moe sta si oczywista, jeli
badajcy przy czytaniu krytycznego sowa umiechnie si lub zrobi
znaczc pauz. Kwestie zwizane ze standaryzacj procedury badania,
rozpatrywane z punktu widzenia badajcego, omawiamy w dalszej czci tego rozdziau, powiconej problemom dotyczcym przeprowadzania
testu.
Innym wanym krokiem w standaryzacji testu jest ustalenie norm.
W testach psychologicznych nie ma z gry okrelonych standardw zadowalajcego i niezadowalajcego wykonania; wyniki ocenia si na
podstawie danych empirycznych. W wikszoci przypadkw wynik indywidualny interpretuje si porwnujc go z wynikami uzyskanymi w tym
samym tecie przez inne osoby. Jak sama nazwa wskazuje, norma to
wynik normalny, czyli przecitny. Tak wic, jeli w jakim tecie rozumowania arytmetycznego normalne dzieci omioletnie poprawnie
rozwizuj 12 spord 50 zada, norma dla 8 lat odpowiada w tym tecie wynikowi 12. Liczba 12 jest w tym przypadku wynikiem surowym
testu. Wynik surowy moe by sum poprawnie wykonanych zada, czasem zuytym na ich rozwizanie, liczb bdw czy jakim innym jeszcze
obiektywnym wskanikiem, odpowiednim do treci testu. Wynik ten r.ic
nie znaczy, dopki nie zostanie oceniony na tle odpowiednich danych
pozwalajcych na interpretacj.
Dokonujc standaryzacji testu, przeprowadza si go na duej,
reprezentatywnej grupie skadajcej si z takich osb, dla jakich ma on
by przeznaczony. Grupa ta, nazywana prb standaryzacyjn, suy do
ustalenia norm. Normy informuj nie tylko o przecitnym poziomie,
wykonania testu, Iccz take o czstoci wystpowania rnej wielkoci
odchyle powyej i poniej przecitnej. Mona wic okreli rne stopnie podwyszenia i obnienia wyniku. Szczegowe sposoby, za pomoc
ktrych mog by wyraone normy, omawiamy w rozdziale 3. Kady z

24

FUNKCJE I RCTOLA TESTW PSYCHOLOGICZNYCH

nich pozwala na okrelenie pozycji Jednostki na tle prby normalizacyjnej (standaryzacyjnej).


Warto zauway, e w przypadku testw osobowoci normy ustala si
w zasadzie tak samo, jak dla testw uzdolnie. Norma w tecie
osobowoci niekonieczn.e oznacza najbardziej podane czy idealne"
zachowanie, podobnie jak perfekcyjne czy bezbdne wykonanie zada
nie musi by norm w tecie uzdolnie. W obu tych typach testw norma
odpowiada zachowaniu osb typowych czy przecitnych. Na przykad w
testach dominacji ulegoci norm jest wynik poredni odpowiadajcy
poziomowi dominacji czy ulegoci przejawianemu przez przecitn
osob Podobnie w kwestionariuszu badajcym przystosowanie emocjonalne norma nie oznacza zwykle cakowitego braku niepodanych czy
nieprzystosowawczych reakcji. Zdarzaj si one wikszoci normalnych"
osb z prby standaryzacyjnej i wobec tego pewna ich liczba stanowi
norm.
Obiektywne wskaniki trudnoci.
Definicja testu psychologicznego
otwierajca te rozwaania okrelaa go jako miar zarwno wystandaryzowan. jak i obiektywn. W jakim sensie testy s obiektywne? O
pewnych aspektach obiektywnoci testw ju wspomniano, mwic o
standaiyzacji. I tak. przeprowadzanie testu, ocenianie wynikw i ich
interpretacja s obiektywne na tyle. na ile nie zale od subiektywnych
osdw poszczeglnych badajcych. Teoretycznie dana osoba badana
powinna uzyska w tecie identyczne wyniki, niezalenie od tego. kto
bdzie go przeprowadza. Oczywicie w rzeczywistoci jest niezupenie
tak. bowiem w praktyce nigdy nic osiga si penego wystandaryzowania
i idealnej obiektywnoci. Niemniej stanowi to cci konstruktora i w przypadku wikszoci testw udaje si uzyska zadowalajco wysoki stopie
obiektywnoci.
Obiektywno testw psychologicznych ma te inne wane aspekty.
Poziom trudnoci poszczeglnych pozycji czy caego testu okrelany jest
za pomoc obiektywnych procedur empirycznych. Gdy Binet i Simon
stworzyli w roku 1905 swoj pierwsz skal do pomiaru inteligencji,
uporzdkowali 30 skadajcych si na ni zada wedug stopnia trudnoci. Trudno t okrelili wyprbowujc zadania na 50 dzieciach normalnych i kilkunastu umysowo upoledzonych. Zadania poprawnie
wykonane przez najwiksz liczb dzieci zostay, sil rzeczy, uznane za
najatwiejsze; te. ktre udao si rozwiza stosunkowo niewielu
badanym, uznano za trudniejsze. Za pomoc tej procedury ustalono
empiryczny porzdek pozycji testowych pod wzgldem trudnoci. Ten
prosty przykad Jest ilustracj obiektywnego pomiaru trudnoci,
stanowicego teraz zabieg powszechnie stosowany przy konstruowaniu
testw psychologicznych.

Natura testw psychologicznych i ich stosowanie 18

Nie tylko ustalanie porzdku zada testowych, ale take ich selekcja
moe by dokonywana na podstawie danych o czstoci wystpowania w
badanej prbie prawidowych odpowiedzi. 1 tak. gdy duo pozycji skupia
si na dolnym lub grnym kracu skali trudnoci, cz z nich zostaje
wyeliminowana. Podobnie jeli w pewnych czciach skali pozycje rozsiane s zbyt rzadko, mona doda nowe. by uzupeni luki. Wicej
aspektw technicznych analizy pozycji testowych rozwaamy w rozdziale 7
Rzetelno. Jak dobry Jest test? Czy rzeczywicie si sprawdza?
Pytania te mog by - i czasem Istotnie s - przedmiotem wielogodzinnych i bezowocnych dyskusji. Subiektywne opinie, intuicje i osobiste
preferencje mog. z jednej strony, by rdem wygrowanych oczekiwa
pod adresem jakiego testu, z drugiej za - powodowa uparte odrzucanie go. Tymczasem jedynym sposobem rzeczywicie pozwalajcym na
rozstrzyganie tego typu pyta jest empiryczne sprawdzenie testu.
Obiektywna ocena testw polega przede wszystkim na okrelaniu ich
rzetelnoci oraz trafnoci.
Uywany w psychometrii termin rzetelno" rozumie si gwnie jako
spjno czy zgodno. Rzetelno testu oznacza zgodno wynikw
uzyskiwanych pr/.ez te same osoby, gdy bada si je ponownie tym samym
testem lub jego wersj rwnoleg. Jeli dziecko uzyskuje w poniedziaek
iloraz inteligencji 110, a ponownie badane w pitek - 80, oczywiste jest,
e do adnego z tych wynikw nie mona mie zaufania. Podobnie jeli
kto poprawnie rozpoznaje 40 sw spord jednego pidziesiciowyrazowego zestawu, a badany innym, uznanym za rwnowany, uzyskuje
wynik wynoszcy zaledwie 20. adnego z tych rezultatw nic mona
przyj za niezawodny wskanik jego rozumienia werbalnego. Wprawdzie
w obu podanych wyej przykadach istnieje moliwo, e tylko jeden z
dwu uzyskanych wynikw jest bdny, ale mona by to byo wykaza
tylko przeprowadzajc dalsze pomiary. Na podstawie posiadanych
danych moemy jedynie wnosi, e oba wyniki nic mog by jednoczenie
prawdziwe. Bez posiadania dodatkowych informacji nie da si ustali,
czy ktry z tych wynikw stanowi prawdziw miar zdolnoci sownikowych badanego, czy te nie jest ni aden.
Zanim test psychologiczny zostanie dopuszczony do powszechnego
uytku, naley gruntownie, obiektywnie sprawdzi jego rzetelno. Rne
typy rzetelnoci i rne metody mierzenia kadego z nich zostan
omwione w rozdziale 4. Rzetelno mona na przykad sprawdza,
porwnujc wyniki, ktre uzyskuj ci sami badani, wykonujcy test w
rnym czasie, lub wwczas, gdy test przeprowadzaj albo oceniaj jego
wyniki rne osoby, czy le wreszcie wtedy, gdy bierze si pod uwag,
rne zestawy prb testowych. Istotn spraw jest okrelanie typu rzetelnoci i wskazywanie metody zastosowanej do jej oceny, poniewa rne
jej aspekty mog si rnie ksztatowa w przypadku jednego i tego

26

FUNKCJE I RCTOLA TESTW PSYCHOLOGICZNYCH

samego testu. Trzeba rwnie zawsze podawa liczebno i charakter


grupy, na ktrej sprawdzano rzetelno. Na podstawie tych informacji
uytkownik lesiu moe przewidywa, czy test bdzie rwnic rzetelny dla
grupy, wobec ktrej chce go stosowa, czy te naley spodziewa si Jego
mniejszej lub wikszej rzetelnoci.
Trafno. Niewtpliwie
najwaniejsze
pytanie,
jakie
mona
sformuowa w odnies.>eniu do testu psychologicznego, dotyczy jego
trafriuci - stopnia, w jakim rzeczywicie mierzy on to, co ma by przedmiotem pomiaru. Trafno bezporednio informuje o tym. jak test peni
swoj funkcj. Okrelenie trafnoci zwykle wymaga uycia niezalenego,
zewntrznego kryterium lego. co ma mierzy test. Jeli na przykad do
selekcji kandydatw do szkoy medycznej ma by stosowany test uzdolnie medycznych, kryterium mogoby stanowi uzyskiwanie powodzenia
w nauce. W ramach sprawdzania trafnoci takiego lestu naleaoby
przeprowadzi go na duej grupie osb wstpujcych do szkoy. Pniej
trzeba by dla kadego ucznia uzyska wskanik osigni w nauce,
okrelony na podstawie otrzymywanych stopni, opinii nauczycieli,
ostatecznego sukcesu lub niepowodzenia w ukoczeniu szkoy itp.
Wskanik taki stanowiby kryterium, z ktrym mona by skorelowa
wyniki poszczeglnych osb w pocztkowym tecie. Wysoki wspczynnik
korelacji, czyli wspczynnik trafnoci, oznaczaby, e te osoby, ktre
uzyskay dobre wyniki w tecie, odniosy stosunkowo due sukcesy w
nauce w szkole medycznej, podczas gdy ci z niskimi wynikami lestu
radzili w niej sobie gorzej. Niska korelacja wiadczyaby o niewielkim
zwizku midzy wynikami testu a miar krytcrialn i - tym samym - o
malej trafnoci testu. Wskanik trafnoci pozwala nam okreli, jak
dokadnie mona przewidzie kryterialne zachowanie na podstawie
wynikw testu.
W podobny sposb mona sprawdza, stosujc odpowiednie kryLeria,
trafno testw przeznaczonych do innych celw. Na przykad trafno
testu uzdolnie zawodowych mona sprawdza, stosujc jako kryterium
sukces w pracy odnoszony przez nowo zatrudnionych. Trafno testw o
szerszych i bardziej rnorodnych zastosowaniach sprawdza si
uywajc wielu niezalenych wskanikw behawioralnych; mona j
okreli jedynie na drodze stopniowego gromadzenia danych
pochodzcych z wielu rnych bada.
Czytelnik moe zauway oczywisty paradoks tkwicy w pojciu
tralhoci. Jeli osoby wykonujce test trzeba potem jeszcze bada innymi sposobami, by uzyska niezalene miary tego. co test ten ma
przewidywa, dlaczego w ogle z niego nie zrezygnowa? Rozwizanie
tego paradoksu mona znale, zwracajc uwag na to. e badania walidacyjne prowadzi si na innych osobach ni te. ktre bd nim pniej
badane. Zanim test bdzie gotowy do uytku, trzeba sprawdzi jego

Natura

testw psychologicznych i ich stosowanie 18

trafno tia reprezentatywnej prbie. Wyniki tych badanych nie s wykorzystywane do adnych Innych praktycznych celw, suc jedynie weryfikacji testu. Jeli sprawdzony t metod test okae si trafny, bdzie go
mona potem uywa wobec innych osb. w odniesieniu do ktrych nie
dysponuje si ju danymi kryterialnyml.
Kto moe Jednak nadal dowodzi, e zamiast przewidywania czego za
pomoc lesiu wystarczyoby tylko poczeka, a odpowiednie dane same
stan si dostpne. Ten sposb postpowania byby Jednak zwizany z
takim marnotrawstwem czasu 1 energii, e w wikszoci przypadkw nie
mgby mie zastosowania. Mona by oczywicie stwierdzi, ktrzy
kandydaci do pracy oka si dobrymi pracownikami lub ktrzy studenci poradz sobie na studiach, przyjmujc wszystkich zgaszajcych si
(czy wybierajc na chybi trafi) i czekajc, co bdzie! Nicoszczdno
zwizana z tak procedur i Jej szkodliwy wpyw emocjonalny na ludzi s
tym wanie, co testy maj minimalizowa. Dziki testom mona z
moliwym do oszacowania marginesem bdu okreli u czowieka aktualny poziom potrzebnych zdolnoci, wiedzy i innych wanych cech. Im
bardziej trafny i rzetelny test, tym mniejszy ten margines bdu.
Szczegowe problemy zwizane z okrelaniem trafnoci rnego typu
testw i specyficznymi kryteriami oraz wykorzystywane procedury
statystyczne omawiaj rozdziay 5 i 6. Jedn kwesti trzeba jednak
poruszy ju teraz. Trafno informuje nas o czym wicej ni stopie, w
jakim test peni swoj funkcj. Mwi nam ona. co test len naprawd
mierzy. Mona lo obiektywnie okreli, analizujc dane pochodzce z
bada nad jego trafnoci Tak wic suszniej byoby definiowa trafno
jako stopie, w jakim wiemy, co mierzy test. Interpretacja wynikw
testowych byaby niewtpliwie janiejsza i bardziej jednoznaczna, gdyby
testy konsekwentnie nazywano, uywajc terminw zwizanych z kryteriami stosowanymi przy okrelaniu ich trafnoci. Tendencj do zmierzania w tym kierunku mona dostrzec w takich nazwach, jak test diagnozy szkolnej" czy test klasyfikacji personelu", pojawiajcych si zamiast niejasnego sformuowania tesl inteligencji".

DLACZEGO STOSOWANIE TESTW PSYCHOLOGICZNYCH POWINNO


PODLEGA KONTROLI?
.Czy mog dosta arkusz Stanford-Bineta? Mj siostrzeniec bdzie
nim w przyszym tygodniu badany przy przyjmowaniu do szkoy,
wic chciaabym z nim powiczy, eby mg si dosta,"
Udoskonalamy program nauki czytania w naszej szkole, wic
potrzebny nam czysty kulturowo test Inteligencji, eby okreli
wrodzone zdolnoci kadego dziecka."
Testy psychologiczne s gupie - wczoraj wieczorem rozwizywaam

28

FUNKCJE I RCTOLA TESTW PSYCHOLOGICZNYCH

test inteligencji opublikowany w tygodniku i dostaam iloraz 80!"


Moja koleanka z pokoju studiuje psychologi i dala mi test
osobowoci. Okazao si, e jestem neurolyczk. Tak si zdenerwowaam. e od tego czasu nie chodz na wykady."
W zeszym roku prowadzilicie badania naukowe nad nowym testem
osobowoci i dawalicie go naszym pracownikom. Chcielibymy
wcign wyniki do ich akl personalnych."
Zacytowane wyej wypowiedzi nie s cakowicie zmylone. Oparte s
na rzeczywistych incydentach, a ich list kady psycholog z atwoci
mgby powikszy. Pokazuj one, e tesly mog by stosowane lub
interpretowane w niewaciwy sposb, pozbawiajcy je wartoci albo
krzywdzcy ludzi. Jeli testy psychologiczne maj przynosi poytek,
nale)' ich - podobnie jak wszystkich innych narzdzi badawczych czy
precyzyjnych instrumentw - uywa w sposb waciwy. W rkach
nieuczciwego albo dziaajcego w dobrej wierze, lecz niekompetentnego
uytkownika mog okaza si naprawd niebezpieczne. S dwa gwne
powody, ktre uzasadniaj, dlaczego uywanie testw psychologicznych
musi by kontrolowane: (a) trzeba mie pewno, e test przeprowadza
osoba odpowiednio wykwalifikowana, a jego wyniki s waciwie wykorzystywane; (b) nic mona dopuci do tego. by tre testu staa si
powszechnie znana, poniewa pozbawioby go to trafnoci.
Kwalifikacje badajcego. Kwalifikacje osoby badajcej wane s z
uwagi na kady z trzech gwnych aspektw badania testowego, jakie
stanowi: wybr testu, przeprowadzenie go i ocena wynikw oraz interpretacja. Testw nie mona wybiera jak kosiarek do trawy - z katalogu
sprzeday wysykowej. Nic mona ich ocenia na podstawie nazwy,
nazwiska autora czy innych atwo dostpnych oznak identyfikacyjnych.
Nie trzeba mie oczyw.cie kwalifikacji psychologicznych, by wzi pod
uwag takie czynniki, jak cena, rozmiary i atwo transportu materiaw
testowych, wymagany czas badania czy atwo i szybko zliczania
wynikw. Informacje dotyczce tych kwestii praktycznych mona zwykle
znale w katalogu testw i naturalnie trzeba je bra pod uwag,
planujc badania. Jednake po to. by test peni, mg swoj funkcj,
trzeba - jako sprawy zasadnicze - oceni jego walory merytoryczne,
okrelone przez takie waciwoci, jak trafno, rzetelno, poziom trudnoci. charakter norm. Tylko w ten sposb uytkownik lestu moe
stwierdzi, czy dany test nadaje si do lego celu, w jakim chce go
stosowa, i jest odpowiedni dla osb, ktre planuje bada.
Ju we wczeniejszej czci lego rozdziau, wstpnie omawiajc
standaryzacj lesiu, zwrcono uwag na wano wywiczenia osoby
badajcej. Jeli wyniki bada przeprowadzanych przez rne osoby maj
by porwnywalne, a rezultat kadego badanego oceniany na tle norm.

Natura testw psychologicznych i ich stosowanie 18

konieczne Jest cise przestrzeganie standardowych instrukcji i - wobec


tego - doskonaa Ich znajomo przez badajcego. Istotna jest te staranna kontrola warunkw testowych. Rwnie niepoprawne lub niestaranne
ocenianie odpowiedzi badanego moe pozbawia wyniki jakiejkolwiek
wartoci. Przy braku odpowiednich procedur kontrolnych bdy w ocenach zdarzaj si duo czciej ni zwykle.
Waciwa interpretacja wynikw tesLowych wymaga dobrego rozumienia teslu. osoby badanej i warunkw badania. Obiektywnie okreli,
co jest przedmiotem pomiaru, mona jedynie odwoujc si do specyficznych procedur, za pomoc ktrych sprawdzano trafno testu.
Potrzebne s te jednak inne informacje - dotyczce rzetelnoci lestu,
rodzaju grupy, na ktrej ustalano normy, 1 temu podobne. Istotne przy
interpretacji kadego wyniku testowego s rwnie pewne dane dotyczce osoby badanej. Taki sam wynik uzyskany przez rne osoby moe
co innego znaczy. Wnioski wycigane wwczas na podstawie bada
mogyby wic by zupenie odmienne. Wreszcie trzeba te zwrci uwag
na pewne specjalne czynniki, ktre mog way na wyniku testu, takie
jak nietypowo sytuacji badania, aktualny stan emocjonalny czy fizyczny badanego czy te jego uprzednie dowiadczenia z testami.
Rola uytkownika testu.
Istotnym aspektem rozwoju bada
testowych, jaki dokona si w latach 80. 1 90., byl wzrost uznania kluczowej roli uytkownika testu (Anastasi. 1990b). W tym kontekcie
uytkownikiem lestu jest kady, kto w praktyce wykorzystuje jego wyniki jako rdo informacji przy podejmowaniu decyzji. Uytkownik moe,
ale nie musi. by osob, ktra przeprowadza test i oblicza wyniki.
Uytkownikami testw s na przykad nauczyciele, pedagogowie szkolni
i szkolne wadze, pracownicy personalni w przemyle czy urzdach.
Wikszo zarzutw kierowanych pod adresem testw dotyczy nie ich
samych, lecz niewaciwego wykorzystania ich wynikw przez nie posiadajcych odpowiedniego przygotowania uytkownikw. Niektre takie
bdy wynikaj z denia do uzyskiwania krtkich, szybkich odpowiedzi,
znajdywania prostych, stereotypowych rozwiza realnych problemw
yciowych. Rwnie presja czasu zwizana z przecieniem prac moe
skania do polegania na takich uproszczonych sposobach podejcia.
Prawdopodobnie jednak najczstsz przyczyn niewaciwego stosowania testw jest niewystarczajca lub bdna wiedza na ich temat (Eyde.
Moreland. Robertson. Primoff i Most, 1988: Moreland. Eyde. Robertson.
Primorf i Most, 1995; Tyler i Miller. 1986)
Coraz wiksz uwag na zapobieganie tego rodzaju bdom zwracaj
specjalne
komitety
oglnokrajowych
organizacji
zawodowych,
wsppracujce z wydawcami. Dobry przykad mog stanowi prace
dziaajcego w Stanach Zjednoczonych zespou, zajmujcego si kwalifikacjami uytkownikw testw, znanego pod akronimem TUQWoG

30

FUNKCJE I R C T O L A TESTW PSYCHOLOGICZNYCH

(Test User Quall/ications Working Group; Eyde i tn., 1988). Gwnym


cclem tego zespou byo opracowanie opartego na danych empirycznych
zestawu istotnych kwalifikacji, jakie powinni posiada uytkownicy
rnego rodzaju testw, tak by wydawcy mogli uwzgldnia informacje
na ten temat w swoich formularzach dla klientw. W cigu piciu lat
intensywnych, szeroko zakrojonych bada zebrano imponujc baz
danych. Niektrzy amerykascy wydawcy zaczli ju wykorzystywa je w
formularzach dotyczcych kwalifikacji nabywcw testw. Potem powsta
drugi zespl, powoany w celu wykorzystania informacji zgromadzonych
przez TUgWoG do opracowania instrukcji i materiaw szkoleniowych
dla uytkownikw testw. Pierwszym produktem tego zespou, znanego
pod zmodyfikowanym akronimem TUTWoG (w ktrym druga litera T
oznacza Trainuig. czyli szkolenie), bya ksika przedstawiajca przypadki niewaciwego stosowania testw, majca na celu przeciwdziaanie
mu (Eyde i in. 1993). Przypadki te s konkretnymi przykadami bdw
rzeczywicie popenionych w rnych instytucjach i placwkach, w
ktrych prowadzono badania (por. Moreland i in.. 1995).
Ochrona testw i rozpowszechnianie dotyczcych ich informacji.
Oczywicie jeli kto nauczy si na pami poprawnych odpowiedzi w
tecie rozpoznawania kolorw, test ten nie bdzie si ju nadawa do
mierzenia u tej osoby percepcji barw. Stanie si wwczas kompletnie
pozbawiony trafnoci. Wyranie tu widzimy, e dosLp do treci testu
musi by cile ograniczony, by uniemoliwi rozmylne starania
badanego o podniesienie sobie wynikw. W innych jednak przypadkach
wpyw znajomoci testu bywa mniej oczywisty: jego trafno zniszczy te
mog dziaajce w dobrej wierze osoby, ktre nie posiadaj odpowiedniej
wiedzy. Na przykad nauczyciel moe przeprowadza ze swoimi uczniami
specjalne
wiczenia
w
rozwizywaniu
problemw
bardzo
przypominajcych zadania testu inteligencji, eby do niego dobrze przygotowa dzieci". Jest to proste przeniesienie na sytuacj badania
testowego procedury zwykle stosowanej przy przygotowywaniu uczniw
do egzaminw szkolnych. Jednake w odniesieniu do testu inteligencji
postpowanie takie prawdopodobnie spowoduje dokonujcy si pod
wpywem specyficznego treningu wzrost wynikw, czemu nie bdzie
odpowiadao rzeczywiste udoskonalenie szerszej klasy zachowa,
ktrych prbk usiowa mierzy test W tej sytuacji osabieniu ulegnie
trafno testu jako narzdzia sucego prognozie czy diagnozie.
Ochrona treci testw nie musi - i nie powinna - przeszkadza w
rzetelnym informowaniu o nich osb badanych, zainteresowanych specjalistw i ogu spoeczestwa. Informowanie takie suy kilku celom. Po
pierwsze, moe ono rozwiewa aur tajemniczoci, jaka czsto otacza
testy, a lym samym pomaga w korygowaniu powszechnych nieporozumie odnonie do tego. czemu su testy i co znacz ich wyniki. Funkcj

Natura testw psychologicznych i ich stosowanie 18

t mog peni przystpnie napisane publikacje, rozpowszechniane przez


gwnych wydawcw lesiw. Drugi typ informacji stanowi dane na
temat procedur stosowanych przy konstruowaniu i weryfikacji
poszczeglnych teslw. ich rzetelnoci, trafnoci i innych wasnoci psy
chometrycznych. Dane te s zwykle wczane do podrcznikw
testowych, udostpnianych wszystkim zainteresowanym.
Trzecim celem udzielania informacji jest zaznajomienie osb badanych
z procedur testow, rozproszenie niepokoju, sprawienie, by kady
badany funkcjonowa najlepiej jak tylko pozwalaj mu na to jego zdolnoci. Suy temu mog specjalne broszury wyjaniajce, zarwno
przedstawiajce informacje o charakterze oglnym, jak i zwizane z
konkretnymi testami. O materiaach tego rodzaju bdzie mowa w dalszej
czci tego rozdziau. Czwarty, bardzo wany rodzaj komunikatw to
udzielane osobom badanym informacje zwrotne na temal uzyskanych
przez nie wynikw. Psychologowie powicaj wiele uwagi szukaniu
najbardziej uytecznych sposobw czytelnego przekazywania takich
informacji w rnych kontekstach. Bdzie o tym mowa w rozdziaach 17
i 18.
Rozpowszechnianie informacji o testach ma znaczenie podstawowe. S
poyteczne i szkodliwe sposoby robienia tego. Przykadem tych drugich
mog by nieprzemylane prby legislacyjne wprowadzenia w tym zakresie kontroli administracyjnej (Bersoff, 1981, 1983; B. Lerner. 1980b).
Prawa stanowe regulujce ujawnianie informacji o testach faktycznie
wprowadzono w Stanach Zjednoczonych we wczesnych latach 70. w
Kalifornii i Nowym Yorku. Prawo stanu Nowy York, bardziej radykalne,
nakazywao nieograniczone ujawnianie pyta i odpowiedzi do wszystkich
testw zastosowanych na szersz skal przy przyjciach do szk
wyszych.
Poniewa praktyka laka czyni koniecznym przygotowywanie coraz to
nowych pyta przed kadym egzaminem, moe przynosi wiele niekorzystnych skutkw. Nale do nich. midzy innymi, zmniejszenie liczby
testw stosowanych w trakcie roku szkolnego, wzrost opat egzaminacyjnych dla kandydatw, spadek kontroli jakoci procedur stosowanych
przy tworzeniu testw i zapewnianiu porwnywalnoci wynikw uzyskiwanych w rnych latach. Warto te zauway, e lylko bardzo niewielu
badanych odnosi poytek z moliwoci poznania wczeniejszych testw i
e ponowne badanie inn form testu nie przynosi znaczcego
podwyszenia rezultatw (Stricker. 1984). Cele przywiecajce projektom
prawnej regulacji ujawniania testw mona zrealizowa skuteczniej i bez
szkodliwych efektw ubocznych, doskonalc Ju istniejce sposoby informowania.

32

FUNKCJE I RCTOLA TESTW PSYCHOLOGICZNYCH

PRZEPROWADZANIE TESTU
Podstawow ide badania testowego jest dokonywanie na podstawie
prbki zachowania obserwowanego w sytuacji testowej uoglnie dotyczcych zachowa przejawianych w innych, nietestowych sytuacjach.
Wynik testu powinien pomc nam w przewidywaniu, jak pacjent bdzie
si czul i funkcjonowa poza klinik, jakie ucze bdzie mial osignicia
w szkole i jak kandydat do pracy poradzi sobie na swoim stanowisku.
Wszystkie czynniki uboczne, ktre s specyficzne dla sytuacji testowej,
skadaj si na wariancj bdu i redukuj trafno lestu. Dlatego wane
jest zidentyfikowanie wszelkich wpyww zwizanych z testem, ktre
mog ogranicza lub zmniejsza moliwoci uoglniania jego wynikw.
Omwieniu poprawnych procedur przeprowadzania testw mona by z
atwoci powici cay tom. Przegld laki wykraczaby jednak poza
zakres tematyczny tej ksiki. Co wicej, praktyczniej jest opanowywa
specyficzne techniki w konkretnych sytuacjach, poniewa normalnie
nikt nie zajmuje si wszyslkimi formami testw, od skal dla niemowlt
po kliniczne testy stosowane wobec pacjentw psychotycznych czy testy
grupowe uywane, w masowych badaniach kadry wojskowej. Ponisze
rozwaania dotycz wic gwnie podstawowych, powszechnie
obowizujcych zasad przeprowadzania lesiw, a nie problemw
zwizanych ze specyficznymi ich zastosowaniami. Doskonay przykad
uszczegowienia mona znale w obszernym omwieniu dotyczcym
indywidualnych bada testowych dzieci (Sattler, 1988, rozdzia 5).
Przygotowania wstpne.
Najwaniejszym warunkiem dobrego
przeprowadzenia testu jest odpowiednie do niego przygotowanie. W
badaniu nie mona zdawa si na przypadek. Trzeba woy specjalny
wysiek w to, by wszystko przewidzie. Tylko w ten sposb mona
uzyska jednolito procedury.
Przygotowanie do sesji testowej obejmuje wiele elementw W przypadku wikszoci testw przeprowadzanych indywidualnie zasadnicz
spraw jest dokadne opanowanie pamiciowe instrukcji sownych.
Take jednak w badaniach grupowych, gdzie instrukcje czyta si
badanym, wczeniejsza znajomo tekstu zapobiega bdom czy -zawahaniom i pozwala przeprowadza test w bardziej naturalny, nieformalny
sposb. Innym wanym krokiem wstpnym jest przygotowanie materiaw testowych W badaniach indywidualnych, zwaszcza w przypadku
testw wykonaniowych. przygotowanie takie obejmuje odpowiednie
uoenie potrzebnych pomocy, eby atwo ich byo uy bez specjalnego
szukania i przebierania. Na ogl powinny one znajdowa si na stoliku
obok stou, przy ktrym odbywa si badanie, tak by pozostaway w
zasigu rk badajcego, ale nie rozpraszay uwagi badanego. Gdy wyko-

Natura testw psychologicznych i ich stosowanie 18

rzystujc si zoon aparatur, potrzebne moe by czste odmierzanie


czy rejestrowanie czasu. W przypadku bada grupowych wszystkie
egzemplarze testw, arkusze odpowiedzi, specjalne owki i inne
potrzebne materiay powinny by starannie przejrzane, policzone i przygotowane w przeddzie.
Innym wanym elementem przygotowania, zarwno do bada
grupowych, jak indywidualnych, jest dobra znajomo specyficznej procedury
testowej.
Badania
indywidualne
wymagaj
zwykle
wczeniejszego, odbywanego pod okiem fachowca, treningu w
przeprowadzaniu konkretnego testu. W zalenoci od charakteru testu i
rodzaju osb badanych, trening taki moe wymaga rnej iloci czasu od kilku demonstracji i sesji wiczeniowych do trwajcego ponad rok
szkolenia. W przypadku bada grupowych, zwaszcza przeprowadzanych
na du skal, przygotowanie moe polega na krtkim pouczeniu
badajcych i pomocnikw, tak by kady z nich dobrze wiedzia, na czym
polega jego zadanie. Na ogl badajcy czyta instrukcje, mierzy czas i
czuwa nad caoci badania. Pomocnicy rozdaj i zbieraj materiay
testowe, pilnuj przestrzegania instrukcji, odpowiadaj - w granicach
dozwolonych przez podrcznik testowy - na pytania badanych i zapobiegaj ciganiu.
Warunki badania.
Standardowo procedury dotyczy nie tylko
instrukcji sownych, czasu badania, materiaw 1 innych aspektw
samego testu, lecz take warunkw, w jakich jest on przeprowadzany.
Trzeba zwrci uwag na wybr odpowiedniego do tego celu pokoju.
Powinien on by wolny od nadmiernego haasu i czynnikw
rozpraszajcych uwag, mie waciwe owietlenie i wentylacj,
umoliwia wygodne siedzenie i zapewnia miejsce do pracy. Naley
podj specjalne kroki, aby zapobiec nieprzewidzianym przerwom w
trakcie badania. Na drzwiach powinien by umieszczony odpowiedni
znak sygnalizujcy, e badanie jest w toku, a cay personel musi by
pouczony, e znak ten informuje o bezwzgldnie obowizujcym zakazie
wstpu. Gdy bada si du grup, koniccznc moe okaza si zamknicie drzwi lub postawienie przy nich pomocnikw pilnujcych, by nie
wchodziy osoby spnione.
Rzecz wan jest uwiadamianie sobie stopnia, w jakim warunki
badania mog wpyn na wyniki. Wyranie mog je zmieni nawet
pozornie bahe aspekty sytuacji. Na przykad okazao si. c w badaniach
grupowych przeprowadzanych z uczniami szkoy redniej znaczenie
miao to, czy badani siedzieli przy stolach, czy na krzesach z pulpitami:
wysze wyniki uzyskali ci pierwsi (T.L. Kelley, 1943; Traxler i Hikert.
1942). Wykazano tez, e wyniki mog zalee od rodzaju zastosowanego
arkusza odpowiedzi (F.O. Bell, Hoff i Hoyt. 1964). Poniewa rne firmy

34

FUNKCJE I RCTOLA TESTW PSYCHOLOGICZNYCH

zajmujce si obliczaniem i opracowywaniem wynikw testowych maj


czsto swoje wasne, dostosowane do posiadanego oprzyrzdowania
arkusze, badajcy czasem uywaj innych protokow ni te, ktre
stosowano przy standaryzacji testu. Nie mona jednak zakada
rwnowanoci rnych arkuszy testowych bez jej empirycznego
potwierdzenia. Gdy bada si uczniw poniej klasy pitej, uywanie
jakichkolwiek arkuszy moe znaczco obniy wyniki (Cashen i
Ramseyer. 1969: Ramseyer i Cashen. 1971). Na og uwaa si, e lepiej
jest. by dzieci w tym wieku zapisyway odpowiedzi bezpoiednio w zeszytach testowych.
Jeszcze wiksza Jest rnica, na kadym poziomie wieku, midzy
stosowaniem tego samego testu w formie papier i owek" a
podawaniem go komputerowo. Bardzo baczn uwag naley zwrci na
to. jak wspomniana rnica wpywa na normy, rzetelno i trafno testu
w zalenoci od jego charakteru i badanej populacji. Sformuowano Ju
specjalne, profesjonalne wskazwki dla uytkownikw pomagajce im
ocenia porwnywalno wynikw testowych uzyskiwanych przy tych
dwu odmiennych sposobach przeprowadzania badania (Butchcr. 1987.
Hofer i Grcen. 1985).
Stwierdzono te. e wiele innych, bardziej subtelnych czynnikw sytuacyjnych wpywa na wykonanie, zarwno testw inteligencji, jak i testw
osobowoci. Istotne znaczenie dla wynikw moe mie to. czy
przeprowadzajcy test jest osob znan osobie badanej, czy obc (Sacks.
1952: Tsudzuki, Hata i Kuzc. 1957). W innych badaniach wykazano, e
zdecydowany wpyw na rezultaty testu ma sposb bycia i styl zachowania si badajcego. przejawiajcy si na przykad w umiechach, kiwaniu gow czy wypowiadaniu komentarzy w rodzaju dobrze", wietnie"
ltp. (Wickes, 1956). W testach projekcyjnych wymagajcych pisania
opowiada na temat pokazanych obrazkw obecno badajcego w pokoju wpywa ograniczajco na wczanie do historii tworzonych przez
badanego treci o silnym zabarwieniu emocjonalnym (Bernstein, 1956).
W tecie pisania na maszynie kandydaci do ptacy wykonuj uderzenia w
znacznie szybszym tempie, gdy s badani pojedynczo, ni wwczas, gdy
Jest Ich dwu lub wicej na raz (Kirchner, 1966).
Przykady takie mona by mnoy. Wnioski s trojakiego rodzaju. Po
pierwsze, naley przestrzega standardowej procedury w kadym, najdrobniejszym nawet szczegle. Autor 1 wydawca testu s odpowiedzialni
za pene i jasne opisanie jej w podrczniku. Po drugie, trzeba rejestrowa
wszystkie, nawet najmniejsze odstpstwa od normalnych warunkw
badania. Po trzecie, warunki te powinno si bra pod uwag przy interpretacji wynikw. Dokonujc pogbionej diagnozy przy uyciu indywidualnie przeprowadzanego testu, dowiadczony psycholog moe niekiedy
odej od standardowej procedury badania, by uzyska Jakie

Natura testw psychologicznych i ich stosowanie 18

dodatkowe, szczeglnie Interesujce go informacje. W takim jednak przypadku rezultaty testu nie mog ju by interpretowane na tle norm. Test
powinien by wwczas wykorzystywany jedynie do analiz jakociowych:
odpowiedzi badanego naley wic wtedy traktowa podobnie jak dane
pochodzce z nieformalnych obserwacji czy wywiadu.
Rozpoczynanie testu: Nawizywanie kontaktu i motywowanie
badanych.
W przypadku badania testowego nawizywanie kontaktu"
oznacza starania badajcego, by obudzi zainteresowanie badanego,
skoni go do wsppracy, zachci do odpowiadania w sposb zgodny z
celem Lestu. W testach zdolnoci cel ten wymaga koncentracji uwagi na
otrzymanych zadaniach i penej mobilizacji wysiku, by jak najlepiej je
rozwiza. W samoopisowych kwestionariuszach osobowoci chodzi o
uzyskanie szczerych, zgodnych z prawd odpowiedzi na pytania o typowe
dla badanego zachowania; w niektrych testach projekcyjnych realizacja
celu badania wymaga, by badany wiernie i w caoci relacjonowa swoje
skojarzenia wywoane przez prezentowane mu bodce, bez poddawania
tych skojarze cenzurze i redakcyjnej obrbce. Jeszcze inne testy mog
narzuca odpowiednio inne wymagania. Zawsze jednak badajcy stara
si zmotywowa badanych do jak najbardziej penego i skrupulatnego
przestrzegania instrukcji.
Szkolenie badajcych obejmuje techniki nawizywania kontaktu na
rwni z czynnociami bardziej bezporednio zwizanymi z przeprowadzaniem danego testu. Z uwagi na porwnywalno wynikw, przy
nawizywaniu kontaktu, podobnie jak w przypadku wszystkich innych
elementw procedury, istotne znaczenie ma jednolito warunkw. Jeli
dziecku da si za dobre rozwizanie jakiego zadania testowego atrakcyjn nagrod, nie bdzie mona jego wynikw bezporednio porwna z
normami czy z wynikami innych dzieci, ktre byy motywowane tylko
przy uyciu standardowej zachty sownej lub pochway. Wszelkie
odstpstwa od standardowych sposobw motywowania musz by brane
pod uwag przy interpretowaniu wynikw.
Cho peniejszy kontakt mona nawiza w badaniu indywidualnym,
rwnie przeprowadzajc testy grupowo trzeba podejmowa kroki w celu
pobudzenia motywacji osb badanych i umierzenia ich niepokoju.
Specyficzne techniki nawizywania kontaktu rni si midzy sob w
zalenoci od charakteru testu oraz wieku i innych waciwoci osb
badanych. Badajc dzieci w wieku przedszkolnym, trzeba uwzgldni
takie specyficzne czynniki, jak niemiao wobec obcych, rozpraszalno uwagi 1 negatywizm. Przyjazny, pogodny i opanowany sposb
zachowania osoby badajcej pomaga dziecku uspokoi si. Dziecko wstydliwe. bojaliwe potrzebuje wicej czasu na oswojenie si z sytuacj.
Dlatego te lepiej Jest, gdy badajcy na wstpie nie narzuca si mu zbyt-

36

FUNKCJE I R C T O L A TESTW PSYCHOLOGICZNYCH

nio. lccz raczej czeka a stanie si ono gotowe do kontaktu. Czas


przeprowadzania testu powinien by krtki, a zadania zrnicowane i
interesujce. Badanie naley przedstawia dziecku jako gr i pobudza
jego ciekawo przed wprowadzeniem kadego nowego zadania. Wobec
badanych w tym wieku konieczna jest pewna gitko procedury,
poniewa mona si spotka z ich strony z odmow, utrat zainteresowania i innymi przejawami negatywizmu.
Przeprowadzanie testu z uczniami w pierwszych dwu czy trzech latach
szkoy podstawowej nastrcza wiele podobnych problemw, jakie pojawiaj si przy badaniu dzieci w wieku przedszkolnym. Nadal najlepszym
sposobem wywoania zainteresowania dziecka jest odwoanie si do konwencji gry. Motywacj starszego dziecka szkolnego mona ju na ogl
pobudzi odwoujc si do ducha rywalizacji i pragnienia, by dobrze
wypa w tecie. Gdy jednak bada si dzieci ze rodowisk niekorzystnych
pod wzgldem wychowawczym lub odmiennych kulturowo, nie mona
zakada, e bd one w takim samym stopniu motywowane do uzyskiwania wysokich osigni w zadaniach akademickich", jak dzieci z
prby standaryzacyjnej. Ten i inne problemy zwizane z badaniem osb
posiadajcych odmienne dowiadczenia rodowiskowe rozwaane s
dalej, w rozdziaach 9. 12 1 18.
Specjalne problemy motywacyjne mona napotka badajc osoby z
zaburzeniami emocjonalnymi, winiw i nieletnich przestpcw.
Zwaszcza gdy bada si ich w instytucjach, w ktrych przebywaj, ludzie
ci skonni s do manifestowania wiciu niepodanych postaw, takich jak
podejrzliwo, niepewno, lk lub cyniczna obojtno. Niekorzystnie
mog te wpywa na wykonywanie przez nich testw rne specjalne
okolicznoci majce miejsce w uprzednich dowiadczeniach. Na
przykad, wskutek wczesnych niepowodze i frustracji w szkole, mog
reagowa na wszystkie zadania akademickie", a wic i przypominajce
je testy, wrogoci i poczuciem niszoci. Dowiadczony psycholog podejmuje specjalne starania, by nawiza w tych warunkach kontakt z
badanym. W kadym przypadku musi by wraliwy na takie specyficzne
trudnoci i bra je pod uwag interpretujc wyniki badania.
Badajc dziecko w wieku szkolnym lub dorosego, trzeba mie na
uwadze, e kady test moe zagraa poczuciu wasnej wartoci jednostki. Trzeba wic na wstpie dostarczy badanemu pewnego wsparcia
Na przykad pomocne moe by wyjanienie, e od nikogo nie oczekuje
si zrobienia caego testu czy poprawnego rozwizania wszystkich zada.
W przeciwnym wypadku badany mgby doznawa paraliujcego poczucia poraki po dojciu do trudniejszych zada lub nie byby w sianie
skoczy w wyznaczonym czasie adnego podteslu.
Podane jest te eliminowanie z sytuacji testowej, na ile tylko si da,
elementw zaskoczenia, poniewa to, co nieoczekiwane i nieznane, zwyk-

Natura testw psychologicznych i ich stosowanie 18

le budzi niepokj. Wiele typw testw grupowych zawiera wstpne


wyjanienia, ktre odczytuje si badanym. Jeszcze lepszym rozwizaniem jest zaopatrzenie wszystkich badanych w specjalne materiay
ktre informuj o celu badania 1 charakterze testu, zawieraj lulka oglnych wskazwek, jak sobie z nim radzi, oraz przedstawiaj kilka
przykadowych zada. Takie broszury informacyjne s regularnie
udostpniane uczestnikom wielu szerzej zakrojonych bada testowych
prowadzonych w Stanach Zjednoczonych, np. przy przyjmowaniu do college'w.
Pewne dodatkowe problemy pojawiaj si przy badaniu dorosych. W
odrnieniu od dzieci, nie s oni zbyt skonni wysila si nad
rozwizywaniem zada tylko dlatego, e tak im polecono. Tote dorosym
trzeba przedstawi jaki cel badania; zreszt rwnie uczniw szkoy
redniej i studentw korzystnie motywuje tego rodzaju informacja.
Zwykle wspprac badanych mona sobie zapewni przekonujc ich. e
w ich wasnym interesie ley uzyskanie rzetelnego wyniku - takiego,
ktry adekwatnie odzwierciedla ich moliwoci, zamiast zawya je czy
zania. Wikszo ludzi zrozumie, e niewaciwe decyzje, ktre
mogyby by rezultatem nietrafnych wynikw testu, pocigayby za sob
pniejsze niepowodzenia, strat czasu i frustracj. wiadomo tego
moe nie tylko motywowa badanych do rzetelnej pracy w testach zdolnoci. lecz take zmniejsza tendencj do zafaszowa w kwestionariuszach osobowoci, zachcajc do szczerych odpowiedzi: badani zdaj
sobie bowiem spraw z tego. e postpujc inaczej, dziaaliby na wasn
szkod. Z pewnoci nie ley w interesie czowieka, by zosta przyjty na
kierunek studiw, do ktrych brak mu potrzebnych zdolnoci i wiedz}',
czy do pracy, ktrej nie podoa lub ktrej nie bdzie lubi.

ZMIENNE ZWIZANE Z OSOB BADAJCEGO I SYTUACJ


Co jaki czas publikowane s obszerne przegldy danych na temal
wpywu badajcego i zmiennych sytuacyjnych na wyniki bada
testowych (Lutey 1 Copcland, 1982; Masling, 1960; S.B. Sarason, 1954;
Sattler, 197C. 1988; Sattlcr i Theye. 1967). Cho niektre z opisywanych
efektw stwierdzono w badaniach prowadzonych testami grupowym;,
wikszo danych zebrano w odniesieniu do technik projekcyjnych i
Indywidualnie przeprowadzanych testw inteligencji. Czynniki uboczne
silniej wpywaj wwczas, gdy badany ma do czynienia z nieustrukturalizowanymi i niejednoznacznymi bodcami lub nowymi i trudnymi
zadaniami, ni wtedy, gdy wykonuje wyranie okrelone i dobrze wyuczone dziaania. Oglnie rzecz biorc, dzieci s bardziej wraliwe na
wpyw badajcego i sytuacji ni doroli; szczeglnie Istotna jest ml i

38

FUNKCJE I RCTOLA TESTW PSYCHOLOGICZNYCH

przeprowadzajcego tesl w przypadku badania dzieci przedszkolnych.


Rwnie osoby zaburzone emocjonalnie i niepewne siebie, w kadym
wieku, s bardziej podatne na omawiany rodzaj wpyww ni osoby
dobrze przystosowane.
Wpyw badajcego na wyniki indywidualnie przeprowadzanych lesiw
inteligencji i technik projekcyjnych analizowano uwzgldniajc takie
zmienne. Jak wiek. ple, narodowo, status zawodowy 1 spoleczno-ekonomiczny. wyszkolenie i dowiadczenie, cechy osobowoci i wygld
zewntrzny. Cho stwierdzono wiele istotnych zalenoci, wyniki s czsto nie rozstrzygajce czy niejednoznaczne, poniewa w badaniach nie
udaje si naleycie kontrolowa lub izolowa wpywu poszczeglnych
cech badajcego i badanego. Skutkiem lego wpywy dwu lub wicej
zmiennych mog na siebie zachodzi.
atwo da si wykaza, e na rezultaty testw wpywa zachowanie
badajcego w trakcie badania i bezporednio je poprzedzajce. Na
przykad w odpowiednio kontrolowanych badaniach stwierdzono istotne
rnice w wynikach testu inteligencji pojawiajce si. jako efekt ciepych"
vs zimnych" relacji interpersonalnych midzy badanym a badajcym
lub sztywnego i penego rezerwy us naturalnego sposobu bycia
badajcego (Exner. 1966: Masling. 1959). Co wicej, zachodzi moe
istotna interakcja midzy waciwociami badanego i badajcego, co
znaczy, e te same cechy badajcego czy sposobu, w jaki przeprowadza
test, mog rnie wpywa na rnych badanych, w zalenoci od ich
osobowoci. Podobne interakcje zachodzi mog midzy zmiennymi
zwizanymi z samym badaniem, takimi jak charakter lestu, cel jego
przeprowadzania czy instrukcje podawane badanym. Dyer (1973) dodaje do tej listy jeszcze inne zmienne, zwracajc uwag na moliwy wpyw
sposobu, w jaki badany i badajcy widz funkcje i cele badania
testowego.
Jeszcze inny rodzaj wpywu, jaki na odpowiedzi udzielane przez
badanego w tecie moe niewiadomie wywiera badajcy, wie si z
jego oczekiwaniami. Jest to po prostu specjalny przypadek zjawiska
samospelniajcego si proroctwa (Harris i Rosenthal. 1985: R
Rosenthal. 1966; R. Rosenthal i Rosnow, 1969). Ilustracj tego rodzaju
wpyww moe stanowi eksperyment przeprowadzony z testem
Rorschacha (Masling, 1965). Osobami badajcymi byo 14 studentwochotnikw: siedmiu z nich powiedziano, midzy innymi, e dowiadczeni badacze czciej uzyskuj od badanych odpowiedzi zwizane z
ludmi ni ze zwierztami, a pozostaym siedmiu udzielono informacji
odwrotnej. W efekcie obie grupy badajcych uzyskay istotnie rne proporcje obu wspomnianych typw odpowiedzi. Rnice te ujawniy si
mimo faktu, e ani badajcy, ani badani nie byli wiadomi adnych prb
wywierania wpywu. Co wicej, analiza zapisw na tamach magneto-

Natura testw psychologicznych i ich stosowanie 18

Tonowych, na ktrych rejestrowano przebieg wszystkich sesji, nie


wykazaa adnych widocznych prb wywierania przez badajcych sugestii sownych. Prawdopodobnie oczekiwania badajcych dziaay na
badanych w formie subtelnych sygnaw przekazywanych za porednictwem postawy ciaa i wyrazu twarzy.
Oprcz badajcego, istotny wpyw na wyniki testw mog mie inne
aspekty sytuacji testowej. Na przykad onierze poborowi czsto badani
s zaraz po wcieleniu do wojska, w okresie przystosowywania si do nieznanych i stresujcych warunkw. W jednym z bada, majcych na celu
okrelenie wpywu takiej aklimatyzacji na wykonanie lestu inteligencji,
poddano mu 2724 rekrutw dziewitego dnia pobytu w orodku szkoleniowym marynarki (L.V. Gordon i Alf, 1960). Ich wyniki, porwnane z
wynikami 2180 rekrutw badanych tym samym testem w zwykym czasie. czyli trzeciego dnia po wcieleniu, okazay si istotnie wysze w zakresie kadego z podtestw.
Aktywno badanego poprzedzajca bezporednio test rwnie moe
wpywa na jego wyniki, zwaszcza gdy powoduje zdenerwowanie,
zmczenie czy inne niekorzystne skutki. W badaniu przeprowadzonym z
uczniami trzeciej i czwartej klasy uzyskano pewne dane sugerujce, e
ilorazy inteligencji, oceniane na podstawie Testu Rysunku Postaci
Ludzkiej (Draw a Man Test), zale od tego. co dzieci robiy wczeniej na
lekcji (McCarlhy. 1944). W jednej sytuacji dzieci pisay wypracowanie na
temat Najlepsza rzecz, jaka mnie w yciu spotkaa", w drugiej - na temat
Najgorsza rzecz, jak mi si dotd przytrafia". Ilorazy inteligencji
okrelone na podstawie drugiego badania testowego, poprzedzonego
prac, ktra moga dostarcza przykrych dowiadcze emocjonalnych,
byy rednio o 4-5 punktw nisze w porwnaniu z wynikami pierwszego
badania. Dane te znalazy potwierdzenie w innym eksperymencie, specjalnie powiconym okreleniu wpywu poprzedzajcych dowiadcze na
wyniki Testu Rysunku Postaci Ludzkiej (Reichenberg-Hacketl. 1953).
W badaniu tym okazao si, e u dzieci, ktre miay gratyfikujce
dowiadczenia polegajce na dobrym rozwizaniu ciekawej amigwki
nagrodzonym zabawkami i sodyczami, wyniki testu poprawiy si
bardziej ni u tych. ktre doznay dowiadcze mniej gratyfikujcych lub
neutralnych. Podobne rezultaty uzyskano badajc studentw college'u
(W.E. Davis. 1969a, 1969b). U studentw ktrych naraono wczeniej
na niepowodzenie w tecie rozumienia werbalnego, wyniki przeprowadzonego polem testu rozumowania arytmetycznego okazay si istotnie
gorsze ni w grupie kontrolnej, ktra nie wykonywaa pierwszego testu, i
w grupie, ktra wykonywaa go w warunkach standardowych.
Prowadzono te badania nad wpywem informacji zwrotnych o
wynikach na wykonanie przez badanego dalszych lesiw. W wyjtkowo
dobrze zaplanowanym eksperymencie z udziaem uczniw klasy sidmej

40

FUNKCJE I RCTOLA TESTW PSYCHOLOGICZNYCH

(Bridgeman, 1974) stwierdzono, e osoby, ktrym udzielono informacji o


sukcesie, uzyskuj w nastpnym, podobnym tecie wysze rezultaty ni
osoby (o rwnie dobrych wynikach pocztkowych), ktrym powiedziano,
e odniosy niepowodzenie. Motywacyjna funkcja takich Informacji
zwrotnych polega moe gwnie na lym, e wpywaj one na cele. Jakie
stawiaj sobie badani przy wykonywaniu nastpnego lestu: tym samym
moe to stanowi kolejny przykad samospclniajccgo si proroctwa. Nic
naley jednak myli takiego oglnie motywujcego sprzenia zwrotnego
z informacjami zwrotnymi o charakterze korekcyjnym, za porednictwem
ktrych badany cowiaduje si o konkretnych le wykonanych przez
siebie zadaniach i otrzymuje pomocne wskazwki: tego typu informacje
zwrotne prawdopodobnie bardziej poprawi rezultaty osb z niskimi
wynikami pocztkowymi.
Podane wyej przykady pokazuj, jak rnorodne s zmienne, ktre
mog wpywa na wyniki testw. W wielu przypadkach masowo prowadzonych bada wpyw tych zmiennych jest praktycznie nieistotny. Tym
niemniej wykwalifikowany badajcy zawsze ma si na bacznoci,
starajc si wykry potencjalne czynniki zakcajce i zminimalizowa
ich wpyw. Gdy okolicznoci nie pozwalaj na tak kontrol, wnioski
wycigane na podstawie bada powinny by formuowane ostronie.

PERSPEKTYWA OSOBY BADANEJ


Lk testowy. Do najwczeniejszych badan nad reakcjami na sytuacj
testow nale dotyczce lku testowego. Niewtpliwie wczesne zainteresowanie nim wynikao std. e jest atwo zauwaalny i ma wyranie
szkodliwy wpyw. Wiele praktycznych rozwiza, ktre maj uatwia
nawizywanie kontaktu z badanym, suy zarazem redukowaniu lku
testowego. Z pewnoci powinny pomaga w jego obnianiu wszelkie
zabiegi zmierzajce do tego. by uczyni sytuacj testow mniej obc i
zaskakujc oraz uspokoi i zachci badanego. Temu samemu celowi
suy odpowiedni sposb zachowania si badajcego oraz dobra organizacja i sprawny przebieg badania.
Rnice indywidualne w zakresie lku testowego badano u uczniw i
studentw collegew IGaudry i Spiclberger, 1974: Hagtvel i Johnsen.
1992: I.G. Sarason, 1980; Spielberger. 1972). Wiele spord tych bada
zainicjowa S B. Sarason ze swymi wsppracownikami z Yale (Sarason.
Datfdson. Lighthall. Waite i Rucbush, 1960). Pierwszy krok stanowio
skonstruowanie kwestionariusza do pomiaru postaw wobec badania
testowego. Na przykad wersja lego narzdzia przeznaczona dla dzieci
zawiera takie pytania, Jak:

Natura testw psychologicznych i ich stosowanie 18

Czy bardzo denerwujesz si przed testem?


Czy kiedy nauczycielka mwi, e bdzie sprawdza, jak duo
nauczylicie si. serce zaczyna cl mocniej bi?
Czy podczas rozwizywania lestu zwykle mylisz, e nie idzie ci
dobrze?
Najciekawszy Jest rezultat pokazujcy, e wyniki zarwno testw
osigni szkolnych, Jak testw Inteligencji istotnie koreluj ujemnie z
lkiem testowym. Podobne korelacje stwierdzono u studentw college'u
(I.G. Sarason. 1961). Badania podune pokazuj take, e zmiany w
zakresie lku testowego ujemnie koreluj ze zmianami wynikw testw
osigni szkolnych i inteligencji (K.T. Hill i S.B. Sarason, 1966: S B.
Sarason. K.T. Hill i Zimbardo, 1964).
Dane te oczywicie nie mwi o kierunku zwizku przyczynowego. By
moe lk testowy powstaje u tych osb. ktre le sobie radz w testach 1
w sytuacjach wczeniejszych bada dowiadczyy niepowodze i frustracji. Za interpretacj tak przemawiaj badania pokazujce, e ujemna korelacja midzy lkiem testowym a poziomem wykonania zanika w
grupach osb z wysokimi wynikami w lesiach inteligencji (Denny, 1966;
Feldhusen i Klausmeier. 1962). Z drugiej jednak strony, s dane
sugerujce, e za omawian zalezno przynajmniej po czci odpowiada
szkodliwy wpyw lku na funkcjonowanie w sytuacji testowej. W Jednym
z bada (Waite. Sarason. Lighthall i Davidson. 1958) dzieciom z niskim
i wysokim poziomem lku. ktre miay identyczne wyniki w tecie
inteligencji, dano ponownie prby testowe w formie zada treningowych.
Poziom wykonania wzrs bardziej u dzieci z niskim ni u dzieci z
wysokim poziomem lku. cho na pocztku testu treningowego nie byo
midzy nimi rnic.
W kilku badaniach porwnywano wykonanie testu w warunkach, w
ktrych wywoywano stan niepokoju" lub odprenia". I tak Mandler i
Sarason (1952) stwierdzili, e instrukcje wzmagajce zaangaowanie ja",
na przykad przez przekazanie Informacji, e od wszystkich oczekuje si
ukoczenia testu w wyznaczonym czasie, miay korzystny wpyw na
osoby z niskim poziomem lku, ale szkodliwy - na osoby z wysokim
poziomem lku. Inne badania wykazay interakcj midzy warunkami
testowymi a takimi waciwociami indywidualnymi, jak poziom lku i
motywacja osigni (Lawrence. 1962: Paul i Eriksen, 1964). Jak si
wydaje, zwizek midzy lkiem a wykonaniem testu jest nieliniowy niewielki lk jest korzystny, podczas gdy silny dziaa szkodliwie. Dla
osb. ktre maj normalnie niski poziom lku, korzystna jest sytuacja
budzca pewien lk, podczas gdy osoby charakteryzujce si na ogl
wysokim poziomem lku lepiej funkcjonuj w sytuacji penego
odprenia.

42

FUNKCJE I RCTOLA TESTW PSYCHOLOGICZNYCH

Nie ulega wtpliwoci, e chronicznie wysoki poziom lku ma niekorzystny wpyw na uczenie si szkolne I rozwj intelektualny Lk
przeszkadza zarwno przyswajaniu, jak odtwarzaniu informacji (Hagtvet
i Johnsen. 1992). Wpyw ten jednak naley odrni1 od efektw wystpujcych w sytuacji testowej, o ktrych tu mowa. Chodzi o to. w jakim
stopniu lk testowy sprawia, e funkcjonowanie jednostki w sytuacji
testowej staje si niereprezentatywne dla jej zwykego funkcjonowania w
Innych, nietesiowych sytuacjach. Poniewa uczniowie starszych klas
szkoy redniej zamierzajcy si dalej ksztaci odczuwaj siln presj
zwizan z rywalizacj, uwaa si. e lk testowy moe nadmiernie
wpywa na wyniki testw stosowanych przy przyjmowaniu do collegew. W rzetelnym, dobrze kontrolowanym badaniu dotyczcym tej
kwestii (French. 1962) porwnywano wykonanie przez uczniw szkoy
redniej testu wczonego jako cz do oficjalnie przeprowadzanego
Testu Uzdolnie Szkolnych (Scholastic Aptitude Test - SAT) i rwnolegej
jego formy, podanej w innym czasie, w warunkach odprenia". W tym
drugim przypadku instrukcja informowaa, e test przeprowadzany jest
tylko w celach naukowych i jego wyniki nie zostan wysiane do adnego
college'u. Okazao si. e wyniki uzyskane w warunkach standardowych
nie byy gorsze ni w drugim badaniu. Co wicej, trafno diagnostyczna
wynikw testu oceniana na podstaw ich zgodnoci ze stopniami szkolnymi nie rnia si istotnie w tych dwu sytuacjach. Rwnie w kilku
nowszych badaniach zakwestionowano powszechny stereotyp ucznia z
lkiem egzaminacyjnym, ktry ma wiedz, ale drtwieje", gdy dostaje
test (patrz Cullcr i Holahan, 1980). Badania te wykazay, e uczniowie z
wysokimi wynikami na skali lku testowego uzyskuj, w porwnaniu z
tymi, ktrzy maj wyniki niskie, nisze rednie ocen i maj sabsze
nawyki uczenia si.
Badania nad natur, pomiarem i sposobami eliminowania lku
testowego rozwijaj si we wci wzrastajcym tempie (I.G. Sarason.
1980: Spielberger. Anton i Bedell. 1976: Spielberger, Gonzalez i Flctcher,
1979: Spielberger, Gonzalez. Taylor, Algaze 1 Anton, 1978: G.S. Tryon,
1980). Jeli chodzi o natur lku testowego, zidentyfikowano dwa wane
jego komponenty,
a mianowicie emocjonalno i niepokj.
Emocjonalno oznacza pojawianie si uczu i reakcji fizjologicznych,
takich jak napicie czy przyspieszenie rytmu serca. Niepokj, rozumiany
tu jako komponent poznawczy, obejmuje negatywne myli na wasny
temat, takie jak oczekiwanie, e si sobie nie poradzi, i martwienie, si
konsekwencjami poraki Myli te odwracaj uwag od zada testowych
i dlatego przeszkadzaj w ich wykonywaniu. Oba komponenty mierzone
s przez rne kwestionariusze lku testowego. Cho szeroko stosowane
w badaniach, kwestionariusze te do niedawna byy dostpne w literaturze Jedynie w formie wzmianek w doniesieniach z prac

Natura testw psychologicznych i ich stosowanie 18

empirycznych. Przykad opublikowanego testu stanowi Inwentarz Lku


Testowego (Test Anxiety Inuentory) stworzony przez Splelbergera i jego
wsppracownikw; Jest on opisany w rozdziale 13.
Wiele wysikw woono w opracowanie i ocen metod eliminowania
lku testowego. Nale do nich procedury terapii behawioralnej (rozdzia
17) przeznaczone do redukowania emocjonalnego komponentu lku
testowego. Wyniki oddziaywa s na og pozytywne, trudno jednak
wiza pomylne efekty z jak okrelon technik z uwagi na saboci
metodologiczne prowadzonych na ten temat bada (G.S. Tryon, 1980).
W rzeczywistoci emocjonalny komponent lku testowego wykazuje tendencj do zmniejszania si z badania na badanie nawet w grupach nie
poddawanych adnym oddziaywaniom terapeutycznym, a take w specjalnych grupach kontrolnych, wobec ktrych stosowano wiarygodn
pseudoterapi. Co wicej, redukcja komponentu emocjonalnego ma
niewielki lub aden wpyw na poziom wykonania.
Poprawa, zarwno poziomu wykonania testw, jak funkcjonowania w
szkole, jest bardziej prawdopodobna, gdy oddziaywania terapeutyczne
s ukierunkowane na reakcje poznawcze badanych odnoszce si do
wasnej osoby. Przeprowadzone dotd badania sugeruj, e najlepsze
rezultaty daj programy terapeutyczne, w ktrych czy si eliminowanie
obu komponentw - emocjonalnego i poznawczego - z doskonaleniem
umiejtnoci uczenia si. Lk testowy jest zjawiskiem zoonym, posiadajcym wiele przyczyn, ktrych udzia jest u poszczeglnych osb
rny. Efektywny program oddziaywa musi by wic dostosowany do
indywidualnych potrzeb. Trzeba te zdawa sobie spraw z tego. e lk
testowy stanowi tylko przejaw bardziej oglnego ukadu warunkw
osabiajcych u czowieka efektywno uczenia si.
Testy widziane z perspektywy osb badanych.
Cho lk testowy jest
bardzo widocznym i wanym aspektem zachowania si osoby badanej,
warte uwagi s rwnie inne. W obszernej, wydanej w 1993 pracy, ktrej
redaktorami s Baruch Nevo i R.S. Jager. podjto trud zebrania dostpnych danych na temat reagowania osb badanych na testy stosowane w
edukacji, przemyle, klinikach i poradnictwie. W pitnastu rozdziaach
napisanych przez uznanych badaczy, ktrzy zajmuj si rnymi aspektami zastosowa testw, przedstawione s zarwno przegldy
pochodzcych z rnych krajw publikacji na poszczeglne tematy, jak i
wyniki bada wasnych autorw. Ksika ta stanowi powan, opart na
solidnych danych prb znalezienia odpowiedzi na pytania dotd
rozwaane gwnie na lamach publicystyki lub na forum polityki czy
prawa. Stara si Le tak dalece, jak tylko mona, korygowa panujce
dzi stronnicze lub sprzeczne opinie na temat bada testowych. Na
przykad rozdzia pierwszy przedstawia wyniki dziesiciu dobrze

44

FUNKCJE I RCTOLA TESTW PSYCHOLOGICZNYCH

przeprowadzonych, obejmujcych bardzo rne populacje, sonday


postaw wobec testw. Wyniki ujawniaj rozbienoci midzy opiniami
spoecznymi i niektrymi powszechnie znanymi, cho nie reprezentatywnymi glosami na temat testw wypowiadanymi przez osoby publiczne.
Tematyka poszczeglnych rozdziaw jest rnorodna. Niektre mwi
o kwestionariuszach i wywiadach stosowanych w celu zbierania od
badanych informacji zwrotnych na temat tego. jakie maj postawy wobec
okrelonych testw i jak spostrzegaj ich przedmiot pomiaru. W jednym
z rozdziaw porwnuje si opinie uczniw o sprawdzianach w formie
wypracowa czy esejw i w formie testw z odpowiedziami do wyboru;
okazuje si. e uczniowie wyranie preferuj t drug form. Niektrych
autorw Interesuje to, jak kandydaci do pracy reaguj na testy, ktrych
zadania zwizane s z czynnociami zawodowymi, i testy zawierajce
zadania z tymi czynnociami nie zwizane. W kilku rozdziaach proponuje si, na podstawie wynikw bada, pewne metody doskonalenia
sposobw przeprowadzania testw i warunkw testowych. Oglnie
mona powiedzie, e ksika ta stanowi dobr podstaw dla dalszych
bada ukierunkowanych na poszukiwanie rozwiza aktualnych problemw praktycznych i spoecznych zwizanych z testami. Moe te przyczyni si do doskonalenia wzajemnego porozumienia midzy uytkownikami testw a osobami badanymi.

WPYW WICZENIA NA WYKONYWANIE TESTU


Przy ocenie wpywu wiczenia na wyniki testowe kwesti podstawow
Jest to, czy efekty ograniczaj si do specyficznych zada zawartych w
tecie, czy te przenosz si na szersz klas mierzonych nim zachowa
(Anastasi, 1981a, 198lb). Odpowied na to pytanie wyznacza rnic
midzy trenowaniem a ksztaceniem. Oczywicie kade ksztacenie.
Jakiemu podlega jednostka, zarwno formalne, jak nieformalne, powinno
znale odzwierciedlenie w wynikach uzyskiwanych przez ni w testach,
ktre stanowi prbki zachowa odpowiadajcych zakresom lego
ksztacenia. Takiego typu wpywy w aden sposb nie szkodz trafnoci
testu, jeli jego wyniki maj informowa o aktualnym poziomie danego
rodzaju zdolnoci jednostki. Omawiana rnica jest jednak oczywicie
stopniowalna. Efekty dowiadcze nie dadz si sklasyfikowa jednoznacznie jako wskie lub szerokie, poniewa moliwy zakres ich oddziaywania Jest bardzo rny - od wpyww dotyczcych jednego badania pojedynczym testem, poprzez takie, ktre odnosz si do wszystkich
zada danego typu, a do takich, ktre ujawniaj si w wikszoci
innych dziaa Jednostki Moliwe jest jednak dokonanie pewnego
rozrnienia praktycznego, wanego dla efektywnoci bada testowych.

Natura testw psychologicznych i ich stosowanie 18

Mona mianowicie powiedzie, e wynik lestu staje si nietrafny tylko


wtedy, gdy specyficzne dowiadczenie, ktre go podnioso, nie wpyno
jednoczenie w widoczny sposb na cao zachowania stanowicego
przedmiot pomiaru.
Trenowanie. Wpywy trenowania na wyniki testowe byy szeroko
badane. Kilka wczesnych prac na ten temat prowadzili psychologowie
brytyjscy, w szczeglnoci zajmujc si wpywem wiczenia i treningu w
odniesieniu do testw stosowanych dawniej przy kwalifikowaniu jedenastolatkw do rnego typu szk drugiego stopnia (Yates i in., 19531954). Jak mona si tego byo spodziewa, stopie poprawy okaza si
zaleny od zdolnoci I wczeniejszych dowiadcze osb badanych,
charakteru testw oraz typu zastosowanego treningu. Badani
pochodzcy z niekorzystnych rodowisk wychowawczych na og bardziej
korzystaj z treningu ni ci, ktrzy mieli lepsze moliwoci rodowiskowe
i ju wczeniej zostali przygotowani do radzenia sobie z testami.
Oczywiste jest te to, e im wiksze podobiestwo midzy treci materiaw wiczeniowych i treci testu, tym wikszej poprawie ulegaj jego
wyniki. Z drugiej strony, im bardziej wiczenie ogranicza si do specyficznych treci zawartych w tecie, tym mniej prawdopodobne jest przeniesienie si efektw na zachowania traktowane jako kryterium
zewntrzne. Co wicej, wyniki wielu bada nad rol trenowania s
niejednoznaczne i trudne do interpretacji z powodu powanych bdw
metodologicznych (Anastasi, 1981a; Bond. 1989; Messick. 1980a).
Najwiksz ich sabo stanowi to. e nie udawao si w nich uwzgldnia grup kontrolnych, nic poddawanych treningowi, ktre byyby w
peni porwnywalne z grupami trenowanymi. Na przykad osoby uczestniczce w patnych programach treningowych stanowi grup w naturalny sposb wyselekcjonowan, rnic si od grupy kontrolnej zdolnociami. motywacj i innymi cechami osobowociowymi wpywajcymi
na wykor.anic testu. Ponadto w progi aniach eksperymentalnych, w
ktrych stosuje si pretesty i postetesty. trudno jest zapewni sobie jednakow motywacj badanych do uzyskiwania dobrych wynikw w obu
badaniach; zwaszcza dotyczy to przypadkw, gdy jeden test
przeprowadzany jest formalnie, w ramach oficjalnych bada, a drugi tylko w celach szkoleniowych czy badawczych.
Niepokj zespou nadzorujcego egzaminy testowe do eollege'w
wywoao rozpowszechnienie si nieprzemylanych komercyjnych
kursw treningowych dla kandydatw. Dla wyjanienia nasuwajcych
si w zwizku z tym wtpliwoci przeprowadzono kilka dobrze kontrolowanych eksperymentw, ktre miay okreli efekty treningu dotyczcego Testu Uzdolnie Szkolnych (SAT), oraz dokonano przegldu
rezultatw innych, niezalenie prowadzonych bada na ten temat

46

FUNKCJE I RCTOLA TESTW PSYCHOLOGICZNYCH

(Donlon. 1984: Messlck. 1980a. 1981; Messick i Jungcblut. 1981).


Badania ic dotyczyy rnych metod treningowych 1 obejmoway uczniw
publicznych i prywatnych szkl rednich. Uwzgldniono le prby
zoone z czonkw grup mniejszociowych, zarwno pochodzcych z
miast, jak yjcych na terenach niezurbanizowanych. Pynce z tych
bada wnioski pokazuj, e intensywne wiczenia w wykonywaniu zada
podobnych do zada testu SAT nie podnosz Jego wynikw w stopniu
wyranie przewyszajcym popraw, jaka nastpuje u uczniw po roku
normalnej nauki w szkole redniej.
Trzeba te zauway, c organizacje nadzorujce egzaminy testowe dla
kandydatw i absolwentw college ow badaj, przy konstruowaniu
testw, podatno nowo wprowadzanych typw zada na wpywy
treningu (Evans i Pike, 1973; Powers. 1983; Powers i Swinton, 1984;
Swinton i Powers. 1985). Do ostatecznych wersji testu nie wcza si
takich typw prb. ktrych wykonanie mona atwo poprawi za pomoc
krtkotrwaego treningu czy wsko zakrojonego wiczenia. Oczywisty
przykad mog tu stanowi problemy wymagajce prostych rozwiza,
ktre - raz znalezione - mog by potem bezporednio zastosowane
wobec wszystkich podobnych zada. Zadania takie, napotkane w
przyszoci, wymagaj raczej umiejtnoci przypomnienia sobie dawniej
wykonywanego testu anieli zdolnoci rozwizywania problemw. Inny
przykad stanowi zoone zadania, w ktrych uywa si nieznanego
materiau i stosuje szczegowe i zawile instrukcje (Powers. 1986).
Trening w' wskim, tradycyjnym tego sowa znaczeniu suy
ksztatowaniu cile okrelonych sprawnoci, ktre mog mie
niewielkie zastosowanie w yciu. Podobnie wiczenia zmierzajce do
.nauczenia testu" zwykle koncentruj si na szczegowych umiejtnociach i wiadomociach uwzgldnionych w tym tecie, a nie na szerszym
zakresie kompetencji, jakie usiuje on mierzy. Tendencja do odtajniania" testw egzaminacyjnych, czyli powszechnego ich udostpniania po
uyciu, take przyczynia si do zwracania uwagi na specyficzne umiejtnoci testowe o ograniczonej przydatnoci. Wreszcie, poniewa trening
moe by dostpny dla jednych osb badanych, a dla innych nie, przyczynia si on do powstawania rnic indywidualnych w zakresie specyficznych zdolnoci do wykonywania testw, przez co zmniejsza ich
trafno.
Dowiadczenie testowe. Istotne w zwizku z tym s le wpywy
dowiadczenia testowego, czyli zwykej wprawy w wykonywaniu testw.
Uywajc alternatywnych form lego samego lestu stwierdzono, e na
og wyniki drugiego badania s wysze. Wykazano istotne przyrosty
rednich wynikw, stosujc rwnowane testy przeprowadzane
bezporednio po sobie lub z rnymi odstpami czasu, wynoszcymi od

Natura testw psychologicznych i ich stosowanie 18

jednego dnia do trzech lal (Donlon. 1984; Droege. 1966; Peel. 1951.
1952). Podobne rezullaly uzyskano badajc przecitnie I wybitnie uzdolnione dzieci w wieku szkolnym, uczniw szkl rednich, studentw college'w I rne grupy zawodowe. Dane dotyczce rozkadu przyrostw
wynikw spodziewanych przy ponownym badaniu form rwnoleg
powinny by przedstawiane w podrcznikach testowych i brane pod
uwag przy interpretowaniu rezultatw.
Przyrost wynikw nic ogranicza si tylko do sytuacji stosowania form
alternatywnych tego samego testu. Osoba posiadajca bogate, dowiadczenie w wykonywaniu standaryzowanych testw ma przy rozwizywaniu
kolejnego z nich pewn przewag nad kim, kto jest badany po raz pierwszy (Millman, Bishop i Ebel. 1965: Rodger, 1936). Przewaga ta po czci
wynika z wczeniejszego przezwycienia pocztkowego poczucia obcoci sytuacji, z nabycia wikszej pewnoci siebie i korzystniejszych postaw
wobec badania, po czci za jest efektem tego. e treci i czynnoci
uwzgldniane w rnych lesiach w jakim stopniu pokrywaj si. Pewne
uatwienie dla badanego moe te stanowi znajomo typowych rodzajw zada oraz wprawa w wypenianiu arkuszy odpowiedzi. Szczeglnie
wane jest, by uwzgldnia te czynniki, gdy porwnuje si wyniki osb,
ktrych dowiadczenie testowe moe si znacznie rni. W przypadku
bada przeprowadzanych przy uyciu komputera naley zwrci uwag,
czy i na ile badany zna t form podawania testw (Hofer i Green. 1985).
Krtkie, oglnie orientujce sesje wiczeniowe mog okaza si
cakiem skuteczne przy wyrwnywaniu dowiadczenia testowego
(Anastasi, 1981a: Wahlstrom i Boersman. 1968). Taki trening zaznajamiajcy z testami redukuje efekty wczeniejszych rnic w zakresie
obycia z nimi. Poniewa s to rnice indywidualne specyficzne dla sytuacji testowej. Ich zniesienie powinno pozwoli na bardziej trafn diagnoz
szerszej klasy zachowa, ktre ma mierzy dany test. Przykad takiego
wiczenia moe stanowi publikacja dotyczca SAT. zatytuowana Taking
the SAT I: Reasoning Test (Rozwizywanie SAT /: Test Rozumowania):
jest to broszura rozdawana wszystkim zarejestrowanym kandydatom do
collegeu, ktrzy maj by poddani temu testowi. Radzi ona, jak efektywnie pracowa przy wykonywaniu testu, pokazuje 1 wyjania rne typy
wczonych do niego prb oraz przedstawia komplet zada, ktre radzi
si uczniom wykona w standardowym czasie i oceni odpowiedzi za
pomoc zaczonego klucza. Podobna broszura. Taking the SAT U:
Subjects Tests, podaje przykady l wyjanienia zada z testw
dotyczcych rnych przedmiotw szkolnych.
Podobne materiay odnosz si te do testw dla absolwentw
(Graduale Record Examinalions - GRE); w specjalnym biuletynie informacyjnym podawane s wyjanienia przykadowych zada z Testu
Oglnego (General Test), oraz pene reprodukcje testw stosowanych we

48

FUNKCJE I RCTOLA TESTW PSYCHOLOGICZNYCH

wczeniejszych latach, w a z z kluczami odpowiedzi. Dodatkowe wersje


testw s regularnie publikowane w formie ksikowej (Practicing to Take
the GRE General Test). Dostpne s te podobne broszury wiczeniowe
dotyczce testw z poszczeglnych przedmiotw nauczania.
Materiay zapoznajce z testami, bardzo licznie ukazujce si w
Stanach Zjednoczonych w latach 80. i 90.. nic ograniczaj si do tekstw
drukowanych, ale obejmuj rwnie slajdy, filmy, wideokasety. pliki
komputerowe. Wiele z tych materiaw opracowaa i rozpowszechnia
instytucja pod nazw Ediucational Testing Sernice (ETS). Niektre z ruch
dotycz specyficznych testw, jak na przykad slajdy na temat interpretacji wynikw SAT i testw osigni w collcge'u. Dostpny jest le program komputerowy pomagajcy w rozumieniu wynikw SAT. Z do
rozbudowanego programu przygotowujcego do testu mog skorzysta
osoby, ktre zamierzaj si podda wspomnianemu ju Testowi
Oglnemu. Program ten dostarcza przykadw zada, symuluje sytuacj
testow, z uwzgldnieniem ograniczenia czasu, wyjania le rozwizane
prby i analizuje mocne i sabe punkty osoby badanej.
Jeszcze inne materiay (drukowane, filmowe, komputerowe, multimedialne) maj na celu bardziej oglne przygotowanie do testw i przeznaczone s dla osb w rnym wieku - od dzieci w modszym wieku
szkolnym do dorosych. Jednym z przykadw jest pyta wideo pod nazw
On V'our Oton: Preparing for a Standarized Test (1987). przygotowujca
do testw i przeznaczona dla uczniw szkl rednich, ktr mona
posugiwa si zarwno indywidualnie, jak w grupach. Przewodnikiem w
formie ksikowej jest How to Take a Test: Doiiig Your Best, (Dobbin,
1984). Informatory o testach przygotowywane s te przez najwikszych
amerykaskich wydawcw testw komercyjnych 1 agencje rzdowe.
Przykadem dziaalnoci tych ostatnich moe by zestaw materiaw
dotyczcych Baterii Testw Uzdolnie Oglnych (General Aptitude Test
Battery - GATB). wydawanych przez amerykaski Urzd Zatrudnienia
(US Employment Sernice).
Ksztacenie oglniejszych zdolnoci poznawczych.
Niektrzy
badacze przyjmuj odmienny sposb podejcia do doskonalenia
funkcjonowania w testach. Celem ich jest rozwijanie sprawnoci o szerszym zastosowaniu - umiejtnoci intelektualnych, nawykw pracy i
strategii rozwizywania problemw. Wpyw takich oddziaywa powinien
si ujawnia zarwno w wykonaniu testw, jak i w zachowaniach krylerialnych. na przykad w nauce szkolnej Zgodnie z wprowadzonym na
wstpie tej czci rozdziau rozrnieniem, tego typu programy maj
suy raczej ksztaceniu anieli trenowaniu. Cze spord wzmiankowanych badaczy pracuje z umiarkowanie upoledzonymi dziemi i
modzie (Babad i Budoff. 1974: Belmont 1 Bulterfield, 1977; A.L.

Natura testw psychologicznych i ich stosowanie 18

Brown, 1974: Budoff i Corman, 1974: Campione 1 Brown. 1979,1987:


Feuersteln, 1979, 1980; Feucrsteln, Rand, Jensen, Kaniel i Tzuriel,
1987). Inni koncentruj si na pochodzcych z niekorzystnych
wychowawczo rodowisk uczniach szkl zawodowych i studentach Collegiw (Llnden i Whimbey. 1990: Whimbey. 1975, 1977, 1980).
Wicie spord procedur treningowych wykorzystywanych w tych programach oddziaywa ma na celu ksztatowanie efektywnych sposobw
rozwizywania problemw, takich jak staranne analizowanie problemu
czy pytania, rozwaanie wszystkich moliwych odpowiedzi i zwracanie
uwagi na istotne szczegy i powizania, rozwane, a nie impulsywne
formuowanie odpowiedzi lub ich wybieranie, stosowanie wysokich standardw przy ocenie wasnego dziaania. S to oczywicie strategie, ktre
powinny doskonali funkcjonowanie intelektualne jednostki nie tylko
przy wykonywaniu testw, lecz take podczas pracy szkolnej i wielu
innych czynnoci ycia codziennego, zalenych od szkolnego uczenia si.
Istotne jest tu jednak pytanie o stopie transferu i generalizowania si
efektw na inne typy treci i inne sytuacje ni wykorzystane w
ksztaceniu. Dotd uzyskane rezultaty s obiecujce. Jednake programy takich oddziaywam cigle znajduj si w fazie eksploracji 1
potrzebne s dalsze badania nad zakresem i trwaoci osiganej
poprawy
Podsumowanie. Trzy omwione tu lypy wicze przeprowadzanych
przed lestami maj zupenie odmienne cele. Jak wiczenia te wpywaj
na trafno testu i jego praktyczn uyteczno jako narzdzia diagnostycznego? Najpierw bya mowa o trenowaniu rozumianym jako intensywne wiczenie prowadzone na zadaniach podobnych do tych. ktre znajduj si w tecie. Zwrcono uwag na to. e dobrze skonstruowany test
skada si z prb lak wybranych, by ich podatno na tego lypu
wiczenia bya moliwie jak najmniejsza; zarazem waciwe zadania
testowe podlegaj cisej ochronie. Gdyby jednak trenowanie mogo
poprawi wykonanie testu, odbywaoby si to bez jednoczesnego
doskonalenia zachowa kryterialnych. Tak wic trafno testu
zmniejszaaby si. Stawaby si on mniej efektywn miar szerszych
zdolnoci, ktre mial diagnozowa, i mniej dokadnie pozwalaby
orzeka, czy jednostka ma umiejtnoci i wiedz stanowice warunki
sukcesu w sytuacjach kryterialnych (czyli tych, ktrych dotyczy maj
formuowane na podstawie testu przewidywania).
Procedury polegajce na oglnym zaznajamianiu badanych z testami
s natomiast przeznaczone do eliminowania czy kompensowania rnic
w uprzednim dowiadczeniu testowym. Rnice te, podobnie Jak efekty
trenowania, s czynnikami wpywajcymi na same wyniki lestowe,
niekoniecznie odzwierciedlajcymi si w szerszej klasie zachowa mle-

50

FUNKCJE I RCTOLA TESTW PSYCHOLOGICZNYCH

rzonych testem. Tego typu wiczenia powinny czyni test narzdziem


bardziej trafnym, poniewa redukuj wpyw czynnikw specyficznych dla
badania testowego.
1 wreszcie wiczenie oglniejszych zdolnoci poznawczych, o ile okae
si efektywne, powinno udoskonali zdolnoci jednostki do radzenia
sobie z kolejnymi zadaniami intelektualnymi. Usprawnienie to moe i
powinno odzwierciedli si w wykonaniu lestu. Poniewa w tym przypadku poprawiaj si i wyniki lestowe, i funkcjonowanie stanowice kryterium. takie wiczenie nie zmienia trafnoci testu: zwiksza natomiast
szanse osignicia przez jednostk podanych celw.

RDA INFORMACJI 0 TESTACH


W dziedzinie psychologicznych badan Lcstowych zachodz szybkie zmiany. Zmieniaj si orientacje, pojawiaj si nowe testy, zrewidowane
formy dawnych oraz dodatkowe dane. ktre mog udoskonali lub
zmieni sposoby interpretacji wynikw wczeniej znanych narzdzi.
Z uwagi na wzrastajce tempo zmian i ogromn liczb istniejcych
testw, niepraktyczne byoby zamieszczanie ich przegldu w jakiej jednej ksice. Wicej danych o specyficznych narzdziach testowych 1
zwizanych z nimi problemach znale mona w pracach dotyczcych
zastosowania testw w poszczeglnych dziedzinach, jak poradnictwo,
praktyka kliniczna, selekcja zawodowa czy edukacja. Odsyacze do
takich publikacji znajduj si w odpowiednich rozdziaach lej ksiki.
Jednake by mie aklualn orientacj w lym, co dzieje si w tej
dziedzinie, kada osoba pracujca z testami powinna korzysta z bardziej
bezporednich rde informacji o nich.
Jednym z najwaniejszych rde jest Mental Measurements Yearbook
(Rocznik tes/w psychologicznych),
oznaczany skrtem
MMY.
zapocztkowany przez Oskara K. Burosa i wydawany przez niego do roku
1978. Od roku 1985 MMY jest publikowany przez Instytut Burosa, zajmujcy si pomiarem zdolnoci umysowych (Buros Inslitute oj Mental
Measurement). na uniwersytecie stanu Nebraska. W tych seryjnie
ukazujcych si ksikach omawiane s prawie wszystkie dostpne w
sprzeda logiczne, szkolne i z a w o d o w e w y d a n e w j z y k u
angielskim. W szczeglnoci kompletne s zawarte tam przegldy testw
typu .papier 1 owek". Kady rocznik uwzgldnia testy opublikowane w
danym okresie, tak wic raczej uzupenia anieli zastpuje roczniki
poprzednie. Wczeniejsze publikacje z tej serii podaway jedynie dane
bibliograficzne o testach. Od roku 1938 roczniki wychodz w swojej
obecnej formie, zawierajc zarwno krytyczne przegldy autorstwa jednego lub wicej ekspertw w dziedzinie testw. Jak 1 kompletne wykazy

Natura testw psychologicznych i ich stosowanie 18

publikacji dotyczcych kadego testu. Regularnie podawane s te standardowe informacje na temat wydawcy, ceny, form i wieku osb, dla
Ktrych mona stosowa dany test, Aktualny plan przewiduje wydawanie
co dwa lub trzy lala nowych MMY. z publikowanymi w midzyczasie
suplementami.
Informacje o testach zawarte w MMY. wraz z przegldami krytycznymi. s teraz dostpne take w formie elektronicznej. Dane te zaczynaj
si od dziewitego rocznika i s uaktualniane co sze miesicy. Inna
publikacja wspomnianego Instytutu Burosa to Tess in Prmf (Testy u>
druku): ostatni z dotychczas wydanych, czwarty tom (T1P-1V. 1994)
redagowali L.L. Murphy, Conoley i Impara. Publikacja ta zawiera zbiorcze wykazy wszystkich znanych testw komercyjnych wydanych w
jzyku angielskim, wraz z danymi o nich i spisami bibliografii. Kade
kolejne wydanie Testw w druku moe by te wykorzystywane jako
indeks do wszystkich poprzedzajcych go rocznikw MMY,
Drugim wanym rdem informacji o wydawanych testach s wykazy
bibliograficzne pod nazw Test Collection Bibliographies. przygotowywane
przez ETS. Zamieszczane s tu bibliografie dotyczce testw z rnych
dziedzin szczegowych, zaopatrzone w dodatkowe adnotacje. Zakres
tego wydawnictwa jest bardzo szeroki - uwzgldnione s w nim wszystkie lypy testw, w lym testy o specyficznych zastosowaniach czy
przeznaczone dla nietypowych populacji, na przykad dla osb z
upoledzeniami fizycznymi. Opis kadego testu dostarcza informacji o
autorze, dacie wydania, wydawcy, populacji, dla ktrej test jest przeznaczony, i jego celu oraz o mierzonych zmiennych i ewentualnych
wynikach czstkowych uzyskiwanych w badaniu Bibliografie z zakresu
poszczeglnych dziedzin mona otrzyma z ETS (adres podano w
Dodatku B) za drobn opat. Omawiane wydawnictwo jest jedn z kilku
publikacji ETS zawierajcych aktualne informacje o testach i badaniach
testowych.
Oprcz testw wydanych drukiem istnieje ogromna liczba testw nie
opublikowanych, ktre s opisywane lub reprodukowane w ksikach,
czasopismach i raportach. Zainteresowanych badaczy informuj o nich
przegldy zamieszczane w rnych kompendiach (patrz np. Goldman i
Mitchell. 1995). Biece informacje 0 nie opublikowanych testach s te
dostpne
za
porednictwem
materiaw
Tesls
in
Microfiche
rozprowadzanych przez specjaln komrk ETS. Kadego roku docza
si do nich nowy zestaw testw, przy czym dostpne s indeksy kadego
zestawu. Testy do bada indywidualnych mog kupowa tylko
uytkownicy legitymujcy si odpowiednimi kwalifikacjami. Jasny i
zwizy przewodnik uatwiajcy szukanie informacji na temat zarwno
opublikowanych, jak 1 nic opublikowanych testw udostpniany Jest
przez Rad Naukow Amerykaskiego Towarzystwa Psychologicznego

52

FUNKCJE I RCTOLA TESTW PSYCHOLOGICZNYCH

(Findlng Information. 1995). rdo to jest regularnie uaktualniane;


kady, kto prosi o kopi, dostaje automatycznie najnowsz wersj.
Najbardziej bezporednim rdem informujcym uytkownika o
okrelonych testach s katalogi publikowane przez wydawcw
1 podrczniki do poszczeglnych narzdzi. Obszern list wydawcw
testw, z ich adresami, mona znale w ostatnich rocznikach MMY. Dla
wygody czytelnika nazwy i adresy wydawcw testw cytowanych w lej
ksice podane s w Dodatkach A i B. Katalogi aktualnie sprzedawanych
testw mona uzyska na yczenie od wydawcw. Podrczniki 1 egzemplarze testw s sprzedawane tylko wykwalifikowanym uytkownikom.
Podrcznik teslowy powinien zawiera istotne informacje potrzebne do
przeprowadzenia badania oraz dokonania occny i interpretacji jego
wynikw. Musz si w nim znajdowa pene, szczegowe instrukcje,
klucze do oceny odpowiedzi, normy oraz dane na temat rzetelnoci i
trafnoci. Co wicej, podrcznik powinien mwi, na ilu i jakich osobach
ustalano normy oraz oceniano rzetelno i trafno, a take jakimi metodami posugiwano si. okrelajc ich wskaniki. W przypadku, gdyby
potrzebne informacje okazay si zbyt obszerne, by zmieci je w
typowym podrczniku, naley je poda w specjalnym podrczniku technicznym lub innych publikowanych rdach, odsyajc do nich
uytkownika. Innymi sowy, podrcznik powinien pozwoli uytkownikom oceni test. zanim wybior go do swoich celw. Trzeba doda, e
niektre podrczniki cigle jeszcze nic wystarczajco peni t funkcj.
Jednake wiksi i bardziej profesjonalni wydawcy testw coraz czciej
zwracaj uwag na to. by przygotowywane przez nich podrczniki
odpowiaday naukowym standardom. Istnienie wiatej spoecznoci
uytkownikw testw stanowi najpeniejsz gwarancj utrzymania tych
standardw i ich doskonalenia w przyszoci.
Zwizy, ale wszechstronny przewodnik pokazujcy, jak ocenia testy
psychologiczne, stanowi Standardy dla testw stosowanych w psychologii i pedagogice (Slandards Jor Educational and Psychological
Testing), opracowane przez Amerykaskie Towarzystwo Psychologiczne,
przy wspudziale dwu innych stowarzysze zainteresowanych testami Amerykaskiego Towarzystwa
Bada
Edukacyjnych
(American
Educational Research Association; AERA) i Krajowej Rady do Spraw
Pomiaru w Edukacji (National Council on Measurement in Education;
NCME). Opublikowane po raz pierwszy w roku 1954, Standardy miay
kolejne, poprawione wydania w latach 1966, 1974 i 1985.2 Obecnie trzy
W Polsce Standardy do lesiw stosowanych w psychologii i pedagogice w
tumaczeniu E. Hornowskiej opartym na edycji oryginalnej z roku 1974, zostay
wydane w roku 1985 przez Laboratorium Technik Diagnostycznych Polskiego
Towarzystwa Psychologicznego 1 Wydziau Psychologii Uniwersytetu
Warszawskiego (przyp. Dum.).
2

Nalura testw psychologicznych

Ich stosowanie

wspuczestniczce stowarzyszenia przygotowuj kolejn, znacznie


zmienion edycj.
Potrzeba ustanowienia Standardw dla testuP. dotyczcych nie tylko
technicznej Jakoci testw, lecz takie kwestii zwizanych z wpywem
badania na dobro Jednostki, zacza dochodzi do gosu w latach 80.
(patrz rys. 1-1). wiadectwem wzrostu zainteresowania t kwesti jest
charakter zmian wprowadzanych w najnowszym wydaniu Standardw
dla testw. Rysunek 1-2 przedstawia proponowan list standardw
opracowan w 1996 roku przez komitet redakcyjny trzech towarzystw
naukowych przygotowujcych t publikacj. Wyranie wida, e wzmaga
si troska o to, by wybiera testy - a take interpretowa i wykorzystywa wyniki - z uwzgldnieniem Informacji o wczeniejszych dowiadczeniach osb badanych. Warto zauway, e caa cz II nosi tytu
Bezstronno bada testowych". Uytkownicy staj si coraz bardziej
wiadomi faktu, e nieodpowiednie zastosowanie lestu moe skrzywdzi
czowieka i zmniejszy efektywno jego funkcjonowania w spoeczestwie. U przeprowadzajcych testy wiadomo t mog nasila, i
powodowa popraw stanu rzeczy, gosy publicznej krytyki wobec
niewaciwego uywania testw. To za powinno z kolei zwikszy
spoeczne uznanie poytkw, jakie mog przynosi testy.

Dla wygody, bdziemy odtd uywa w catej tej ksice lego skrconoeo tytuu.

54

FUNKCJE I RCTOLA TESTW PSYCHOLOGICZNYCH

STANDARDY DLA TESTW STOSOWANYCH


W PSYCHOLOGII I PEDAGOGICE
Cz I Standardy techniczne dotyczce konstrukcji
i oceny testw
1. Trafno
2 Rzetelno i bdy pomiaru
3 Procedury konstruowania i rewidowania testu
4 Skalowanie, normalizacja, porwnywalno wynikw
i rwnowaenie testu
5. Publikacja testu: podrczniki techniczne i przewodniki dta
uytkownikw
Cz II, Standardy dla uytkownikw
6. Oglne zasady uywania testw
7 Badania kliniczne
8. Badania edukacyjne i testy psychologiczne w szkole
9. Zastosowanie testw w poradnictwie
10. Badania testowe w dziedzinie zatrudnienia
11 Przyznawanie zawodowych licencji i certyfikatw
12. Ocena programw
Cz III Standardy dotyczce specjalnych zastosowa testw

13. Badanie mniejszoci jzykowych


14. Badanie osb o waciwociach utrudniajcych wykonywanie
lestu
Cz IV. Standardy dotyczce przeprowadzania testw

15 Przeprowadzanie bada, obliczanie wynikw i informowanie o


nich
16. Ochrona praw osb badanych

Rysunek 1-1. Tematy uwzgldnione w wydaniu Standardw dla testw z


roku 1985 (AERA, APA, NCME, 1985).

Natura testw psychologicznych i ich stosowanie 18

P R O P O N O W A N A LSTA S T A N D A R D W DLA T E S T W
STOSOWANYCH W PSYCHOLOGII I PEDAGOGICE
Cz I. Konstrukcja, ocena i dokumentacja testu
1 Trafno
2. Rzetelno, bdy pomiaru i warto informacyjna wyniku
testowego
3. Procedury konstruowania i rewidowania testu
4. Skalowanie, normalizacja, standardy i porwnywalno
wynikw
5. Przeprowadzanie bada, obliczanie wynikw i informowanie o
nich
6 Dokumentacja lestu
Cz II. Bezstronno bada testowych
7. Bezstronno i jej zakcenia
8 Ochrona praw osb badanych
9. Badanie osb, dla ktrych angielski nie jest pierwszym
jzykiem
10. Badanie osb z upoledzeniami
Cz III. Zastosowania testw
11. Oglne zasady uywania testw
12 Testy psychologiczne i diagnoza
13. Testy edukacyjne i diagnoza
14 Badania testowe w dziedzinie zatrudnienia, przyznawanie
licencji i certyfikatw
15 Testy stosowane przy ocenie programw i w subie polityki
spoecznej

Rysunek 1-2. Tematy wybrane do uwzgldnienia w zrewidowanym wydan i u Standardw dla Testw ( A E R A . APA. N C M E . 1996)

Historyczne rda
wspczesnych bada testowych

krtki zarys historycznych rde psychologicznych bada testowych


Istworzy Uo, pozwalajce lepiej zrozumie dzisiejsze testy .1 Kierunek,
"w jakim zmierzaj wspczesne badania testowe, mona janiej
dostrzec w wietle rzucanym przez prace ich prekursorw. Specyficzne
ograniczenia i zalety dzisiejszych testw staj si bardziej zrozumiae w
kontekcie danych pokazujcych ich genez. Rozdzia ten dotyczy tylko
rde i wczesnego rozwoju bada testowych. Nowsze tendencje rozwojowe omawiane s w dalszych rozdziaach, w zwizku z poszczeglnymi
rodzajami testw, takimi jak testy zdolnoci (rozdz. 8-12) czy zainteresowa (rozdz. 14), lub caymi dziedzinami ich zastosowa, jak edukacja,
przemys, zdrowie czy poradnictwo (rozdz. 17).
Korzenie bada testowych tkwi w staroytnoci. Przytaczane s na
przykad opisy systemu egzaminw do suby pastwowej stosowanego
w cesarstwie chiskim od okoo 2000 lat (Bowman. 1989).
U staroytnych Grekw sprawdziany stanowiy nieodczny skadnik
procesu ksztacenia. Oceniano za ich pomoc zarwno sprawno fizy1 Bardziej szczegowy opis wczesnych rde testw psychologicznych mona
znale w pracach: F.L. Goodenough (1949), J. Peterson (1926). Oglne to
charakteryzuj te* Borlng (1950) oraz G. Murphy i Kovach (1972). Nowsze zarysy
historii testw psychologicznych daj DuBois (1970) i McReynolds [1975, 1986).
a historii bada nad rnicami indywidualnymi - Anastasi (1965). Przegld tendencji rozwojowych w zakresie psychologicznych bada testowych mona znale
u Anastasi (1993).

56

Historyczne rdta wspczesnych bada testowych

57

czn. Jak 1 umiejtnoci Intelektualne (Doylc. 1974). Od pocztkw red niowiecza europejskie uniwersytety opieray si na egzaminach przy
przyznawaniu stopni 1 tytuw. By Jednak pozna najwaniejsze
wydarzenia, ktre uksztatoway dzisiejsze testy, nie musimy zapuszcza
si dalej ni w wiek dziewitnasty. O ych wanie wydarzeniach bdzie
teraz mowa.

WCZESNE ZAINTERESOWANIA KLASYFIKACJ


I KSZTACENIEM OSB UPOLEDZONYCH UMYSOWO
W wieku dziewitnastym zaczto zwraca uwag na humanitarne traktowanie osb upoledzonych umysowo i obkanych. Wczeniej ludzie ci
spotykali si na og z lekcewaeniem, omieszaniem, a nawet okruciestwem. Wraz ze wzrostem troski o waciw opiek nad ludmi z
problemami psychicznymi uwiadomiono sobie, e potrzebne s jakie
jednolite kryteria rozpoznawania i klasyfikowania tych przypadkw.
Utworzenie, zarwno w Europie, jak Stanach Zjednoczonych, wielu
spoecznych instytucji opieki nad upoledzonymi umysowo sprawio, e
szczeglnie piln spraw stao si ustalenie standardw, ktre mona by
stosowa przy przyjciach. 1 obiektywnego systemu klasyfikacyjnego. W
pierwszym rzdzie potrzebne byy kryteria rnicowania midzy
obkanymi a upoledzonymi umysowo. Ci pierwsi ujawniali zaburzenia
emocjonalne, ktre mogy, ale nie musiay towarzyszy odchyleniu si
funkcjonowania intelektualnego od pierwotnie normalnego poziomu;
tych drugich charakteryzowano przede wszystkim jako osoby z defektem
intelektualnym, obecnym ju od urodzenia lub wczesnego niemowlctwa.
Przypuszczalnie pierwsze, wyrane sformuowanie tego rozrnienia
mona znale w opublikowanym w roku 1838 dwutomowym dziele francuskiego lekarza Esuirola (1838), gdzie ponad 100 stron powicone
jest znaczeniu terminu upoledzenie umysowe". Esquirol wskazywa
take, e istniej rne stopnie upoledzenia, poczynajc od pogranicza
normalnoci, a koczc na gbokim stopniu idiotyzmu". W celu
stworzenia jakiego systemu klasyfikowania rnych stopni 1 odmian
upoledzenia, Esuirol wyprbowywa kilka sposobw, w kocu jednak
doszed do wniosku, e najbardziej niezawodnego kryterium oceny
poziomu intelektualnego jednostki dostarcza jej mowa. Warto zauway,
e wspczesne kryteria upoledzenia umysowego rwnie maj w
duym stopniu charakter jzykowy i e dzisiejsze testy inteligencji s
znacznie nasycone treciami werbalnymi. Wana rola. jak w naszym
rozumieniu pojcia inteligencji odgrywaj zdolnoci werbalne, bdzie
wielokrotnie widoczna w nastpnych rozdziaach.
Istotne znaczenie ma te wkad wniesiony przez innego lekarza francuskiego. Segulna. ktry by pionierem w zakresie ksztacenia osb

58

FUNKCJE I RCTOLA TESTW PSYCHOLOGICZNYCH

upoledzonych umysowo. Odrzucajc panujcy wwczas pogld o


nieuleczalnoci upoledzenia umysowego, Seguin (1866/1907) przez
wiele lat eksperymentowa z metod, ktr okrela mianem fizjologicznej
metody wiczenia; w 1837 roku zaoy pierwsz szko majc na celu
ksztacenie dzieci upoledzonych umysowo. W roku 1848 emigrowa do
Ameryki, gdzie jego idee zyskay szerokie uznanie. Wiele spord technik
wiczenia zmysw i mini, stosowanych potem w zakadach dla
upoledzonych, wywodzio si z metody Seguina. Za porednie! wcm tych
technik dzieci upoledzone umysowo otrzymuj intensywny trening w
zakresie rnicowania sensorycznego i kontroli ruchw. Wiele procedur
stworzonych w tym celu przez Seguina wczono potem do wykonaniowych. czyli niewerbalnych testw inteligencji. Przykadem jest
Wkadanka Seguina /Seguin Form Board). wymagajca od badanego jak
najszybszego powkadania rnicych si ksztatami klockw w
odpowiednie zagbienia.
W ponad pl wieku po pracach Esqulrola i Seguina francuski psycholog Alfred Binel przekonywa, e dzieci, ktre nie radz sobie w
warunkach normalnego nauczania, powinny by przed zaniechaniem
dalszej nauki badane i. jeli zostan uznane za wyuczalne, kierowane do
specjalnych klas (T.M. Wolf. 1973). Wraz z innymi czonkami
Towarzystwa do Bada Psychologicznych Dziecka, Bincl zachca
Ministerstwo Edukacji Publicznej do podjcia krokw zmierzajcych do
poprawienia sytuacji dzicci upoledzonych. Rezultatem tych stara byo
stworzenie ministerialnej komisji do badania dzicci upoledzonych,
ktrej czonkiem mianowano Bineta. Byo to doniose wydarzenie w historii testw psychologicznych, o czym obszerniej powiemy dalej.

PIERWSI PSYCHOLOGOWIE EKSPERYMENTALNI


Pierwsi dziewitnastowieczni psychologowie eksperymentalni nie byli
zazwyczaj zainteresowani pomiarem rnic indywidualnych. Gwnym
ich celem byo tworzenie uoglnionych opisw ludzkiego zachowania.
Przedmiot uwagi stanowio wic to. co wsplne zachowaniom, a nie to. co
je rni. Rnice indywidualne albo ignorowano, albo akceptowano jako
zo konieczne, ograniczajce zakres zastosowania dokonywanych uoglnie. Tak wic fakt, e w identycznych warunkach jedna osoba reaguje
inaczej ni druga, traktowany by jako rodzaj bidu. Wystpowanie
takiego bdu, czyli zmiennoci indywidualnej, sprawiao, e uoglnienia
miay charakter raczej przybliony anieli kategoryczny. Taka postawa
wobec rnic indywidualnych dominowaa w laboratoriach, na przykad
w laboratorium Wundta powstaym w 1879 roku w Lipsku, w ktrym
uczyo si wielu dawnych psychologw eksperymentalnych-

Historyczne rdta wspczesnych bada testowych

59

Wybr tematw, podobnie Jak wiele Innych aspektw bada prowadzonych przez twrcw psychologii eksperymentalnej, odzwierciedla
wpywy zaplecza naukowego, jakie stanowiy dla nich fizjologia i fizyka.
Problemy, Jakimi zajmowali si w swoich laboratoriach, dotyczyy
gwnie wraliwoci na wzrokowe, suchowe i inne bodce sensoryczne
oraz czasu reakcji prostej. Jak zobaczymy dalej, to akcentowanie zjawisk
zmysowych wpyno z kolei na charakter pierwszych testw psychologicznych.
Mona dostrzec jeszcze inn drog, na ktrej dziewitnastowieczna
psychologia eksperymentalna wpyna na przebieg rozwoju testw.
Wczeni psychologowie eksperymentalni podkrelali poLrzeb cisej
kontroli warunkw, w jakich dokonuje si obserwacji. Na przykad zmiana sposobu podawania instrukcji uczestnikom eksperymentu mierzcego czas reakcji znaczco zwikszaaby lub zmniejszaa szybko ich
odpowiadania. Podobnie Jasno lub barwa tla mogaby istotnie zmieni
bodziec wzrokowy. Wano tego. by wszystkich uczestnikw eksperymentu obserwowa w ujednoliconych warunkach, ujawniaa si wic w
sposb bardzo wyrany. Taka standaryzacja procedury staa si potem
jednym z istotnych znamion testw psychologicznych.

ZASUGI FRANCISA GALTONA


Czowiekiem odpowiedzialnym za powstanie ruchu testowego by w pierwszym rzdzie angielski biolog Francis Galton. Elementem czcym
liczne i bardzo rnorodne przedsiwzicia badawcze Galtona byo jego
zainteresowanie dziedzicznoci. Prowadzc badania nad dziedzicznoci, musia mierzy cechy osb spokrewnionych i nie spokrewnionych ze
sob. Na przykad tylko w ten sposb mg dokadnie okreli stopie
podobiestwa midzy rodzicami i dziemi, brami i siostrami, kuzynami
czy blinitami. Majc na uwadze ten wanie cel. Galton przyczyni si
do wprowadzenia w wielu zakadach ksztacenia praktyki systematycznego gromadzenia danych antropometrycznych dotyczcych uczniw
Zorganizowa te antropometryczne laboratorium na Wystawie
Midzynarodowej w 1884 roku. gdzie zwiedzajcy, za opat wynoszc
3 pensy, mogli sprawdzi swoj ostro wzroku i suchu, si mini,
czas reakcji i inne proste funkcje sensomotoryczne. Po zamkniciu wystawy, laboratorium przeniesiono do Muzeum Poudniowego Kensingtonu
w Londynie, gdzie dziaao sze lat. W ten sposb zosta! stopniowo zgromadzony pierwszy duy, systematyczny zbir danych dotyczcych rnic
indywidualnych w zakresie prostych procesw psychologicznych.
Galion sam stworzy wikszo prostych testw stosowanych w jego
antropometrycznym laboratorium i wiele spord nich naley do nadal
znanych, albo w oryginalnej, albo w zmodyfikowanej formie. Przykadami

60

FUNKCJE I RCTOLA TESTW PSYCHOLOGICZNYCH

mog by linijka Gallona do badania zdolnoci oceniania odlegoci.


gwizdek Gallona do okrelania maksymalnej wysokoci odbieranych
dwikw czy ciarki do pomiaru rnicowania kinesletycznego. Galion
sdzi, e testy rnicowania zmysowego mog suy jako narzdzia do
oceny intelektu czowieka. W tym wzgldzie pozostawa on po czci pod
wpywem teorii Locke'a. I tak. Galion pisa: Jedyne informacje dotyczce
zewntrznych wydarze to te. ktre docieraj do nas za porednictwem
zmysw: i im bardziej wraliwe s zmysy, tym wiksze jest pole
dziaania naszego rozumu i inteligencji" (Galton. 16S3. sir, 27). Galton
zauway te, e osoby gboko upoledzone umysowo zwykle maj
uszkodzon zdolno rozrniania gorca, zimna i blu; obserwacja ta
dodatkowo nasilia jego przewiadczenie, e umiejtno rnicowania
sensorycznego jest na ogl najwyzsza u najbardziej uzdolnionych
intelektualnie" (Galion. 1883, sir. 29).
Galton byl rwnie pionierem stosowania skal ocen i metod kwestionariuszowych. a take techniki skojarze sownych, wykorzystywanej
potem do bardzo rnych celw. Wnis te wkad w rozwj statystycznych metod analizy danych dotyczcych rnic indywidualnych. Galton
wybra i -zaadaptowa szereg technik wczeniej wprowadzonych przez
matematykw. Nadal im tak posta, by umoliwiay ilociowe ujmowanie wynikw badaczom nie posiadajcym przygotowania matematycznego Tym samym przyczyni si do znacznego rozpowszechnienia si
statystycznych procedur analizy danych. Pracc Ic kontynuowao wielu
uczniw Gallona. spord ktrych najwybitniejszym byl Karl Pearson. 2

CATTELL I WCZESNE TESTY UMYSOWE"


Szczeglnie wan rol w rozwoju psychologicznych bada testowych
odegra) ameiykaski psycholog James McKccn Callell. W swoich pracach poczy nowo powsLa nauk, jak bya psychologia eksperymentalna. z jeszcze nowszym ruchem testowym. Doktoryzujc si w Lipsku,
przedstawi dysertacj na lemat czasu reakcji, przygotowan pod
kierunkiem Wundta. Gdy wykada w Cambridge, w roku 1888, jego
zainteresowania pomiarem rnic indywidualnych ulegy oywieniu za
spraw kontaktu z Galionem. Po powrocie do Ameryki Cattell zaj si
zarwno zakadaniem laboratoriw psychologii eksperymentalnej, Jak i
propagowaniem ruchu testowego.
W artykule napisanym przez Caltella w roku 1890 zosta po raz pierwszy w literaturze psychologicznej uyty lermin test umysowy" (mentol
test) Artyku ten opisywa serie testw, ktre byy corocznie stosowane
' c f s " y m rozwoju podstawowych poj statystycznych I zwiazanych z lym
ludziach niezwykle interesujco pisze Cowles (1989)

Historyczne rdta wspczesnych bada testowych

61

wobec studentw college'u w celu okrelenia ich poziomu intelektualnego. Testy te, wymagajce bada indywidualnych, obejmoway pomiar
siy mini, szybkoci ruchw, wraliwoci na bl. ostroci wzroku i
suchu, rnicowania ciaru, czasu reakcji, pamici itp. Dobierajc
prby, Catlell podziela pogld Gallona. e funkcje intelektualne mona
mierzy za pomoc testw dotyczcych rnicowania scnsorycznego i
czasu reakcji. Do preferowania przez Caltella letkich testw przyczynia
si te fakt, e proste funkcje mona byo mierzy precyzyjnie i cile,
podczas gdy stworzenie obiektywnych miar funkcji bardziej zoonych
wydawao si wwczas spraw niemal beznadziejn.
Testy Caltella byy typowymi prbami, jakie mona znale w szeregu
zestaww testowych powstaych w ostatniej dekadzie dziewitnastego
wieku. Stosowano je wobec dzieci szkolnych, studentw coliegeow i
rnych osb dorosych. Na Wystawie Kolumbijskiej zorganizowanej w
roku 1893 w Chicago Jastrow przeprowadzi pokaz, na ktrym zaproszono widzw do poddania si testom sensorycznym. ruchowym i
mierzcym proste procesy percepcyjne oraz porwnania swoich wynikw
z normami (J. Peterson, 1926; Philippe, 1894). Kilka podjtych prb
dokonania oceny tych wczesnych testw przynioso rezultaty bardzo
zniechcajce. Wyniki badanego w kolejnych lesiach byy sabo ze sob
powizane (Sharp. 1898-1899: Wissler. 1901) i wykazyway niewielki lub
aden zwizek z niezalenymi oszacowaniami poziomu intelektualnego,
opartymi na ocenach nauczycieli (T.L. Bolton, 1891-1892; J.A. Gilbert,
1894) czy stopniach szkolnych (Wissler. 1901).
Szereg testw stworzonych w tym czasie przez psychologw europejskich uwzgldnia nieco bardziej zoone funkcje. Kraepelin (1895). ktry
zajmowa si gwnie badaniami klinicznymi pacjentw psychiatrycznych. opracowa dugie serie testw do mierzenia cech stanowicych, jego zdaniem, podstawowe waciwoci jednostki. Testy te,
wykorzystujce gwnie proste dziaania arytmetyczne, przeznaczone
byy do pomiaru efektw wiczenia, pamici oraz podatnoci na zmczenie i bodce rozpraszajce uwag. Inny psycholog niemiecki, Ebbinghaus
(1897), przeprowadza z dziemi w wieku szkolnym testy dziaa arytmetycznych. zakresu pamici i uzupeniania zda. Jedynym z tych
trzech testw, ktry okaza si wyranie zwizany z osigniciami szkolnymi. by najbardziej z nich zoony - test uzupeniania zda.
W artykule opublikowanym we Francji w roku 1895 Binct i Henri poddali krytyce wikszo istniejcych testw, zarzucajc im. e maj w zbyt
duym stopniu charakter sensoryczny i s nadmiernie skoncentrowane
na prostych, bardzo specyficznych zdolnociach. Dowodzili dalej, e przy
pomiarze bardziej zoonych funkcji nie jest potrzebna dua precyzja,
poniewa wiksze jest ich zrnicowanie indywidualne. Zaproponowali
obszern list bardzo rnych testw, uwzgldniajcych takie funkcje.
Jak pami, wyobrania, uwaga, rozumienie, podatno na sugesti,

60 FUNKCJE

RCTOLA

TESTW

PSYCHOLOGICZNYCH

ocena estetyczna i wiele innych. W testach tych moemy rozpozna tendencje. ktre doprowadziy potem do powstania znanych Binetowsklch
skal inteligencji.

BINET I POWSTANIE TESTW INTELIGENCJI


Blnet i jego wsppracownicy powicili wiele lat na intensywne l
pomysowe badania nad sposobami pomiaru inteligencji. Wyprbowywali
wiele rnych podej, w lym nawet badanie ksztatu czaszki, twarzy i
doni oraz analiz pisma. Rezultaty prowadziy ich jednak do wci
umacniajcego si przekonania, e najbardziej obiecujcy jest
bezporedni, nawet niezbyt precyzyjny, pomiar zoonych funkcji intelektualnych. W tym czasie zaistniay pewne specjalne okolicznoci, ktre
sprawiy, c prace Bineta znalazy natychmiastowe urzeczywistnienie
praktyczne. W roku 1904 minister Edukacji Publicznej powoa Binela
do wspomnianej ju komisji do bada nad sposobami nauczania dzieci
upoledzonych umysowo. Wanie w zwizku z celami tej komisji Binet.
przy wsppracy Simona, stworzy pierwsz Skal Bineta-Sirnona (Blnet
Simon Scal; Binet i Simon, 1905).
Skala ta, znana jako skala z 1905 roku, skadaa si z 30 zada
uoonych wedug wzrastajcego stopnia trudnoci. Stopie trudnoci
okrelono empirycznie, poddajc badaniu 50 normalnych dzieci w wieku
od 3 do 11 lat oraz pewn liczb dzieci i dorosych upoledzonych
umysowo. Testy przeznaczone byiy do pomiaru bardzo rnych funkcji,
ze specjalnym akcentem na ocenianie, rozumienie i rozumowanie, ktre
Blnet uwaa za zasadnicze komponenty inteligencji. Chocia skala
zawieraa le prby sensoryczno i percepcyjne. mona w niej byo znale
znacznie wicej treci werbalnych ni w wikszoci wczesnych testw.
Skal z 1905 roku autorzy przedstawili jako narzdzie prbne, o charak
terze tymczasowym, i nie zaproponowali adnej obiektywnej metody
dochodzenia do wyniku oglnego.
W drugiej skali, z roku 1908. wzrosa liczba testw, ,vyeliminowano z
wczeniejszej wersji te. ktre okazay si niezadowalajce, a wszystkie
pogrupowano, przypisujc je rnym poziomom wieku, na podstawie
wynikw badania okoo 300 normalnych dzieci w wieku od 3 do 13 lat.
Tak wic poziomowi 3 lal przypisano wszystkie testy pomylnie wykonane przez 80-90% normalnych trzylatkw, poziomowi 4 lat - wszystkie
w podobnym stopniu wykonane przez normalnych czterolatkw, i tak
dalej a do wieku 13 lat. Wynik dziecka w caym tecie mona byo
wyrazi jako poziom umysowy odpowiadajcy wiekowi normalnych
dzieci wykonujcych ten test tak samo jak ono. W rnych przekadach
l adaptacjach skal Bineta termin .poziom umyslowv" powszechnie
zastpuje si terminem .wiek umysowy". Poniewa' pojcie wieku

Historyczne rdta wspczesnych bada testowych

63

umysowego Jest dziki swej prostocie atwe do zrozumienia, wprowadzenie tego lermlnu niewtpliwie uatwio popularyzacj testw inteligencji. 3
Jednake sam Binet unika terminu .wiek umysowy" ze wzgldu na jego
niesprawdzone implikacje rozwojowe i wola bardziej neutralne okrelenie, jakim Jest poziom umysowy" (T.H. Wolf. 1973).
Trzecia rewizja Skali Bineta-Simona ukazaa si w roku 191 1 - roku
przedwczesnej mierci Bineta. W skali tej nie dokonano adnych zasadniczych rewizji. Wprowadzono drobne zmiany i przemieszczenia pojedynczych testw. Dodano wicej testw na kilku poziomach wieku i
przeduono skal do dorosoci.
Nawet jeszcze przed rewizj z roku 1908 testy Bineta-Simona zwrciy
na siebie powszechn uwag psychologw z caego wiata. W wielu krajach, w lym kilkakrotnie w Stanach Zjednoczonych, dokonano
przekadw i adaptacji. Pierwszym autorem adaptacji amerykaskiej by
H.H. Goddard. wwczas pracownik naukowy vinelandzkiego zakadu
ksztacenia dla dzieci umysowo upoledzonych. Dokonana przez
Goddarda rewizja miaa wpyw na zaakceptowanie testowych bada
inteligencji przez lekarzy (Zenderland, 1987). Stao si to w sprzyjajcych
okolicznociach sprawiajcych, e testy wychodziy naprzeciw pilnemu
zapotrzebowaniu na standardowe metody, ktre pozwalayby diagnozowa i klasyfikowa osoby upoledzone umysowo. Jako narzdzie
testowe rewizja Goddarda zostaa jednak wkrtce zdystansowania przez
obszerniejsz i doskonalsz psychometrycznic Stanfordzk Skal Bineta
(Stanford-Binet). stworzon przez L.M. Termana i jego wsppracownikw
z Uniwersytetu Stanforda fTerman. 1916). W skali tej po raz pierwszy
uyto ilorazu inteligencji (Intelligence Quotient - IQ). wyraajcego proporcj wieku umysowego do wieku chronologicznego. Dalsze rewizje tej
skali znalazy szerokie zastosowanie i zostan bliej omwione w
rozdziale 8. Szczeglnie Interesujca jest te pierwsza rewizja, noszca
nazw testu Kuhlmanna-Bineta, ktra przeduya skal w d - do
wieku 3 miesicy (Kuhlmann. 1912). Skala ta stanowi najwczeniejsz
prb stworzenia testw inteligencji dla dzieci w wieku przedszkolnym i
niemowlcym.

F.L. Goodenough (1949. str. 50-51) podaje, e w roku 1887, na 21 lat przed
pojawieniem si Skali Bineta-Simona z 1908 roku, w czasopimie New Orleans
Medical and Surgical Journal opublikowano (S.E.Chaille) serie testw dla
niemowlt uporzdkowane w zalenoci od wieku, w Jakim byy pomylnie
wykonywane przez wikszo badanych. Po czci z powodu ograniczonego
obiegu czasopisma, a by moe po czci take dlatego, tc spoeczno naukowa
nie bya Jeszcze na to wystarczajco przygotowana, znaczenie tej skali pozostao
niezauwaone. Wpyny natomiast na Skal Bineta prace wspczesnych mu
autorw, zwaszcza takich. Jak Blin I Damaye, ktrzy opracowali zestaw pyta
stanowicych podstaw do wyprowadzania Jednego globalnego wskanika dla
kadego dziecka (T.H. Wolf, 1973).
3

&4

FUNKCJE I ZKDLA TESTW 1'SYCHOIOGICZNYCH

TESTY GRUPOWE
Skale Bineta, podobnie jak wszystkie ich rewizje, s testami indywidualnymi. w tym sensie, e mog by przeprowadzane tylko z jedn osob na
raz. Wiele spord znajdujcych si w nich zada wymaga ustnych
odpowiedzi badanego lub manipulowania jakim konkretnym
materiaem. W niektrych potrzebne jest te indywidualne mierzenie
czasu. Z tych i innych jeszcze powodw testy te nie zostay zaadaptowane do bada grupowych. Inn cech charakteiystyczn lesiw lypu
binctowskiego jest to, e wymagaj one duej wprawy badajcego. S
wic w zasadzie narzdziami klinicznymi, przystosowanymi do
pogbionych badan indywidualnych przypadkw.
Testy grupowe, podobnie jak pierwsza skala Bineta. powstay w
odpowiedzi na potrzeby praktyki. Gdy Stany Zjednoczone przystpiy w
1917 roku do I wojny wiatowej. Amerykaskie Towarzystwo
Psychologiczne stworzyo komitet, ktrego zadaniem byo rozwaenie, w
jaki sposb psychologia mogaby pomc w prowadzeniu wojny. Komitet
ten, pod przewodnictwem Robcrla M. Yerkesa. uzna potrzeb szybkiego
sklasyfikowania ptora miliona rekrutw pod wzgldem ich oglnego
poziomu intelektualnego. Informacje na ten temat byy bowiem istotne
przy podejmowaniu wielu decyzji administracyjnych, w tym decyzji o
odrzuceniu lub przyjciu do wojska, przydzieleniu do takiego lub innego
rodzaju suby czy skierowaniu na szkolenie oficerskie. W tych warunkach powstay pierwsze grupowe testy inteligencji. Pracujcy nad nimi
psychologowie wojskowi korzystali ze wszystkich dostpnych materiaw
testowych, zwaszcza z nie opublikowanego grupowego testu inteligencji
stworzonego i przekazanego armii przez Arthura S. Olisa. Najwaniejszy
wkad lestu OUsa. skonstruowanego przez niego, gdy by studentem jednego z kursw wykadowych prowadzonych przez Termana. stanowio
wprowadzenie zada z odpowiedziami do wyboru i innego rodzaju obiektywnych" prb testowych.
Testy ostatecznie przygotowane przez psychologw wojskowych stay
si znane jako Test Al/a dla Armii (Army Alpha) i Test Bela dla Armii
lArmy Betha). Pierwszy przeznaczony byl n oglnych, rutynowo prowadzonych bada, drugi byl skal niewerbaln, stosowan dla analfabetw
i rekrutw obcego pochodzenia, ktrzy nie byli w stanie wykonywa testu
w jzyku angielskim. Oba nadaway si do badania duych grup.
Niedugo po zakoczeniu I wojny wiatowej testy wojskowe dopuszczono do oglnego uytku. Army Alpha 1 Army Betha nie tylko same byy
przedmiotem wielu rewizji, lecz lake stay si wzorami dla wikszoci
innych grupowych lesiw Inteligencji. W rozwoju bada testowych
nastpio gwatowne przyspieszenie. Wkrtce zaczto tworzy grupowe
testy inteligencji dla wszystkich poziomw wieku i rnego rodzaju osb
badanych, od dzieci przedszkolnych po studentw uniwersytetu

I lisloryezne rda wspczesnych bada testowych

65

Z optymizmem I zapaem zaczto organizowa zakrojone na du skal


programy bada testowych, co wczeniej nie byo moliwe. Poniewa
testy grupowe stworzono Jako narzdzia do masowego uytku, nie tylko
pozwalay one na Jednoczesne badanie duych grup, lecz take - dziki
uproszczeniu instrukcji i procedury - wymagay minimalnego wywiczenia badajcych. Nauczyciele szkolni zaczli przeprowadza testy
Inteligencji ze swoimi uczniami. Studentw collcge'w poddawano
rutynowym badaniom przed przyjciem. Podjto obszerne badania specjalnych grup dorosych, takich jak winiowie. I wkrtce te wiedza o ilorazie inteligencji rozpowszechnia si w spoeczestwie.
Szeroko zastosowa tych grupowych testw inteligencji dalece
przewyszaa Ich techniczn doskonao. W deniu do szybkiego
uzyskiwania wynikw i wycigania na ich podstawie praktycznych
wnioskw czsto zapominano, e lesty s cigle narzdziami jeszcze nie
dopracowanymi. Gdy nie speniay pokadanych w nich. nieuzasadnionych nadziei, czsto odpowiedzi byy sceptycyzm i wrogo wobec
wszelkich bada testowych. Tak wic testowy boom lat dwudziestych,
przejawiajcy si w masowym stosowaniu lesiw, mg przyczynia si
zarwno do opniania. Jak przyspieszania ich rozwoju.

TESTY UZDOLNIE
Cho testy inteligencji tworzono tak, by obejmoway wiele rnych
funkcji, pozwalajc na okrelanie oglnego poziomu intelektualnego,
wkrtce okazao si, e zakres pomiaru jest do ograniczony. Nie
wszystkie wane funkcje byty reprezentowane w testach W rzeczywistoci wikszo z nich mierzya gwnie zdolnoci werbalne oraz. w
mniejszym stopniu, zdolnoci do wykonywania dziaa na liczbach i
operowania innymi relacjami o charakterze abstrakcyjnym czy symbolicznym. Stopniowo psychologowie uwiadomili sobie, e termin .test
inteligencji" jest niewaciwy, poniewa okrelane tym mianem testy
mierz lylko pewne aspekty inteligencji.
To prawda, c lesty uwzgldniay zdolnoci posiadajce najwiksze
znaczenie w kulturze, dla ktrej byy przeznaczone. Ale zdano sobie
spraw z lego. e potrzebne jest okrelenie bardziej precyzyjne,
wskazujce na typ dostarczanych przez testy informacji. Na przykad
wiele testw, ktre w latach 20. byyby prawdopodobnie nazywane testami inteligencji, stao si potem znanych jako testy uzdolnie szkolnych Ta zmiana terminologii wizaa si z dostrzeeniem faktu, e wiele
tak zwanych testw inteligencji mierzy kombinacj zdolnoci, ktre s
potrzebne i rozwijane w pracy szkolnej.
Jeszcze przed I wojn wiatow psychologowie zaczli sobie
uwiadamia potrzeb uzupeniania testw inteligencji oglnej testami

66

FUNKCJE I R O D U TESTW PSYCHOLOOICOTYCM

uzdolnie specjalnych. Testy le tworzono zwaszcza dla cclw doradztwa


zawodowego oraz klasyfikacji pracownikw i kadry wojskowej. Do naj
szerzej stosowanych nale testy uzdolnie mechanicznych, urzdniczych, muzycznych i artystycznych.
Krytyczna ocena testw inteligencji, Jaka bya nastpstwem ich
masowego i bezrefleksyjnego uywania w latach 20., ujawniaa jeszcze
jeden wart uwagi fakt: wyniki jednostki w rnych czciach tego samego
testu czsto znacznie si rniy. Byo to szczeglnie widoczne w testach
grupowych, ktrych pozycje s zwykle posegregowane na podtesty stosunkowo homogeniczne treciowo. Na przykad kto mg otrzyma
wysoki wynik w podtecie werbalnym, a niski w liczbowym, lub odwrotnie. Taka wewntrzna zmienno ujawnia si tez w pewnym stopniu w
takich testach, jak Stanfordzka Skala Bineta. w ktrych, na przykad,
wszystkie prby zawierajce sowa mog danej osobie sprawia trudno, podczas gdy dobrze radzi sobie ona w zadaniach wykorzystujcych
materia obrazkowy czy geometryczny.
Uytkownicy testw, zwaszcza klinicyci, czsto korzystali z lego
rodzaju wewntrznych porwna w celu uzyskiwania wikszego wgldu
w struktur psychologiczn badanej osoby. Musieli w tym celu.
dokonujc diagnozy indywidualnego przypadku, nie tylko bra pod
uwag iloraz inteligencji czy inny globalny wskanik, lecz take poddawa analizie poziom wykonania przez badanego poszczeglnych grup
zada czy podlestw. Nie rekomendowano jednak powszechnie takiej
praktyki, poniewa testy inteligencji nie byy przeznaczone do celw
rnicowej analizy uzdolnie. Porwnywane podtesty czsto obejmoway
zbyt mao pozycji, by moliwe byo rzetelne oszacowanie szczegowych
zdolnoci. Wskulek tego rnica stwierdzana midzy wynikami
podtestw moga ulega odwrceniu przy ponownym badaniu tej samej
osoby innego dnia lub Inn form tego samego testu. Do inlraindywidualnych porwna potrzebne byy testy specjalnie przeznaczone do ujawniania rnic w pcziomie wykonania zada angaujcych rne funkcje.
Podczas gdy praktyka testowa wykazywaa potrzeb posiadania testw
badajcych rne uzdolnienia, rwnolegle postpowa rozwj bada nad
organizacj cech. co stopniowo tworzyo podstawy pozwalajce na konstruowanie takich narzdzi. W badaniach statystycznych nad natur
inteligencji analizowano wzajemne zwizki midzy wynikami uzyskiwanymi przez wiele osb w wielu rnych testach. Badania takie zostay
zapocztkowane przez angielskiego psychologa Charlesa Spearmana
(1904. 1927) w pierwszej dekadzie dwudziestego wieku. Przyczyniy si
one do stworzenia metody, opartej na pracach takich psychologw Jak
T.L. Kelley (1928) i L.L. Thurstone (1938, 1947b), a take innych badaczy
amerykaskich i angielskich, znanej jako analiza czynnikowa.
Znaczenie analizy czynnikowej dla konstrukcji testw zostanie bliej
omwione 1 zilustrowane w rozdziale 11. Tymczasem wystarczy

Historyczne rda wspczesnych badan testowych

07

powiedzie, e uzyskane dziki niej dane wskazay na istnienie pewnej


liczby stosunkowo niezalenych cech. czyli czynnikw. Niektre z tych
cech byty reprezentowane, w rnych proporcjach, w tradycyjnych testach Inteligencji. Przykadami mog by rozumienie werbalne i rozumowanie liczbowe. Inne, takie Jak zdolnoci przestrzenne, percepcyjne i
mechaniczne, czciej znajdywano w testach uzdolnie specjalnych ni
w testach inteligencji.
Najwaniejszym praktycznym efektem analiz czynnikowych byo powstanie wielowymiarowych baterii testw uzdolnie. S one przeznaczone
do mierzenia poziomu charakteryzujcego Jednostk w zakresie kadej z
wielu cech. Zamiast oglnego wyniku czy ilorazu inteligencji uzyskuje si
odrbne wyniki dla takich cech. jak rozumienie werbalne, uzdolnienia
liczbowe, wyobrania przestrzenna, rozumowanie arytmetyczne, szybko spostrzegania. Baterie te stanowi odpowiednie narzdzia
pozwalajce na lak analiz intraindywidualn, czyli diagnoz rnicow. jakiej przez lata prbowali dokonywa uytkownicy testw na
podstawie surowych i czsto nierzetelnych wynikw poszczeglnych
typw zada. Poniewa zoone baterie uwzgldniaj pewne cechy, ktre
na ogl nie s wczane do testw Inteligencji, w przypadku obszernych,
systematycznych programw badawczych wnosz wiele informacji
dawniej uzyskiwanych za pomoc testw uzdolnie specjalnych.
Wielowymiarowe baterie stanowi stosunkowo pne osignicie w
dziedzinie bada testowych. Niemal wszystkie pojawiy si po roku 1945.
W tym kontekcie naley zwrci uwag na dziaalno psychologw
wojskowych podczas II wojny wiatowej. Liczne badania prowadzone w
siach zbrojnych wykorzystyway analiz czynnikow i ukierunkowane
byy na konstrukcj wielowymiarowych baterii. W siach powietrznych
na przykad stworzono specjalne baterie dla pilotw, lotnikw
obsugujcych bomby, radiooperatorw, nawigatorw i wielu innych
specjalistw wojskowych. Sam tylko raport dotyczcy baterii przygotowanych w lotnictwie zajmuje co najmniej 9 spord 19 tomw powiconych badaniom psychologii lotniczej w czasie drugiej wojny (Army Air
Forces, 1947-1948). Prace kontynuujce t lini bada s prowadzone
nadal; sponsoruj je rne piony sil zbrojnych. Skonstruowano te wiele
wielowymiarowych baterii testw uzdolnie do badania osb cywilnych.
Testy te s szeroko stosowane w doradztwie szkolnym i zawodowym oraz
przy selekcji 1 klasyfikacji pracowmikw. Przykady omwione bd w
rozdziaach 10 i 17.
W pnych latach 80. i wczesnych latach 90. dokona si dalszy
postp, polegajcy na integracji dwu wczeniej przeciwstawnych podej
do pomiaru zdolnoci poznawczych - reprezentowanego przez tradycyjne
testy inteligencji 1 przyjmowanego w wielowymiarowych bateriach lestw
uzdolnie (Anastasi, 1994), Uwiadomiono sobie, e zdolnoci czowieka
mona waciwie ocenia na rnych poziomach oglnoci, od wsko

68

FUNKCJE I ROULA TESTW PSYCHOLOGICZNYCH

okrelonych uzdolnie, mierzonych specyficznymi lesiami ley nawet


pojedynczymi prbami), poprzez coraz szersze waciwoci, a do oglnego wskanika, takiego jak tradycyjny iloraz inteligencji. Rne poziomy
diagnozy s optymalne dla rnych celw badawczych. Tak wiec nowsze
testy inteligencji, takie Jak Skale Zrnicowanych Zdolnoci (Dijferential
Ability Scales). czy ostatnie rewizje wczeniejszych testw, jak na
przykad czwarte wydanie Stanfordzkiej Skali Bineta (oba opisane w
rozdziale 8). cz szeroko zakresu, obejmujc wicie uzdolnie, z
gitkoci sposobu ujmowania wynikw - zalenego od specyficznych
celw badania. Chocia oba podane przykady dotycz indywidualnych
testw inteligencji, ten sam sposb podejcia do konstrukcji narzdzi i
ich uywania przeniesiony zosta na gnipowo przeprowadzane baterie,
takie jak omwione w rozdziale 10. Podstawy teoretyczne i implikacje
praktyczne wspomnianych zmian w sposobie badania zdolnoci omawiane s w rozdziale 11 w zwizku z rozwaaniami na lemat postpu
bada nad natur inteligencji.

STANDARYZOWANE TESTY OSIGNI


W czasie gdy psychologowie tworzyli testy inteligencji i uzdolnie, wielu
technicznym udoskonaleniom ulegay tradycyjne egzaminy szkolne
(O. W. Caldwell i Courtis. 1923; Ebel i Damrin, 1960). Wany krok na tej
drodze uczyniy w 1845 roku szkoy publiczne w Bostonie, zastpujc
ustne odpytywanie uczniw przez wizytatorw egzaminami pisemnymi.
Wrd argumentw wysuwanych wwczas na rzecz tej innowacji byy
takie, e egzaminy pisemne stawiaj wszystkich uczniw w jednakowej
sytuacji, pozwalaj na uwzgldnienie szerszego zakresu treci, redukuj
rol przypadku w doborze pyta i eliminuj moliwo faworyzowania
kogo przez egzaminatora. We wszystkich tych argumentach pobrzmiewa
znana nuta - Huo pniej posugiwano si nimi, uzasadniajc
zastpowanie swobodnych pyta obiektywnymi testami z odpowiedziami
do wyboru.
U schyku wieku zaczy si pojawia pierwsze slandaryzowane testy
do mierzenia osigni szkolnych. Inspirujc si pracami E.L.
Thorndike'a. w testach tych wykorzystywano zasady pomiaru
formuowane w laboratoriach psychologicznych. Przykad mog stanowi
skale do oceny jakoci pisma czy wypracowa pisemnych, jak te testy
ortografii, liczenia i rozumowania arytmetycznego. Jeszcze pniej powstay baterie testw osigni, zainicjowane przez publikacj pierwszego
wydania Stanfordzkiego Testu Osigni (Stanford Achieuement Test) w
roku 1923. Jego autorami byli trzej liderzy wczesnych prac nad rozwojem testw. Truman L. Kelley. Giles M. Ruch i Lewis M. Terman.
Stanowic zapowied wspczesnych testw, z charakterystycznymi dla

Historyczne rda wspczesnych

badan

testowych 67

nich ccchami, bateria ta dostarczaa porwnywalnych wskanikw


osigni uczniw z rnych szkl, ocenianych na tle wsplnej grupy
normalizacyjnej
Jednoczenie przybywao dowodw wiadczcych o braku zgodnoci
nauczycieli oceniajcych rezultaty sprawdzianw w formie wypracowa.
Ju przed rokiem 1930 powszechny by pogld, e sprawdziany lakie nie
tylko zabieraj egzaminatorom 1 egzaminowanym wicej czasu, lecz take
rlaj mniej rzetelne wyniki ni obiektywne zadania .nowego typu".4 W
miar jak wzrastao zastosowanie ych drugich w standaryzowanych testach osigni, wzmaga si nacisk na tworzenie lakich zada, ktre
mogyby sprawdza rozumienie i wykorzystywanie wiedzy czy inne szeroko rozumiane efekty ksztacenia W latach 30. miao te miejsce
wprowadzenie maszyn obliczajcych wyniki: nowe obiektywne testy
talwo mona byo dostosowa do takiego sposobu opracowywania materiau.
Innym godnym uwagi krokiem byo wprowadzenie stanowych, regionalnych i oglnokrajowych programw bada testowych. Prawdopodobnie najbardziej z nich znanymi s programy bada egzaminacyjnych do colIege'w organizowane przez College Enlrance Examuialion
Board (CEEB). Pierwszy taki program wprowadzono na przeomie wieku,
by unikn dublowania egzaminw, a nastpnie podlega on wielu Istotnym zmianom, dotyczcym i procedury bada, i liczby oraz rodzaju
uczestniczcych uczelni; zmiany te odzwierciedlay postp dokonujcy
si zarwno w badaniach testowych, jak i w edukacji. W roku 1947
poczono funkcje CEEB z tymi. jakie peniy Carnegie Corporation i
American Council on Education. tworzc instytucj pod nazw
Educational Tesling Se rutce (ETS). W kolejnych latach ETS przejmowa
odpowiedzialno za coraz wiksz liczb programw bada testowych
prowadzonych z ramienia uniwersytetw, szk zawodowych, agencji
rzdowych i innych instytucji. Naley te wymieni program pod nazw
American College Testing Program, uruchomiony w 1959 roku w celu
egzaminowania ych kandydatw do college'w, ktrzy nie zostali objci
programem CEEB, a take kilka programw pastwowych, w ramach
ktrych prowadzi si badania teslowe kandydatw do stypendiw dla
utalentowanych uczniw.
Testy osigni stosuje si nie tylko w szkolnictwie, lecz take przy
selekcji kandydatw do pracy w przemyle lub administracji. Jak pamitamy z wczeniejszej wzmianki, w cesarstwie chiskim prowadzono systematyczne badania kandydatw do suby pastwowej ju od ok. 150
roku przed nasz er (Bowman. 1989). W czasach nowoytnych selekcj
pracownikw administracji za porednictwem egzaminw wprowadzono
Badania na temat porwnawczej efektywnoci pyta swobodnych i obiektywnych pozycji testowych omwione bd w rozdziale 17 w zwizku z rozwaaniami rlntyr-zrymf -zastosowania testw w edukacji.
4

70

FUNKCJE I ROULA TESTW PSYCHOLOGICZNYCH

w krajach europejskich pod koniec osiemnastego i w pocztkach


dziewitnastego wieku. W Stanach Zjednoczonych Komisja Sub
Pastwowych (Cwil Sernice Commission) wdroya egzaminy konkursowe
jako regularn procedur w roku 1883 (Kavruck. 1956). Techniki konstrukcji testw stworzone przed i w czasie pierwszej wojny wiatowej
zostay wprowadzone do prac nad przygotowywaniem tych egzaminw w
roku 1922. wraz z mianowaniem L.J. 0'Rourke'go na stanowisko dyrektora nowo utworzonego wydziau badawczego. Obecnie prace te s
prowadzone przez duy, wietnie przygotowany technicznie zesp
badawczy w ramach komrki pod nazw Biuro Zarzdzania Kadrami
(U.S. Office ojPersonnel Management).
Im liczniejsi i bardziej wyksztaceni psychometrycznic psychologowie
wczali si do konstruowania standaryzowanych testw osigni, tym
bardziej zaczy one pod wzgldem formalnym przypomina testy
inteligencji i uzdolnie. Procedury tworzenia i oceniania tych wszystkich
testw maj wiele wsplnego. Nasilajce si denia, by tworzy takie
testy osigni, ktre mierzyyby efekty realizacji szerszych celw
ksztacenia, w odrnieniu od pamiciowej znajomoci szczegowych
faktw, zwikszyy rwnie treciowe podobiestwo tych testw do
testw inteligencji. Dzi rnica midzy tymi dwoma typami testw jest
gwnie spraw stopnia specyficznoci ich treci oraz tego. jak dalece
test opiera si na okrelonym, wczeniej realizowanym programie
nauczania.

BADANIE OSOBOWOCI
Inn dziedzin testowych bada psychologicznych stanowi te. ktre
dotycz afektywnych czy pozaintelektualnych aspektw zachowania,
omawiane w rozdziaach 13-16. Przeznaczone do tego celu testy znane s
powszechnie jako lesty osobowoci, chocia wielu psychologw woli
uywa terminu .osobowo" w szerszym znaczeniu, odnoszcym si do
caoci struktury psychicznej jednostki. W takim rozumieniu pojcie to
obejmowaoby zarwno cechy intelektualne, jak pozaintelektualne.
Jednake w terminologii stosowanej w odniesieniu do bada testowych
mianem .test osobowoci" najczciej okrela si narzdzia mierzce
lakie waciwoci, jak cechy emocjonalne, relacje interpersonalne,
motywacja, zainteresowania i postawy.
Jako przykad prekursorstwa w dziedzinie testowego badania
osobowoci mona wymieni uycie przez Kraepelina testu swobodnych
skojarze wobec pacjentw psychiatrycznych. W tecie tym badanemu
podaje si specjalnie dobrane sowa bodcowe i wymaga odpowiadania
na kade pierwszym sowem przychodzcym na myl. Kraepelin (1892)
stosowa te t technik do badania psychologicznych nastpstw

Historyczne rda wspczesnych badan testowych

71

zmczenia, godu zaywania lekw; doszed do wniosku, e wszystkie te


czynniki zwikszaj czsto podawania skojarze powierzchownych.
Sommer (1894), rwnie piszcy w ostatniej dekadzie dziewitnastego
wieku, wysun myl. e test swobodnych skojarze mgby by wykorzystywany do rnicowania midzy odmiennymi formami zaburze psychicznych. Technik swobodnych skojarze stosowano potem do wielu
rnych celw badawczych I Jest ona nadal w uyciu. Trzeba te zwrci
uwag na prace Galtona. Pearsona t Cattella nad standaryzowanymi
kwestionariuszami 1 skalami ocen. Cho pocztkowo stworzone do
odmiennych celw, techniki te zostay polem wykorzystane przez innych
autorw przy konstruowaniu niektrych najbardziej znanych typw
wspczesnych testw osobowoci.
Prototypem kwestionariusza osobowoci, czyli samoopisowego inwentarza (rozdz. 13) jest Arkusz Danych Osobistych Woodworlha (Woodworth
Personal Dala Sheet) opracowany podczas 1 wojny wiatowej (DuBois,
1970; Franz. 1919. str. 171-176; L.R. Goldberg, 1971; Symonds, 1931.
rozdz. 5). By on pomylany jako zgrubne narzdzie przesiewowe do
wykrywania mczyzn z powanymi zaburzeniami, ktrzy nic powinni
by kwalifikowani do suby wojskowej. Inwentarz skada si z szeregu
pyta dotyczcych symptomw psychopalologicznych; na pytania te
odpowiaday same osoby badane. Zliczajc symptomy, u ktrych informowali odpowiadajcy, uzyskiwano wynik oglny. Prace nad tym inwentarzem nie zakoczyy si na tyle wczenie, by mona go byo uy do
celw praktycznych przed zakoczeniem wojny. Zaraz jednak po wojnie
przystosowano go dla osb cywilnych, opracowujc m in. specjaln
form dla dzieci. Co wicej. Arkusz Danych Osobistych Woodworlha
posuy! jako wzr dla wikszoci pniejszych inwentarzy do badania
przystosowania emocjonalnego. W niektrych spord tych kwestionariuszy prbowano wydzieli bardziej specyficzne rodzaje przystosowania emocjonalnego, takie jak przystosowanie rodzinne, szkolne czy
zawodowe. Inne testy koncentroway si na wszych zakresach
zachowania lub mierzyy poszczeglne aspekty relacji spoecznych, jak
na przykad dominacja-ulego w kontaktach interpersonalnych. Dalszy
postp stanowio stworzenie testw do Ilociowego ujmowania przejaww
postaw i zainteresowa (rozdz. 14). Te lesty rwnie opieray si gwnie
na technikach kwestionariuszowych.
Inne podejcie do pomiaru cech osobowoci polega na stosowaniu
testw wykonaniowych lub sytuacyjnych (rozdz. 16). W tego rodzaju testach badany otrzymuje do wykonania zadanie, ktrego cel jest czsto
zamaskowany. Wikszo tych testw do cile symuluje sytuacje
ycia codziennego. Za pierwsze szersze wykorzystanie tego typu technik
mona uzna testy, jakie w pnych latach 20. i na pocztku lat 30.
stworzyli Hartshorne, May i ich wsppracownicy (1928, 1929, 1930).
Byy one standaryzowane na dzieciach w wieku szkolnym i dotyczyy

72

FUNKCJE I RDA TESTW PSYCHOLOGICZNYCH

takich zachowa, jak oszukiwanie, kamstwo, kradzie, wsppraca 1


wytrwao. Kady spord wielu specyficznych testw dawa! obiektywny
wynik liczbowy. Inny przykad, dotyczcy badania dorosych, stanowi
mog serie testw sytuacyjnych stworzone w czasie II wojny wiatowej w
ramach programu "badawczego Biura Sub Strategicznych [Office oj
Strategie Seruices; OSS. 1948). Testy te dotyczyy stosunkowo zoonych
t trudno uchwytnych zachowa spoecznych i emocjonalnych, a ich
przeprowadzanie wymagao do wyszukanych warunkw 1 wyszkolenia
osb badajcych. Co wicej, interpretacja reakcji badanego bya stosunkowo subiektywna.
Techniki projekcyjne (rozdz. 15) reprezentuj trzeci sposb podejcia
do badania osobowoci, ktry rozwin si niezwykle intensywnie,
zwaszcza na terenie psychologii klinicznej. W tego rodzaju testach
badany otrzymuje mao ustrukturalizowane zadanie, pozostawiajce mu
du swobod. Zgodnie z lecym u podoa takich metod zaoeniem,
jednostka przenosi (.projektuje") na zadanie charakterystyczne dla siebie
sposoby reagowania. Podobnie jak w przypadku testw wykonaniowych
i sytuacyjnych, w technikach projekcyjnych cel jest mniej lub bardziej
ukryty, co zmniejsza ryzyko tego, e badany bdzie mg w zamierzony
sposb stwarza dobre wraenie.. Wczeniej wspomniane testy swobodnych skojarze nale do najwczeniejszych technik projekcyjnych.
Podobnie s le uywane testy uzupeniania zda. Inne powszechnie
wykorzystywane w technikach projekcyjnych zadania lo rysowanie,
tworzenie scen przez odpowiednie ustawianie zabawek, improwizowana
zabawa tematyczna czy interpretowanie obrazkw lub plam atramentowych.
Z ka,dyvn spurd dostpnych typw testw osobowoci wi si
pewne trudnoci, zarwno praktyczne, jak teoretyczne. Kady sposb
podejcia ma swoje zalety i wady. Oglnie rzecz biorc, pod wzgldem
osigni praktycznych badania testowe osobowoci pozostaj w tyle za
testowym pomiarem zdolnoci. Nie mona tego jednak wiza z brakiem
naleytych stara. Po roku 1950 badania nad pomiarem cech osobowoci osigny imponujce rozmiary i Lrwaj prace nad wieloma
pomysowymi rozwizaniami oraz udoskonaleniami technicznymi.
Przyczyn powolnych postpw w tej dziedzinie s raczej szczeglne
trudnoci napotykane przy pomiarze osobowoci.
Ze wspczesnych bada prowadzonych za pomoc testw osobowoci
wynikaj dwie wane tendencje integracyjne (patrz Anastasi, 1985b,
1992a. 1993; Digman, 1990; L.R. Goldberg, 1993; Simon, 1994). Po pierwsze, coraz wicej danych wiadczy o wzajemnym wpywie cech afeklywnych (.osobowoci") i poznawczych (zdolnoci"), widocznym zarwno
przy wykonywaniu zada, jak w toku rozwoju czowieka. Zaczyna si
dostrzega, c tradycyjne rozrnienie midzy tymi dwoma typami cech
zostao narzucone sztucznie, dla wygody - w celu uatwienia opisu i

Historyczne rda wspczesnych badan testowych

73

pomiaru rnych aspektw zachowania. Po drugie, analizy teoretyczne


dolyczce natury 1 struktury osobowoci daj podstaw do reintegracji
cech poznawczych i afektywnych 1 wczenia Ich w szerszy model ludzkiej
aktywnoci, obejmujcy wszystkie formy zachowa. Model ten opiera si
na badaniach dotyczcych zarwno cech intelektualnych (rozdz. 11). jak
i cech afektywnych (rozdz. 13).

CZSC

z e

Normy i znaczenie wynikw


testowych

k czci drugiej, na ktr skadaj si rozdziay 3-7. przedstawiono


Bpodstawowe pojcia niezbdne do zrozumienia istoty testw
^psychologicznych oraz poprawnej interpretacji ich wynikw. W kolejnych rozdziaach omwiono normy, rzetelno, trafr.o, analiz pozycji oraz konstruowanie testu. Ten rozdzia jest powicony opracowywaniu i stosowaniu norm oraz procedurom uatwiajcym uytkownikowi
interpretacj wynikw testowych. Jeli brak jest danych pozwalajcych
na interpretacj, to sam wynik surowy w tecie psychologicznym jest
pozbawiony jakiegokolwiek znaczenia. Mwic, e jednostka rozwizaa
poprawnie 15 zada w tecie rozumowania matematycznego, rozpoznaa
34 sowa w tecie sownikowym lub zdoaa zoy mechaniczny przedmiot w cigu 57 sekund, nie przekazujemy adnej albo prawie adnej
informacji na temat zajmowanej przez ni pozycji w grupie w zakresie
ktrejkolwiek z mierzonych zdolnoci. Take wynik wyraony w dobrze
znanych procentach nie rozwizuje w sposb satysfakcjonujcy problemu interpretacji wynikw testowych - 65% poprawnych odpowiedzi w
jednym tecie sownikowym moe odpowiada 30% poprawnych
odpowiedzi w innym tecie I 80% poprawnych odpowiedzi w jeszcze
innym. Znaczenie wyniku zaley bowiem od stopnia trudnoci pozycji
skadajcych si na test. Tak jak wszystkie rodzaje wynikw surowych.

76

Normy I znaczenie wynikw testowych

77

take wyniki wyraone w procentach mona interpretowa wycznie w


ramach precyzyjnie okrelonego 1 Jednolitego ukadu odniesienia.
Wyniki w testach psychologicznych na ogl interpretuje si odnoszc
Je do norm, ktre odzwierciedlaj poziom wykonania w prbie
standaryzacyjnej. Normy ustala si wic empirycznie, okrelajc, jak
osoby z reprezentatywnej grupy rzeczywicie wykonuj dany test.
Nastpnie wynik surowy kadej osoby badanej odnosi si do rozkadu
wynikw uzyskanego w prbie standaryzacyjnej; pozwala to stwierdzi, w
ktrym miejscu tego rozkadu plasuje si dana osoba. Czy jej wynik
odpowiada przecitnemu poziomowi wykonania w grupie standaryzacyjnej? Jest nieco powyej przecitnej? A moe lokuje si w pobliu dolnego kraca rozkadu?
Aby bardziej precyzyjnie ustali pozycj, jak zajmuje jednostka wzgldem prby standaryzacyjnej, wynik surowy przeksztaca si w jak
miar wzgldn. Otrzymane wyniki przeliczone su dwojakim celom. Po
pierwsze, pokazuj wzgldn pozycj jednostki w prbie normalizacyjnej,
a zatem pozwalaj na ocen jej wynikw w porwnaniu z innymi osobami. Po drugie, pozwalaj na bezporednie porwnywanie wynikw w
rnych testach. Na przykad jeli dziewczynka uzyskuje w tecie sownikowym wynik surowy rwny 40. a w tecie rozumowania arytmetycznego jej wynik surowy wynosi 20. to oczywicie nic nie wiemy na temat
Jej wzgldnego poziomu wykonania tych dwch testw. Czy jest ona lepsza w Sowniku, czy w Arytmetyce, a moe jest rwnie dobra w obu testach? Wynikw surowych nie mona bezporednio porwnywa,
poniewa w rnych testach zazwyczaj wyraa si jc w rnych jednostkach. Moliwo porwnywania wynikw surowych ogranicza le
zrnicowanie poziomu trudnoci testw Natomiast wyniki przeliczone
dla rnych testw mog by wyraone w takich samych jednostkach l
odnosi si do tych samych lub bardzo podobnych prb normalizacyjnych. Dziki temu mona porwnywa wzgldny poziom wynikw
danej jednostki w zakresie rnych funkcji.
Istniej rne sposoby przeksztacania wynikw surowych w wyniki
przeliczone, pozwalajce zrealizowa dwa wymienione wyej cele.
Zasadniczo jednak wyniki takie wyraa si na jeden z dwch sposobw:
(1) jako osignity poziom rozwoju lub (2) jako wzgldn pozycj jednostki w okrelonej grupie. W kolejnych czciach tego rozdziau zostan
omwione oba rodzaje wynikw przeliczonych oraz pewne ich warianty.
Ale najpierw trzeba przedstawi kilka elementarnych poj statystycznych, ktre le u podstaw opracowywania norm i korzystania z nich.
Nastpna cz rozdziau jest powicona wyjanieniu znaczenia
pewnych powszechnie stosowanych miar statystycznych. Podane
uproszczone przykady oblicze su wycznie ilustracji, a nie szkoleniu w zakresie metod statystycznych. Czytelnik, ktry pragnie zapozna
si ze szczegami dotyczcymi oblicze i okrelonych procedur

78

ZAGADNIENIA PSYCHOMCTRYCZNE

stosowanych przy praktycznym posugiwaniu si lynu metodami,


powinien zajrze do jakiegokolwiek wspczesnego podrcznika slatyslyki dla psychologw (np.: D. C. Howell. 1997; Runyon i Haber. 1991:
West. 1991). Obecnie staje si coraz bardziej oczywiste, e podstawow
wiedz z zakresu melod statystycznych powinni dysponowa nie tylko
uytkownicy testw, ale wszyscy, ktrzy chc ze zrozumieniem czyta
publikowane raporty z bada z jakiegokolwiek obszaru psychologii (L. S.
Aiken, West. Scchrcst i Reno, 1990; Anastasi. 1991; Lambert, 1991: ST
Meier. 1993).

POJCIA STATYSTYCZNE
Metody statystyczne stosuje si przede wszystkim po to. by
uporzdkowa i podsumowa dane ilociowe w sposb uatwiajcy ich
zrozumienie. Rejestr zawierajcy 1000 wynikw testowych moe stanowi poraajcy widok. W takiej postaci mwi on niewiele. Pierwszym
krokiem w kierunku zaprowadzenia jakiego porzdku w tym chaosie
wynikw surowych jest sporzdzenie lahell zawierajcej rozkad czstoci wynikw. Ilustruje to tabela 3-1. Rozkad czstoci sporzdza si w ten
sposb, e grupuje si wyniki w dogodne przedziay klasowe, a nastpnie zaznacza, stawiajc kreski, kady wynik w odpowiednim przedziale.
Gdy wszystkie wyniki zostan ju odznaczone, zlicza si je i w ten sposb
okrela czsto, czyli liczb przypadkw, w kadym przedziale klasowym. Suma tych czstoci jest rwna N, czyli oglnej liczbie przypadkw wgrupie. W tabeli 3-1 przedstawione s wyniki, jakie uzyskao 1000
studentw college'u w tecie uczenia si kodowania, w klrym jeden cig
sztucznych sw, czyli bezsensowmych sylab, trzeba byo zastpi
drugim. Wyniki surowe, czyli liczba poprawnie zastpionych sylab w
trakcie dwuminutowej prby, wahay si od 8 do 52. Zostay one
pogrupowane w klasy o rozpitoci 4 punktw, poczynajc od 52-55 na
grnym kracu rozkadu do 8 11 na dolnym kracu. Z kolumny zawierajcej czstoci moemy odczyta, e dwie osoby uzyskay wynik midzy
8 a 11. trzy midzy 12 a 15. osiem midzy 16 a 19 i tak dalej.
Informacje, ktrych dostarcza rozkad czstoci, mona take przedstawi graficznie, w postaci krzywej rozkadu. Na rysunku 3-1 dane z
tabeli 3-1 przedstawione s w postaci graficznej. U podstawy, na osi
poziomej, widniej wyniki pogrupowane w przedziay klasowe; na osi pionowej mamy czstoci, czyli liczb przypadkw znajdujcych si w obrbie kadego przedziau klasowego. Wykres zosta sporzdzony na dwa
sposoby, oba powszechnie stosowane. W przypadku histogramu
wysoko kolumny wyrastajcej z kadego przedziau klasowego
odpowiada liczbie osb uzyskujcych wynik w obrbie tego przedziau

Normy I znaczenie wynikw testowych

79

Rozkad czstoci wynikw 1000 studentw w tecie uczenia


si kodowania
Przedzia klasowy
'cwr
52-55
48-51
44-47
40-43
36-39
32-35
28-31
24-27
20-23
16-19
12-15
8-11

Czstos
~
1
1
20
73
156
328
244
136
28
8
3
2

N=1 000

(Dane z. Anastasi. 1934, sir. 34)

Moemy sobie wyobrazi, e kolumn t tworz osoby stojce jedna


drugiej na ramionach. W przypadku wieloboku czstoci liczb osb w
kadym przedziale wskazuje pur.kt znajdujcy si w rodku przedziau
klasowego, na wysokoci odpowiedniej czstoci. Kolejne punkty czy
si nastpnie liniami prostymi.
Jeli pominiemy drobne nieregularnoci, to moemy stwierdzi, e
rozkad przedstawiony na rysunku 3-1 przypomina krzyw normaln
majc ksztat dzwonu. Matematycznie wywiedzion idealn krzyw
normaln przedstawia rysunek 3-2. Ten typ rozkadu ma wane waciwoci matematyczne i stanowi podstaw dla wielu rodzajw analiz
statystycznych. Dla celw obecnych rozwaa zwrcimy uwag jedynie
na kilka waciwoci. Przede wszystkim widzimy, e najwiksza liczba
przypadkw plasuje si w rodku zakresu oraz e w miar zbliania si
do obu kracw rozkadu przypadkw jest coraz mniej. Krzywa la jest
dwustronnie symetryczna z jednym wierzchokiem w rodku. Rozkady
wikszoci ludzkich waciwoci poczynajc od wzrostu i wagi, a na
uzdolnieniach i cechach osobowoci koczc, maj w przyblieniu
ksztat krzywej normalnej. Zwykle im wiksza jest grupa, tym bardziej
otrzymany rozkad przypomina teoretyczn krzyw normaln.
Zbir wynikw mona take opisa posugujc si pewnymi miarami
tendencji centralnej. Tak miar stanowi pojedynczy, najbardziej typowy
czy reprezentatywny wynik, ktry charakteryzuje poziom wykonania w
caej grupie. Najbardziej znan z tych miar jest przecitna, a mwic
bardziej fachowo rednia (mean - M): otrzymuje si j przez dodanie

80

ZAGADNIENIA PSYCHOMCTRYCZNE

Rysunek 3 - 1 .

Kraywp rzstoSci: wielobok czstoci 1 h i s t o g r a m .

(Dane z tabeli 3 - 1 )

wszystkich wynikw i podzielenie otrzymanej sumy przez liczb przypadkw (N). Inn miar tendencji centralnej jest modalna, czyli najczciej
wystpujcy wynik. W rozkadzie czstoci modaln stanowi rodek
przedziau klasowego, w ktrym obserwujemy najwysz czsto
wynikw. Dla danych z tabeli 3-1 modalna przypada porodku midzy
32 i 35, a wic wynosi 33,5. Warto zwrci uwag, e wynik ten odpowiada najwyszemu punktowi krzywej rozkadu z rysunku 3-1. Trzeci
miar tendencji centralnej jest mediana, czyli rodkowy wynik otrzymany po uporzdkowaniu po wzgldem wielkoci wszystkich wynikw.
Mediana Jest punktem, ktry dzieli rozkad na dwie czci w taki sposb,
e poowa przypadkw znajduje si powyej, a poowa poniej tego punktu.
Dalszego opisu zbioru wynikw testowych dostarczaj nam miary
zmiennoci informujce o zakresie rnic indywidualnych w odniesieniu
do tendencji centralnej. Najbardziej oczywistym i najpowszechniej
stosowanym sposobem informowania o zmiennoci Jest podawanie
rozstpu midzy najwyszym i najniszym wynikiem. Rozstp jest jednak
miar wyjtkowo surow i niestabiln ze wzgldu na to, e okrelaj go

Normy I znaczenie wynikw testowych

81

Due SD
Mae SD
-

U
Wyniki

Rysunek 3-2.
zmienno.

Rozkady czstoci majce lak sam redni, ale rn

tylko dwa wyniki. Niezwykle wysoki lub niezwykle niski pojedynczy


wynik moe istotnie wpyn na wielko rozstpu. Bardziej precyzyjna
miara zmiennoci opiera si na rnicach midzy wynikami poszczeglnych osb a redni dla grupy.
W tym momencie dobrze byoby spojrze na przykad podany w tabeli
3-2. zawierajcej dane dla 10 przypadkw, dla ktrych policzono rne
omawiane obecnie miary. Tak maa liczebno grupy wynika wycznie z
chci uproszczenia demonstrowanych operacji: w praktyce zazwyczaj
bdziemy mie do czynienia z wikszymi grupami. W tabeli 3-2 wprowadzono rwnie pewne standardowe symbole statystyczne, ktre bd
dalej uywane. Dla oznaczenia wynikw surowych stosuje si zazwyczaj
du liter X, natomiast maa litera x odnosi si do odchyle kadego
wyniku od redniej dla grupy. Symbol oznacza .sum". Jak wida,
pierwsza kolumna tabeli 3-2 zawiera dane potrzebne do obliczenia redniej i mediany. rednia wynosi 40: mediana wynosi 40.5, poniewa
wypada midzy wynikami 40 i 41 - pi przypadkw (50%) znajduje si
powyej, a pi poniej. W tak malej grupie nic ma wikszego sensu
okrelanie modalnej, poniewa przypadki nie grupuj si wyranie wok
jakiego wyniku. Jednak formalnie rzecz biorc modaln reprezentuje
wynik rwny 41, poniewa uzyskay go dwie osoby, podczas gdy wszystkie pozostae wyniki wystpiy tylko raz.
W drugiej kolumnie moemy zobaczy, o ile kady wynik odchyla si,
w gr lub w d. od redniej. Suma tych odchyle zawsze jest rwna
zero, poniewa dodatnie i ujemne odchylenia od redniej sil rzeczy
rwnowa si, czyli wzajemnie znosz (+ 20 - 20 = 0). Jeli pominiemy

82

ZAGADNIENIA PSYCHOMCTRYCZNE

I l u s t r a c j a tendencji
Wynik (X)

centralnej i

zmiennoci

Odchylenie <*=X-M>

K-wadrat odchylenia <\-'t


64
49
9
1
1
0
4

+8
+7
+3 +20
+1
+1
0
-2
-4 - 2 0
-6
-8]

48
47
43
H
41
Medlana=40.5 f t - 41
40
38
50%
V
36
34
32
IX = 400
50A>

16

36
64
* 2 = 244

M =

XX
N

Wariancja = a2 =
SD czyli o ^

400
= 40
10
N
N

244
= 24.40
10
= V24~40 = 4.9

Lluim/u. Symbole 11 o znajdujce si w tej tabeli, to ta sama grecka litera sigma


pisana raz wersalikami, a raz zwyk czcionk. W wielu pracach ze statystyki SD
(lub po prostu s) odnosi si do odchylenia standardowego z prby, podczas gdy
c odnosi si do szacowanej wartoci odchylenia standardowego z populacji, 2
ktrej zostaa pobrana prba.
znaki, to oczywicie moemy uredni bezwzgldn warto odchyle,
otrzymujc w ten sposb miar przecitnego odchylenia od redniej
grupowej. Wprawdzie takie .rednie odchylenie" ma pewn warto
opisow, ale ze wzgldu na arbitralne pominicie znakw niezbyt nadaje
si do analiz matematycznych; w praktyce nie jest wic stosowane.
O wiele bardziej uyteczn miar zmiennoci jest odchylenie staridardowe (standard deuiation - oznaczane jako SD lub o); ujemne znaki
s tu w sposb uprawniony wyeliminowane przez podniesienie do
kwadratu kadego odchylenia. Operacj t przedstawiono w ostatniej
kolumnie tabeli 3-2, Suma z lej kolumny podzielona przez liczb przypadkw1 (I* 2 /N] znana jest jako wariancja lub rednia kwadratw
1 Obliczenia przedstawione w tym rozdziale nale do statystyki opisowej, ktra
odnosi si do faktycznie zbadanej prby; w statystyce indukcyjnej N zastpuje si
przez N-l. by na podstawie danych z prby szacowa odpowiednie parametry dla

Normy I znaczenie wynikw testowych

-3o

Rysunek 3-3

-2(1

-1n

SieUdic

>2 a

83

tjo

Procentowy rozkfad przypadkw pod krzyw normaln.

odchyle. Wariancja jest szczeglnie uyteczna przy okrelaniu wkadu


rnych czynnikw w rnice indywidualne w wynikach testu. Obecnie
zajmiemy si jednak przede wszystkim odchyleniem standardowym,
ktre stanowi pierwiastek kwadratowy z wariancji, co wida w tabeli
3-2. Miara ta jest powszechnie uywana przy porwnywaniu zmiennoci
w rnych grupach. Na przykad na rysunku 3-2 mamy dwa rozkady o
takiej samej redniej, ale rnice si zmiennoci. Odchylenie standardowe w rozkadzie, w ktrym jest szerszy zakres rnic indywidualnych. jest wiksze ni w rozkadzie, w ktrym zakres tych rnic jest
wszy. Oceniajc wzgldny poziom wykonania dwch grup powinnimy
porwnywa zarwno odchylenia standardowe, jak i rednie. Jeli dwie
grupy rni si zmiennoci, moe to oznacza, e rni si pod wzgldem proporcji wynikw wysokich, wynikw niskich lub jednych i
drugich, bez wzgldu na rnice rednich. W literaturze mona znale
wyczerpujcy opis procedur pozwalajcych na czn analiz rnic
rednich l odchyle standardowych (patrz np.: Femgold. 1995)
Odchylenie standardowe jest te podstaw ustalania norm, ktre
su do wyraania wynikw jednostki w rnych testach: bdzie o tym
mowa w czci rozdziau powiconej wynikom standaryzowanym.
Interpretacja odchylenia standardowego jest jednoznaczna szczeglnie
wtedy, gdy mamy do czynienia z krzyw normaln lub zblion do
rozkadu normalnego. W takim rozkadzie istnieje cisy zwizek midzy
odchyleniem standardowym i proporcj przypadkw, co wida na
populacji. Im mniejsza jest prba, tym wiksza bdzie rnica midzy odpowiednimi wartociami dla prby I populacji Wicej Informacji na ten temat mona
znale w kadym wspczesnym podrczniku statystyki (np.: Comrey i Lee.
1992).

82

ZAGADNIENIA

PSYCHOMCTRYCZNE

rysunku 3-3. U podstawy krzywej normalnej zaznaczono odlegoci


odpowiadajce jednemu, dwm 1 trzem odchyleniom standardowym
powyej i poniej redniej. W przykadzie podanym w tabeli 3-2 rednia
odpowiada wynikowi rwnemu 40: + l o odpowiada wynikowi 44,9 (tj. 40
+ 4,9), +2CT - wynikowi 49.8 (tj. 40 + 2 x 4,9) i tak dalej. Midzy redni
a +1 a przypada, pod krzyw normaln. 34,13% przypadkw. Poniewa
krzywa jest symetryczna, to midzy redni a -la te przypada 34.13%
przypadkw, a zatem w odlegoci jednego odchylenia standardowego w
gor i w d od redniej znajduje si G8.2G% przypadkw. Niemal wscyst
kie przypadki (99.72%) znajduj si w obrbie 3<r od redniej.
Przedstawione zalenoci s szczeglnie istotne przy interpretacji
wynikw standaryzowanych i centyli, o czym bdzie mowa w dalszej
czci rozdziau.

NORMY ROZWOJOWE
Jeden ze sposobw nadawania znaczenia wynikom testowym polega na
pokazaniu, jak daleko na drodze normalnego rozwoju znalaza si jednostka A alem o n.miolalkii, klry w le.cie inteligencji osiga laki
wynik, jak przecitny dziesiciolatek, mona powiedzie, e jego wiek
umysowy wynosi 10; upoledzonemu umysowo dorosemu, ktry
funkcjonuje na tym samym poziomie, te zostanie przypisany wiek
umysowy rwny 10. O jakim uczniu czwartej klasy mona powiedzie,
e osiga poziom szstej klasy w tecie czytania i trzeciej klasy w tecie
arytmetycznym. Inne sposoby podejcia wykorzystuj jaikociowe opisy
osigni w zakresie poszczeglnych funkcji, takich jak aktywno sensomotoryczna czy ksztatowanie si poj. Jakkolwiek by jednak byy
wyraone, wyniki oparte na normach rozwojowych s psychometrycznie
surowe i nie nadaj si do precyzyjnej obrbki statystycznej. Niemniej
jednak bywaj bardzo przydatne do celw opisowych, szczeglnie w diagnozie klinicznej, oraz dla pewnych celw badawczych.
Wiek umysowy. W rozdziale 2 bya mowa o tym. e pojcie wieku
umysowego" zostao szeroko spopularyzowane dziki rnym
tumaczeniom 1 adaptacjom skal Binela-Simona, chocia sam Binet
posugiwa si bardziej neutralnym pojciem poziomu umysowego". W
skalach rozwojowych, takich jak testy Bineta i ich rewizje (sprzed 1986
roku), pozycje testowe czono w grupy odpowiadajce poziomom wieku.
Na przykad zadania, ktre poprawnie wykonywaa wikszo siedmiolatkw z prby standaiyzacyjncj, umieszczano na poziomie 7 lat: zadania poprawnie wykonywane przez wikszo omiolatkw umieszczano
na poziomie 8 lal i tak dalej. Wynik uzyskiwany w takim tecie odpowia-

Normy I znaczenie wynikw testowych 83

dai najwyszemu poziomowi, ktrego zadania udawao si dziecku


rozwiza. W praktyce indywidualny poziom wykonania charakteryzowa
pewien rozrzut. Badany ponosi porak w niektrych zadaniach znajdujcych si poniej Jego wieku umysowego 1 poprawnie rozwizywa
niektre znajdujce si powyej. Z tego wanie powodu zwyko si
oblicza wiek podstawowy, to znaczy odpowiadajcy poziomowi, dla
ktrego i poniej ktrego badany poprawnie wykona wszystkie zadania.
Nastpnie do tego wieku podstawowego dodawano odpowiedni liczb
miesicy, za wszystkie poprawnie wykunaue zadania z wyszych
poziomw wieku. Wiek umysowy dziecka w tecie stanowia wic suma
powstaa z dodania do wieku podstawowego dodatkowych miesicy zarobionych na wyszych poziomach wieku
Normy w postaci wieku umysowego stosuje si take w testach, w
ktrych nie ma podziau na poziomy wieku. W takim przypadku najpierw
okrela si wynik surowy dziecka. Moe to by liczba poprawnie
rozwizanych zada w caym tecie, ale take czas. liczba bdw czy
jakie poczenie tych miar. Normy w takim tecie stanowi rednie
w/yniki surowe uzyskane przez dzieci z poszczeglnych grup wieku w prbie standaryzacyjnej. Tak wic redni wynik surowy dzieci 8-letnich
odpowiada normie na 8 lat. Jeli wynik surowy uzyskany przez jednostk jest rwny redniemu wynikowi dla omiolatkw, to jej wiek
umysowy w tecie wynosi 8 lat. W podobny sposb mona przeksztaca
wszystkie wyniki surowe w tecie, odnoszc je do norm wiekowych.
Naley zauway, e jednostka wieku umysowego nie pozostaje w
miar wzrastania wieku staa, lecz wykazuje tendencj do kurczenia si.
Na przykad dziecko, ktre majc 4 lata jest opnione o rok. w wieku 12
lat bdzie opnione w przyblieniu o trzy lata. Jeden rok w rozwoju
umysowym midzy trzecim a czwartym rokiem ycia jest rwnowany
trzem latom w rozwoju midzy 9. a 12. rokiem ycia. Poniewa w
modszym wieku tempo rozwoju umysowego jest szybsze, a w miar
zbliania si do granic dojrzaoci stopniowo spada, jednostka wieku
umysowego maleje wraz z wiekiem. Zaleno t mona sobie atwiej
wyobrazi, jeli pomylimy o wzrocie dziecka w kategoriach wieku
wzrostu". Wyraona w centymetrach rnica w wieku wzrostu" midzy
trzy- i czterolatkiem bdzie wiksza ni midzy dziesicio- i jedenastolatkiem. Ze wzgldu na progresywne zmniejszanie si jednostki wieku
umysowego, jeden rok przyspieszenia lub opnienia w wieku,
powiedzmy, 5 lat stanowi wiksze odchylenie od normy ni jeden rok
przyspieszenia lub opnienia w wieku 10 lat.
Rwnowaniki klas.
Wyniki w testach osigni szkolnych czsto
interpretuje si okrelajc odpowiadajce lm klasy. Taka praktyka jesl
cakiem zrozumiaa, poniewa testy te stosuje si w szkolnictwie
Opisywanie osigni ucznia, polegajce na stwierdzaniu, e reprezentu-

86

ZAGADNIENIA PSYCHOMCTRYCZNE

Je on poziom sidmej klasy w ortografii, smej klasy w czytaniu 1 pitej


klasy w arytmetyce, cieszy si rwn popularnoci, jak posugiwanie si
pojciem wieku umysowego w tradycyjnych testach inteligencji.
Normy dla klas opracowuje si w len sposb, e oblicza si redni
wynik surowy uzyskany przez dzieci z kadej klasy. Jeli wic rednia
liczba zada poprawnie rozwizanych przez uczniw czwartej klasy z
prby standaryzacyjnej wynosi 23, to wynik surowy rwny 23 stanowi
odpowiednik klasy czwartej. Uamki odpowiadajce porednim etapom
midzy jedn a drug klas na ogl otrzymuje si przez interpolacj,
chd mona je take uzyskiwa bezporednio, badajc dzieci w rnych
momentach roku szkolnego. Rok szkolny Irwa 10 miesicy, a wic kolejne miesice mona wyrazi jako czci dziesite. Na przykad 4,0
odpowiada przecitnemu poziomowi wykonania na pocztku czwartej
klasy (badanie wc wrzeniu). 4.5 odpowiada przecitnemu poziomowi
wykonania w rodku czwartej klasy (badanie w lutym) i tak dalej.
Normy dla klas, mimo swej popularnoci, maj pewne wady. Po pierwsze. nieco inne s treci nauczania w kolejnych klasach. Normy dla klas
s wic odpowiednie w odniesieniu tylko do przedmiotw nauczanych na
wszystkich poziomach, dla ktrych test jest przeznaczony. W zasadzie
norm ych nie da si zastosowa w szkole redniej, poniewa wielu
przedmiotw naucza si lam tylko przez rok lub dwa. Nawet jednak
wtedy, gdy naucza si ich na wszystkich poziomach, w rnych latach
nauki rny moe by nacisk kadziony na poszczeglne przedmioty, a co
za tym idzie postpy w zakresie jednego przedmiotu mog by na danym
poziomie szybsze ni w zakresie innego przedmiotu. Innymi sowy, jednostki pomiarowe, ktre w tym przypadku stanowi klasy, s wyranie
nierwne i nierwnoci te wystpuj w sposb nieregularny w zakresie
rnych przedmiotw nauczania.
W przypadku takich norm atwo te o niewaciw interpretacj. Jeli
uytkownik lestu nie uwzgldnia sposobu, w jaki s one opracowywane.
Na przykad jeli dziecko z czwartej klasy uzyskuje wynik z matematyki
odpowiadajcy klasie 6,9, to nie oznacza to, e opanowao ono operacje
arytmetyczne nauczane w klasie szstej. Bez wtpienia jego wynik
gwnie odzwierciedla znakomite opanowanie programu klasy czwartej.
Oczywicie nie mona zakada, e dziecko to jest przygotowane do nauki
arytmetyki w klasie sidmej. 1 wreszcie, normy dla klas w sposb
nieuprawniony bywaj traktowane jako standardy poziomu wykonania.
Nauczyciel klasy szstej moe na przykad zakada, e wszyscy jego
uczniowie powinni w testach osigni uzyska wyniki odpowiadajce
dokadnie lub w przyblieniu normom dla klasy szstej. Takie nieporozumienie nie jest niczym dziwnym, gdy wykorzystuje si normy dla klas.
Jednak rnice indywidualne w obrbie kadej klasy s tak due. e
zakres wynikw w tecie osigni musi obejmowa kilka klas.

Normy I znaczenie wynikw testowych

87

Skale porzdkowe. Inny sposb podejcia do norm rozwojowych


wywodzi si z bada w dziedzinie psychologii dziecka. Obserwacje rozwoju niemowlt i maych dzieci pozwoliy na dokonanie opisu typowych
zachowa na kolejnych poziomach wieku w zakresie takich funkcji, jak
lokomocja, rnicowanie zmysowe, komunikowanie si przy pomocy
Jzyka czy ksztatowanie poj. Najwczeniejszy przykad pochodzi z prac
Gesella I j c g o wsppracownikw z Yale (Ames, 1937; Gesell i Amatruda.
1947; Halverson. 1933; Knobloch i Pasamanick. 1974). Inwentarze
Rozwojowe Gesella (Gesell Deuelopmenlal Schedules) pozwalaj na przyblion ocen, w miesicach, osignitego przez dziecko poziomu rozwoju w kadej z czterech gwnych sfer, a mianowicie w zakresie motoryki,
zachowania adaptacyjnego, jzyka i zachowa spoecznych. Poziom rozwoju w kadej sferze okrela si przez porwnanie zachowania dziecka z
zachowaniami typowymi dla poszczeglnych omiu poziomw wieku,
poczynajc od 4 tygodni do 36 miesicy.
Gesell i Jego wsppracownicy podkrelali, e rozwj we wczesnym
okresie ycia przebiega wedle okrelonych stadiw. Przytaczali wiele
dowodw wiadczcych o jednolitoci stadiw rozwojowych i staej kolejnoci zmian w zachowaniu. Na przykad reakcje dziecka na umieszczony
przed nim may przedmiot, przejawiajce si w fiksacji wzrokowej oraz
ruchach rki i palcw, wykazuj charakterystyczn chronologiczn sekwencj. Prba chwytania przy pomocy caej doni pojawia si wczeniej
ni przy uyciu kciuka przeciwstawionego doni; pniej pojawia si
bardziej skuteczny chwyt psetkowy. do ktrego uywany jest kciuk 1
palec wskazujcy. Podobne sekwencje mona take zaobserwowa w
odniesieniu do chodzenia, wspinania si po schodkach i wikszoci
sprawnoci sensomotorycznych. ktre rozwijaj si w pierwszych latach
ycia. Skale, ktre powstay w ramach tego sposobu podejcia, s
porzdkowe w tym sensie, e zakadaj nastpowanie stadiw rozwojowych w staej kolejnoci, przy czym przejcie do kolejnego stadium
wymaga doskonaego opanowania zachowania charakterystycznego dla
wczeniejszych stadiw 2 .
W latach szedziesitych nastpi nagy przypyw zainteresowania
teoriami rozwojowymi szwajcarskiego psychologa dziecicego Jeana
Piageta (patrz: Flavell. 1963; Ginsburg i Opper. 1969; D. R. Green. Ford
1 Sposb uycia terminu skala porzdkowa" Jest tu nieco inny nii w statystyce,
gdzie termin len oznacza po prostu skal, ktra pozwala na porangowanie jednostek bez znajomoci wielkoci rnic midzy nimi; w ujciu statystycznym
skale porzdkowe przeciwstawia si skalom przedziaowym o rwnych jednostkach. Porzdkowe skale rozwoju dziecka opisuje model skalowania Guttmana.
czyli simpleks, zgodnie z ktrym sukces na danym poziomie oznacza, e wykonanie na wszystkich niszych poziomach rwnie byo uwieczone sukcesem
(L.Guttman, 1944). Rozszerzenie analiz Gutlmana polegajce na wczeniu
nieliniowych hierarchii opisuj Bart 1 Alrasian (1974), ze szczeglnym uwzgldnieniem skal plagetowsklch.

88

ZAGADNIENIA PSYCHOMCTRYCZNE

i Flamer. 1971). Badania Piageta koncentroway si na problematyce rozwoju poznawczego od niemowlctwa do wieku dorastania. Inleresowal
si on bardziej rozwojem specyficznych poj ni szeroko pojtych zdolnoci. Przykadem takiego pojcia, czyli schematu. Jest pojcie trwaoci
przedmiotu, dziki ktremu dziecko jest wiadome identycznoci i
trwaego istnienia przedmiotw spostrzeganych z rnych perspektyw
lub znikajcych z pola widzenia. Innym powszechnie badanym pojciem
jest pojcie staoci, czyli rozumienie, e pewne waciwoci pozostaj
stale, numo zmian w wygldzie zewntrznym; ma tu na przykad miejsce
wtedy, gdy t sam ilo pynu wlewamy do naczy o rnym ksztacie
lub rnie rozmieszczamy patyczki o takiej samej dugoci.
Zadania piagetowskie znalazy szerokie zastosowanie w badaniach
prowadzonych przez psychologw rozwojowych, a niektre wykorzystano
w skalach standardowych, omawianych w rozdziale 9 (Goldschmid i
Bentler, 1968b: Pinard i Laurendcau. 1964; Ugiris i Huilt, 1975).
Zgodnie z podejciem piagetowskim, narzdzia te s skalami
porzdkowymi, zakadajcymi, e osignicie przez dziecko okrelonego
stadium jest uzalenione od lego. czy przeszo or.o przez wczeniejsze
etapy w rozwoju danego pojcia. Zadania s tak pomylane, aby ujawniay gwne waciwoci kadego stadium rozwoju; dopiero pniej
zebrano dane empiryczne dotyczce typowego wieku, w |akim osigane
s poszczeglne stadia. Pod tym wzgldem omawiana procedura rni si
od tej. ktr stosuje si przy konstruowaniu skal rozwojowych; tam
bowiem pozycje dobiera si przede wszystkim w zalenoci od tego. jak
dobrze rnicuj kolejne poziomy wieku. Zainteresowanie pracami
Piageta trwa nadal, za krytyczne analizy oraz dane empiryczne ujawniaj zarwno zalety, jak i ograniczenia tego sposobu podejcia
(Sugarman. 1987)3.
Podsumowujc mona powiedzie, e skale porzdkowe su do
okrelania etapu osignitego przez dziecko w rozwoju specyficznych
funkcji. Wyniki mona podawa w postaci przyblionych poziomw
wieku, lecz Jest to sposb wtrny wobec jakociowego opisu zachowania.
Porzdkowy charakter takich skal wie si z zakadan jednostajnoci
przebiegu rozwoju przez kolejne 3tadia. Poniewa char akleryslyczn
cech tych skal jest to, e dostarczaj informacji o tym. co dziecko aktualnie jest w stanie zrobi (np. wej na schodki bez pomocy, uzna identyczno iloci pynu nalewanego do naczy w rnym ksztacie), maj
one te same istotne cechy, co testy zorientowane na standard wykona
nia. omawiane w dalszej czci tego rozdziau.

Peniejsza ocena podejcia plagetowsklego - patrz; rozdzia 9.

Normy I znaczenie wynikw testowych

89

NORMY WEWNTRZGRUPOWE
Niemal dD wszystkich wystandaryzowanych testw opracowano jaki
rodzaj norm wewntrzgrupowych. Dysponujc takimi normami, ocenia
si poziom wynikw jednostki na tle najbardziej odpowiadajcej jej grupy
standaryzacyjnej, na przykad porwnuje si wynik surowy danego
dziecka z wynikami dzieci w tym samym wieku lub z tej samej klasy.
Normy wewntrzgrupowc. maj wyranie okrelone znaczenie ilociowe i
mona je w sposb uprawniony wykorzystywa w rnego rodzaju analizach statystycznych.
Centyle.
Centyle informuj, jaki procent osb w prbie standaryzacyjnej uzyskao wynik surowy niszy od danego. Na przykad jeli 28%
osb rozwizuje poprawnie mniej ni 15 zada w tecie rozumowania
arytmetycznego, lo wynik surowy rwny 15 odpowiada 28. centylowi
(C2H). Centyl pokazuje wzgldn pozycj jednostki w prbie standaryzacyjnej. Mona go rwnie traktowa jak rang w grupie liczcej 100 osb.
z t rnic, e rangowanie zazwyczaj zaczyna si od gry i najlepsza
osoba w grupie uzyskuje rang pierwsz. Natomiast w przypadku centyli
zaczynamy liczyc od dolu. tak e im niszy jest centyl, tym gorsz pozycj zajmuje jednostka.
Centyl 50. (C 50 ) odpowiada medianie, omwionej wczeniej mierze
tendencji centralnej. Wyniki powyej 50. centyla odpowiadaj ponadprzecitnemu poziomowi wykonania, a poniej 50. centyla oznaczaj
sabsze wykonanie. Centyle 25. i 75. s znane jako pierwszy i trzeci
kwartyl (Q, i Q 3 ), poniewa odcinaj najnisz i najwysz wiartk
rozkadu. Podobnie jak mediana, stanowi wygodne punkty odniesienia
przy opisywaniu rozkadu wynikw i porwnywaniu go z innymi
rozkadami.
Centyli nie naley myli ze znanymi wynikami procentowymi. Wyniki
procentowe s lo bowiem wyniki surowe przedstawione w postaci procentu poprawnie rozwizanych zada, centyle za s wynikami przeliczonymi L odnosz si do procentu osb. Wynik surowy niszy od
najniszego uzyskanego w prbie standaryzacyjnej bdzie odpowiada
centylowi zerowemu fC0); wynik wyszy od najwyszego uzyskanego w
prbie standaryzacyjnej bdzie odpowiada centylowi 100 (C, 00 ). Centyle
te nie oznaczaj Jednak ani zerowego wyniku surowego, ani maksymalnego. moliwego do uzyskania.
Posugiwanie si cenlylami ma szereg zalet. Centyle mona atwo
obliczy, atwo te jest Je zrozumie, nawet osobom bez specjalistycznego
przygotowania. Co wicej, centyle maj uniwersalne zastosowanie.
Nadaj si do testw kadego rodzaju, przeznaczonych dla dzieci i dla
dorosych do pomiaru uzdolnie i zmiennych osobowociowych.

88

ZAGADNIENIA

PSYCHOMCTRYCZNE

Gwna wada centyli wynika ze znacznej nierwnoci Jednostek ccntylowych. zwaszcza na kracach rozkadu. Jeeli rozkad wynikw
surowych jest zbliony do rozkadu normalnego, jak to ma miejsce w
przypadku wikszoci wynikw testowych, lo po dokonaniu
przeksztacenia na centyle rnice midzy wyrokami surowymi zblionymi do mediany, czyli do rodka rozkadu, s wyolbrzymiane, a
rnice midzy wynikami surowymi bliskimi kracw rozkadu - minimalizowane. To znieksztacenie odlegoci mona zobaczy na rysunku
3-4. Przypomnijmy, e na krzywej normalnej w pobliu rodka rozkadu
przypadki grupuj si blisko siebie, a w miar zbliania si do kracw
ulegaj coraz wikszemu rozproszeniu. Jeli wic spojrzymy na podstaw
krzywej normalnej, to zobaczymy, e odlego odpowiadajca okrelonemu procentowi przypadkw jest niewielka, gdy mamy do czynienia ze
rodkiem rozkadu, i znacznie wiksza, gdy chodzi o krace rozkadu.
Wida to wyranie na rysunku 3-4. gdy porwnujemy odlego midzy
centylem 40. i 50. oraz midzy 10. i 20. Jeszcze bardziej uderzajca jest
rnica, gdy w tych porwnaniach uwzgldnimy te odlego midzy
centylem 10. i 1. (W wyprowadzonej matematycznie krzywej normalnej
centyl zerowy siga nieskoczonoci, nie mona wic przedstawi go na
rysunku.)
Na t sam zaleno mona spojrze z innej strony, porwnujc na
wykresie krzywej normalnej centyle odpowiadajce takim samym
odlegociom od redniej, wyraonym w jednostkach odchylenia standardowego. Centyle te podano pod wykresem na rysunku 3-4. Wyraona
w centylach rnica midzy redni a + la wynosi 34 (84-50), natomiast
rnica midzy + l o a +2o wynosi tylko 14 (98-84)
Q,

-3o
C 0.1

10

-2o

Mediana

Q3

20 ' 30 40 50 60 70

-1<y
16

M
50

Rysunek 3-4 Centyle w rozkadzie normalnym

80

1<T
64

90

99

*2a
98

+3o
89,9

Normy I znaczenie wynikw testowych

John

Mary

Ellen Edgar

Jane Dick

91

Bill Debby

Rysunek 3-5. Siatka centylowa: centyle s tak rozmieszczone, aby odpowiaday


rwnym odlegociom w rozkadzie normalnym. Porwnaj odlego midzy
wynikami Johna i Mary z odlegoci midzy wynikami Helen i Edgara; w kadej
z tych par rnica wyraona w ccntylach wynosi 5 punktw. Wyniki Jane i Dicka
rni si o 10 centyli. tak jak wyniki Billa i Debby.
Jest rzecz oczywist, e centyle pokazuj wzgldn pozycj kadej
Jednostki w prbie normalizacyjnej, a nie wielko rnicy midzy
wynikami.
Jeeli jednak przedstawi si dane na wykresie
uwzgldniajcym arytmetyczne prawdopodobiestwo, to take centyle
mog poprawnie obrazowa rnice midzy wynikami. Na tego rodzaju
wykresach linie pionowe s rozmieszczone w taki sposb, jak punkty
oznaczajce centyle w rozkadzie normalnym (jak na rysunku 3-4), natomiast linie poziome znajduj si w rwnych odstpach od siebie; moe
te by odwrotnie (jak na rysunku 3-5) Takiej siatki centylowej mona
uywa do wykrelania wynikw rnych osb w tym samym tecie lub
wynikw tej samej osoby w rnych testach. W obu przypadkach faktyczna rnica midzy wynikami bdzie poprawnie zobrazowana. Ten sposb
wykorzystuje si obecnie do przedstawiania profilu wynikw w wielu
bateriach testw osigni i testw uzdolnie.
Wyniki standaryzowane. Obecnie coraz czciej wykorzystuje si w
testach wyniki standaryzowane, albowiem z wielu wzgldw s one

92

ZAGADNIENIA PSYCHOMCTRYCZNE

najbardziej odpowiednim rodzajem wynikw przeliczonych. Wyniki


standaryzowane wyraaj odlego danego wyniku od redniej w jednostkach odchylenia standardowego rozkadu.
Wyniki standaryzowane mona otrzyma zarwno poprzez liniowe. Jak
i nieliniowe przeksztacenie pierwotnych wynikw surowych. Jeli stosujemy przeksztacenie liniowe, to relacje midzy wynikami standaryzowanymi pozostaj dokadnie takie same. jak relacje midzy pierwotnymi wynikami surowymi; wyniki standaryzowane otrzymujemy bowiem
przez odjcie od kadego wyniku surWg pewnej staej, a nastpnie
podzielenie otrzymanego rezultatu przez inn stal. Wzgldna wielko
rnicy midzy otrzymanymi w ten sposb wynikami standaryzowanymi
odpowiada dokadnie rnicy midzy wynikami surowymi. Rozkad
wynikw standaryzowanych powiela wszystkie waciwoci pierwotnego
rozkadu wynikw surowych. Z tego wzgldu wszelkie obliczenia, klre
mona przeprowadza na pierwotnych wynikach surowych, mona take
wykonywa, bez obawy o jakiekolwiek znieksztacenie rezultatw, na
wynikach standaryzowanych otrzymanych drog przeksztacenia liniowego.
Wyniki standaryzowane powstae w wyniku przeksztacenia liniowego
czsto okrela si po prostu Jako wyniki standaryzowane" lub wyniki
z". Aby otrzyma wynik z. naley obliczy rnic midzy wynikiem
surowym danej jednostki a redni dla grupy normalizacyjnej i nastpnie podzieli t rnic przez odchylenie standardowe dla grupy normalizacyjnej. W tabeli 3-3 przedstawiony Jest przykad obliczania wynikw
z dla dwch osb; wynik pierwszej z nich wypada o jedno odchylenie
standardowe powyej redniej grupowej, a drugiej - o 0,40 odchylenia
standardowego poniej redniej. Kady wynik surowy dokadnie rwny
redniej odpowiada wynikowi z rwnemu zero. Taka procedura prowadzi
oczywicie do lego. e wszystkie osoby, ktre uzyskuj wyniki surowe
poniej redniej, maj wyniki przeliczone ze znakiem minus. Co wicej,
poniewa zakres wynikw uzyskiwanych w wikszoci grup nie

Obliczanie wynikw standaryzowanych

SD

M = 60

WniK Hiv

65

- 60

SD = 5
WYNIK BIUA

,
1.00

Z2=

58 - 60

= -0.40

Normy I znaczenie wynikw testowych

93

przekracza trzech odchyle standardowych powyej i poniej redniej, to


aby zapewni wystarczajco dokadne rnicowanie midzy jednostkami,
trzeba przedstawia wyniki standaryzowane z dokadnoci do co najmniej Jednego miejsca po przecinku.
Oba te powody - tzn. wystpowanie wartoci ujemnych oraz uamkw
dziesitnych - sprawiaj, e mamy do czynienia z niewygodnymi liczbami. ktrymi trudno jest si posugiwa w obliczeniach i raportach. Z tego
wzgldu zazwyczaj wykonuje si kolejne przeksztacenie liniowe, tak aby
przedstawi wyniki w bardziej dogodnej postaci. Na przykad w wersji dla
college'u Testu Diagnozy Szkolnej (Scholastic Assessment Test - SAT)
wyniki standaryzowane przelicza si na wyniki ze redni 500 i odchyleniem standardowym 100. A zatem wynik standaryzowany rwny -
bdzie w tym tecie wynosi 400 (500 - 100 = 400). Wynik standaryzowany
rwny +1,5 bdzie odpowiada wynikowi 650 (500 + 1,5 x 100 = 650). Aby
wyrazi wynik standaryzowany w nowej skali, naley po prostu
pomnoy go przez ustalone odchylenie standardowe (100) i doda lub
odj uzyskany rezultat od ustalonej redniej (500). Jako now redni
i nowe odchylenie standardowe mona przyj dowolne, arbitralnie
wybrane wartoci. W podlestach skali inteligencji Wechslera wyniki s
przeksztacane na rozkad ze redni 10 i odchyleniem standardowym 3.
Wszystkie tc miary s przykadami wynikw standaryzowanych otrzymanych drog przeksztacenia liniowego.
Naley przypomnie, e jednym z powodw przeksztacania wynikw
surowych na przeliczone jest umoliwienie porwnywania wynikw w
rnych testach. Omwione wyej wyniki standaryzowane, bdce efektem przeksztace liniowych, s porwnywalne tylko wtedy, gdy
pochodz z rozkadw majcych w przyblieniu ten sam ksztat. W takim
przypadku wynik odpowiadajcy, na przykad, jednemu odchyleniu
standardowemu powyej redniej oznacza, e jednostka zajmuje tak
sam pozycj w odniesieniu do grup, dla ktrych testy te znormalizowano. Jej wynik jest lepszy od wyniku uzyskanego przez taki sam. w
przyblieniu, procent osb w tych rozkadach 1. jeli znamy ksztat
rozkadu, procent ten mona okreli. Jeeli jednak jeden rozkad Jesi
wyranie skony, a inny jest normalny, to wynik z rwny +1,00 moe by
lepszy od wyniku uzyskanego tylko przez 50% osb w jednej grupie 1
84% osb w drugiej grupie.
Aby uzyska porwnywalno wynikw pochodzcych z rozkadw o
niepodobnych ksztatach, naley zastosowa przeksztacenie nieliniowe
pozwalajce dopasowa wyniki do konkretnego typu rozkadu. Wiek
umysowy i centyle, opisane wczeniej, powstay w wyniku przeksztace
nieliniowych, ale podlegaj innym, omwionym Ju, ograniczeniom.
Zazwyczaj dokonuje si przeksztacenia na rozkad normalny, cho w
pewnych przypadkach bardziej odpowiednie mog by inne typy
rozkadu. Jednym z gwnych powodw wyboru rozkadu normalnego

94

ZAGADNIENIA PSYCHOMCTRYCZNE

jest to, e na ogl rozkady wynikw surowych s bardziej zblione do


tego wanie typu rozkadu ni do jakiegokolwiek innego. Take w przypadku pomiaru wasnoci fizycznych, takich jak wzrost i waga. gdy
posugujemy si skalami o rwnych jednostkach, zwykle uzyskujemy
rozkady normalne. Inn wan zalet rozkadu normalnego Jest to. e
ma on wiele uytecznych wasnoci matematycznych, ktre uatwiaj
dalsze obliczenia.
Znormalizowane wyniki standaryzowane s to wyniki standaryzowane
wyraone w jednostkach rozkadu tak przeksztaconego, by odpowiada
krzywej normalnej. Aby je obliczy, naley skorzysta z tabeli informujcej, Jaki procent przypadkw pod krzyw normaln znajduje si w
okrelonej odlegoci od redniej. Po pierwsze, naley sprawdzi, jaki
procent osb z prby standaryzacyjnej uzyskuje dany, lub wyszy, wynik
surowy. Nastpnie naley procent ten zlokalizowa w tablicy rozkadu
czstoci pod krzyw normaln i ju mona odczyta odpowiadajcy
temu wynikowi znormalizowany wynik standaryzowany. Znormalizowane wyniki standaryzowane s wyraone w takiej samej postaci, jak
wyniki standaryzowane pochodzce z przeksztacenia liniowego, to
znaczy maj redni rwn zero i odchylenie standardowe rwne 1.
Znormalizowany wynik rwny zero odpowiada redniej w rozkadzie normalnym i wskazuje, e jednostka jest lepsza ni 50% grupy. Wynik
rwny -1 oznacza, e przewysza ona 16% grupy, a wynik rwny +1 - e
jest lepsza od 84% osb w grupie. Procenty te odpowiadaj odlegoci
poniej i powyej jednego odchylenia standardowego od redniej w
rozkadzie normalnym, co wida w dolnym rzdzie na rysunku 3.4.
Znormalizowane wyniki standaryzowane, podobnie jak wyniki
standaryzowane pochodzce z przeksztacenia liniowego, mona przedstawi w wygodniejszej postaci. Jeli znormalizowany wynik standaryzowany pomnoymy przez 10 i dodamy do lub odejmiemy od 50, przeksztacimy go w wunik T. Skala T zostaa po raz pierwszy zaproponowana
przez W. A. MeCalla (1922). Wyraony w niej wynik rwny 50 odpowiada redniej, wynik rwny 60 - jednemu odchyleniu standardowemu
powyej redniej i tak dalej. Innym powszechnie znanym przeksztaceniem Jest skala staninowa, ktra zostaa opracowana w siach
zbrojnych Stanw Zjednoczonych podczas drugiej wojny wiatowej.

Procent powierzchni pod krzyw normaln - do wykorzystania przy przeksztacaniu na skal staninow

Shnln

1 2

<

20

17

12

Normy I znaczenie wynikw testowych

95

Wyniki w tej skali s Jednocyfrowe, ze redni rwn 5 i odchyleniem


standardowym w przyblieniu rwnym 2 4 . Nazwa Stanin" (skrt od
standard ntne" - standardowe dziewi") bierze si std, e wyniki
rozcigaj si od 1 do 9. Z ograniczenia wynikw do liczb jednocyfrowych
pyn pewne korzyci zwizane z dokonywaniem oblicze, takie
mianowicie. I w komputerze kady wynik wymaga tylko Jednego pola.
Wyniki surowe mona atwo przeksztaci na staniny. W tym celu
naley Je uporzdkowa rosnco, a nastpnie przyporzdkowa im
staniny uwzgldniajc procenty pod krzyw normaln (patrz: tabela 3-4).
Na przykad. Jeli grupa skada si dokadnie ze 100 osb, to czterem
osobom uzyskujcym najnisze wyniki zostanie przypisany Stanin 1,
nastpnym siedmiu - slanin 2, nastpnym 12 - stanin 3 1 tak dalej.
Jeeli grupa liczy wicej lub mniej ni 100 przypadkw, naley najpierw
obliczy liczb przypadkw odpowiadajc poszczeglnym wielkociom
procentowym, a nastpnie przyporzdkowa kolejne staniny obliczonym
wartociom. Tak wic, spord 200 przypadkw osiem zostanie przyporzdkowanych Staninowi 1. (4% z 200 = 8). Z kolei spord 150 przypadkw Staninowi 1. zostanie przyporzdkowanych sze (4% z 150 = 6).
Barllett 1 Edgerton (1966) opracowali tabele pozwalajce na bezporednie przeksztacanie rang na staniny dla grup liczcych od 10 do 100
przypadkw. Ze wzgldu na swe zalety praktyczne i teoretyczne, staniny
s powszechnie uywane zwaszcza w testach uzdolnie i osigni.
Mimo i w wikszoci przypadkw znormalizowane wyniki standaryzowane stanowi najbardziej odpowiedni rodzaj wynikw, lo jednak
mona mie pewne obiekcje co do rutynowego normalizowania wszystkich rozkadw. Tego rodzaju przeksztace mona dokonywa, jeli
prba jest dua i reprezentatywna, a take gdy istnieje uzasadnione
przypuszczenie, e odchylenie od rozkadu normalnego wynika raczej z
niedostatkw testu ni z waciwoci prby oraz z dziaania innych czynnikw wpywajcych na analizowane zachowanie. Naley take zwrci
uwag, e jeli pierwotny rozkad wynikw surowych jest zbliony do
rozkadu normalnego, to wyniki standaryzowane powstae w rezultacie
przeksztacenia liniowego oraz znormalizowane wyniki standaryzowane
s bardzo podobne. Mimo I sposoby dochodzenia do nich s zupenie
inne. to otrzymywane wyniki s w takiej sytuacji niemale identyczne.
Oczywicie proces normalizowania rozkadu, ktry w rzeczywistoci jest
ju normalny, nie spowoduje adnej, lub prawie adnej, zmiany. Jeli
tylko Jest to moliwe, normalny rozkad wynikw surowych naley
4 Kaiser (1958) zaproponowa modyfikacj skali stanlnowej. Niewielkie zmiany w
wielkociach procentowych 1 odchylenie standardowe rwne dokadnie 2.0
spowodowafy, e atwiejsze stay si operacje Ilociowe przy uyciu tej skali. Inne
warianty takich skal. to skala C (Gutlford i Fruchter. 1978. str. 484-487). ktra
skada si z 11 Jednostek i ma odchylenie standardowe rwne 2 oraz skala
stenowa skadajca si z 10 Jednostek, z ktrych 5 wypada Dowyej redniej a 5
poniej redniej (Canileld, 1951J.

96

ZAGADNIENIA PSYCHOMCTRYCZNE

uzyskiwa raczej drog modyfikowania poziomu trudnoci zada ni*


pniejszego normalizowania rozkadu istotnie odbiegajcego od normal
nego. Jeli wyniki surowe maj rozkad w przyblieniu normalny, to
wyniki standaryzowane otrzymane w nastpstwie przeksztacenia liniowego maja. takie same zastosowania, co znormalizowane wyniki
standaryzowane.
Dewiacyjny ig. Prby zamiany wynikw wyraonych w postaci wieku
umysowego na jednolity wskanik informujcy o wzgldnej pozycji jednostki w grupie spowodoway wprowadzenie do pierwszych testw
inteligencji ilorazu inteligencji (Intelligence guotient - IQ) opartego na
proporcji. Tego rodzaju IQ jest to po prostu stosunek wieku umysowego
(WU) do wieku ycia (W), pomnoony przez 100. by wyeliminowa czci dziesitne (1Q = 100 x WU/W). Oczywicie jeli WU dziecka byl rwny
jego W. to 19 tego dziecka wynosi dokadnie 100. 1Q rwny 100
odzwierciedla wic normalny, czyli przecitny poziom wykonania. IQ
nisze od 100 wskazyway na .upoledzenie", za wysze od 100 - na
przyspieszenie".
Oczywista logika 1 proslota tradycyjnego 1Q szybko okazay si zudne.
Gwny problem polega bowiem na lym. e jeli odchylenia standardowe
rozkadw Ig na poszczeglnych poziomach wieku nie s w przyblieniu
takie same. to ilorazy inteligencji na tych poziomach nie s porwnywalne. 19 rwny 115 u dziecka w wieku 10 lat moe, na przykad,
wskazywa na taki sam stopie przewagi nad rwienikami, jak 19
rwny 125 u dziecka w wieku 12 lat. poniewa kady z ych dwu ilorazw
moe przypada w odlegoci jednego odchylenia standardowego od redniej dla odpowiedniego poziomu wieku. Konstruowanie lesiw w taki
sposb, by speniay wymagania psychometryczne pozwalajce na
porwnywalno tradycyjnych IQ na wszystkich poziomach wieku,
okazao si w praktyce niezwykle trudne. Gwnie z tego wanie powodu
klasyczny Iloraz inteligencji zosta zastpiony tak zwanym dewiacyjnym
ig. ktry w rzeczywistoci stanowi pewien wariant omawianego ju
wyniku standaryzowanego. Dewiacyjny Ig jest to wynik standaryzowany
ze redni rwn 100 i odchyleniem standardowym zblionym do
odchylenia standardowego w rozkadzie 19 w Stanfordzkiej Skali Bineta
(Stanford-Binet). Odchylenie standardowe tradycyjnego IQ w Skali
Stanfordzkiej (po raz ostatni zastosowanego w wydaniu z 1937 roku) nie
byo cakiem stale na rnych poziomach wieku, ale oscylowao wok
wartoci niewiele wikszej ni 16. Skoro wic do celw ujmowania
wynikw standaryzowanych w nowych testach wybrano odchylenie standardowe bliskie 16, mona wyniki te interpretowa w laki sam sposb,
jak tradycyjny ig w Skali Stanfordzkiej. Poniewa tradycyjnym 19
posugiwano si przez wiele lal. uytkownicy testw i klinicyci przywyk
U do interpretowania i klasyfikowania wynikw testowych w takich kategoriach. Nauczyli si. czego mona oczekiwa od osb, ktrych 19 wynosi

Normy I znaczenie wynikw testowych

97

40, 70, 90. 130 I tak dalej. Istniej wic pewne praktyczne korzyci z
posugiwania si skal wynikw przeliczonych, ktra odpowiada znanemu rozkadowi 1Q w Skali Stanfordzkiej. Tak odpowiednio jednostek,
w jakich wyraa si wyniki, mona osign wybierajc wartoci liczbowe
redniej 1 odchylenia standardowego moliwie najblisze odpowiednim
wartociom z rozkadu Skali Stanfordzkiej.
Naley doda, e stosowanie okrelenia iloraz Inteligencji" na oznaczenie tego rodzaju wynikw standaryzowanych moe by nieco mylce.
Ilorazw tych nie otrzymuje si bowiem w taki sam sposb, jak tradycyjnych. Nie s one stosunkiem wieku umysowego do wieku ycia.
Usprawiedliwieniem dla uywania tego pojcia jest jego powszechna znajomo oraz to, e lego rodzaju wyniki mona interpretowa tak Jak IQ,
o ile ich odchylenie standardowe jest w przyblieniu rwne odchyleniu
tradycyjnego IQ. Jednym z pierwszych testw, ktrych wyniki zostay
wyraone w postaci dewiacyjnego 1Q, byy skale inteligencji Wechslera.
W testach ych rednia wynosi 100, a odchylenie standardowe jest rwne
15. Dewiacyjne 1Q s take stosowane w wielu wspczesnych
grupowych testach inteligencji oraz w trzecim (z 1960 roku) wydaniu
samej Skali Stanfordzkiej.
Poniewa dewiacyjne IQ s coraz powszechniej stosowane, warto przypomnie, e ilorazy uzyskiwane w rnych testach mona porwnywa
tylko wtedy, gdy wartoci odchyle standardowych s w nich takie same
lub bardzo podobne. Wartoci te naley zawsze podawa w podrczniku,
a uytkownicy testw powinni si z nimi zapoznawa. Jeli konstruktor
lestu, opracowujc skal dewiacyjnych IQ, wybiera inne odchylenie
standardowe, lo znaczenie poszczeglnych IQ bdzie w tym tecie
zupenie inne ni w pozostaych. Rnice te ilustruje tabela 3-5, w ktrej
przedstawiono procenty przypadkw przypadajcych w rozkadach normalnych o rnych odchyleniach standardowych (od 12 do 18) na
poszczeglne poziomy ilorazu inteligencji. Podane w tabeli wartoci
odchyle standardowych pochodz ze skal IQ publikowanych testw.
Tabela 3-5 pokazuje na przykad, e IQ rwny 70 odcina 3.1%
najniszych wynikw, gdy SD wynosi 16 flak to ma miejsce w
Stanfordzkiej Skali Bineta). ale moe te odcina jedynie 0,7% przypadkw (SD = 12), a take a 5.1% (SD = 18). IQ rwny 70 tradycyjnie uwaa
si za punkt graniczny przy identyfikowaniu upoledzenia umysowego.
Te same rozbienoci wystpuj oczywicie przy IQ rwnym 130 i
wyszych, ktre z kolei mog by wykorzystywane przy selekcji dzieci do
udziau w programach dla wybitnie uzdolnionych, ilorazy inteligencji
zawierajce si midzy 90 a 110, zwykle opisywane jako przecitne, mog
obejmowa jedynie 42% lub a 59,6% populacji, w zalenoci od tego.
jaki test wybierzemy. Aby unikn nieporozumie, wydawcy czyni
wysiki zmierzajce do lego. by w nowych testach oraz w nowych wydaniach testw starszych przyjmowa jednolite odchylenie standardowe

96

ZAGADNIENIA

PSYCHOMCTRYCZNE

Procenty
przypadkw
przypadajcych
w
rozkadach
normalnych ze redni 100 i rnymi odchyleniami
standardowymi na poszczeglne przedziay IQ
Przedzia IQ
130 1 powyej
120-129
110-119
100-109
90-99
80-89
70-79
poniej 70
Razem

Procent przypadkw
SD = 12

SD=

14

SD = 16

SD - 18

0.7
4.3
15.2

1.6
6,3
16,0

3.1
7.5
15.8

5,1
8.5
15.4

'al]59-6
15,2
4.3
0.7

261] 52,2
16,0
6.3
1.6

15 8
75
3.1

21,Oj
15.4
8.5
5.1

100.0

100,0

100.0

100.0

IZa zezwoleniem The Psychological CorporationI


rwne 16. Jednake wrd aktualnie dostpnych testw zrnicowanie
odchylenia standardowego jest na tyle due, e Jego sprawdzanie jest
absolutnie konieczne.
Wzajemne zalenoci midzy wynikami wewntrzgrupowymi. Na
tym etapie naszych rozwaa nad wynikami przeliczonymi czytelnik
moe uwiadomi sobie podobiestwo midzy rnymi ich typami.
Centyle mog by wzite za znormalizowane wyniki standaryzowane,
przynajmniej ze wzgldu na podobiestwo graficzne. Wyniki standaryzowane pochodzce z przeksztacenia liniowego s nie do odrnienia od
znormalizowanych wynikw standaryzowanych, o ile pierwotny rozkad
wynikw surowych jest zbliony do rozkadu normalnego. I wreszcie,
wyniki standaryzowane staj si ilorazami inteligencji i odwrotnie. W
zwizku z t ostatni kwesti, ponowna analiza znaczenia tradycyjnych
1Q w takich testach, jak Slanjordzka Skala Bineta, ujawnia, e te
wczesne ilorazy le mona interpretowa jako wyniki standaryzowane.
Jeli wiemy, e rozkad tradycyjnych IQ w Skali Stanfordzkiej ma redni rwn 100 i odchylenie standardowe w przyblieniu rwne 16. to
moemy wywnioskowa, e IQ rwny 116 wypada w odlegoci jednego
odchylenia standardowego powyej redniej i odpowiada wynikowi
standaryzowanemu rwnemu +1,00. Podobnie ig rwny 132 odpowiada
wynikowi standaryzowanemu +2.00. a ig rwny 76 wynikowi standaryzowanemu -1,50, i tak dalej. Co wicej, tradycyjny ig rwny 116

Normy I znaczenie wynikw testowych

99

odpowiada w przyblieniu 84 centylowi. poniewa w rozkadzie normalnym 84% przypadkw przypada poniej +1,00 SD (iysunek 3-4).
Na rysunku 3-6 przedstawiono podsumowanie zalenoci istniejcych
midzy rnymi typami wynikw omwionych w tym rozdziale. S to
wyniki z, wyniki Wstpnego Testu Egzaminacyjnego do College u (College
Enlrance Examinalion Board - CEEB), dewiacyjne ilorazy inteligencji
Wcchslera (SD=15), wyniki T. staniny i centyle. Tradycyjne ilorazy
Inteligencji w dowolnym tecie s zgodne ze skal dewiacyjnych ilorazw
inteligencji, jeli maj rozkad normalny i odchylenie standardowe rwne
15. Do wykresu mona doda kady ir.ny iloraz inteligencji o rozkadzie
normalnym, pod warunkiem e znamy jego odchylenie standardowe.
Jeli odchylenie standardowe wynosi na przykad 20. to 19 rwny 120
odpowiada plus jednemu odchyleniu standardowemu. 19 rwny 80
odpowiada minus jednemu odchyleniu standardowemu i tak dalej.
Konkludujc mona powiedzie, e forma, w jakiej przedstawione s
wyniki, zaley w duej mierze od wygody, znajomoci i atwoci opracowania danego rodzaju norm. Wyniki standaryzowane, posiadajce
lak czy inn form (wczajc w to dewiacyjny IQ). na og zastpiy
inne rodzaje wynikw, poniewa maj pewne zalety wane przy konstruowaniu testu oraz statystycznej analizie jego rezultatw. Jednak na
ogl tego rodzaju wyniki przeliczone s w zasadzie do siebie podobne,
jeli tylko zostay naleycie opracowane i s we waciwy sposb interpretowane. Przy spenieniu pewnych zaoe statystycznych kady z tych
wynikw mona atwo przeoy na dowolny inny.

WZGLDNO NORM
Porwnania midzy testami.
Podajc iloraz inteligencji lub jakikolwiek inny wynik, naley zawsze poinformowa, w jakim tecie go
uzyskano. Wynikw testowych nie mona interpretowa w oderwaniu od
metody; zawsze trzeba je odnie do konkretnego testu. Jeli w dokumentacji szkolnej widnieje zapis, e Bill Jones uzyska 19 rwny 94, a
Terry Brown ma 19 rwny 110. to bez dodatkowych informacji liczby te
niewiele znacz. Wyniki uzyskane przez tych dwoje uczniw mogyby by
dokadnie odwrotne, gdyby zamieni testy, ktre kade z nich
rozwizywao w swojej szkole.
Ten sam problem dotyczy porwnywania wynikw uzyskanych przez
dan osob w rnych testach: nieporwnywalno norm testowych
moe prowadzi do cakiem faszywych wnioskw. Zamy, e uczennica rozwizywaa lest rozumowania werbalnego oraz test uzdolnie
przestrzennych po to, by mona byo porwna poziom jej zdolnoci w
ych dwch zakresach. Jeli test zdolnoci werbalnych zosta wy-

100

ZAGADNIENIA PSYCHOMETRYC/NE

Aa

wyniki z l

wyniki T

wyniki CEEB

Dewiacyjny IQ
(SD=15)

Staniny

Centyle

10

-3n

-1o

-2n

1 - - '

-2

-1

20

30

40

200

300

55

70

rednia
>1c
Wynik w tecie

50

+3n

+1

+2

+3

+4

60

70

80

90

400

-i

+2n

85

10

snn

600

700

800

100

115

130

145

|7% |12%jl7% 20%|l7%|12%j7%

4%

20 30 405000 70 80

+4n

4%

90 95

99

Rysunek 3-6. Zalenoci midzy rnymi typami wynikw testowych w


rozkadzie normalnym.
standaryzowany na losowej prbie uczniw szkl rednich, a test
przestrzenny na wyselekcjonowanej grupie uczniw uczszczajcych na
nadobowizkowe kursy zawodowe, to badajcy mgby bdnie
wywnioskowa, e badana jest o wiele bardziej uzdolniona werbalnie ni
przestrzennie, podczas gdy mogoby by akurat na odwrt.
Jeszcze inny przykad dotyczy badan podunych, ktre maj na celu
porwnywanie wynikw testowych uzyskiwanych przez dan jednostk w
cigu pewnego czasu. Jeeli w dokumentacji szkolnej dziecka s odnotowane ilorazy inteligencji rwne 118, 115 i 101. odpowiednio w klasie
IV V i VI to pierwsze pytanie, ktre naley zada przed przystpieniem

Normy I znaczenie wynikw testowych

101

do interpretacji zmtan w IQ, brzmi: Jaki test wykonywao dziecko za


kadym razem?" Widoczne obnienie wynikw moe odzwierciedla
Jedynie rnice midzy testami. W takim przypadku dziecko uzyskaoby
tego rodzaju wyniki nawet wtedy, gdyby badano je tymi trzema testami
w odstpach tygodniowych.
Istniej trzy gwne powody wyjaniajce systematyczne zrnicowanie
wynikw uzyskiwanych przez t sam osob w rnych testach. Po
pierwsze, testy mog rni si pod wzgldem treci mimo i nosz
podobne nazwy. Tak zwane testy inteligencji dobrze ilustruj lego rodzaju nieporozumienia. Jeden z okrelanych tym terminem testw moe
zawiera tylko treci werbalne, inny moe obejmowa gwnie zadania
badajce uzdolnienia przestrzenne, a jeszcze w innym mog by treci
werbalne, przestrzenne i liczbowe w rwnych proporcjach. Po drugie,
nieporwnywalne mog by jednostki skali Jak bya ju o tym mowa,
jeli odchylenie standardowe ilorazw inteligencji w jednym tecie wynosi
12. a w drugim 18. to osoba, ktra w pierwszym tecie uzyskaa IQ
rwny 112, w drugim najprawdopodobniej uzyska 118. Po trzecie, rni
si moe slruktura prb standaryzacyjnych, ktrych wyniki byy podstaw norm opracowanych dla poszczeglnych testw. Ta sama osoba
oczywicie lepiej wypadnie, jeli bdzie porwnywana z mniej zdoln
grup, ni gdy bdzie porwnywana z grup bardziej zdoln.
Nieporwnywalno treci testu lub jednostek skali mona zazwyczaj
wykry analizujc sam test lub podrcznik testowy. Jednak do atwo
jest przeoczy rnice dotyczce prb normalizacyjnych. Rnice te
prawdopodobnie tumacz wiele nie dajcych si wyjani w inny sposb
rozbienoci w wynikach testowych.
Prba normalizacyjna.
Kade normy, jakkolwiek byyby wyraone,
ograniczaj si do konkretnej populacji normalizacyjnej, dla ktrej
zostay stworzone. Uytkownik lestu nigdy nie powinien traci z pola
widzenia sposobu, w jaki je opracowano. Normy dla testu psychologicznego nie s w adnym sensie absolutne, uniwersalne czy stae.
Odzwierciedlaj one jedynie pnziom wykonania testu przez osobv
tworzce prb standaryzacyjn. Przy doborze takiej prby zazwyczaj
dy si do uzyskania reprezentatywnego przekroju populacji, dla ktrej
test jest przeznaczony.
W statystyce czyni si rozrnienie midzy prb a populacj. Prb
stanowi grupa osb, ktre faktycznie zostay przebadane testem.
Populacja oznacza wiksz, ale o podobnej strukturze grup, z ktrej
zostaa pobrana prba. Na przykad jeli chcemy opracowa normy
testowe dla populacji dziesicioletnich chopcw uczszczajcych do
szkl pastwowych w miastach moemy przebada starannie dobran
prb skadajc si z 500 dziesicioletnich chopcw uczszczajcych
do szkl pastwowych w kilku amerykaskich miastach. Przy doborze

102

ZAGADNIENIA PSYCHOMETR.YCZNE

prby naley uwzgldni region geograficzny, poziom spoeczno-ekonomiczny. skad etniczny 1 inne istotne waciwoci, w taki sposb, aby
zagwarantowa, e prba jest naprawd reprezentatywna dla okrelonej
populacji.
Przy opracowywaniu i stosowaniu norm testowych szczegln uwag
naley zwrci na prb standaryzacyjn. Prba, ktrej wyniki s podstaw norm. oczywicie powinna by wystarczajco dua. by uzyskane
wartoci byy stabilne. Inna. ale dobrana w podobny sposb, prba z tej
samej populacji nie powinna dawa norm znacznie rnicych si od
tych, ktre otrzymano wczeniej. Normy obcione duym bdem prby
maj oczywicie niewielk warto dla interpretacji wynikw testowych.
Rwnie wany Jest warunek reprezentatywnoci prby dla danej populacji. Naley starannie rozway moliwo wystpienia czynnikw
selekcyjnych, ktre mogyby spowodowa, e prba me bdzie reprezentatywna. Dobr ilustracj dziaania takich czynnikw s prby pobierane
z instytucji. Prby takie s zazwyczaj due i atwo dostpne dla celw
badawczych, chtnie wic siga si po nie przy zbieraniu danych normalizacyjnych, Naley jednak uwanie przeanalizowa specyficzne
ograniczenia takich prb. Badanie uczniw oznacza na przykad coraz
ostrzejsz selekcj przypadkw w kolejnych klasach, zwizan ze stopniowym odpadaniem osb mniej zdolnych. Taka eliminacja dotyczy w
rnym stopniu poszczeglnych podgrup. Na przykad selektywne
wykruszanie si nastpuje w wikszym stopniu u chopcw ni u dziewczt i jest wiksze wrd osb o niskim poziomie spoeczno-ekonomicznym.
Podobne czynniki selekcji wystpuj take w innych prbach pobieranych z Instytucji, na przykad w prbach winiw, pacjentw szpitali
psychiatrycznych czy osb upoledzonych umysowo przebywajcych w
zakadach. Ze wzgldu na wiele specyficznych czynnikw, klrc determinuj sam instytucjonalizacj, takie grupy nie s reprezentatywne dla
caej populacji osb amicych prawo, osb wykazujcych zaburzenia
psychiczne czy osb upoledzonych umysowo. Na przykad spord
upoledzonych umysowo do zakadw trafiaj raczej osoby niesprawne
fizycznie ni osoby fizycznie sprawne. Podobnie proporcja osob
wykazujcych znaczne upoledzenie umysowe bdzie wiksza w
prbach pochodzcych z instytucji ni w populacji oglnej.
Z problemem reprezentatywnoci prby cile wie si potrzeba
okrelenia konkretnej populacji, dla ktrej mona stosowa dane normy.
Oczywicie Jeden ze sposobw zapewnienia reprezentatywnoci prby
polega na takim zdefiniowaniu populacji, by dokadnie pasowaa do
dostpnej dla bada prby. Na przykad jeli zdefiniuje si populacj w
ten sposb, e obejmie jedynie 14-letnich uczniw, a nie 14-letnie dzieci,
to prba pobrana spord dzieci chodzcych do szkoy bdzie prb
reprezentatywn. Bez wtpienia ideaem jest sytuacja. w "ktrej najpierw

Normy I znaczenie wynikw

testowych

103

definiuje si - 1 to odpowiednio do celw stawianych przed danym testem


- podan populacj, a nastpnie dobiera waciw prb. Jednak trudnoci z dostpem do osb badanych mog sprawia, e sytuacja laka
bdzie nieosigalna. W takim przypadku o wiele lepiej jest zawzi
definicj populacji ni podawa normy dla jakiej idealnej populacji,
ktrej prba standaryzacyjna nie reprezentuje w sposb adekwatny. W
praktyce bardzo niewiele testw wystandaryzowano dla tak szerokich
populacji. Jak to si potocznie przyjmuje. aden test nie ma norm dla
caego rodzaju ludzkiego! A Jest mocno wtpliwe, czy normy w wielu tes
tach s rzeczywicie adekwatne dla lak szeroko zdefiniowanych populacji. jak doroli amerykascy mczyni". 10-letnie amerykaskie
dzieci" i lym podobne. Prby pozyskiwane przez poszczeglnych konstruktorw testw mog wic by niereprezentatywne dla okrelonych
populacji i wykazywa rnego rodzaju znieksztacenia. Normy opracowywane na podstawie badania takich prb mog zatem by
nieporwnywalne.
Interpretujc wyniki testowe, uytkownik testu powinien bra pod
uwag specyficzne czynniki, ktre mogy oddziaywa na prb normalizacyjn w toku standaryzacji danego tcslu. Chodzi tu zarwno o czynniki selekcyjne zwizane z doborem osb do prby, jak i o warunki
spoeczne istniejce w czasie zbierania danych normalizacyjnych
(Anastasi, 1985d).
Oglnokrajowe normy bazowe. Jednym ze sposobw rozwizywania
problemu nieporwnywalnoci norm jest zastosowanie testu bazowego
pozwalajcego na opracowanie tabel rwnowanoci wynikw w rnych
testach. Tabele, ktre umoliwiaj sprawdzenie, jakie wyniki w tecie A
odpowiadaj poszczeglnym wynikom w tecie B, sporzdza si wykorzystujc metod rwnowanych centyli. Wyniki uwaa si za
rwnowane, jeli w danej grupie odpowiadaj im takie same centyle. Na
przykad jeli w danej grupie 80. centyl odpowiada w tecie A IQ rwnemu 115, za w tecie B ig rwnemu 120. to ilorazy 115 w tecie A i 120
w tecie B uwaa si za rwnowane. Ten sposb podejcia w ograniczonym zakresie wykorzystywali niektrzy wydawcy, opracowujc labele
rwnowanoci dla kilku publikowanych testw (np. Lennon. 1966a).
Od czasu do czasu pojawiaj si bardziej ambitne propozycje dotyczce kalibrowania kadego nowego testu w stosunku do jednego testu
bazowego, ktrym zostaa zbadana wysoce reprezentatywna, oglnokrajowa prba normalizacyjna (Lennon, 1966b). Przykadem tego rodzaju
procedury jest badanie przeprowadzone w resorcie edukacji (przez
Educational Testing Sernice pod auspicjami U.S. Office oj' Education]
(Jaeger, 1973). Badanie to stanowi systematyczn prb opracowania
porwnywalnych i w peni reprezentatywnych norm oglnokrajowych dla
siedmiu najczciej stosowanych testw osigni w czytaniu, przezna-

104

ZAGADNIENIA PSYCHOMCTRYCZNE

czonych dla uczniw szkl podstawowych. Stosujc debrze kontrolowany


plan eksperymentalny, przebadano ponad 300000 uczniw klas
czwartych, pitych i szstych z 50 stanw. Test bazowy skada si z
dwch podtestow - czytania ze zrozumieniem i sownikowego pochodzcych z Metropolitalnego Testu Osigni [Metropolitan Achieuemeni
Test) - dla ktrych, w jednym z etapw projektu, opracowano nowe
normy. Na etapie kalibrowania kade dziecko wykonywao podtesty czytania ze zrozumieniem i podtesty sownikowe z dwch spord siedmiu
balem, przy czym kada baleria wystpowaa w parze z kad inn.
W niektrych grupach stosowano wersje rwnolege tych dwch
podlestw z tej samej baterii. W jeszcze innych stosowano te same pary
testw, ale w odwrotnej kolejnoci, by mona byo kontrolowa wpyw
kolejnoci przeprowadzania. Na podstawie analiz statystycznych wszystkich tych danych, dla siedmiu lesiw opracowano tabele rwnowanoci
wynikw, slosujc metod rwnowanych centyli. Do uytku szkolnego,
a take dla wszystkich zainteresowanych osb, opracowano podrcznik
powicony interpretacji wynikw (Loret. Seder, Bianchini i Vale, 1974).
Danych pochodzcych z etapu kalibrowania uyto nastpnie do opracowania jednej skali wynikw, okrelanej jako Oglnokrajowa Skala
Odniesienia (Rentz i Bashaw. 1977). Opracowana wwczas tabela zamiany pozwala na przeksztacenie wyniku dowolnej wersji ktregokolwiek z
siedmiu lesiw dla ktrejkolwiek klasy na trjcyfrowy wynik wyraony
na jednolitej cigej skali. Skal t skonstruowano wykorzystujc analiz
pozycji i metody skalowania oparte na modelu Rascha, Jednym z
najprostszych modeli analizy pozycji, omwionym w dalszej czci tego
rozdziau i opisaneym bardziej szczegowo w rozdziale 7.
W wielu przypadkach przydatne bywa dysponowanie dla rnych
testw porwnywalnymi wynikami wyraonymi na jednolitej skali pomiarowej i odniesionymi do jednej prby normalizacyjnej. Naley jednak
zauway, e istniej rne stopnie i rne rodzaje porwnywalnoci
wynikw. Porwnywalno uzyskana w danej sytuacji naley nic tylko od
podobiestwa testw pod wzgldem treci oraz takich wasnoci psychometrycznych. Jak rzetelno i poziom trudnoci, ale take od procedur statystycznych stosowanych w celu jej uzyskania (Angoff, 1984,
Angoff i Cowell. 1986: P.W. Holland i Rubin, 1982). Testw nie naley
okrela jako zrwnowaonych czy w peni rwnowanych, o ile nie s
naprawd wzajemnie wymienialne. Niemniej jednak rne rodzaje i stopnie porwnywalnoci mog uatwia interpretacj wynikw testowych
pod warunkiem, e uytkownik posuguje si tymi wynikami w sposb
waciwy i dokadnie wie. w jaki sposb je otrzymano.
Normy specyficzne. Do problemu nlerwnowanocl istniejcych
norm mona le podej w Inny - i prawdopodobnie dla wikszoci
testw bardziej realistyczny - sposb. Polega on na standaryzowaniu

Normy I znaczenie wynikw testowych

105

testw dla wziej zdefiniowanych populacji, tak dobranych, by odpowiaday specyficznemu przeznaczeniu kadego testu. W takich przypadkach,
podajc normy, naley wyranie opisa ograniczenia populacji normalizacyjnej. Mog wic by normy dla urzdnikw zatrudnionych w
duych przedsibiorstwach" lub studentw 1 roku politechniki". W wielu
przypadkach lakie bardzo specyficzne normy s wrcz podane, Nawet
jeli dostpne s reprezentatywne normy dla szeroko zdefiniowanej
populacji, czsto przydaj si oddzielne normy dla podgrup. Jest to
istotne wtedy, gdy poszczeglne podgrupy uzyskuj wyianie zrnicowane wyniki w danym tecie. Podgrupy mog by definiowane ze wzgldu na wiek. klas, rodzaj programu nauczania, ple, region geograficzny,
rodowisko miejskie bd wiejskie, poziom spoleczno-ekonomiczny 1
wiele innych zmiennych. Od przewidywanych zastosowa danego testu
zaley, jakiego rodzaju zmienne bd tu najbardziej istotne, jak rwnie
to, czy bardziej odpowiednie bd normy oglne, czy specyficzne.
Naley le wspomnie o normach lokalnych, czsto opracowywanych
dla konkretnych rodowisk przez samych uytkownikw testu. Grupy,
ktrych wyniki su opracowaniu takich norm, s jeszcze wziej definiowane ni wspomniane wyej podgrupy. Pracodawca moe wic opracowa normy na podstawie gromadzonych wynikw kandydatw do
okrelonej pracy w obrbie konkretnego przedsibiorstwa. Komisja
przyj do college'u moe opracowa normy na podstawie wynikw badania populacji wasnych studentw. A w jakiej szkole podstawowej
poziom wykonania zada przez poszczeglnych uczniw moe by oceniany przez odniesienie uzyskiwanych przez nich wynikw do rozkadu
wynikw uczniw tej szkoy. W wielu przypadkach odnoszenie wynikw
do norm lokalnych jest waciwsze ni odnoszenie ich do norm oglnych;
ma to miejsce na przykad wtedy, gdy celem badania testowego jest
przewidywanie funkcjonowania w pracy zawodowej lub osigni szkolnych w collegeu, porwnanie wzgldnego poziomu osigni dziecka w
zakresie rnych przedmiotw szkolnych czy pomiar postpw
czynionych przez jednostk wraz z upywem czasu.
Staa grupa odniesienia.
Chocia w przypadku wikszoci ska
wynikw przeliczonych sposb ich ustalania umoliwia bezporedni
normatywn interpretacj wynikw testowych, zdarzaj si godne uwagi
wyjtki. Naley do nich skala, w ktrej w celu zapewnienia porwnywalnoci i cigoci wynikw wykorzystuje si sta grup odniesienia.
W przypadku takiej skali interpretacja normatywna wymaga odniesienia
si do niezalenie opracowanych norm. pochodzcych z badania
odpowiedniej populacji. W tym celu czsto wykorzystuje si lokalne lub
innego rodzaju specyficzne normy
Jednym z najwczeniejszych przykadw skalowania wykorzystujcego
stal grup odniesienia Jest skala wynikw w przeznaczonym dla col-

106

ZAGADNIENIA PSYCHOMCTRYCZNE

lcgc'w Tecie Uzdolnie Szkolnych (Scholcistic Aptilude Test - SAD5


(Donlon. 1984). Midzy rokiem 1926 (kiedy test ten zastosowano po raz
pierwszy) i rokiem 1941 funkcj norm pclnily rednia i odchylenie standardowe wynikw kandydatw kadorazowo go wykonujcych. Poniewa
wzrastaa liczba i rnorodno college'w oraz zmienia! si skad populacji kandydatw, postanowiono, e naley zachowa cigo skali.
W przeciwnym wypadku wyniki poszczeglnych osb zaleayby od
waciwoci grupy badanej w danym roku. Jeszcze bardziej naglcy
powd przemawiajcy za utrzymaniem cigoci skali wynika z
obserwacji, e uczniowie wykonujcy SAT w pewnych okresach roku
uzyskiwali gorsze wymkl ni ci. ktrzy wykonywali go w innych okresach,
a byo to zwizane ze zrnicowanym dziaaniem czynnikw selekcyjnych. W zwizku z lym, po 1941 roku wszystkie wyniki w SAT odnoszono do redniej i odchylenia standardowego rezultatw uzyskanych
przez blisko II 000 kandydatw, ktrzy wykonywali test w 1941 roku.
Kandydaci ci stali si stal grup odniesienia wykorzystywan przy
skalowaniu kolejnych wersji testu. Tak wic wynik rwny 500 w ktrejkolwiek z wersji SAT odpowiada) redniej dla prby z 1941 roku: wynik
600 wypada o jedno odchylenie standardowe powyej tej redniej i lak
dalej
Aby umoliwi przekadanie wynikw surowych poszczeglnych wersji
SAT na wyniki tej staej grupy odniesienia, do kadej wersji wczano
krtki test bazowy (czyli zbir wsplnych pozycji). Kad now wersj
wizano wic z jedn lub dwiema wczeniejszymi wersjami, ktre z kolei
byy powizane z jeszcze wczeniejszymi, tworzc acuch zada sigajcy wstecz do wersji z 1941 roku. Nieznormalizowane wyniki SAT
mona interpretowa porwnujc je z jakimkolwiek stosownym
rozkadem, na przykad dla konkretnego collegeu. dla college'w danego
rodzaju, w danym regionie i tak dalej. Takie specyficzne normy s
bardziej uyteczne przy podejmowaniu decyzji o przyjciach ni normy
opracowywane co rok na podstawie wynikw badania caej populacji
kandydatw Co wicej. Jedynie wtedy, gdy dysponuje si sta skal
wynikw, mona wykry zmiany w populacji kandydatw zachodzce
wraz z upywem czasu. Ostatnio skala SAT zostaa na nowo
wyskalowana" na podstawie wynikw ponad miliona uczniw, ktrzy
ukoczyli szko redni w 1990 roku i wykonywali test jako juniorzy lub
seniorzy. Wyniki uczniw wykonujcych SAT po 1 kwietnia 1995 roku s
ju odnoszone do tej nowej skali opracowanej na podstawie wynikw
grupy odniesienia z 1990 roku. Opracowano te materiay pomocnicze.
Tesl len zosta pniej nazwany Testem Diagnozy Szkolnej IScholaslic
Assessmenl Tesl - SAT) Chodzio o to, by nazwa odzwierciedlaa zmieniony
pogld na natur wynikw testowych, ktry pojawi si pod koniec dwudziestego
wieku (patrz: zwaszcza rozdz. 12 na temat wpywu rnic indywidualnych w
zakresie historii dowiadcze na wyniki w tecie),

Normy I znaczenie wynikw testowych

107

ktre maj pomc uytkownikom testu w przeksztacaniu indywidualnych I sumarycznych wynikw z poprzednich skal na obecn i odwrotnie (patrz: rozdz. 17). Sposb interpretowania indywidualnych wynikw
inoe wic by dostosowany do specyficznych celw badania testowego 6 .
Skale budowane na staej grupie odniesienia s pod pewnym wzgldem analogiczne do skal stosowanych w pomiarach fizycznych. W
zwizku z tym Angoff (1962. str. 32-33) stwierdza:
Trudno byoby znale osob, ktra zna dokadnie oryginalne okrelenie
dugoci stopy uywanej jako miara wysokoci 1 odlegoci lub wte, ktrego
to krla stopa staa si standardem; z drugiej strony, nie ma chyba takiej
osoby, ktra nie potrafiaby posugiwa si t jednostk przy ocenie
dugoci l odlegoci. Nasza niewiedza co do dokadnego znaczenia i
pochodzenia pojcia stopy w aden sposb nie umniejsza jego uytecznoci. Uyteczno wynika z faktu, e pojcie (o pozostaje niezmienne mimo
upywu czasu, co pozwala nam przyswoi j sobie. Nie trzeba dodawa, e
dokadnie te same uwagi odnosz si do innych jednostek pomiaru - cala.
mili. stopnia Fahrenheita i tak dalej. W dziedzinie pomiaru psychologicznego w podobnie uzasadniony sposb mona powiedzie, e pierwotna
definicja skali nie ma lub nie powinna mie adnego znaczenia. Tym. co
ma znaczenie, jest utrzymanie staej skali - co w przypadku testw
majcych wiele wersji osiga si przez rygorystyczne rwnowaenie
poszczeglnych wersji i zbieranie dodatkowych danych normalizacyjnych,
pomocnych przy interpretarji i podejmowaniu konkretnych decyzji; dane
takie od czasu do czasu powinny by. gdy wymagaj tego okolicznoci,
poddawane rewizji.
Teoria odpowiedzi na pytania testu (Jtem Response Theory - IRT).
Od lal 70. obserwujemy gwatowny wzrost zainteresowania pewn klas
wyrafinowanych procedur matematycznych sucych do skalowania
trudnoci
pozycji
testowych
(Hambleton,
1989;
Hambleton,
Swaminathan i Rogers, 1991; Jaeger, 1977). Procedury te wymagaj
skomplikowanych oblicze i dlatego upowszechniy si dopiero wraz ze
wzrostem dostpnoci szybkich komputerw. Cho proponowane sposoby podejcia rni si stopniem zoonoci i specyficznymi procedurami
matematycznymi, nadano im wspln nazw, okrelajc je pocztkowo
Jako modele cechy ukrytej. Podstawow miar, jakiej si tu uywa, jest
prawdopodobiestwo, e osoba o okrelonym poziomie zdolnoci (tak
zwana cecha ukryta) odniesie powodzenie w zadaniu o okrelonym stopniu trudnoci. Nie zakada si tu jednak, e takie cechy ukryte, czyli
zdolnoci, istniej w jakimkolwiek sensie fizycznym czy fizjologicznym
lub stanowi przyczyny zachowania. Cechy ukryte s konstruktami
statystycznymi,
wywiedzionymi
matematycznie
z
empirycznie
stwierdzanych zwizkw midzy odpowiedziami w lecie. Surowym,
wstpnym oszacowaniem cechy ukrytej badanego jest oglny wynik
uzyskany przeze w tecie. Aby unikn faszywego wraenia, jakie
Podzikowania dla Wayne'a Camary z College Board za pomoc w uzyskaniu
przedstawionych tu informacji.

108

ZAGADNIENIA PSYCHOMCTRYCZNE

stwarza termin .cecha ukryta", niektrzy z czoowych reprezentanlw


tego sposobu podejcia zastpili go bardziej precyzyjnym, opisowym terminem teoria odpowiedzi na pytania testu" (item response Iheon/) lub w
skrcie IRT (Lord, 1980; D.J.Weiss i Davison, 1981). To okrelenie
przyjo si w psychologii.
W zasadzie modele IRT wykorzystuje si do opracowywania jednolitych
i niezalenych od prby" skal pomiaru, ktre mona byoby stosowa
wobec jednostek i grup o bardzo zrnicowanym poziomie zdolnoci oraz
w odniesieniu do testw zawierajcych treci o bardzo zrnicowanym
poziomie trudnoci. Podobnie jak stale grupy odniesienia, opisywane w
poprzedniej czci rozdziau, modele IRT wymagaj pozycji bazowych lub
wsplnego testu jako pomostu midzy prbami osb badanych i midzy
testami lub zbiorami pozycji. W modelach IRT do okrelania pocztku
skali i wielkoci jednostek nic wykorzystuje si redniej i odchylenia
Standardowego jakiej konkretnej grupy odniesienia, lecz okrela si je
na podstawie danych, ktre mog pochodzi z szeregu prb i reprezentuj szeroki zakres zdolnoci i trudnoci pozycji Zazwyczaj jako
pocztek przyjmuje si mniej wicej rodek tego zakresu. Wspln jednostk skali otrzymuje si matematycznie na podstawie danych dotyczcych pozycji; w porwnaniu ze stosowanymi wczeniej procedurami
analizy pozycji taki sposb ma szereg zalet, zarwno teoretycznych, jak i
praktycznych. Szczegowa metodologia zostanie przedstawiona w
rozdziale 7, powiconym technikom analizy pozycji. IRT stopniowo
wcza si do realizowanych na szerok skal programw badan
testowych Na przykad poczynajc od 1982 roku procedur t
stosowano w nowych wersjach SAT do rwnowaenia wynikw oglnych,
tak aby wyrazi Je na cigej, jednolitej skali (Camara, Freeman I
Everson. 1996: Donlon 1984).
Oglny problem rwnowaenia testu, ktre umoliwia wyraanie na
JednoliLej skali wynikw pochodzcych z rnych wersji testu, budzi
coraz wiksze zainteresowanie. Problemy techniczne zwizane z rnymi
sposobami podejcia do tej kwestii nie le w obszarze zainteresowa tej
pracy. Czytelnika, ktry jesl zainteresowany wyczerpujcym przegldem
I krytyczn ocen takiej metodologii, odsyamy do prac; P.W Holland i
Rubin (1982) oraz Petersen, Kole i Hoover (1989).

KOMPUTERY I INTERPRETACJA WYNIKW TESTOWYCH


Kwestie techniczne. Komputery odgrywaj bardzo istotn rol na
kadym etapie testowania, poczynajc od konstruowania lestu poprzez
samo badanie, obliczanie wynikw, sporzdzanie raportu a do interpretacji (F.B. Baker. 1989; Butcher, 1987; Gutkin 1 Wise, 1991; Roid 1986)

Normy I znaczenie wynikw

testowych

109

Pocztkowo stosowano Je przede wszystkim do analizowania danych i


obliczania wynikw, poniewa zapewniay niespotykan wczeniej szybko przetwarzania informacji. Do tej kategorii zastosowa mona take
zaliczy wykorzystanie komputerw do w pelnl zautomatyzowanego
przeprowadzania badania tradycyjnymi testami; badanie przy pomocy
komputera jesl bowiem atwiejsze I efektywniejsze. O wiele bardziej
znaczcy Jest Jednak wkad komputerw w poszukiwanie nowych procedur i nowych sposobw podejcia do testw psychologicznych: tego
rodzaju badania byyby niemoliwe bez gitkoci i atwoci przetwarzania informacji, Jak dysponuj komputery. Przykadem wpywu komputerw w lym zakresie moe by coraz wiksze zastosowanie modeli IRT
do niezalenego od prby skalowania, o czym bya mowa w poprzedniej
czci rozdziau. Inne innowacje w zakresie testowania wynikajce z
wykorzystania komputera bd omawiane przy okazji kolejnych problemw poruszanych w dalszych rozdziaach ksiki.
Tu omwimy niektre zastosowania komputerw do oceny wynikw
testowych (F.B. Baker, 1989; Gutkin i Wise. 1991: Roid i Gorsuch.
1984). Wikszo stosowanych obecnie testw, zwaszcza tych przeznaczonych do bada grupowych, jest przystosowana do komputerowego
obliczania wynikw. Tak usug mog zapewni uytkownikom niektrzy wydawcy testw, a take nlezalezne instytucje zajmujce si
obliczaniem wynikw. Co wicej, coraz czciej mona spotka programy
komputerowe na dyskietkach, ktre su uytkownikom do obliczania
wynikw na ich wasnych komputerach (np. programy ASSIST opracowane przez American Guidance Seruice). Bardziej zoon usug,
dostpn w przypadku niektrych testw, jest opisowa interpretacja
komputerowa wynikw lestu. W takich przypadkach program komputerowy czy przygotowane twierdzenia opisowe z okrelon konfiguracj
wynikw testowych. Ten sposb podejcia znalaz zastosowanie zarwno
w odniesieniu do testw osobowoci, jak i testw uzdolnie. Na przykad,
dla
Minnesockiego
Wielowymiarowego
Inwentarza
Osobowoci
(Minnesota Multiphasic Personalily Inuentory - MMPI), omawianego w
rozdziale 13, uytkownik testu moe uzyska wydruk komputerowy
zawierajcy wyniki liczbowe, jak rwnie diagnostyczne i interpretacyjne
stwierdzenia na temat tendencji osobowociowych i kondycji emocjonal
nej badanego. Dysponujcy komputerem uytkownicy testw maj coraz
wiksze moliwoci kupna programw, ktre nie tylko obliczaj wyniki,
ale take sporzdzaj raporty do poszczeglnych testw, takich jak
zrewidowane skale inteligencji Wechslera dla dzieci (W1SC-R) i dla
dorosych (WA1S-R).
Przykadem zindywidualizowanej interpretacji wynikw testowych na
jeszcze bardziej zoonym poziomie s interakcyjne systemy komputerowe umoliwiajce Jednostce bezporedni dialog z komputerem (J.A.
Harris. 1973; Holtzman. 1970: M.R. Katz. 1974; Super i In.. 1970)

110

ZACADNIENIA PSYCHOMETOYCZNE

T technik zajmowano si w zwizku z problematyk planowania kariery edukacyjnej i zawodowej oraz podejmowania decyzji. Wyniki testowo
s tu zazwyczaj wczane do bazy danych komputera, w ktrej znajduj
si take inne informacje uzyskiwane od ucznia czy klienta. Komputer
czy wszystkie dostpne informacje dotyczce jednostki ze zgromadzonymi danymi na lemat programw edukacyjnych 1 zawodw;
odpowiadajc na pytania jednostki i pomagajc jej w podjciu decyzji,
wykorzystuje wszystkie istotne fakty i zalenoci. Przykadem takiego
interakcyjnego systemu komputerowego jest System Interakcyjnego
Doradztwa (System Jor Interactiue Guidance Information - S1G1", 19741975). Wykorzystywany od ponad dziesiciu lal. by modernizowany I
modyfikowany w laki sposb, by mogli z niego korzysta nie tylko
uczniowie, ale take doroli przygotowujcy si do wejcia lub powrotu
na rynek pracy albo zastanawiajcy si nad zmian zawodu bd
moliwociami awansu (M.R. Kaz. 1993; Norrls, Schott, Shalkin 1
Bennett, 1986).
Zagroenia I wskazwki praktyczne. Komputery bez wtpienia przyczyniy si do udoskonalenia psychologicznych bada testowych, i to pod
kadym wzgldem, jednak niektre ich zastosowania mog prowadzi do
naduy i bdnych interpretacji wynikw (Bulcher, 1985: J.J. Kramer i
Mitchell, 1985; Matarazzo. 1983, 1986a, 1986b). Aby uchroni si przed
tymi niebezpieczestwami, wiele uwagi powica si opracowywaniu
wskazwek dotyczcych bada z wykorzystaniem komputera. Kwestia la
jesl uwzgldniona midzy innymi w pracy Testing Standards (Standardy
dla testw) (AERA, APA, NCME. 1985). Opracowano te wyczerpujcy 1
szczegowy zbir wytycznych dotyczcych zastosowania komputerw w
odniesieniu do rnych aspektw testowania (patrz: np. Butcher, 1987.
str. 413-431) Penego omwienia kwestii wykorzystania komputerw w
badaniach testowych, ze szczeglnym uwzgldnieniem komputerowej
interpretacji wynikw, dokonuje Moreland (1985. 1992).
Dwa gwne problemy zwizane z testowaniem komputerowym dotycz porwnywalnoci wynikw oraz interpretacji opisowej, Jeli ten sam
teat ma by stosowan> w wersji komputerowel oraz w wersji tradycyjnej,
drukowanej, to naley sprawdzi, czy wyniki otrzymywane w badaniu
tymi wersjami s porwnywalne (Mazzeo, Drucsne, Raffeld. Checketts i
Muhlstein, 1991) Jeli nie wykae si, e te dwa sposoby badania s w
pdni rwnowane, to stosowanie w obu przypadkach tych samych norm
moe by nieuprawnione; inna moe te by rzetelno i trafno ych
wersji Szczeglnie istotne Jest sprawdzenie porwnywalnoci wynikw
dla rnych Jednostek i grup. ktre mog znacznie rni si midzy sob
pod wzgldem dowiadczenia w pracy z komputerem, a zwaszcza z
wykonywaniem przy Jego uyciu testw.

Normy I znaczenie wynikw testowych

111

Szczeglne zainteresowanie
budzi
gwatowny
rozwj
usug
polegajcych na komputerowym sporzdzaniu raportw zawierajcych
opisow interpretacj wynikw. U podstaw wielu wicych si z t
kwesti wskazwek le dwie gwne zasady. Po pierwsze, uytkownik
testu powinien otrzyma adekwatne Informacje, ktre pozwol mu oceni
rzetelno, trafno i Inne techniczne waciwoci systemu interpretacyjnego wykorzystanego przy opracowywaniu programu komputerowego.
W Jaki sposb odbywa si przejcie od wynikw do twierdze interpretacyjnych? Jakie s podstawy teoretyczne i baza empiryczna systemu?
Czy twierdzenia opisowe wywodz si z analizy ilociowej, czy z sdw
klinicznych ekspertw? W tym ostatnim przypadku naley poda informacje na lemat zawodowych kwalifikacji ekspertw.
Druga zasada mwi. e jeli raporty zawierajce interpretacj wynikw
maj by wykorzystywane do celw klinicznych lub w poradnictwie bd
w inny sposb uwzgldniane przy podejmowaniu istotnych decyzji dotyczcych czowieka, to wane jest. by bra pod uwag inne dostpne
rda informacji na temat osoby badanej. Dlatego te raporty z wynikami powinny by wykorzystywane wycznie przez w peni wykwalifikowanych fachowcw. Raporty te naley traktowa raczej jako pomoc
dla specjalisty anieli substytut dokonywanej przez niego oceny.

INTERPRETACJA TESTU
ZORIENTOWANEGO NA STANDARD WYKONANIA
Natura i zastosowania.
W latach 70. wiele zainteresowania, szczeglnie w dziedzinie edukacji, wzbudzi nowy sposb podejcia do bada
testowych, okrelany pocztkowo jako testowanie zorientowane na kryterium". Termin ten, zaproponowany przez Glasera (1963), do tej pory
uywany jest do dowolnie i rnie definiowany przez poszczeglnych
autorw. Co wicej, w powszechnym uyciu jest szereg bliskoznacznych
terminw, takich jak; zorientowane na tre, zorientowane na standard
wykonania, zorientowane na cele ksztacenia. Terminy te czasem traktuje si jak synonimy pojcia zorientowane na kryterium", a czasem
nadaje si Im nieco odmienne znaczenia. Stopniowo okrelenie .zorientowane na kryterium" zastpiy bardziej precyzyjne terminy. W tej
ksice bdziemy posugiwa si terminem zorientowane na standard
wykonania".
W testach zorientowanych na standard wykonania punktem
odniesienia przy interpretacji wynikw jest konkretny zakres wiedzy, a
nie okrelona populacja osb. Z tego powodu ten sposb podejcia przeciwstawia si podejciu zorientowanemu na normy, zgodnie z ktrym
wynik danej jednostki interpretuje si przez porwnanie go z wynikami

110

ZAGADNIENIA

PSYCHOMCTRYCZNE

uzyskanymi przez inne osoby w tym samym tecie. W testach zorientowanych na standard wykonania wyniki osoby badanej opisuje si na
przykad wskazujc na specyficzne operacje matematyczne, jakie
opanowaa, szacowany rozmiar jej sownika, poziom trudnoci lektur,
jakie jest w sianie zrozumie (od ksiek humorystycznych po klasyk
literatury), lub szanse osignicia okrelonego poziomu wykonania w
zakresie zewntrznego kryterium (edukacyjnego lub zawodowego).
Jak do tej pory, testowanie zorientowane na standard wykonania
znalazo zastosowanie gwnie w dziedzinie innowacji edukacyjnych
Wyrniaj si wrd nich wspomagane komputerowo, kierowane komputerowo lub w inny sposb zindywidualizowane systemy ksztacenia
uwzgldniajce wasne tempo uczcego si. We wszystkich tych systemach testowanie jest cile powizane z nauczaniem i wprowadzane
przed, podczas i po wykonaniu kadej jednostki programu ksztacenia,
aby sprawdzi wstpne umiejtnoci, zdiagnozowa moliwe trudnoci w
uczeniu sie i zaleci dalsze procedury ksztacce (Nitko, 1989).
Testy zorientowane na standard wykonania stosuje si w szerokich,
przegldowych badaniach osigni szkolnych, takich jak ocena
postpw w nauce w skali caego kraju (National Assessment oj
Educational Progress) (E.G. Johnson, 1992; Messick. Beaton i Lord.
1983; F B Womer. 1970). jak rwnie w harianinrh rlnjrzaori szkolnej.
Jeszcze innym przykadem wykorzystania takich testw s badania,
ktrych celem jest stwierdzenie, czy jednostka spenia okrelone minimum wymaga, jak ma to miejsce na przykad w przypadku badania
osb starajcych si o prawo jazdy lub o licencj pilota. Z podobnym zastosowaniem mamy do czynienia w przypadku badania sprawnoci
zawodowej, gdy przedmiotem occny jest biego w zakresie niewielkiej
liczby wyranie okrelonych umiejtnoci zawodowych, jak ma to miejsce
w odniesieniu do specjalnoci wojskowych (Maier i Hirshfeld. 1978;
Swezey i Pearlstein. 1975).
I wreszcie znajomo poj z zakresu testowania zorientowanego na
standard wykonania moe przyczyni si do ulepszenia tradycyjnych,
nieformalnych testw przygotowywanych do uytku w klasie przez
nauczycieli. Linn i Gronlund (1995) przedstawiaj szczegowy poradnik
z tego zakresu, a take proste i rzeczowe wskazwki na temat testowania zorientowanego na standard wykonania. Krtkie, ale za to doskonae
omwienie gwnych ogranicze tych testw przedstawia Ebel (1972).
Wyczerpujcej analizy wielu technicznych problemw zwizanych z konstrukcj i ocen takich testw dokonuje Berk (1984a).
Znacz nie treci. Cech wyrniajc testy zorientowane na standard
wykonania (jakkolwiek by Je definiowa 1 nazywa) jest to. e interpretacja dokonywana Jest w kategoriach treciowych. Akcent kadzie si na
to, co osoby badane mog zrobi 1 co wiedz, a nie na to. Jak wypadaj

Normy I znaczenie wynikw testowych

113

w porwnaniu z Innymi. Podstawowym wymaganiem przy konstruowaniu lego rodzaju lestu Jest wie Jasne zdefiniowanie zakresu wiedzy czy
umiejtnoci, ktrych ocenie ma suy test. Jeli wyniki w takim tecie
maj by uwaane za znaczce, to obszar treci, bdcy przedmiotem
lesiu, musi by powszechnie uznawany za wany. Wybrany obszar trzeba nastpnie podzieli na mae jednostki, okrelone w kategoriach
poziomu wykonania. W przypadku nauczania jednostki te odpowiadaj
behawioralnie zdefiniowanym celom ksztacenia, takim jak mnoy liczby trzycyfrowe przez dwucyfrowe" lub rozpoznaje bdnie napisane
sowa, w ktrych po dodaniu kocwki Ing pozostaje kocowe e".
Programy zindywidualizowanego ksztacenia mog uwzgldnia nawet
kilkaset takich celw w ramach Jednego przedmiotu szkolnego. Gdy cele
ksztacenia s ju sformuowane, nastpuje przygotowanie odpowiadajcych kademu z nich zada. Procedura ta jest w powszechnej
opinii trudna i czasochonna. Bez dobrze przemylanego okrelenia treci i kontrolowanego Jej wykorzystania rezultaty badania testem zorientowanym na standard wykonania mog przerodzi si w nieinterpretowalny groch z kapust. Moliwy w praktyce kompromis polega na
zidentyfikowaniu i zdefiniowaniu przez ekspertw poj kluczowych,
zasad, metod czy celw ksztacenia: dla kadego zdefiniowanego w ten
sposb wanego obszaru opracowuje si nastpnie odpowiednie zadania
testowe. Niewtpliwie stopie szczegowoci, z jak naley ocenia rne
obszary treciowe, zaley od natury i celu testu (Popham, 1984; Rold,
1984).
Testy zorientowane na standard wykonania najlepiej nadaj si do
badania podstawowych umiejtnoci (takich jak umiejtnoci niezbdne
w czytaniu czy w arytmetyce) na elementarnym poziomie. Cele
ksztacenia w tych dziedzinach mona zazwyczaj uhierarchizowa; nabycie bardziej elementarnych umiejtnoci jest warunkiem nabycia
umiejtnoci wyszego rzdu7. Jednak w przypadku bardziej zaawansowanych poziomw wiedzy z zakresu mniej ustrukturalizowanych
przedmiotw nauczania formuowanie bardzo konkretnych celw jest
niewykonalne i prawdopodobnie niepodane. Zarwno treci, jak i
kolejno uczenia si, s wwczas o wiele bardziej pynne.
Z drugiej strony, ze wzgldu na nacisk, jaki kadzie si w nich na tre,
testy zorientowane na standard wykonania mog mie uzdrawiajcy
wpyw na badania testowe w ogle. Na przykad wiele korzyci
wynikaoby z takiego sposobu podejcia dla interpretacji wynikw w testach inteligencji. Opisywanie poziomu wykonania dziecka w tecie
inteligencji w kategoriach konkretnych umiejtnoci intelektualnych i
posiadanej wiedzy mogoby pomc w przezwycieniu nieporozumie
W Idealnym przypadku testy takie, podobnie jak piagetowskie skale
porzdkowe omwione w rozdziale 9, pasuj do modelu simpleks skali Guttmana
(patrz: Popham I Husek. 1969)

114

ZAGADNIENIA PSYCHOMCTRYCZNE

zwizanych z tradycyjnym ilorazem inteligencji. Oglniej rzecz biorc,


mona powiedzie, e badanie testami zorientowanymi na standard
wykonania oznacza uwzgldnianie przy interpretowaniu wynikw
konkretnych danych na temat trafnoci testu, a nie bliej niesprecyzowanych bytw warunkujcych wykonywanie go Tak interpretacj
mona oczywicie poczy z odniesieniem wynikw do norm.
Testowanie biegoci. Z testowaniem zorientowanym na standard
wykonania powszechnie czy si procedur stosowan przy badaniu
biegoci. Zasadniczc procedura ta dostarcza wyniku zero-jedynkowego.
ktry informuje, czy jednostka osigna wczeniej ustalony poziom
biegoci, czy te nie osigna go. Jeli przedmiotem badania s umiejtnoci podstawowe, zazwyczaj oczekuje si niemal cakowitego ich
opanowania (np. 80 do 85% poprawnie wykonanych zada). Mona take
stosowa podzia na trzy kategorie: biego, brak biegoci i kategoria
porednia, zawierajc przypadki wtpliwe.
W zwizku ze zindywidualizowanym ksztaceniem niektrzy pedagodzy
dowodz, e jeli stosuje si odpowiednie metody, to niemal kady, kto
ma wystarczajc ilo czasu, moe osign biego w zakresie
wybranych celw ksztacenia. Rnice indywidualne przejawiayby si
wic w iloci czasu potrzebnego na nauczenie si, a nie w kocowych
osigniciach, jak ma to miejsce w tradycyjnych lesiach stosowanych w
dziedzinie edukacji (Carroll. 1963. 1970; Cooley i Glaser, 1969; Gagne,
1965).W testach biegoci rnice indywidualne w poziomie wykonania
nie s przedmiotem zainteresowania. Skutkiem tego testy zorientowane
na standard wykonania s tak skonstruowane, e minimalizuj
zrnicowanie indywidualne wynikw osb. ktre przeszy odpowiedni
trening. Testowanie biegoci systematycznie wykorzystuje si we
wspomnianych
wczeniej
programach
zindywidualizowanego
ksztacenia. Jest ono take charakterystyczn cech publikowanych
testw zorientowanych na standard wykonania, przeznaczonych do
oceny umiejtnoci podstawowych na poziomie szkoy pocztkowej.
Przy konstruowaniu takich testw wane s dwa pytania: (1) Jak wiele
zada potrzeba, aby mnljwa hyla rzetelna ocena dotyczca kadego celu
ksztacenia z zakresu objtego testem? (2) Jaki procent zada musi by
rozwizany poprawnie, aby w sposb rzetelny mona byo stwierdzi
osignicie biegoci? W przypadku wikszoci wczesnych testw zorientowanych na standard wykonania odpowiadano na te dwa pytania
kierujc si zdrowym rozsdkiem. Od tamtej pory dokona si Jednak
widoczny postp w zakresie technik statystycznych, pozwalajcy uzyska
odpowiedzi obiektywne i oparte na podstawach empirycznych (Bcrk,
1984a; R.L. Ferguson i Novick. 1973; Hambleton. 1984a. 1989Hambleton i NoWck, 1973). Przedstawimy kilka przykadw ilustrujcych
natur 1 ce tych stara.

Normy I znaczenie wynikw testowych

115

Te pytania o liczb zada i wynik graniczny mona zawrze w jednej


hipotezie, ktr da si testowa w ramach teorii decyzji, stosujc metod
analizy sekwencyjnej (Hambleton, 1984a. Wald. 1947) Chcemy wic
testowa hipotez mwic, e osoba badana osigna wymagany
poziom biegoci w danej dziedzinie lub w zakresie danego celu
ksztacenia, ktrych prbk stanowi zadania testowe. Analiza sekwencyjna polega na przeprowadzaniu kolejnych obserwacji i kadorazowym
decydowaniu, czy (1) zaakceptowa hipotez, (2) odrzuci hipotez, (3)
pizeprowadzie dalsze obserwacje. A zatem liczb obserwacji (w tym przypadku liczb zada) niezbdnych do sformuowania rzetelnego wniosku
okrela si w trakcie procesu testowania. Badany nie dostaje wic staej
i z gry okrelonej liczby zada, lecz wykonuje test dopty, dopki nie
zostanie podjta decyzja o osigniciu lub nieosigniciu przez niego
biegoci. W tym momencie badanie testowe koczy si i ucze jest
kierowany na nastpny poziom ksztacenia albo - w celu dalszej nauki wraca na poziom, w zakresie ktrego nie osign biegoci. Uatwienia,
jakie stwarza komputer, sprawiaj, e procedury sekwencyjnego podejmowania decyzji staj si moliwe do przeprowadzenia; dziki nim
mona zmniejszy ilo czasu przeznaczonego na badanie lestowe.
uzyskujc jednoczenie rzetelne oszacowanie biegoci.
Niektrzy badacze prbowali wykorzysta bayesowskie techniki szacowania, ktre pozwalaj wcza take dane dodatkowe i dobrze nadaj
si do podejmowania tego rodzaju decyzji, jakich wymaga testowanie
biegoci. Ze wzgldu na du liczb specyficznych celw ksztacenia,
ktre maj by przedmiotem badania, testy zorientowane na standard
wykonania zazwyczaj zawieraj niewiele zada odnoszcych si do
kadego celu. Aby uzupeni te ograniczone informacje, opracowano procedury wczania danych dodatkowych pochodzcych z wczeniejszych
bada danego ucznia, jak rwnie z bada testowych innych uczniw
(R.L. Ferguson i Novick. 1973: Hambleton. 1984a; Hambleton i Novick.
1973).
Jeli nie da si zastosowa indywidualnie dopasowywanych procedur,
to wyniki graniczne mona empirycznie okreli analizujc rezultaty
uzyskiwane w danym tecie przez grupy osb, ktre podlegay i nie
podlegay ksztaceniu. Jako graniczny wybiera si wtedy wynik najlepiej
rnicujcy te grupy (Paneli i Laabs, 1979; L.A. Shepard. 1984)
W pewnych sytuacjach niezbdny Jest zdrowy rozsdek, aby oceni
znaczenie promowania" osoby, ktra nie ma wymaganych kwalifikacji, i
oblania" osoby, ktra je ma. W zalenoci od tego. czy skutki bdnego
zaklasyfikowania maj due, czy mae znaczenie, wynik graniczny mona
podwysza lub obnia.
Zwizek z testowaniem zorientowanym na normy. Tam, gdzie nie
chodzi o badanie umiejtnoci podstawowych, testowanie biegoci nie

116

ZAGADNIENIA PSYCHOMCTRYCZNE

wystarcza lub wrcz nic da si go zastosowa. W przypadku przedmiotw


bardziej zaawansowanych i mniej ustrukluralizowanych osignicia
maj charakter otwarty. Jednostka moe czyni prawie nieograniczone
postpy w zakresie takich funkcji, jak rozumienie, mylenie krytyczne,
wartociowanie czy oryginalno. Co wicej, zakres treci moe powiksza si w wielu rnych kierunkach, w zalenoci od indywidualnych
zdolnoci, zainteresowa, celw, jak te lokalnych moliwoci w zakresie
ksztacenia. W takich okolicznociach osignicie biegoci Jest nierealistyczne i niekonieczne. Do oceny poziomu osigni stosuje si wtedy
testy, w ktrych wynik odnoszony jest do norm. Niektre publikowane
testy s skonstruowane w taki sposb, aby mona byo zastosowa ocen
polegajc na odnoszeniu wyniku zarwno do norm. jak i do standardu
wykonania. Jako przykad mog suy slanfordzkle testy diagnostyczne
w zakresie czytania i matematyki. Testy te zawieraj stosowne normy dla
kadego poziomu, ale take pozwalaj na jakociow analiz poziomu
osigni dziecka w zakresie szczegowych celw ksztacenia.
Naley zauway, e testy zorientowane na standard wykonania nie s
- j a k zakadali to ich rzecznicy - ani czym nowym, ani innym ni testy,
ktrych wyniki odnosi si do norm. Ocena wynikw w tecie w kategoriach absolutnych, takich jak stopnie czy procent poprawnie
rozwizanych zada, jest oczywicie o wiele starsza ni interpretacje
polegajce na odnoszeniu wynikw do norm. Bardziej precyzyjne prby
opisywania wrynikw testowych w kategoriach treci rwnie s
wczeniejsze ni termin testy zorientowane na kryterium" (Ebel, 1962:
J.C. Flanagan, 1962; Nitko, 1984, str. 14-16). Innych przykadw dostarczaj pierwsze skale do oceny jakoci pisma, wypracowa czy rysunkw,
w ktrych prbki wytworw jednostki porwnywano ze zbiorem standardowych wzorw. Ponadto, jak zauwaa Ebel (1972), pojcie biegoci rozumianej jako opanowanie konkretnych partii materiau na zasadzie
wszystko albo nic' - uzyskao w dziedzinie edukacji znaczn popularno w latach dwudziestych i trzydziestych naszego wieku, a potem
zostao porzucone.
Normatywny ukad odniesienia jest zawarty implicite w kadym badaniu testowym, bez wzgldu na to. w jaki sposb wyraa si wyniki
(Angoff. 1974; Nitko, 1984). Sam wybr treci czy umiejtnoci, ktre
maj by przedmiotem pomiaru, zaley od wiedzy badajcego na temat
tego, czego mona oczekiwa od czowieka na danym etapie rozwoju czy
ksztacenia. Wybr '.aki z gry zakada wiedz o tym, co inni ludzie robi
w podobnych sytuacjach. Co wicej, ustalenie jednolitych wynikw
granicznych na kontinuum zdolnoci, jak to ma miejsce w testowaniu
biegoci, nie oznacza wyeliminowania rnic indywidualnych.
Opisywanie czyjego poziomu czytania ze zrozumieniem jako zdolnoci
do zrozumienia treci New York Times" cigle jeszcze pozostawia wiele
miejsca na rnice indywidualne w stopniu lego zrozumienia.

Normy I znaczenie wynikw testowych

117

Stosowanie punktu granicznego w ceiu dokonania dychotomicznego


podziau wynikw oznacza Ignorowanie rnic indywidualnych
istniejcych w obrbie kadej z dwch kategorii i pomijanie potencjalnie
uytecznych informacji.

MINIMUM KWALIFIKACJI I WYNIKI GRANICZNE


Potrzeby praktyki i puapki.
Badanie biegoci przy pomocy testw
zorientowanych na standard wykonania jest tylko Jednym z przykadw
praktycznego wykorzystywania wynikw granicznych (czyli punktw
odcicia) przy podejmowaniu decyzji. Minimum kwalifikacji jest pojciem
czsto spotykanym w yciu codziennym. W wielu sytuacjach wzgldy
bezpieczestwa wymagaj okrelania wynikw granicznych, jak ma to
micjscc na przykad przy egzaminowaniu na prawo jazdy, dokonywaniu
selekcji pilotw linii lotniczych czy zatrudnianiu pracownikw elektrowni
jdrowej. W sferze edukacji tak sytuacj wymagajc klasyfikowania
ludzi zgodnie z regu wszystko albo nic" jest koczenie kursu lub
koczenie szkoy (Jaeger, 1989). W praktyce klinicznej i w poradnictwie
tego rodzaju sdy formuuje si przy podejmowaniu decyzji dotyczcych
zalece w kwestii leczenia lub profilaktyki.
Szczeglnie mocnym argumentem przemawiajcym za stosowaniem
wynikw granicznych jest istnienie, kluczowych waciwoci koniecznych
do wykonywania pewnych dziaa. Brakw w zakresie takich waciwoci nie s w stanie skompensowa nawet wyjtkowe zdolnoci w innych
zakresach. W takich przypadkach wysoki wynik w wielowymiarowej
baterii stosowanej przy selekcji mgby maskowa brak w zakresie
umiejtnoci kluczowej. Osoby uzyskujce w zakresie takiej umiejtnoci wynik niszy ni wymagane minimum powinny odpa, bez wzgldu
na poziom innych zdolnoci. Na przykad operatorzy urzdze
hydrolokacyjnych musz charakteryzowa si bardzo dobrym rnicowaniem suchowym. Podczas II wojny wiatuwej marynarka amerykaska pocztkowo dokonywaa rekrutacji na szkolenie dla operatorw
urzdze hydrolokacyjnych na podstawie cznego wyniku w testach
rnicowania suchowego i mylenia technicznego. Na szkolenie kwalifikowano wic. i dopiero potem dyskwalifikowano, pewn liczb
mczyzn, ktrzy ukoczyli college i byli wietni w myleniu technicznym. ale sabi w zakresie podstawowych umiejtnoci suchowych.
Zgodnie ze standardow procedur stosowan w marynarce, tych.
ktrych pierwszy przydzia zakoczy si niepowodzeniem, przenoszono
do suby oglnej jako zwykych marynarzy; w ten sposb tracili oni
moliwo penienia suby wyspecjalizowanej. Dalsza analiza sytuacji
doprowadzia z czasem do zastpienia tego sposobu selekcji procedur

118

ZAGADNIENIA PSYCHOMCTRYCZNE

wykorzystujc wynik graniczny. Jednak w przypadku wikszoci zmiennych zwizanych z prac ich zwizek z poziomem funkcjonowania
zawodowego ma charakter liniowy, a wic lm wyszy wynik w tecie, tym
wysze osignicia w pracy (Coward i Sackett. 1990). W takich przypadkach faktyczny wynik danej osoby jest lepszym predyktorem ni jej pozycja w stosunku do punktu granicznego.
W praktyce przy podejmowaniu wielu decyzji nic da si jednak
unikn wykorzystywania wynikw granicznych, dlatego naley by
wiadomym inych puapek, jakie si kryj za takim sposobem oceny,
i stosowa procedury, ktre redukuj wystpujce wtedy bdy. Na
przykad naley dokada stara, by agodzi, ograniczenia zwizane z
posugiwaniem si pojedynczym wynikiem testowym. Jeli jest to
moliwe, wynikiem granicznym powinna by raczej wizka wynikw, a
nie pojedynczy wynik uzyskany w jednym badaniu konkretnym testem.
Ponadto podejmujc indywidualne decyzje, naley bra pod uwag wiele
rde informacji na temat kadej osoby, a wyniki testowe uzupenia
innymi istotnymi danymi dotyczcymi aktualnego i przeszego poziomu
funkcjonowania. Jeli punkty graniczne w testach okrela zespl sdziw. to powinni w nim by reprezentowani eksperci zarwno w dziedzinie, ktrej dotycz zadania, jak i w zakresie konstruowania oraz
stosowania testw. Przede wszystkim za wyniki graniczne naley
zawsze, gdy tylko jest to moliwe, ustala i weryfikowa na podstawie
danych empirycznych. Oznacza to. e wyniki testowe, na podstawie
ktrych okrela si punkty graniczne, powinny pochodzi od grup
wyranie rnicych si pod wzgldem zachowa kryterialnych. na
przykad pod wzgldem rzeczywistego poziomu osigni w danego
rodzaju pracy. Poziom tych wanie osigni ma przewidywa test. a
wynik graniczny powinien zapewni bezpieczne, akceptowalne lub
podane minimum w tym zakresie. Dobr ilustracj empirycznej
metody okrelania wynikw granicznych w tecie przeznaczonym do
selekcji personelu s tabele wartoci oczekiwanych omwione w nastpnej czci rozdziau.
Tabele wartoci oczekiwanych. Jeden ze sposobw interpretowania
wynikw testowych polega na analizowaniu ich ze wzgldu na oczekiwane rezultaty w kryterium, takim jak wynik szkolenia czy osignicia w
pracy zawodowej. Uycie sowa ..kryterium" jest tu zgodne ze standardami praktyki psychometiycznej. tak jak wtedy, gdy o tecie mwi si. e
bada si jego trafno w odniesieniu do jakiego konkretnego kryterium
(zob rozdz. 1). Mwic cilej, termin testowanie zorientowane na kryterium" powinien odnosi si do lego wanie rodzaju interprelac|i
wynikw, podczas gdy inne sposoby podejcia omawiane w poprzedniej
czci rozdziau mona bardziej precyzyjnie opisywa jako zorientowane
na tre lub na standard wykonania.

Normy I znaczenie wynikw testowych

119

W tabeli wartoci oczekiwanych podane Jest prawdopodobiestwo


uzyskania rnych wynikw kryterialnych przez osoby otrzymujce
kady z moliwych wynikw w tecie. Na przykad Jeli w przeznaczonej
dla collegeu wersji Testu Diagnozy Szkolnej (SAT) ucze uzyska! 530
punktw, to Jakie s szanse, e jego przecitna ocena na I roku w
konkretnym college'u wyniesie A, B. C, D lub F? Tego rodzaju informacje mona uzyska analizujc dwuzmiennowy rozkad wynikw prcdyklora (SAT) i kryterium (przecitna ocena na 1 roku). Jeli liczb przypadkw w kadej komrce takiego dwuzmiennowego rozkadu zamienimy na
procenty, to powstanie tabela wartoci oczekiwanych, ktrej ilustracj
jest tabela 3-6. Dane w niej przedstawione pochodz z badania 211
uczniw sidmej klasy uczestniczcych w zajciach z matematyki.
Podstaw przewidywania (predyktorem) by!y wyniki w tecie
Rozumowania Liczbowego,
pochodzcym z Testu> Zrnicowanych
Zdolnoci IDiJferential Aplitude Tests - DAT), zastosowanym pod koniec
pierwszego semestru. Kryterium stanowia ocena kocowa z drugiego
semestru, uzyskana na tych zajciach. Wspczynnik korelacji midzy
wynikami testu a kryterium wynosi 0.60.
W pierwszej kolumnie tabeli 3-6 znajduj si wyniki w tecie
podzielone na cztery przedziay klasowe: w drugiej kolumnie widnieje
liczba uczniw, ktrzy uzyskali wyniki zawierajce si w poszczeglnych
przedziaach. Pozostae dane (kolejne komrki w wierszach) informuj,
jaki procent uczniw uzyskujcych w tecie wyniki w obrbie danego
przedziau otrzyma poszczeglne oceny. 1 tak, spord 22 uczniw,
ktrzy w tecie Rozumowania Liczbowego uzyskali wynik rwny lub
wyszy ni 30. 5% otrzymao ocen D lub nisz, aden nie otrzyma

Tabela
wynikami

wartoci
Testu

oczekiwanych pokazujca zwizek midzy


Rozumowania

Liczbowego

DAT

ocenami

matematyki dla 211 uczniw VII klasy


Wynik w

Liczba

tcfcie

przypadkw

30 i wytj
20-29
10-19
Poniej 10

22
104
71
14

Procent osb uzyskujcych poszczeglne oceny


D i nirsza
5
9
37
43

r\
37
36

(Ail.iplmv.mi'.'.
IWItructd Mcmiiril /<"
za z e z w o l e n i e m . C o p y r i g h t O 1 9 9 2 by '/luf 1'iycliotoyicui Corpoioiiiiii)

l
11

t
7

120

ZAGADNIENIA PSYCHOMCTRYCZNE

oceny C. 36% otrzymao ocen B 1 59% ocen A. Z kolei - na drugim


kracu - spord 14 uczniw, ktrzy uzyskali w tecie wynik niszy ni
10. 43% otrzymao ocen D lub nisz. 36% ocen C I 14% ocen B. 7%
otrzymujcych ocen A to tylko jeden ucze 1 z punktu widzenia
moliwoci formuowania uoglnie jest lo informacja bez znaczenia,
podobnie jak 5% (te jeden przypadek) uzyskujcych w tecie wynik 30
lub wyszy i otrzymujcych ocen D lub nisz. Niemniej jednak, nawet
uwzgldniajc pewne ograniczenia tych wynikw, informacje przedstawione w tabeli 3-6 mona wykorzysta do szacowania prawdopodobiestwa otrzymania przez jednostk danej oceny. Na przykad
jeli nowy ucze uzyskuje w tecie Rozumowania Liczbowego DAT wynik
24 (tzn. wynik w przedziale 20-29), to mona wnioskowa, e prawdopodobiestwo uzyskania oceny A wynosi 27 na 100; prawdopodobiestwo otrzymania oceny B wynosi 43 na 100 i tak dalej.
W wielu praktycznych sytuacjach kryterium moe mie charakter
dychotomiczny - by okrelone jako sukces" lub poraka" w pracy, w
nauce lub w innym przedsiwziciu. W takiej sytuacji mona opracowa
wykres wartoci oczekiwanych, pokazujcy prawdopodobiestwo sukcesu lub poraki odpowiadajce kademu przedziaowi wynikw. Rysunek
3-7 jest przykadem takiego wykresu. Jego podstaw s wyniki baterii

Stanin

9
e
7
6
5
4
3

2
1
0

10

20

30

40

50

60

70

80

90

100

Rysunek 3-7. Wykres wartoci oczekiwanych pokazujcy zwizek midzy


wynikam, baterii przeznaczonej do selekcji pilotw a eliminacj z podstawowego
5
szkolenia lotniczego.
(Z Flanagan. 1947. str. 58)

Normy I znaczenie wynikw testowych

121

przeznaczonej do selekcji pilotw, opracowanej przez lotnictwo Stanw


Zjednoczonych.
Wykres pokazuje. Jaki procent pilotw kadetw, ktrzy uzyskali wyniki w obrbie kadego Stanina, nie ukoczy! podstawowego szkolenia lotniczego. Mona wic zobaczy, e w trakcie szkolenia wyeliminowano
77% kadetw uzyskujcych wyniki rwne 1. Staninowi, podczas gdy
spord tych. ktrzy uzyskali wynik odpowiadajcy 9. Staninowi, tylko
4% nic ukoczyo szkolenia. Midzy tymi kracami procent niepowodze
systematycznie maleje dla kolejnych staninw. Na podstawie tego wykresu mona na przykad przewidywa, e blisko 40% pilotw kadetw
uzyskujcych wynik odpowiadajcy 4. Staninowi poniesie porak,
a blisko 60% z powodzeniem ukoczy pocztkowe szkolenie lotnicze.
Podobne twierdzenia dotyczce prawdopodobiestwa sukcesu i poraki
mona formuowa na lemat osb uzyskujcych wyniki odpowiadajce
kademu Staninowi. Tak wic osoba, ktra uzyskaa wynik
odpowiadajcy czwartemu Staninowi, ma szans jak 60:40 lub 3:2 na
ukoczenie podstawowego szkolenia lotniczcgo. Tabele wartoci oczekiwanych, jak i wykresy wartoci oczekiwanych, nie tylko pozwalaj na
zorientowan na kryterium interpretacj wynikw testowych, ale take
daj pewne oglne wyobraenie na temat trafnoci testu w zakresie
przewidywania danego kryterium. Z tego powodu bardziej szczegowe
omwienie empirycznych procedur okrelania wynikw granicznych
podano na kocu rozdziau 6, w czci powiconej modelom decyzyjnym
dotyczcym bezstronnego stosowania testw. Tam te znajduj si informacje na temat matematycznych procedur okrelania optymalnych
wynikw granicznych dla rnych warunkw. Omwienie konkretnych
zastosowa wynikw granicznych w gwnych obszarach praktyki psychologicznej mona znale w rozdziale 17.

Rzetelno

Rzetelno" oznacza zgodno wynikw uzyskanych przez te same


osoby badane kilkakrotnie tym samym testem, badane rnymi
zestawami rwnowanych zada lub badane w rnych, zmiennych
r warunkach. Pojcie rzetelnoci ley u podstaw obliczania bdu pomiaru pojedynczego wyniku; bd ten pozwala przewidywa zakres zmiennoci, jaki moe wystpi w odniesieniu do wyniku pojedynczej osoby na
skutek dziaania nieznanych lub nie majcych zwizku z celem badania,
przypadkowych czynnikw.
Pojcie rzetelnoci dotyczy kilku aspektw zgodnoci wynikw.
W najszerszym sensie rzetelno testu wskazuje na zakres, w jakim
rnice indywidualne w wynikach testowych mor.a przypisa prawdziwym" rnicom w zakresie rozwaanej waciwoci, a w jakim bdom
losowym. Mwic bardziej fachowo, miary rzetelnoci testu pozwalaj
oszacowa, jak cz oglnej wariancji wynikw testowych stanowi
loarioncja bdu. Nie jest to bd" w takim sensie, e mona byoby go
unikn lub poprawi, posugujc si udoskonalon metodologi.
Termin bd" pochodzi z wczeniejszego okresu w psychologii, gdy
badacze interesowali si oglnymi prawami rzdzcymi zachowaniami i
zakadali, e zachowania te s cile i w sposb slaly zwizane z lecymi
u ich podoa cechami. Dzisiaj psychologowie uznaj zmienno za
nieodczn waciwo wszystkich zachowa i prbuj bada oraz
klasyfikowa liczne jej rda.

122

Rzetelno

123

W odniesieniu do rzetelnoci wynikw sedno sprawy ley w zdefiniowaniu wariancji bdu. Czynniki, klre w Jednym przypadku mona
uzna za wariancj bdu, w innym zostan zaklasyfikowane jako
wariancja prawdziwa. Na przykad Jeli interesuje nas pomiar fluktuacji
nastroju, to wystpujce z dnia na dzie zmiany w wynikach testu
badajcego pogod ducha-depresj bd istotne z punktu widzenia celu
testu, a zatem bd stanowiy cz wariancji prawdziwej wynikw.
Z drugiej za strony, jeli test suy do pomiaru bardziej staej waciwoci osobowoci, lo te same fluktuacje zostan zakwalifikowane jako
wariancja bdu.
Wszystkie okolicznoci, ktre nie maj zwizku z celem badania
testowego, slanowi wariancj bdu. Jeli wic badacze staraj si
zachowa jednolito warunkw, cile kontrolujc otoczenie, w jakim
odbywa si badanie testowe, instrukcj, czas badania, sposb porozumiewania si z badanym i inne podobne czynniki, to redukuj wariancj
bdu i sprawiaj, e wyniki testowe staj si bardziej rzetelne. Jednak
aden test nie jest idealnie rzetelnym narzdziem, nawet przy zachowaniu optymalnych warunkw badania. Z tego powodu kademu testowi
powinna towarzyszy informacja o jego rzetelnoci. Taki wskanik rzetelnoci charakteryzuje test wtedy, gdy jest on stosowany w standardowych
warunkach i wobec osb podobnych do tych, ktre wchodziy w skad
prby normalizacyjnej. Podajc informacje o rodzaju szacowanej rzetelnoci, naley zatem opisa take waciwoci tej prby.
Oczywicie moe by tak wiele rnych rodzajw rzetelnoci, jak wiele
jest czynnikw wpywajcych na wyniki testowe, poniewa kady z nich
moe nie mie zwizku z celem badania i wtedy bdzie klasyfikowany
jako rdo wariancji bdu. Jednak w praktyce okrela si stosunkowo
niewiele rodzajw rzetelnoci. W tym rozdziale omwimy gwne techniki pomiaru rzetelnoci wynikw testowych oraz rda wariancji bdu
identyfikowane przez kad z tych technik 1 .
Poniewa wszystkie rodzaje rzetelnoci dotycz stopnia spjnoci czy
zgodnoci midzy dwoma niezalenie uzyskanymi zbiorami wynikw,
mona wyraa je w postaci wspczynnika korelacji. W nastpnej czci rozdziau przedstawimy wic podstawowe waciwoci wspczynnikw
korelacji, objanimy zasady ich stosowania i interpretacji. Bardziej
fachowe omwienie problemu korelacji, jak rwnie bardziej szczegow
prezentacj procedur obliczania wspczynnikw, mona znale w
1 Takie podejcie do rzetelnoci wyniku dotyczy kwestii nazywanej czasem teori
generallzowalnoei rzetelnoci (patrz: Brennan. 1994: Crick i Brennan. 1982:
Cronbach. Gleser, Nanda i Rajaratnam, 1972: Feldt i Brennan. 1989; Shavelson
i Webb. 1991). Nie jest to jednak wystarczajco specyficzne okrelenie, poniewa
generalizowalno odnosi si do wszystkich aspektw wyniku testowego i w gruncie rzeczy - do wszystkich danych naukowych. Mwic bardziej precyzyjnie. ta procedura okrelania rzetelnoci oparta Jest na okreleniu
skadowych wariancji Jako majcych lub nie majcych zwizku z celem badania.

124

ZAGADNIENIA PSYCHOMCTRYCZNE

jakimkolwiek elementarnym podrczniku statystyki dla psychologw czy


pedagogw (np. Runyon i Haber. 1991 lub D.C. Howcll, 1997).

WSPCZYNNIK KORELACJI
Znaczenie korelacji. Wspczynnik korelacji (r) wyraa stopie
wspizmiennoci czy zwizku midzy dwoma zbiorami wynikw.
A zatem jeli jednostka uzyskujca najwyszy wynik w zakresie zmiennej 1 otrzymuje najwyszy wynik rwnie w zakresie zmiennej 2. i tak
dalej a do najsabszej osoby w grupie, to uzyskujemy doskonal
korelacj midzy zmiennymi 1 i 2. Taka korelacja bdzie wyraaa si
wartoci +1.00.
Hipotetyczn ilustracj doskonalej dodatniej korelacji przedstawia
rysunek 4-1. Znajduje tu si wykres rozrzutu, czyli rozkad dwuzmicnnowy. Kada kreska na tym wykresie oznacza wynik jednej osoby
zarwno w zakresie zmiennej 1 (o pozioma), jak i zmiennej 2 (o pionowa). Naley zwrci uwag, e wszystkie (N=100) przypadki grupuj si
tu wzdu przektnej biegncej od lewego dolnego dc prawego grnego
kraca wykresu. Taki rozkad wskazuje na doskona dodatni korelacj

90-99

///

i ... li >'

80-89

r. * -

ir

>

ni (ul
Tur
rrrr
u
t l/lf tfi.y:
V :.
m i

"t

CN

70-79

60-69

50-59

.5
to

'..

30-39
20-29
10-19

to-f//

'

t"- T ;
^ .

tiitittt
SIU

'i-

-* vj

40-49

.'ii

w * ' ' w

m w

w'".I~
< : i]

m i

Ir-

'j

Wynik dla zmiennej 1

Rysunek 4 - 1 .

Dwuzniicimowy rozkad dla hipotetycznej korelacji r w n e j + 1 . 0 0

Rzetelno

123

(+1,00), poniewa kada osoba zajmuje t sam wzgldrt pozycj w


odniesieniu do obu zmiennych. Im bardziej dwuzmiennowy rozkad
wynikw przyblia si do tej przektnej, tym wysza bdzie korelacja
dodatnia.
Rysunek 4-2 przedstawia doskonal korelacj ujemn (-1,00). W lym
przypadku mamy do czynienia z cakowit odwrotnoci wynikw w obu
zmiennych. Osoba, ktra uzyskuje najlepszy wynik w zakresie zmiennej
1. jest najgorsza ze wzgldu na zmienn 2. i odwrotnie, przy czym to
odwrcenie relacji utrzymuje si w caym rozkadzie. Na wykresie rozrzutu wyniki wszystkich osb znajduj si na przektnej biegncej od
lewego grnego do prawego dolnego rogu. Przektna ta biegnie w odwrotnym kierunku ni przektna przedstawiona na rysunku 4-1.
Korelacja rwna zero wskazuje na cakowity brak zwizku, a wic na
taki ukad wynikw, ktry mgby by dzieem przypadku. Jeli w celu
okrelenia pozycji wszystkich osb w odniesieniu do zmiennej 1
cignlibymy ich nazwiska losowo z pudeka, a potem powtrzylibymy
ca t procedur dla zmiennej 2. to otrzymalibymy w efekcie korelacj
rwn zero '.ub blisk zera. W takim przypadku niemoliwe byoby
przewidywanie wzgldnej pozycji zajmowanej przez dart jednostk w
odniesieniu do zmiennej 2 na podstawie wiedzy o jej wyniku w zakresie

Wynik dla zmiennej 1

Rysunek 4-2. Dwuzmiennowy rozkad dla hipotetycznej korelacji rwnej -1,00.

128

ZAGADNIENIA PSYCHOMETOVCZNE

zmiennej 1. Osoba uzyskujca najlepszy wynik w zakresie zmiennej 1


mogaby mle wysoki, niski lub przecitny wynik w zakresie zmiennej 2.
Przypadkowo niektre osoby mogyby w zakresie obu zmiennych uzyska
wyniki powyej przecitnej lub poniej przecitnej; inne mogyby mie
wyniki powyej przecitne) dla jednej i poniej przecitnej dla drugiej
zmiennej; jeszcze inne mogyby by powyej przecitnej w zakresie jednej
I przecitne w zakresie drugiej, i lak dalej. Nie byoby adnej regularnoci
w tych zwizkach.
W praktyce otrzymywane wspczynniki zazwyczaj plasuj si midzy
tymi kracami i s wysze od zera. ale nisze od 1.00. Korelacje midzy
miarami zdolnoci s niemal zawsze dodatnie, cho czsto niskie. Jeli
midzy dwoma tego rodzaju zmiennymi uzyskuje si korelacj ujemn,
zazwyczaj wie si to ze sposobem wyraania wynikw. Na przykad jeli
koreluje si czas z liczb punktw, to prawdopodobnie otrzyma si
korelacj ujemn. Gdy wynikiem w tecie rachunku arytmetycznego jest
liczba minut potrzebnych na wykonanie wszystkich zada, a wynikiem
w tecie rozumowania arytmetycznego - liczba poprawnie rozwizanych
problemw, to mona oczekiwa ujemnej korelacji midzy wynikami w
tych dwch testach. W takim przypadku najgorsza (tzn. najwolniej
pracujca) osoba uzyska najwyszy liczbowo wynik w tecie pierwszym,
podczas gdy najwyszy wynik w tecie drugim uzyska osoba najlepsza.
Wspczynniki korelacji mona oblicza w rny sposb, zalenie od
rodzaju danych. Najbardziej popularny jest wspczynnik korelacji
wedug momentu iloczynowego Pearsona. Wspczynnik ten uwzgldnia
nie tylko pozycj osoby w grupie, ale take wielko odchylenia jej
wyniku od redniej dla grupy. Naley przypomnie, e jeli pozycj zajmowan w grupie przez poszczeglne osoby wyraamy w wynikach
standaryzowanych, to osoby uzyskujce wyniki powyej przecitnej
otrzymuj dodatnie wyniki standaryzowane, a osoby uzyskujce wyniki
poniej przecitnej otrzymuj wyniki ujemne. A zatem jednostka, ktra
uzyskuje dobre rezultaty w zakresie obu zmiennych, bdzie miaa dwa
dodatnie wyniki standaiyzowane; osoba saba pod obydwoma wzgldami
bdzie miaa dwa ujemne wyniki standaryzowane. Jeli teraz dla kadej
osoby pomnoymy Jej wynik standaryzowany dla zmiennej 1 przez wynik
standaryzowany dla zmiennej 2. to wszystkie te Iloczyny bd dodatnie,
pod warunkiem, e kada z tych osb w zakresie obu zmiennych plasuje si po tej samej stronie redniej. Wspczynnik korelacji Pearsona jest
po prostu redni tych iloczynw. Przyjmuje on wysok 1 dodatni
warto, jeli odpowiadajce sobie wyniki standaryzowane maj taki sam
znak i w przyblieniu tak sam warto dla obu zmiennych. Jeli osoby
znajdujce si powyej przecitnej w zakresie jednej zmiennej znajduj
si poniej przecitnej w zakresie drugiej, iloczyny bd ujemne. Jeli
suma tych iloczynw jest ujemna, korelacja bdzie ujemna. Jeli niektre Iloczyny s dodatnie, a niektre ujemne, to korelacja bdzie bliska
zera.

Rzetelno

127

W praktyce nic trzeba przed obliczeniem iloczynw zamienia kadego


wyniku surowego na wynik standaryzowany, poniewa konwersj
wystarczy zrobi tylko raz. po dodaniu iloczynw. Istnieje wiele skrconych sposobw obliczania wspczynnika korelacji Pearsona. Metoda
przedstawiona w tabeli 4-1 nie Jest najszybsza, ale lepiej iluslruje
znaczenie wspczynnika korelacji ni inne sposoby, wykorzystujce
skrcone rachunki W tabeli 4-1 przedstawiony Jest sposb obliczania r
Pearsona midzy wynikami w matematyce i w czytaniu dla 10 dzieci.
Obok imienia kadego dziccka znajduje si jego wynik w tecie matematycznym (X) i w tecie czytania (V). Sumy I rednie dla 10 wynikw
podano na dole odpowiednich kolumn. W trzeciej kolumnie podano
odchylenie M kadego wyniku z matematyki od redniej dla testu z
matematyki: w czwartej kolumnie znajduje si odchylenie (y) kadego
wyniku w tecie czytania od redniej dla testu czytania. W nastpnych
dwu kolumnach odchylenia te podniesiono do kwadratu, a sumy
kwadratw wykorzystano do obliczenia odchyle standardowych dla
wynikw z matematyki i z czytania, metod opisan w rozdziale 3. Aby
uzyska wyniki standaryzowane, nie dzielimy kadego x i y przez
odpowiednie odchylenie standardowe, lecz wykonujemy to dzielenie tylko
raz, na samym kocu, co wida we wzorze przedstawionym w Tabeli
4-1. Iloczyny znajdujce si w ostatniej kolumnie (xy) otrzymujemy
mnoc odpowiadajce sobie odchylenia w kolumnach oznaczonych x i
y. Aby obliczy wspczynnik korelacji (r). naley teraz podzieli sum
tych Iloczynw przez liczb przypadkw (IV) i przez iloczyn dwch
odchyle standardowych (SDxSDy).
Istotno statystyczna.
Wspczynnik korelacji rwny 0.40, przedstawiony w tabeli 4-1, wskazuje na dodatni, umiarkowanie siln zaleno
midzy wynikami w matematyce i w czytaniu. Dzieci uzyskujce dobre
wyniki w matematyce uzyskuj dobre wyniki take w czytaniu i odwrotnie, cho zwizek ten nie jest zbyt silny. Jeeli interesuje nas tylko ta
dziesitka dzieci, moemy zaakceptowa otrzyman korelacj i uzna, e
adekwatnie opisuje stopie zalenoci istniejcy w tej grupie midzy
dwiema analizowanymi zmiennymi. Jednak w badaniach psychologicznych zazwyczaj jestemy zainteresowani moliwoci dokonania
uoglnienia z danej prby osb badanych na szersz populacj, ktr
osoby te reprezentuj. Na przykad moemy chcie dowiedzie si. czy
zdolnoci matematyczne i zdolnoci do czytania koreluj ze sob wrd
amerykaskich uczniw w takim samym wieku, jak wrd uczniw,
ktrych badalimy. Oczywicie grupa zoona z 10 osb stanowiaby
dalece nieadekwatn prb z takiej populacji. Dla Innej prby o takiej
samej liczebnoci moglibymy uzyska o wiele nisz lub o wiele wysz
korelacj.

128

ZAGADNIENIA PSYCHOMETTRYCZNE

Obliczanie

wspczynnika

korelacji

wedug

momentu

iloczynowego Pearsona

Ucze
BlU
Carol
Geoffrey
Ann
Bob
Jane
Ellen
Ruth
Dick
Mary
M

Matematyka

Czytanie

41
38
48
32
34
36
41
43
47
40

17
28
22
16
18
15
24
20
23
27

400

210

40

v-*>

y*

*y
-4
-14
8
40
18
24
3
-3
14
0
86

+1
-2
+8
-8
-6
-4
+1
+3
+7
0

-4
+7
+1
-5
-3
-6
+3
-1
+2
+6

1
4
64
64
36
16
1
9
49
O

16
49
1
25
9
36
9
1
4
36

244

186

21

244
10

= V 24.40 = 4.94

lxv
(N)(SDJ(SDsJ

86
(101(4.941(4.31)

18.60 = 4.31
86
212.91

= 0.40

Istniej procedury statystyczne pozwalajce szacowa prawdopodobne


wahania w wielkoci korelacji, rednich, odchyle standardowych i
innych miar grupowych wystpujce w zalenoci od badanej prby.
Jeli chodzi o korclacjc, to pytanie, jakie zazwyczaj si stawia, dotyczy po
prostu tego. czy korelacja jest istotnie wiksza od zera. Mwic innymi
sowy, jeli w populacji korelacja wynosi zero. lo czy korelacja takiej
wielkoci, jak otrzymana w naszej prbie, moe wynika jedynie z bdu
prby? Gdy mwimy, e korelacja jest istotna na poziomie 1% (0.01)".
oznacza to, e szansa, i w populacji korelacja jest rwna zero. wynosi
me wicej ni 1 do 100. Wnioskujemy zatem, e le dwie zmienne s
naprawd skorelowane. Poziom istotnoci dotyczy ryzyka popenienia
bdu, jakie jestemy skonni ponie, wycigajc wnioski z naszych
danych. Jeli o korelacji mwi si, e jest istotna na poziomie 0,05,
prawdopodobiestwo bdu wynosi 5 na 100. W wikszoci bada
psychologicznych stosuje si poziom 0,01 albo 0,05, cho w szczeglnych
przypadkach mog by wykorzystywane inne poziomy istotnoci.
Korelacja 0,40 przedstawiona w labcli 4-1 nie osiga istotnoci
statystycznej, nawet na poziomie 0,05. Mona si byo spodziewa, e

Rzetelno

129

majc tylko 10 przypadkw trudno bdz?e w sposb rozstrzygajcy


okreli ogln zaleno. Przy tej wielkoci prby najnisza korelacja
Istotna na poziomie 0,05 wynosi 0.63. Jakakolwiek korelacja nisza od
lej wartoci po prostu pozostawia bez odpowiedzi pytanie o to. czy dwie
zmienne s skorelowane w populacji, z ktrej zostaa pobrana prba.
Minimalne korelacje Istotne na poziomie 0.01 I 0.05 dla grup o rnej
wielkoci mona odczyta z tablic krytycznych wartoci r. znajdujcych
si w kadym podrczniku do statystyki. Dla celw naszych rozwaa
potizebne Jest tylko zrozumienie oglnej idei korelacji.
Od wielu la1, tradycyjnym sposobem oceny korelacji jest odwoywanie
si do poziomu istotnoci. Jednak obecnie coraz bardziej oczywiste staj
si mankamenty i nieodpowiednio takiego sposobu postpowania.
Wykazanie, e wspczynnik rzetelnoci (czy jakiejkolwiek korelacji) jest
istotnie wikszy od zera, w niewielkim tylko stopniu poszerza nasz
wiedz, tak teoretyczn, jak i praktyczn. Nawet wysokie korelacje, gdy
s uzyskane w badaniu malej prby, nie speniaj warunkw testu
Istotnoci". Coraz wiksze znaczenie zyskuje obecnie inne podejcie,
zgodnie z ktrym bierze si pod uwag rzeczywist wielko otrzymanej
korelacji i szacuje przedzia ufnoci. w obrbie ktrego, przy okrelonym
poziomie ufnoci, znajdzie si korelacja dla populacji (patrz np.: Carver.
1903: J- Cohen, 1904; Hunter i Schmidt, 1990: Olkin i Finn. 1995:
Schmidt. 1996: W.W.Tryon, 1996). Ta tendencja do posugiwania si
przedziaami ufnoci, obok (o ile nie zamiast) oceny poziomu istotnoci,
zapowiada wan zmian w nadchodzcych latach w sposobie analizy
wspczynnikw korelacji.
Wspczynnik rzetelnoci. Wspczynniki korelacji maj wiele zastosowa w analizie danych psychomelrycznych. Jednym z takich zastosowa jest szacowanie rzetelnoci testu. Na rysunku 4-3 podano
przykad obliczania wspczynnika rzetelnoci metod momentu
iloczynowego Pearsona. Korelowano wyniki 104 osb badanych dwoma
rwnolegymi wersjami testu Pynnoci Sownej2. W jednej wersji osoby
badane miay przez 5 minut napisa jak najwicej sw zaczynajcych si
na podan liter. Druga wersja bya analogiczna, z tym e sowa miay
zaczyna si na inn liter. Litery, ktre zostay wybrane przez autorw
testu, reprezentoway w tym zadaniu podobny stopie trudnoci.
Stwierdzono, e korelacja midzy liczb sw napisanych w pierwszej i
w drugiej wersji tego testu wynosi 0,72. Jest to korelacja wysoka i istotna na poziomie 0,01. Dla 104 przypadkw Istotna na tym poziomie jest
ju korelacja rwna 0,25 lub wysza. Niemniej jednak uzyskana kore2

Jest to jeden z podtestw Testw Podstawowych Zdolnoci Umysowych dla

Osb w Wieku

IJ

- 17 lat (Tests oj Primary Mental Abililies for Ages

11

to

17)

wydanych przez SRA. Dane zostay uzyskane w badaniu przeprowadzonym przez


Anastasi 1 Drake'a (1954).

128

ZAGADNIENIA

PSYCHOMETTRYCZNE

75-79
70-74

65-69
60-64

55-59

li

ii

50-54

ii

45-49

m
i

ii

nn

III

iii

ii

35-39
30-34

25-29
20-24

15-19

ii
ii

UH

im

m
m
i

m
nu

ii

iii

40-44
III

ii

ii

ii

iii

1
i
-

O
J
Wynik w Wersji 1

Tesl Pynnoci Sownej

Rysunek 4-3. Wspczynnik rzetelnoci 0,72.


IDane z. Anastasi i Drak, 1954)
lacja jest nieco nisza ni oczekuje si od wspczynnikw rzetelnoci,
ktre zazwyczaj zawieraj si midzy 0.80 a 0.90. Analiza wykresu
rozrzutu na rysunku 4-3 ujawnia typowy dwuzmiennowy rozkad
wynikw odpowiadajcy wysokiej dodatniej korelacji. Naley zauway,
e wizka kresek bliska przektnej rozciga si od dolnego lewego do
grnego prawego rogu, wida wyrany trend w tym kierunku, cho jest
te pewna liczba przypadkw odbiegajcych od wspomnianej przektnej.
W nastpnej czci rozdziau zostanie omwione zastosowanie
wspczynnikw korelacji do obliczania rnych miar rzetelnoci testu.

Rzetelno

131

ROOZAJE RZETELNOCI
Rzetelno szacowana metod powtarzania testu.
Najbardziej oczywista metoda okrelania rzetelnoci wynikw testowych polega na
powtrzeniu badania danym testem. W takim przypadku wspczynnikiem rzetelnoci (r u ) jest po prostu korelacja midzy wynikami otrzymanymi przez te same osoby w dwukrotnym badaniu testem. Wariancja
bdu odpowiada przypadkowym wahaniom wynikw wystpujcym z
Jednego badania na drugie. Zmienno ta czciowo moe wynika
z niekontrolowanych warunkw badania, takich jak gwatowne zmiany
pogody, nage haasy i inne dystraklory. czy te zamany owek.
W pewnym zakresie wynika ona jednak ze zmian w formie samego
badanego, ktre mog by spowodowane chorob, zmczeniem, napiciem emocjonalnym, kopotami, ostatnimi przyjemnymi lub przykrymi
przeyciami itp. Rzetelno szacowana metod powtarzania testu mwi
nam. w jakim zakresie wyniki testowe mona uoglnia na rne sytuacje; im wysza rzetelno, tym wyniki s mniej podatne na przypadkowe, zachodzce z dnia na dzie zmiany w kondycji osb badanych lub
zmiany warunkw badania.
Jeeli w podrczniku testowym podawana jest rzetelno szacowana
na podstawie powtarzania badania, to zawsze powinien by okrelony
odstp czasu, w jakim dokonywano pomiarw. W miar wyduania tego
przedziau korelacje midzy wynikami obu bada stopniowo malej i
dlatego kady test ma nie jeden, lecz nieskoczenie wiele takich
wspczynnikw. Podane jest take, aby w podrczniku byy podane
informacje na temat osb. ktrych wyniki byy podstaw szacowania
rzetelnoci; chodzi tu o dowiadczenia zwizane z ksztaceniem, prac
zawodow, psychoterapi itd.
Wiadomo, e naley podawa informacj o tym. ile czasu upyno
midzy pierwszym i drugim badaniem, ale jakie wzgldy powinny
kierowa wyborem tego przedziau? Z atwoci mona przytoczy
przykady testw charakteryzujcych si wysok rzetelnoci dla okresu
kilku dni luh tygodni, ktrych wyniki ujawniaj jednak niemal cakowity
brak zgodnoci, gdy odstp czasu midzy badaniami uega wydueniu
do dziesiciu czy pitnastu lat. Na przykad wiele testw inteligencji
przeznaczonych dla dzieci w wieku przedszkolnym wykazuje umiarkowan stao pomiaru w obrbie wieku przedszkolnego, ale s one
zupenie bezuyteczne przy przewidywaniu ilorazw inteligencji w okresie pnego dziecistwa lub w wieku dorosym. W praktyce mona jednak zazwyczaj uczyni prosie rozrnienie. Do wariancji bdu wyniku
testowego wcza si zazwyczaj krtkotrwae, losowe wahania, ktre
pojawiaj si na przestrzeni kilku godzin do kilku miesicy. Sprawdzajc
ten rodzaj rzetelnoci testu, dokada si wic stara, aby przedzia czasu
by krtki. W badaniach maych dzieci ten przedzia powinien by nawet

132

ZACADNIEN1A PSYCHOMETOYCZNE

krtszy ni w badaniach osb dorosych, poniewa w modszym wieku


zmiany rozwojowe s dostrzegalne na przestrzeni miesica, a nawet w
krtszym okresie. Odstp midzy pierwszym i drugim badaniem z rzadka tylko powinien by duszy ni sze miesicy I to bez wzgldu na
rodzaj badanej grupy.
Wszelkie pozostae zmiany we wzgldnym poziomie wykonania lestu.
ktre pojawiaj si w duszych okresach czasu, maj raczej charakter
progresywny i kumulatywny, a nic cakowicie losowy. Co wicej, prawdopodobnie charakteryzuj one nie lylko zachowania objle badaniem
testowym, lecz szerszy ich zakres. W cigu dziesiciu lat oglny poziom
uzdolnie szkolnych, mylenia technicznego czy ocen artystycznych
danej jednostki moe ulec znaczcej zmianie w zwizku z jakimi
szczeglnymi dowiadczeniami, jakie byy jej udziaem. Pozycja danej
jednostki wzgldem rwienikw moe znaczco obniy si lub
wzrosn z powodu szczeglnych okolicznoci zwizanych 2 jej domem
rodzinnym, szkol, najbliszym ssiedztwem lub z innych przyczyn,
takich jak choroba czy zaburzenia emocjonalne.
Zakres, w jakim tego rodzaju czynniki mog wpywa na rozwj psychologiczny jednostki, stanowi wany problem badawczy. Nie naley go
jednak myli z kwesti rzetelnoci konkretnego testu. Gdy szacujemy
rzetelno metod powtarzania testu, na przykad Stanfordzkiej Skali
Bineta. to zazwyczaj ponowne badanie przeprowadzamy nie po dziesiciu
latach, ani nawet po roku. lecz po kilku tygodniach. Co prawda, dla
takich testw przeprowadzano drugie badanie i po tak dugim okresie,
ale zwykle chodzio wtedy o moliwo przewidywania inteligencji w
wieku dorosym na podstawie wynikw testu w dziecistwie, a nie o
rzetelno konkretnego lestu. Pojcie rzetelnoci dotyczy zwykle
krtkotrwaych, losowych zmian, charakteryzujcych lylko poziom wykonania lestu, a nie cay obszar zachowania, ktry jest przedmiotem badania testowego.
Naley te zwrci uwag, e same zachowania mog rni si midzy
sob pod wzgldem zakresu przejawianych fluktuacji. Pewno precyzyjnych ruchw palcw jest bez wtpienia bardziej pedatna na
niewielkie zmiany w stanie danej osoby ni. na przykad, rozumienie
werbalne. Jeli chcemy uzyska ogln ocen przecitnej pewnoci
ruchw palcw, lo prawdopodobnie bdziemy musieli powtarza badanie
przez kilka dni, podczas gdy do oceny poziomu rozumienia werbalnego
wystarczy jedno posiedzenie. I znw okazuje si. jak wana jest analiza
przeznaczenia testu 1 gruntowne zrozumienie zachowania, ktre ma on
przewidywa.
Technika szacowania rzetelnoci na podstawie powtarzania testu jest
pozornie jasna i prosta, jednak jej zastosowanie w stosunku do wik
szci lesiw psychologicznych rodzi pewne problemy. wiczenie prawdopodobnie w rnym stopniu wpywa na popraw wynikw poszczegl-

Rzetelno

133

nych osb Poza lym Jeli przerwa midzy badaniami Jest stosunkowo
krLka. osoby badane mog przypomnie sobie wiele swych poprzednich
odpowiedzi. Innymi sowy, len sam schemat dobrych i zych odpowiedzi
moe powtrzy si po proslu dlatego, e odpowiedzi te zoslay zapamitane. Wyniki obu badan nie s wic uzyskane niezalenie, a wysoka
korelacja midzy nimi bdzie artefaktem. Wraz z kolejnymi badaniami
zmianom moe ulega take Istota samego testu. Jest to szczeglnie
wyrane w przypadku zada dotyczcych rozumowania lub pomysowoci. Jeli osoba badana odgada zasad, na ktrej oparte jest zadanie, lub
dosza do rozwizania problemu to w przyszoci moe udziela prawidowych odpowiedzi bez przechodzenia przez kolejne etapy
rozwizania. Omawiana technika szacowania rzetelnoci nadaje si wic
tylko do takich testw, ktrych powtarzanie nie wpywa w sposb
znaczcy na wyniki Do lej kategorii mona zaliczy sporo testw motorycznych oraz testw rnicowania sensorycznego. Jednak w przypadku
wikszoci testw psychologicznych powtrne badanie identycznym
testem nie jest odpowiedni metod uzyskiwania wspczynnika rzetelnoci.

Jednym ze
sposobw uniknicia trudnoci napotykanych przy okrelaniu rzetelnoci metod powtarzania testu jest zastosowanie jego alternatywnych wersji. Te same osoby mog by najpierw badane jedn wersj testu, a
nastpnie wersj rwnowan. Korelacja midzy wynikami uzyskanymi
w badaniu tymi dwoma wersjami jest wspczynnikiem rzetelnoci testu.
Taki wspczynnik rzetelnoci jest miar zarwno staoci czasowej, jak
i spjnoci odpowiedzi na rne zbiory zada (lub spjnoci wersji testu).
Wspczynnik ten czy wic w sobie dwa rodzaje rzetelnoci. W wikszoci przypadkw wane s oba te rodzaje, a zatem rzetelno szacowana metod wersji alternatywnych stanowi uyteczn miar do oceny
wielu testw.
Dla rzetelnoci szacowanej za pomoc wersji alternatywnych, ale lake
dla innych jej rodzajw, ktre zostan lu przedstawione, kluczowe
znaczenie ma pojcie prbki zada, czyli doboru treci Kwesti t trzeba
wic przeanalizowa bardziej szczegowo. Wielu studentom prawdopodobnie zdarzyo si przey mile dowiadczenie w trakcie zdawania
egzaminu, kiedy to okazao si, e wikszo pyta dotyczy tych wanie
zagadnie, ktrych nauczyli si najlepiej. Ale z drugiej strony, pewnie
maj te oni za sob inne dowiadczenie, gdy wiele byo pyta z tych
dziedzin, ktrych akurat nie nauczyli si. Ta znana sytuacja ilustruje
wariancj bdu wynikajc z doboru treci. W jakim stopniu wyniki w
tym tecie zale od czynnikw specyficznych, dla tego konkretnego
zestawu pozycji? Gdyby inny badacz, pracujcy niezalenie, mial opra-

134

ZAGADNIENIA PSYCHOMETTRYCZNE

cowa inny tesl, ale zgodnie z tynii samymi zaoeniami, to w Jakim stopniu wyniki jednostki w tych dwch teslach rniyby si?
Zamy, e skonstruowano lesl sownikowy, ktry ma mierzy rozumienie werbalne i skada si z 40 zada. Przypumy teraz, e w tym
samym celu stworzono drug list zawierajc 40 slow, ktre wybrano w
taki sposb, by powslay tesl reprezentowa ten sam stopie trudnoci,
co tesl pierwszy. Rnice w wynikach uzyskiwanych przez te same osoby
w tych dwch teslach stanowi ilustracj rozwaanego rodzaju wariancji
bdu. Z powodu przypadkowych czynnikw zwizanych z minionym
dowiadczeniem rnych osb wzgldna trudno tych dwu lisi sw
moe by nieco inna dla poszczeglnych jednostek. A wic pierwsza lista
moe zawiera wicej sw nieznanych osobie A. niz lista druga. Z drugiej
strony, druga lista moe zawiera nieproporcjonalnie duo sw nieznanych osobie B. Jeeli te dwie osoby maj w przyblieniu podobny
zasb sw (Izn. podobne s ich wyniki prawdziwe"), lo mimo lo osoba
B uzyska lepszy wynik ni osoba A w tecie pierwszym, za osoba A lepszy wynik ni osoba B w tecie drugim. Wzgldne pozycje tych dwch
osb w dwch testach bd wic odwrotne z powodu przypadkowych
rnic w doborze pozycji.
Podobnie jak w przypadku rzetelnoci badanej metod powtarzania
testu, prezentujc rzetelno okrelan za pomoc wersji alternatywnych, naley zawsze poda dugo przerwy midzy badaniami. Jak
rwnie opisa istotne czynniki, klre mogy wpyn na wyniki. Jeli
dwie wersje testu s stosowane bezporednio jedna po drugiej, to otrzymana korelacja informuje lylko o rzetelnoci wersji, a nie kolejnych
bada. W takim przypadku wariancja bdu odzwierciedla wahania
wynikw zwizane z tym, czy wykonywany by jeden, czy drugi zbir
zada, a nie wahania zwizane z upywem czasu.
Opracowujc wersje alternatywne naley oczywicie zadba o to, by
byy one naprawd rwnolege. Zasadniczo wersje rwnolegle testu
powinny by niezalenie skonstruowanymi testami speniajcymi te
same zaoenia teoretyczne i konstrukcyjne. Testy takie powinny zawiera tak sam liczb pozycji, a pozycje powinny mie Lak sam form i
zawiera te same rodzaje Ircci. Jednakowy powinien by te zakres
i stopie trudnoci pozycji. Kontrola rwnowanoci musi te dotyczy
instrukcji, limitw czasu, przykadw, formatu i wszystkich innych
aspektw testu.
Naley doda, e rwnolegle wersje testu s podane take i z innych
powodw ni lylko potrzeba okrelania rzetelnoci testu Wersje alternatywne s uyteczne w badaniach podunych lub w badaniach wpywu
pewnych czynnikw eksperymentalnych na poziom wykonania lesiu
Stosowanie wersji alternatywnych jest le sposobem na ograniczenie
moliwoci cigania lub podpowiadania.

Rzetelno

135

Metod wersji alternatywnych daje si zastosowa o wiele czciej ni


metod powtarzania testu, i ona Jednak ma pewne ograniczenia. Przede
wszystkim. Jeli interesujce nas zachowanie jest podatne na wpyw
wiczenia, lo zastosowanie wersji alternatywnych zmniejszy, ale nie wyeliminuje lego wpywu. To prawda, e jeli wszystkie osoby wykonujce
lesl w takim samym stopniu poprawi swe rezultaty przy powtrnym
badaniu, to korelacja midzy ich wynikami pozostanie niezmieniona,
poniewa dodanie pewnej staej do kadego wyniku nie zmieni
wspczynnika. Jednak bardziej prawdopodobne jest to, e poszczeglne
jednostki bd rni si pod wzgldem stopnia poprawy wyniku - z
powodu odmiennoci wczeniejszych dowiadcze z podobnym materiaem, rnej motywacji do wykonywania testu i innych przyczyn.
W takich okolicznociach wiczenie stanowi Jeszcze jedno rdo wariancji. ktra bdzie wpywa na obnienie korelacji midzy dwoma wersjami testu. Jeli wpyw wiczenia jest niewielki, obnienie bdzie nieistotne.
Inny problem, ktry wie si z omawianym zagadnieniem, dotyczy
tego, w jakim stopniu powtrne badanie zmienia istot testu. Na
przykad majc do czynienia z pewnymi zadaniami wymagajcymi
pomysowoci, wikszo osb znajdujcych rozwizanie w jednym z
nich z atwoci rozwizuje potem wszystkie pozostae oparte na tej
samej zasadzie. W takim przypadku zmiana konkretnej Ireci zada w
drugiej wersji nie w/ystarczy, by wyeliminowa to przeniesienie z pierwszej wersji. 1 w kocu trzeba te doda, e wiele testw nie ma form
alternatywnych, poniewa w praktyce okazuje si, e bardzo trudno jest
skonstruowa prawdziwie rwnowane wersje. Wszystkie te przyczyny
sprawiaj, e czsto konieczne jest stosowanie innych technik szacowania rzetelnoci testu

Rzetelno szacowana metod powkow.

Jedno badanie jedn

wersj testu umoliwia oszacowanie rzetelnoci metodami polegajcymi


na porwnywaniu powek lestu. Test dzieli si na dwie rwnowane
poowy i w ten sposb kada osoba otrzymuje dwa wyniki. Rzetelno
szacowana metod powkow jest oczywicie miar spjnoci dotyczc
doboru treci. Stao czasowa wynikw nie jest elementem tego rodzaju rzetelnoci, albowiem badanie odbywa si tylko raz. Ten typ
wspczynnika rzetelnoci bywa czasem nazywany wspczynnikiem
zgodnoci wewntrznej, poniewa wymagane jest tu tylko jedno badanie
jedn wersj testu.
Pierwszy problem, jaki pojawia si przy okrelaniu rzetelnoci metod
powkow dotyczy tego, jak podzieli test. aby uzyska moliwie
najbardziej rwnowane powki. Kady test mona dzieli na wiele
rnych sposobw. W przypadku wikszoci testw poowa pierwsza i
druga wcale nie s rwnowane, z powodu rnic w charakterze zada

136

ZAGADNIENIA PSYCHOMETTRYCZNE

i stopniu ich trudnoci. Jak rwnie zc wzgldu na kumulujcy si wpyw


rozgrzewki, wiczenia, zmczenia, znudzenia i wielu innych czynnikw,
ktre inaczej oddziauj na pocztku i na kocu testu. Najczciej
odpowiedni jest taki sposb podziau, ktry polega na okreleniu
wynikw uzyskanych w zadaniach parzystych 1 nieparzystych. Jeli
zadania byy pocztkowo uporzdkowane wedle stopnia trudnoci, to
taki podzia daje niemal cakowicie rwnowane wyniki powkowe. Przy
dokonywaniu podziau na parzyste-nieparzyste naley zachowa pewn
ostrono w przypadku grup zada dotyczcych jednego problemu,
takich jak pytania odnoszce si do okrelonego wykresu technicznego
czy danego fragmentu tekstu w tecie czytania. W lakim przypadku cala
grupa zwizanych ze sob pyta powinna zosta zaliczona do jednej lub
drugiej polowy. Gdyby pytania z takiej grupy zostay przydzielone do
rnych powek lestu, to podobiestwo wynikw powkowych byoby
sztucznie zawyone, poniewa pojedynczy bd w zrozumieniu problemu
mgby wpyn na wyniki w obu powkach3.
Gdy dla kadej osoby mamy ju dwa wyniki powkowe, to moemy
zwyk metod obliczy korelacj midzy nimi. Naley jednak zauway,
e taka korelacja w rzeczywistoci dostarcza nam oszacowania rzetelnoci tylko polowy testu. Na przykad jeli cay lesl skada si zc 100
zada, to korelacja obliczana jest dla dwch zbiorw wynikw, z ktrych
kady pochodzi tylko z bU zada. Natomiast gdy szacujemy rzetelno
metod powtarzania testu i metod wersji alternatywnych, wynik w tecie odzwierciedla poprawno rozwizania wszyslkich zada.
Przy zaoeniu, e pozostae warunki s takie same, im duszy lesl,
tym bardziej rzetelny4. Uzasadnione jest bowiem oczekiwanie, e dysponujc wiksz prbk zachowania uzyskamy bardziej adekwatn i
spjn miar. Wpyw wyduania lub skracania lestu na wspczynnik
zgodnoci mona oszacowa, korzystajc z podanego niej wzoru
Spearmana- Browna;
nr

1+fn - 1) r
fi dzie rnn ) e s t szacowanym wspczynnikiem. r jest wspczynnikiem
otrzymanym, a n okrela, ilokrotnie tesl jest wyduony lub skrcony.
A zatem jeli liczba zada w tecie wzrosa z 25 do 100, to n wynosi 4;
jeli zmniejszya si z 60 do 30. n wynosi 1/2. Wzr Spcarmana-Browna
jest szeroko stosowany do okrelania rzetelnoci metod powkow: w
Dysponujemy ju odpowiednimi danymi empirycznymi potwierdzajcymi le
oczekiwania powstay le znaczce prace badawcze na temal statystycznej
obrbki takich zintegrowanych grup zada (Sirecl. Thissen i Wainer. 1991),
3

Oczywicie wyduanie lestu prowadzi tylko do zwikszenia sajnocl dotyczcej dobom treci, a nie staoci czasowej (patrz. Cureton. 1965;'Cureton 1 in .
4

Rzetelno

137

wielu podrcznikach testowych rzetelno podawana Jest wanie w


takiej postaci. Jeeli stosujemy len wzr do szacowania rzetelnoci, to
zawsze mamy do czynienia z podwojeniem dugoci. W takiej sytuacji
wzr mona uproci jak nastpuje:
2 Oih
r"

= ~,

1+r hh

gdzie r Wl oznacza korelacj powek testu.


Alternatywny sposb szacowania rzetelnoci metod powkow opracowa Rulon (1939). Naley tu Jedynie okreli wariancj rnic midzy
wynikami poszczeglnych osb w dwch powkach testu (SD 2 d ) i wariancj wynikw oglnych (SD 2 J: te dwie wartoci podstawia si do
nastpujcego wzoru, ktry pozwala na bezporednie oszacowanie rzetelnoci caego testu;
SD/

ru -l

SD/

Warto zwrci uwag na zwizek tego wzoru z definicj wariancji bdu.


Kada rnica midzy wynikami uzyskanymi przez osob badan w
dwch powkach testu stanowi niezamierzon wariancj, czyli mwic
inaczej - wariancj bdu. Wariancja tych rnic podzielona przez wariancj wynikw oglnych informuje nas, jaki jest udzia wariancji bdu
w wynikach. Odejmujc wariancj bdu od 1,00 otrzymujemy proporcj
prawdziwej" wariancji dla okrelonego zastosowania testu i jest to
wspczynnik rzetelnoci.
Rzetelno szacowana metod Kudera-Rlchardsona i wspczynnik
alfa. Czwarta metoda okrelania rzetelnoci, w ktrej take wykorzystywane s wyniki jednorazowego badania jedn wersj lestu, Jest
oparta na zgodnoci odpowiedzi na wszystkie pytania w tecie. Na t
zgodno midzy pozycjami wpywa wariancja bdu pochodzca z dwch
rde: (1) doboru treci ()ak to ma miejsce w przypadku metody wersji
alternatywnych i metody powkowej) oraz (2) heterogentcznoci
badanego obszaru zachowania. Im bardziej jednorodna jest badana
prbka zachowania, tym wiksza Jest zgodno midzy zadaniami. Na
przykad, jeli w jednym tecie s wycznie zadania wymagajce
mnoenia, a w innym zadania na dodawanie, odejmowanie, mnoenie I
dzielenie, to w pierwszym z nich zgodno midzy zadaniami bdzie
prawdopodobnie wysza ni w drugim. W tecie drugim, bardziej heterogenicznym, jedna osoba moe lepiej wypada w dodawaniu ni w innych
operacjach matematycznych; inna moe uzyskiwa wzgldnie dobre
wyniki w zadaniach na dzielenie, a sabsze - w dodawaniu, odejmowaniu

138

ZAGADNIENIA PSYCHOMETRYCZNF.

i mnoeniu; i tak dalej. Jeszcze bardziej skrajnym przykadem bdzie


zestawienie testu skadajcego si z 40 zada sownikowych z innym
testem skadajcym si z 10 zada sownikowych. 10 badajcych uzdolnienia przestrzenne. 10 badajcych rozumowanie arytmetyczne I 10
badajcych szybko spostrzegania. W tym drugim tecie moe nic by
adnego zwizku midzy poziomem wykonania przez jednostk rnych
typw zada (lub moe on by bardzo slaby).
Jest rzecz oczywist, e wyniki testowe s bardziej jednoznaczne, jeli
pochodz ze wzgldnie jednorodnego testu. Przypumy, c wc wspomnianym wyej, wysoce heterogenicznym tecie skadajcym si z 40
zada pan Smith i pan Jones otrzymali wyniki rwne 20. Czy moemy
wnioskowa, e osignicia obu panw w lym tecie byy jednakowe?
Absolutnie nie. Pan Smith mg poprawnie rozwiza 10 zada sownikowych, 10 zada badajcych szybko percepcji oraz adnego zadania
badajcego rozumowanie arytmetyczne i adnego zadania badajcego
uzdolnienia przestrzenne. W przeciwiestwie do niego pan Jones mg
osign wynik rwny 20 dziki poprawnemu rozwizaniu 5 zada
badajcych szybko percepcji. 5 zada badajcych uzdolnienia
przestrzenne oraz 10 zada badajcych rozumowanie arytmetyczne i nie
rozwiza adnego zadania sownikowego.
Ten sam wynik oglny rwny 20 mona osign dziki wielu innym
kombinacjom. Bdzie on mial rne znaczenie zalenie od tego, dziki
jakiej kombinacji wykonanych zada zosta osignity. Z drugiej za
strony, we wzgldnie jednorodnym tecie sownikowym wynik rwmy 20
bdzie prawdopodobnie oznacza, c osoba badana rozwizaa poprawnie
mniej wicej picrwszych 20 zada, jeli s one uporzdkowane wedug
rosncej trudnoci. Moga ona ponie porak w dwch czy trzech
atwiejszych zadaniach i poprawnie rozwiza dwa lub Irzy trudniejsze
zadania, wykraczajce poza pierwsz dwudziestk, ale takie indywidualne wahania s nieznaczne w porwnaniu z tymi, ktre moemy spotka
w bardziej heterogenicznym tecie.
W zwizku z tym niezwykle istotny jest problem, czy kryterium, ktre
ma przewidywa lest, samo w sobie jest wzgldnie jednorodne, czy heterogeniczne. Cho preferowane s lesty jednorodne, poniewa ich wyniki
pozwalaj na do jednoznaczn interpretacj, to jednak pojedynczy jednorodny tesl nie pozwala oczywicie na adekwatne przewidywanie
wysoce heterogenicznego kryterium. Co wicej, przy przewidywaniu heterogenicznego kryterium rnorodno zada testowych niekoniecznie
bdzie rdem wariancji bdu. Tradycyjne lesly inteligencji stanowi
dobry przykad heterogenicznych testw przeznaczonych do przewidywania heterogenicznych kryteriw. Jednak i w takim przypadku moe by
rzecz podan skonstruowanie kilku wzgldnie jednorodnych testw, z
ktrych kady mierzy inny element heterogenicznego kryterium.

Rzetelno

137

Moliwo jednoznacznej Interpretacji wynikw testowych powinna


czy si z uwzgldnianiem calcj ztoonocl kryterium.
Najpowszechniejszym sposobem okrelania zgodnoci midzy zadaniami Jest metoda opracowana przez Kudera 1 Richardsona (1937)
Podobnie Jak w przypadku metody powkowej, zgodno midzy zadaniami okrela si na podstawie Jednorazowego badania Jednym testem.
Inaczej jednak ni tam. metoda ta opiera si na analizie sposobu
rozwizania kadego zadania, a nie na porwnaniu wynikw
powkowych. Spord rnych wzorw wyprowadzonych w oryginalnym
artykule, najszerzej stosowany jest ten powszechnie znany jako KuderaRichardsona wzr 20":
r =

n
n- 1

SD,2 - Zpq
SD,2

gdzie r (( to wspczynnik rzetelnoci caego testu, n - liczba zada w tecie, a SD, - odchylenie standardowe wynikw oglnych w tecie. Jedyny
nowy element w lym wzorze, Ipq. okrela si przez zestawienie proporcji
osb, ktre odpowiedziay zgodnie z kluczem (p) i niezgodnie z kluczem
(q) w danym zadaniu. Iloczyn p i q oblicza si dla kadego zadania,
nastpnie dodaje si iloczyny dla wszystkich zada i w ten sposb otrzymuje si Xpg. W procesie konstruowania testu z reguy rejestruje si p
po to. by okreli stopie trudnoci kadego zadania, wic ta metoda szacowania rzetelnoci wymaga niewielu dodatkowych oblicze.
Mona dowie matematycznie, e wspczynnik rzetelnoci KuderaRichardsona jest faktycznie redni ze wszystkich wspczynnikw zgodnoci powkowej obliczonych dla rnych podziaw testu (Cronbach.
1951)5. Natomiast zwyky wspczynnik korelacji midzy powkami
oparty jest na takim podziale, ktry w zamierzeniu ma doprowadzi do
uzyskania rwnowanych zbiorw zada. Jeli wic zadania testowe nie
s wysoce jednorodne, to wspczynnik Kudera-Richardsona bdzie
niszy ni wspczynnik rzetelnoci powkowej. Do wyjanienia tej
rnicy posuy nam skrajny przykad. Przypumy, e konstruujemy
skadajcy si z 50 pozycji test. w ktrym mamy a 25 rnych rodzajw
zada: zadania 1 i 2 badaj sownik, 3 i 4 - rozumowanie arytmetyczne.
5 i 6 - orientacj przestrzenn, i tak dalej. W takim tecie wyniki dla
pozycji parzystych i nieparzystych mogyby teoretycznie by bardzo
zblione, dajc tym samym wysoki wspczynnik rzetelnoci szacowany
metod powkow. Jednorodno takiego testu byaby jednak bardzo
niska z powodu niewielkiej zgodnoci poziomu wykonania w obrbie
cilej mwic, jesl tak tylko wtedy, gdy wsplczyuniKi rzeieinusii puiuwiumt-j
s obliczane wedug wzoru Rulona (opartego na wariancji rnic midzy wynika
mi dwch powek), a nie wtedy, gdy okrela si je korelujc wyniki powek
wedug wzoru Spearmana-Browna (Nov1ck I Lewis. 1967).
5

140

ZAGADNIENIA PSYCHOMETTRYCZNE

caego zbioru 50 zada. W tym przykadzie mona byoby oczekiwa, e


rzetelno obliczana wedug wzoru Kudera-Richardsona bdzie o wiele
nisza ni rzetelno szacowana metod powkow. Rnica midzy
tymi dwoma wspczynnikami moe suy Jako prosty wskanik heterogenicznoci testu.
Wzr Kudera-Richardsona mona stosowa dla takich testw, w
ktrych odpowiedzi s dobre albo ze lub w inny sposb oceniane wedug
systemu zero-jedynkowego. Bywaj Jednak testy, w ktrych jest kilka
moliwych kategorii odpowiedzi. Na przykad w inwentarzach osobowoci osoba badana moe uzyska rn liczb punktw w danym pytaniu,
zalenie od tego. czy wybiera odpowied .zwyke", czasami", rzadko",
czy nigdy". Dla takich testw zosta opracowany oglny wzr, znany jako
wspczynnik alfa (Cronbach, 1951: Kaiser i Michael. 1975: Novick i
Lewis. 1967). We wzorze tym warto Lp jest zastpiona przez Z (SD?),
sum wariancji wynikw poszczeglnych zada. Dla kadego zadania
naley obliczy wariancj wynikw wszystkich osb. a nastpnie doda
te wariancje dla wszystkich zada. Peny wzr na wspczynnik alfa
podany jest niej:
r =

n
ri - 1

SD,2 - X (SD,2)
SD 2

Rzetelno szacowana na podstawie zgodnoci ocen sdziw. Teraz


powinno ju by oczywiste, e w zalenoci od rodzaju rzetelnoci rne
czynniki traktowane s Jako rdo wariancji bdu. W jednym przypadku wariancja bdu obejmuje fluktuacje zwizane z upywem czasu; w
innym odnosi si do rnicy midzy zbiorami rwnolegych zada: a w
jeszcze innym bierze si z niespjnoci pozycji. Z drugiej strony,
wyczone z pomiaru wariancji bdu s czynniki, oglnie rzecz biorc,
dwojakiego rodzaju: (a) takie, ktrych wariancja powinna pozosta w
wynikach, poniewa czynniki te s czci prawdziwych rnic przez nas
rozwaanych; (b) czynniki nie majce zwizku z przedmiotem pomiaru,
ktre mona kontrolowa. Na przykad nie jest przyjte podawanie bdu
pomiaru wynikajcego z przeprowadzania badania w niesprzyjajcych
warunkach bd z duszym lub krtszym ograniczeniem czasu ni limit
okrelony w podrczniku. Bdy zwizane z czasem badania lub z
powanymi dystraklorami mona wyeliminowa z sytuacji badania
testowego. Nie jest wic konieczne podawanie specjalnych wspczynnikw rzetelnoci odpowiadajcych wariancji wynikajcej z zakce"
lub wariancji, ktrej rdem jest nieprzestrzeganie limitw czasu".
W przypadku wikszoci testw sposb przeprowadzania badania i
obliczania wynikw jest tak wystandaryzowany, e wariancja bdu,
ktr mona byoby przypisa tym czynnikom, Jest nieistotna. Dotyczy to

Rzetelno

141

zwaszcza lesiw przeznaczonych do bada grupowych oraz zaopatrzonych w komputerowy system obliczania wynikw. Dysponujc takimi
narzdziami musimy Jedynie upewni si. e przestrzegane s zalecane
procedury. Z drugiej strony, w przypadku metod klinicznych
stosowanych w badaniach indywidualnych oczywiste jest wystpowanie
znacznej wariancji zwizanej z osob badajcego. Specjalne plany
eksperymentalne umoliwiaj oddzielenie Jej od wariancji, ktr mona
przypisa zwizanym z upywem czasu wahaniom sianu osoby badanej
czy wykorzystaniu alternatywnych wersji testu.
Jednym zc rdel wariancji, ktre mona w miar prosto kontrolowa
jest wariancja zwizana z osob oceniajc odpowiedzi. Pewne typ)
testw - zwaszcza testy twrczoci i projekcyjne testy osobowoci pozostawiaj spor dowolno oceniajcemu. W przypadku takich testw
o wiele bardziej potrzebne jest oszacowanie zgodnoci ocen sdziw ni
inne, zazwyczaj stosowane, wspczynniki rzetelnoci. Zgodno ocen
sdziw mona okreli, jeli dysponujemy prbk arkuszy odpowiedzi
niezalenie ocenionych przez dwie osoby. Kady badany otrzymuje wic
dwa wyniki, ktre nastpnie koreluje si w zwyky sposb, a otrzymany
wspczynnik korelacji jest miar rzetelnoci. Ten rodzaj rzetelnoci
zazwyczaj szacuje si dla takich narzdzi, w ktrych ocena ma charakter
subiektywny. Informacje na ten temat powinny by podane w
podrczniku testowym.

Podsumowanie.
W tabelach 4-2 i 4-3 znajduj si zestawienia rnych
rodzajw wspczynnikw rzetelno: omwionych w tej czci rozdziau.
Przedstawiona w tabeli 4-2 klasyfikacja wspczynnikw rzetelnoci
uwzgldnia liczb bada i liczb wersji testu niezbdnych do oszacowania kadego z nich. W tabeli 4-3 dla kadego wspczynnika pokazane s
rda wariancji traktowanej jako wariancja bdu.
Kady wspczynnik rzetelnoci mona bezporednio interpretowa
jako procent wariancji wyniku, ktr mona przypisa rnym rdom.
A za lem wspczynnik rzetelnoci rwny 0,85 oznacza, c 85% zmiennoci wynikw testowych zaley od rzeczywistego zrnicowania w zakresie mierzonej cechy, a 15% od wariancji bdu (tak jak zosta on operacyjnie zdefiniowany). Statystycznie wyrobiony czytelnik moe przypomnie sobie, e proporcja wariancji wsplnej to kwadrat wspczynnika
korelacji. Istotnie, proporcja prawdziwej wariancji wynikw testowych to
kwadrat korelacji midzy wynikami badania jedn wersj testu a
wynikami prawdziwymi, wolnymi od bdw losowych. Korelacja ta,
znana jako wskanik rzetelnoci 6 , jest rwna pierwiastkowi kwadratowemu ze wspczynnika rzetelnoci (Vr). Wskanik rzetelnoci podniesiony
Pochodzenie wskanika rzetelnoci opane n;i dwot-n rozmvh zbiorach /.mi/m
przedstawia Gulllksen (1950. rozdz. 2 1 31.
6

142

ZAGADNIENIA PSYCHOMETRYCZNF.

Metody szacowania rzetelnoci


bada i liczby wersji testu

z uwzgldnieniem liczby

Wymagana liczba w e r s j i testu

Wymagana liczba bada

fedna

Dwie

Jedno

Powkowa
Kudcra-Rlchardsona

Wersje alternatywne
(badanie jedno
po drugimi

Dwa

Powtarzanie testu

Wersje alternatywne
(badania w pewnym
odstpie czasu)

do kwadratu daje pierwotny wspczynnik rzcielnoci lr1(), ktiy mona


bezporednio interpretowa jako procent prawdziwej wariancji dla
okrelonego zastosowania testu.
Plan eksperymentalny, ktry pozwala na oszacowanie wicej ni jednego wspczynnika rzetelnoci dla tej samej grupy, umoliwia podzia
wariancji wyniku oglnego na rne czci skadowe. Rozwamy
nastpujcy hipotetyczny przykad. Wersjami A i B testu twrczoci
zbadano w odstpie dwch miesicy 100 uczniw klasy szstej.
Okrelona w rezultacie rzetelno, oszacowana za pomoc metody wersji
alternatywnych, wynosi 0,70. Na podstawie odpowiedzi w jednej wersji
mona obliczy wspczynnik rzetelnoci za pomoc metody
powkowej7. Wspczynnik ten, obliczony wg wzoru SpearmanaBrowna. wynosi 0.80. Dla losowo wybranych 50 protokow ponownie
obliczy! wyniki drugi oceniajcy; pozwolio to stwierdzi, e zgodno
ocen sdziw wynosi 0.92. Te trzy wspczynniki rzetelnoci mona teraz
przeanalizowa, aby okreli wariancj bdu; pokazane jest to w tabeli
4-4 i na rysunku 4-4. Odejmujc wariancj bdu, ktr mona przypisa wycznie doborowi treci (rzetelno oszaeowana metod
powkow), od wariancji bdu, ktr mona przypisa zarwno
doborowi treci, jak i zmiennoci w czasie (rzetelno oszacowana
metod wersji alternatywnych), stwierdzamy, e 0.10 wariancji mona
przypisa wycznie zmiennoci w czasie. Dodajc kolejno wariancj
bdu, ktr mona przypisa doborowi treci (0,20), zmiennoci w czasie (0.10) i rnicom midzy sdziami (0,08) otrzymujemy ogln warianW celu dokadniejszego oszacowania zgodnoci wewntrznej mona obliczy
korelacje powkowe dla kadej wersji 1 z dwch wsptczynnikw wycign redni, stosujc w tym celu odpowiednie procedury statystyczne (np
przeksztacenie z Fishera).

Rzetelno

143

rda wariancji bdu w zalenoci od metody szacowania


wspczynnika rzetelnoci
M e t o d a szacowania
w s p c z y n n i k a rzetelnoci

Wariancja b d u

Powtarzanie testu
Wersje alternatywne
(badanie Jedno po drugim)
Wersje alternatywne
(badania w pewnym odstpie czasu)
Powkowa
Kudera-Richardsona l wspczynnik alfa
Zgodno ocen sdziw

Zmienno w
Dobr treci
Zmienno w czasie I dobr treci
Dobr treci
Dobr treci I zrnicowanie treci
Rnice midzy sdzin-'

cj bdu rwn 0.38. a zatem prawdziwa wariancja wynosi 0,62.


Proporcje le. przedstawione w postaci znanych wszystkim procentw, s
pokazane na rysunku 4-4. Wyodrbnianie rde wariancji jest istot tak
zwanej teorii gcneralizowalnoci rzetelnoci. Szczegowe omwienie
zoonych planw eksperymentalnych, ktre pozwalaj na jednoczesn
ocen wikszej liczby rde wariancji i interakcji midzy nimi. mona
znale w takich pracach jak: Brennan (1984). Cronbach i in. (1972).
Feldt i Brennan (1989) oraz Shavelson i Webb (1991).

Analiza rde wariancji w hipotetycznym tecie


Z rzetelnoci oszacowanej
metod wersji alternatywnych
(badanie po pewnym czasie)

1 - 0,70 = 0.30

Z rzetelnoci oszacowanej
metod powkow
wedug Spearmana-Browna

1 - 0,80 = O^f}' (dobr treciI

Rnica
0,10*
Z rzetelnoci oszacowanej na
1 - 0.92 = 0.08*
podstawie zgodnoci ocen sdziw
Cakowita zmierzona wariancja beHn*= n Tl + n
Prawdziwa wari;'
' Wariancja bdu

(zmle,
plus dobo;

(zrnienn<c w r
(rtaaee md2\
sdziami)
10 * 0 OR

1 4 4 ZAGADNIENIA PSYCHOMETRYCZNF.

.Prawdziwa" wariancja 6 2 %

Wanancja bdu: 3 8 %
"20%

10%

8%

Slaloc czasowa, zgodno wersji,


meraleznoi od rnic midzy sdziami

Zmienno w
czasie

Rnice midzy
sdziami

Rysunek 4-4. Procentowy rozkad wariancji wyniku w hipotetycznym leclc.

RZETELNO TESTW SZYBKOCI


Zarwno przy konstruowaniu testw, jak i przy interpretowaniu wynikw
testowych istotn rol odgrywa rozrnienie midzy pomiarem szybkoci
i mocy. Czysty test szybkoci jest testem, w ktrym rnice indywidualne
zaJe wycznie od szybkoci wykonania. Taki test skada si z zada o
niewielkim stopniu trudnoci, ktrych wykonanie ley w granicach
moliwoci osb, dla ktrych jest przeznaczony. Czas przeznaczony na
rozwizywanie jest tak krtki, eby nikt nie mg zrobi wszystkich
zada. W takich warunkach wynik kadej osoby odzwierciedla jedynie
szybko, z jak pracowaa. Natomiast w czystym tecie mocy czas przeznaczony na rozwizywanie zada jest na tyle dugi, by umoliwi
kademu prb rozwizania wszystkich zada. Trudno zada stopniowo si zwiksza, a test zawiera take takie zadania, ktre s zbyt
trudne, by ktokolwiek je rozwiza, co powoduje, e nikt nie osiga
maksymalnego wyniku.
Warto zwrci uwag, e zarwno lesty szybkoci, jak i testy mocy s
tak zaprojektowane, by zapobiec osigniciu maksymalnego wyniku.
Podyktowane jest to lym, e maksymalne wyniki nie daj si jednoznacznie interpretowa, bowiem nie wiadomo jest wtedy, czy i o ile
wyszy wynik mogaby jednostka uzyska, gdyby zadania byy trudniejsze lub byo ich wicej. Aby kada osoba moga w peni ujawni swoje
moliwoci, test musi mie odpowiedni puap, wynikajcy bd z liczby
zada, bd z poziomu ich trudnoci. Wyjtkiem od tej reguy jest
badanie biegoci, co ilustruj lesty zorientowane na standard wykona-

Rzetelno

143

nla, omawiane w rozdziale 3. Celem badania nie jest wtedy ustalenie


granie moliwoci Jednostki, ale stwierdzenie, czy osigna ona
zakadany poziom wykonania.
W praktyce rozrnienie midzy testami szybkoci i testami mocy jest
kwesti stopnia, bowiem w wikszoci testw rnice indywidualne
zale i od szybkoci, l od mocy, tyle c w rnych proporcjach.
Informacja o tym. Jakie to s proporcje, powinna towarzyszy kademu
testowi i lo nie tylko dlatego, by wiadomo byo. co on mierzy, ale take
po to, by mona byo wybia odpowiednie sposoby szacowania jego
rzetelnoci. Do szacowania rzetelnoci testw szybkoci nie nadaj si
sposoby oparte na wynikach Jednorazowego badania, takie jak metoda
Kudera-Richardsona czy metoda podziau lestu na zadania parzystenieparzyste. Wspczynniki rzetelnoci uzyskane za pomoc tych metod
bd zawyone w takim stopniu, w jakim rnice indywidualne w
wynikach testowych zale od szybkoci wykonania. Skrajny przykad
pomoe wyjani t kwesti. Przypumy, e skadajcy si z 50 zada
test jest wycznie testem szybkoci, tak e rnice indywidualne w
wynikach zale jedynie od liczby zada, jakie badany zdy podj, a
nie od bdw. A zatem jeli osoba A uzyskuje wynik rwny 44. to oczywicie rozwizaa poprawnie 22 zadania parzyste i 22 zadania
nieparzyste. Podobnie osoba B, ktra ma wynik rwny 34, rozwizaa 17
zada parzystych i 17 nieparzystych. W konsekwencji korelacja midzy
wynikami uzyskanymi w zadaniach parzystych i nieparzystych bdzie
doskonaa, rwna +1,00, jeli pominiemy przypadkowe i wynikajce z
nieuwagi bdy w pojedynczych zadaniach. Taka korelacja jest jednak
artefaktem i nie daje adnej informacji o rzetelnoci testu.
Jeli dokadnie przyjrzymy si, jak szacowana jest rzetelno w
metodzie potwkowej i metodzie Kudera-Richardsona, to stwierdzimy, e
w obu przypadkach opieramy si na zgodnoci liczby bdw zrobionych
przez badanego. Skoro teraz rnice indywidualne w wynikach testowych
nie zale od bdw, ale od szybkoci, to pomiar rzetelnoci oczywicie
musi by oparty na zgodnoci szybkoci pracy. Jeli poziom wykonania
w tecie zaley od kombinacji szybkoci i mocy, wspczynnik rzetelnoci oparty na wynikach jednego badania bdzie niszy od 1,00, ale cigle
jeszcze bdzie nadmiernie wysoki. Tak wic o ile szybko znaczco
wpywa na zrnicowanie Indywidualne wynikw testowych, to
wspczynnika rzetelnoci otrzymanego na podstawie jednorazowego
badania nie da si poprawnie interpretowa.
Jakie inne procedury mona zastosowa, aby okreli rzetelno
testw, ktre w znacznym stopniu s testami szybkoci? Odpowiednia
jest metoda powtarzania testu, jeli jej zastosowanie jest moliwe. W stosunku do lesiw szybkoci mona te wykorzysta metod okrelania
rzetelnoci za pomoc wersji rwnowanych. Mona take posuy si
technik powkow, o ile podzia dotvczv czasu, a nie zada. Mwic

146

ZAGADNIENIA PSYCHOMETTRYCZNE

innymi siowy. wyniki powkowe musz pochodzi z czci testu


wykonywanych w oddzielnych odcinkach czasu. Jednym ze sposobw
uzyskiwania takiego podziau jest badanie dwoma rwnowanymi
powkami testu w oddzielnych odcinkach czasu. Na przykad zadania
parzyste i nieparzyste mona wydrukowa oddzielnie i kady taki zbir
zada podawa z polow limitu czasu przewidzianego dla caego testu.
Taka procedura jest rwnoznaczna z badaniem dwoma rwnowanymi
wersjami testu, jedn po drugiej. Kada wersja jest jednak wtedy o
poow krtsza ni waciwy test. podczas gdy normalnie wyniki
badanego pochodz z caego testu. Po to, by okreli rzetelno caego
testu, naley zastosowa na przykad wzr Spearmana-Browna.
Jeli niemoliwe jest przeprowadzenie oddzielnego badania dwoma
powkami testu, to alternatywna procedura polega na podziale caego
czasu na wiartki i znalezieniu wyniku dla kadej z czterech wiartek.
Mona lo atwo zrobi, proszc osoby wykonujce test, by zaznaczay
zadanie, ktre rozwizuj w momencie, gdy badajcy daje umwiony
wczeniej znak. Liczba poprawnie rozwizanych zada w pierwszej i
czwartej wiartce cznie bdie Jednym wynikiem powkowym, a
poprawnie rozwizane zadania w drugiej i trzeciej wiartce cznie dadz
drugi wynik powkowy. Takie poczenie wiartek pozwala na
zrwnowaenie kumulujcego si wpywu wiczenia, zmczenia i innych
czynnikw. Ta metoda jest szczeglnie godna polecenia, gdy zadania nie
s uporzdkowane wedug rosncego stopnia trudnoci
Kiedy test jest rzeczywicie testem szybkoci? W jakich okolicznociach naley przestrzega specjalnych zasad opisanych w tym rozdziale?
Oczywicie samo tylko zastosowanie ograniczenia czasu nie oznacza
jeszcze, e mamy do czynienia z testem szybkoci. Jeli wszystkie osoby
badane kocz test w ramach danego limitu czasu, to szybko pracy w
adnym stopniu nie decyduje o wyniku. Takim surowym wskanikiem
szybkoci uersus mocy testu moe by procent osb. ktrym nie udaje
si skoczy lestu. Jednak nawet wtedy, gdy nikt nie koczy testu, rola
szybkoci moe by znikoma. Na przykad jeeli wszyscy dochodz
dokadnie do czterdziestego zadania w tecie skadajcym si z 50 zada,
to brak bdzie jakichkolwiek rnic Indywidualnych zwizanych z szybkoci. cho nikt nie mia wystarczajco duo czasu, by zmierzy si ze
wszystkimi zadaniami.
Zasadnicze pytanie brzmi oczywicie tak-. W jakim stopniu indywidualne rnice w wynikach testowych mona przypisa szybkoci?" Mwic
bardziej fachowo, chcemy wiedzie, jak cz cakowitej wariancji
wynikw testowych stanowi wariancja zwizana z szybkoci. Proporcj
t mona w przyblieniu oszacowa znajdujc wariancj liczby zada
ukoczonych przez rne osoby i dzielc j przez wariancj oglnych
wynikw w tecie ISDC2/SD,2). W pneykadzie cytowanym w poprzednim
akapicie, gdzie kady koczy 40 zada, licznik tego uamka wyniesie

Rzetelno

147

zero, poniewa brak Jest rnie Indywidualnych w zakresie liczby ukoczonych zada (SDZC = 0).Tak wic w czystym tecie mocy cay wskanik
bdzie rwny zero. Z drugiej strony, jeli cakowit wariancj testow
(SD 2 ,) mona przypisa rnicom indywidualnym w szybkoci, to te dwie
wariancje bd rwne i proporcja wyniesie 1.00. Opracowano kilka
bardziej wyrafinowanych sposobw okrelania tej proporcji, ale Ich
szczegowe omwienie wykracza poza ramy tej ksiki.
Przykadu wpywu szybkoci na wspczynnik rzetelnoci uzyskany na
podstawie wynikw Jednorazowego badania dostarczaj dane zebrane
przy okazji pierwszego wydania przez SRA Testw Podstawowych
Zdolnoci Umysowych dla Osb w Wieku 11 - 17 lat (Tests of Primary
Mental Abilities for Ages 11 to 17) (Anastasi i Drak, 1954). Rzetelno
kadego testu okrelono najpierw za pomoc zwykej procedury
korelowania zada parzystych z nieparzystymi. Wspczynniki te znajduj si w pierwszym wierszu tabeli 4-5. Nastpnie obliczono rzetelno
metod korelowania wynikw z dwch powek testu wykonywanych
w ramach oddzielnych limitw czasu. Te wspczynniki znajduj si w
drugim wierszu tabeli 4-5. Obliczenie wskanikw szybkoci ujawnio, e
test Znaczenia Sw jest przede wszystkim testem mocy. podczas gdy
lesl Rozumowania jesl nieco bardziej zaleny od szybkoci. Testy
Przestrzenny i Liczbowy okazay si w znacznej mierze testami szybkoci. W tabeli 4-5 wida le. e rzetelno testu Przestrzennego, jeli
obliczana Jest prawidowo, wynosi 0.75, podczas gdy zawyony
wspczynnik korelacji midzy zadaniami parzystymi i nieparzystymi
wynosi 0.90. Podobnie rzetelno testu Rozumowanie spada z 0,96 do
0,87, a testu Liczbowego z 0,92 do 0,83. Rzetelno wzgldnie niezalenego od szybkoci testu Znaczenia Sw pozostaje niemal taka sama.
bez wzgldu na to, ktr z tych dwch metod stosuje si do oceny.

Wspczynniki rzetelnoci czterech testw z wydanych przez


SRA

Testw

Podstawowych

Zdolnoci

Umysowych

dla

Osb

Wieku 11- 17 lat (wydanie pierwsze)


W s p c z y n n i k rzetelnoci
uzyskany metod:
Badanie jednorazowe,
metoda parzyste-niopirayite
Oddzielne limit?
dla powek

we

(Dane z: Anastasi I Drak, 1954)

Znaczenia

Stw

Rozumowant

Przestrzenny

Liczbowy

1 4 S

ZAGADNIENIA PSYCHOMETRYCZNE

ZALENO WSPCZYNNIKW RZETELNOCI OD BADANEJ PRBY


Zmienno. Na wielko wspczynnika rzetelnoci wpywa w sposb
Istotny charakter grupy, ktrej wyniki s podstaw jego obliczania.
Przede wszystkim kady wspczynnik korelacji zaley od zakresu rnic
indywidualnych w badanej grupie. Jeli poziom zdolnoci ortograficznych wszystkich czonkw grupy byby w przyblieniu taki sam, to
korelacja ortografii z jakkolwiek inn zdolnoci byaby w tej grupie
bliska zera. Oczywicie nie daoby si wtedy przewidywa pozycji
jednostki w zakresie innej zdolnoci na podstawie wiedzy o jej wyniku w
ortografii.
Innego, nie tak skrajnego przykadu dostarcza korelacja midzy
dwoma testami uzdolnie, takimi jak test rozumienia werbalnego i test
rozumowania arytmetycznego. Jeli zbadano by tymi testami wysoce jednorodn prb, na przykad 300 studentw drugiego roku collegeu,
korelacja midzy tymi dwoma typami zdolnoci byaby prawdopodobnie
bardzo niska. W obrbie wyselekcjonowanej prby studentw zaleno
midzy zdolnociami werbalnymi a zdolnociami rozumowania
liczbowego poszczeglnych osb jest niewielka, ze wzgldu na ograniczony zakres rnic indywidualnych. Gdyby jednak tymi testami
zbadano niejednorodn prb skadajc si z 300 osb. od umysowo
upoledzonych poczynajc, a na absolwentach collegcu koczc, to bez
wtpienia uzyskano by wysok korelacj. Upoledzeni umysowo otrzymaliby w obu testach gorsze wyniki ni absolwenci collegeu i podobne
zalenoci istniayby dla innych podgrup skadajcych si na t wysoce
heterogeniczn prb.
Hipotetyczny wykres rozrzutu przedstawiony na rysunku 4-5 ilustruje zaleno wspczynnikw korelacji od zmiennoci, czyli od zakresu
rnic indywidualnych w obrbie grupy. Wykres rozrzutu pokazuje
wysok dodatni korelacj dla caej, heterogenicznej grupy, poniewa
wyniki grupuj si blisko przektnej biegncej od lewego dolnego do
prawego grnego rogu. Jeli teraz wemiemy pod uwag lylko podgrup,
ktrej wyniki mieszcz si w maym prostokcie znajdujcym si po
prawej grnej stronie wykresu, to wida wyranie, c tu korelacja midzy
dwoma analizowanymi zmiennymi jest bliska zera. Osoby, ktre dla obu
zmiennych uzyskuj wyniki mieszczce si w tym ograniczonym zakresie. stanowi wysoce jednorodn grup, tak Jak wspomniani wczeniej
studenci.
Wspczynniki rzetelnoci, podobnie jak wszystkie wspczynniki
korelacji, zale od zmiennoci w obrbie prby, ktrej wyniki byty podstaw oblicze. Jeli wic wspczynnik rzetelnoci podawany w
podrczniku testowym byl szacowany na podstawie wynikw badania
prby obejmujcej uczniw od czwartej klasy poczynajc, a na Ilcealis-

Rzetelno

149

< mi.

1 li 1 1 II II U

II II II
1
1

li
1 1
1 i II
i 1 f II

i
II

i II
i i II
i i II
i i: li
ni nu II
ii iii ii II 1
1 i i ii
II ii i
1

.7 II 1
ii u
1 ii ni 1 1 t i / 1
a i u II J , II
1

1 i.
1 1 (
II iii II ii m lii
III II u i
i
1 1 1
l H n
1 1
i
1
i

1 m i
i
II 1
III

a
1

1 1
1

i i
1
i
i

\ 1

/
Wynik dla Zmienne; 1

Rysunek 4-5. Skutki ograniczonego zakresu wynikw dla wspczynnika


korelacji.
tach koczc, to nie mona zakada, e rzetelno bdzie rwnie wysoka w prbie skadajcej si. powiedzmy, z uczniw klasy smej. Jeli test
ma by uywany w celu rnicowania jednostek w obrbie bardziej jednorodnej grupy ni prba standaryzacyjna, to naley ponownie oszacowa wspczynnik rzetelnoci dla takiej wanie grupy. Jeli w badanej
grupie odchylenie standardowe Jest wiksze lub mniejsze ni w prbie
standaryzacyjnej, to w podstawowych podrcznikach do statystyki
mona znale wzory suce do szacowania oczekiwanego wspczynnika rzetelnoci. Jednak lepiej jest obliczy ten wspczynnik na nowo.

150

ZAGADNIENIA PSYCHOMETTRYCZNE

korzystajc z danych empirycznych uzyskanych dla grupy porwnywalnej do tej. ktra bdzie badana danym lesiem. Jeli testy s przeznaczone do badania populacji zrnicowanych pod wzgldem wieku lub
poziomu zdolnoci, to w podrcznikach naley podawa odrbne
wspczynniki rzetelnoci dla wzgldnie jednorodnych podgrup,
skadajcych si na prb standaryzacyjn.
Poziom zdolnoci. Wielko wspczynnika rzetelnoci zaley nic lylko
od zakresu rnic indywidualnych w prbie, ale lake od przecitnego
poziomu zdolnoci badanych osb. Zazwyczaj nie da si przewidzie ani
oszacowa za pomoc adnego wzoru statystycznego zalenoci midzy
wielkoci wspczynnika rzetelnoci a poziomem zdolnoci w grupie,
mona lo odkry jedynie drog empiryczn, przeprowadzajc badania
danym testem na grupach rnicych si pod wzgldem wieku lub
poziomu zdolnoci. Takie rnice w rzetelnoci danego testu mog czciowo wynika z tego. e w zalenoci od poziomu trudnoci moe on
mierzy nieco inne zespoy zdolnoci. Na rnych poziomach wieku tesl
moe te mie rn dugo. Nawet jeli liczba zada jest taka sama. to
dolny i grny kraniec mog nie zawiera wystarczajcej iloci zada o
odpowiednim stopniu trudnoci, ktre umoliwiyby jednostkom adekwatne wykazanie, co pul rafi [elekt .sufitowy" i podogowy"). W innych
znw testach rzetelno moe by wzgldnie niska dla modszych i mniej
zdolnych grup, poniewa na ich wyniki nadmierny wpyw moe wywiera
zgadywanie.
Jest rzecz oczywist, e podajc jakikolwiek wspczynnik rzetelnoci naley dokadnie opisa grup, ktrej wyniki byy podstaw jego
okrelenia. Szczegln uwag naley zwrci na zmienno i poziom
zdolnoci w prbie. Podawany wspczynnik rzetelnoci mona stosowa
tylko do prb podobnych do tej. dla ktrej go obliczono. Podan i coraz
czstsz praktyk przy konstruowaniu testw jest podzia prby
standaryzacyjnej na bardziej jednorodne podgrupy ze wzgldu na takie
kryteria jak wiek. ple, klasa, zawd i tym podobne i podawanie
wspczynnikw rzetelnoci dla kadej takiej podgrupy. Otrzymane w ten
sposb wspczynniki rzetelnoci mona bezporednio stosowa wobec
prb. klre w praktyce bd badane danym testem,

BD STANDARDOWY POMIARU
Interpretacja w y n i k w indywidualnych. Rzetelno teslu mona
scharakteryzowa odwoujc si do bdu standardowego pomiaru (standard error of measurement - SEM). nazywanego rwnie bdem standardowym wyniku. Miara tajesl szczeglnie przydatna przy interpretacji

Rzetelno

151

wynikw Indywidualnych. Dla wiciu cclw jest ona bardziej uyteczna


ni wspczynnik rzetelnoci. Znajc wspczynnik rzetelnoci, mona
atwo obliczy bd standardowy pomiaru, korzystajc z nastpujcego
wzoru:
SEM = SD,Vi - ru
gdzie SD, to odcnylenie standardowe wynikw w tecie, a rn to
wspczynnik rzetelnoci, przy czym obie te wartoci s obliczone dla tej
samej grupy. Na przykad jeli odchylenie standardowe dewiacyjnych
ilorazw inteligencji w pewnym tecie inteligencji wynosi 15, a
wspczynnik rzetelnoci rwna si 0.89. lo SEM ilorazw inteligencji w
lym tecie wynosi; 15Vl -0,89= 15^/0^T= 15(0,33) = 5.
Aby zrozumie, co SEM mwi nam o wyniku, przypumy, e olrzy
malimy 100 ilorazw inteligencji badajc powyszym testem jedno
dziecko. Jane. Zc wzgldu na bdy losowe, omawiane wczeniej w tym
rozdziale, uzyskane wyniki rni si. rozkadajc si zgodnie z krzyw
normaln wok wyniku prawdziwego Jane. redni tego rozkadu 100
wynikw mona przyj jako .prawdziwy wynik" dla okrelonego zastosowania testu, a odchylenie standardowe tego rozkadu - jako SEM.
Podobnie jak kade odchylenie standardowe, take I bd standardowy
mona interpretowa odwoujc si do powierzchni pod krzyw normaln, o czym bya mowa w rozdziale 3 (patrz: rysunek 3-3). Naley przypomnie, e w rozkadzie normalnym midzy redni a l o znajduje si
68% przypadkw. Moemy wic wnioskowa, e szansa, i prawdziwy iloraz inteligencji Jane w lym tecie waha si midzy 1 SEM, czyli 5 punktw w obie strony od jej prawdziwego IQ. wynosi w przyblieniu 2:1 (lub
68:32). Jeeli jej prawdziwy IQ wynosi 110, moemy oczekiwa, e jej
wynik bdzie si zawiera midzy 105 a 115 w dwch trzecich przypadkw (68%).
Jeeli chcemy formuowa przewidywania z wiksz pewnoci
moemy wybra wiksze szanse ni 2:1. Rzut oka na rysunek 3-3 (rozdz
3) pokazuje, e obszar zawarty midzy 3o obejmuje 99,7% przypadkw
Z tabel obszarw pod krzyw normaln mona odczyta, e w odlegoci
2.58o po obu stronach od redniej znajduje si dokadnie 99% przypad
kw. A zatem, szansa, I iloraz inteligencji Jane wypadnie w granicach
2.58 SEM, czyli 2.58 x 5 =13 punktw po obu stronach jej prawdziwego
IQ. wynosi 99:1. Przy 99% poziomie ufnoci (z szans popenienia bdu
raz na 100) moemy wic stwierdzi, e przy pojedynczym badaniu
testem iloraz inteligencji Jane bdzie zawiera si midzy 97 a 123 (11013 i 110+13). Jeli Jane byaby badana rwnowanymi testami 100 razy.
to jej iloraz inteligencji wypadby poza te granice tylko raz.
W praktyce nie mamy oczywicie do czynienia z wynikami prawdziwymi. lecz jedynie z wynikami otrzymanymi w jednorazowym badaniu

152

ZAGADNIENIA

psYCHOMerRYCZME

testem. W takie) sytuacji moemy zastosowa powysze rozumowanie w


odwrotnym kierunku. Jeli wynik otrzymany przez Jednostk nie odbiega wicej ni o 2,58 SEM od Jej wyniku prawdziwego, moemy dowie,
e jej prawdziwy wynik musi lee w granicach 2.58 SEM od Jej olrzy
manego wyniku. Nie moemy tu wprawdzie okreli prawdopodobiestwa danego wyniku otrzymanego, moemy jednak powiedzie, c sfor
mutowane wczeniej twierdzenie bdzie suszne w 99% wszystkich przypadkw. Na podstawie takiego rozumowania Gulliksen (1950. str. 17-20)
-zaproponowa, eby bd standardowy pomiaru stosowa w przedstawiony wyej sposb w celu szacowania granic wynikw prawdziwych
osb z okrelonymi wynikami otrzymanymi. W psychologicznych badaniach testowych bd pomiaru jest zazwyczaj interpretowany wanie w
kategoriach takich moliwych granic" i tak te bdzie interpretowany w
tej ksice8.
Bd standardowy pomiaru i wspczynnik rzetelnoci s to alternatywne sposoby przedstawiania rzetelnoci testu. W odrnieniu od
wspczynnika rzetelnoci, bd standardowy pomiaru jest niezaleny od
zmiennoci w grupie, ktrej wyniki s podstaw jego obliczenia.
Wyraony w jednostkach wynikw danego testu, pozostaje niezmienny
bez wzgldu na to. czy byl obliczany na podstawie wynikw jednorodnej,
czy zrnicowanej grupy. Z drugiej za strony, bdy pomiaru w rnych
testach nic s bezporednio porwnywalne, poniewa wyraone s w
rnych jednostkach. Pojawiaj si wic zwykle problemy z porwnywalnoci jednostek, ktrymi mog by zadania arytmetyczne, sowa w tecie sownikowym itp. Jeli wic chcemy porwnywa rzetelno rnych
lesiw, lepsz miar jest wspczynnik rzetelnoci. Natomiast do interpretowania wynikw indywidualnych lepiej nadaje si bd standardowy
pomiaru.
Nie mona Jednak zakada, e wspczynniki rzetelnoci czy bdy
pomiaru bd takie same na rnych poziomach zdolnoci. Omawiane
wczeniej rnice we wspczynnikach rzetelnoci pojawiaj si te. gdy
bdy pomiaru s obliczone dla rnych poziomw wykonania lego
samego testu. Rozwizanie tego problemu umoliwiaj techniki IRT
suce do analizy pozycji, wspomniane w rozdziale 3. Techniki te
pozwalaj na przedstawienie dokadnoci pomiaru testowego jako funkcji
poziomu zdolnoci, przy czym uwzgldniaj szeroki ich zakres. Uzyskana
krzywa opisujca test zaley tylko od zada wczonych do testu i
Zaproponowano te Inne procedury, zgodnie z ktrymi szacowany wynik
.prawdziwy" jest rodkiem przedziau urnoci (Dudek, 1979 Clutting,
McDermott i Stanley, 1987). Jeli wspczynnik rzetelnoci jest wysoki, rnice
s niewielkie; jeli jest niski, to zarwno wynik prawdziwy, jak i zakres przedziau
ufnoci s wyliczane i lego samego niedoskonaego wspczynnika rzetelnoci
Poza tym optymalna procedura zaley od konkretnego celu. dia jakiego maj by
uyte wyniki testowe |np. do dugofalowego przewidywania czy do oceny aktualnego poziomu wykonania).
8

Rzetelno

153

pozwala na oszacowanie bdu pomiaru dla kadego poziomu zdolnoci.


Dalsze omwienie tych technik znajduje si w rozdziale 7.
SEM (lub inny wskanik dokadnoci pomiaru) stanowi pewne zabezpieczenie przed przywizywaniem nadmiernej wagi do pojedynczego
wyniku liczbowego. Jest to tak wane zastosowanie SEM. e w publikowanych testach coraz czciej zaleca si podawanie wyniku nie w
postaci pojedynczej liczby. lecz jako pasma wynikw, w ktrym, jak
mona oczekiwa, bdzie si mieci prawdziwy wynik osoby badanej.
Rada collcge'w informuje, czym jest SEM, oraz wyjania, jak naley si
nim posugiwa, i robi lo nie lylko w materiaach rozprowadzanych
wrd doradcw szkolnych (w szkoach rednich i college'ach), ale take
w indywidualnych raportach z wynikami SAT. wysyanych do osb
badanych. Take materiay instruktaowe przeznaczone dla uczniw,
majce zorientowa ich w znaczeniu uzyskiwanych wynikw testowych,
obejmuj problematyk SEM. Informacje na temat SEM znajduj si
rwnie w materiaach powiconych interpretowaniu wynikw
Egzaminacyjnych Testw Dyplomowych (Craduale Record Examinalions
- GRE 1995-96 guide].
Uwzgldnianie rzetelnoci teslu i
bdu pomiaru jest szczeglnie wane przy ocenie rnic midzy dwoma
wynikami. Mylenie o dowolnym wyniku w kategoriach przedziau powstrzymuje przed przypisywaniem nadmiernego znaczenia maym
rnicom midzy wynikami. Taka ostrono jest podana zarwno
wtedy, gdy porwnujemy wyniki testowe rnych osb. Jak 1 wtedy, gdy
porwnujemy wyniki tej samej osoby w zakresie rnych zdolnoci.
Zmiany w wynikach zachodzce pod wpy.vcm instrukcji czy manipulowania zmiennymi eksperymentalnymi take powinno si interpretowa
w wietle danych na temal bdw pomiaru.
Czste pytanie na temat wynikw testowych dotyczy wzgldnej pozycji
jednostki w rnych obszarach. Czy Doris jest bardziej uzdolniona w
kierunku werbalnym ni liczbowym? Czy Tom przejawia wiksze uzdolnienia w zakresie mechaniki ni funkcjonowania werbalnego? Jeli w
baterii testw uzdolnie Doris uzyskaa wysze wyniki w podtestach werbalnych ni liczbowych, a Tom uzyska wysze wyniki w podtestach
mechanicznych ni werbalnych, to w jakim stopniu moemy by pewni,
e podobnie uo si ich wyniki w ponownym badaniu, w ktrym
zostanie zastosowana inna wersja baterii? Mwic innymi sowy, czy
rnicc w wynikach nie s tylko rezultatem takiego, a nie Innego doboru
zada w konkretnych testach - werbalnym, liczbowym 1 mechanicznym?
Kwestie le maj szczeglne znaczenie dla waciwego interpretowania
wynikw baterii testw zdolnoci i baterii testw osobowoci, w ktrych
otrzymujemy niejeden, lecz szereg wynikw (Anastasi. 1985a). Przykady
i dalsze omwienie problemw, ktre naley uwzgldnia przy interpretowaniu profilu wynikw osoby badanej w tego rodzaju bateriach, mona

154

ZAGADNIENIA PSYCHOMETTRYCZNE

znale w rozdziaach 8 i 10 (w odniesieniu do lestw zdolnoci) oraz w


rozdziale 13 (w odniesieniu do lesiw osobowoci).
Ze wzgldu na rosnce zainteresowanie interpretacj profilw wydawcy testw opracowuj takie formularze raportw, ktre uatwiaj ocen
wynikw uwzgldniajc bdy pomiaru. Przykadem moe by formularz
raportu z badania indywidualnego Testami Zrnicowanych Zdolnoci
(DiJJerential Aptilude Tests). przedstawiony na rysunku 4-6. Wyraone
w centylach wyniki w kadym podtccic baterii przedstawione s tam w
postaci pasma centylowcgo. a wynik otrzymany (w centylach) znajduje
si w rodku tego pasma. Kady taki pasek odpowiada odlegoci 1 SEM
po obu stronach wyniku otrzymanego - a zatem prawdopodobiestwo, e
prawdziwy" wynik jednostki znajdzie si w obrbie paska wynosi w przyblieniu 2 do 1 (0,68 do 0.32). Uytkownikom testw radzi si. aby przy
interpretowaniu profilw nie przywizywali wagi do rnic midzy
wynikami, ktrych centylowe paski zachodz na siebie, zwaszcza jeli
pokrywaj si na przestrzeni wikszej ni polowa ich dugoci.
Na przykad w profilu przedstawionym na rysunku 4-6 rnica midzy
Rozumowaniem Werbalnym a Rozumowaniem Liczbowym prawdopodobnie odzwierciedla rzeczywist rnic w poziomie zdolnoci, a midzy
Rozumowaniem Liczbowym i Rozumowaniem Abstrakcyjnym - nie: co do
rnicy midzy
Rozumowaniem Abstrakcyjnym a
Rozumowaniem
Technicznym mona mie wtpliwoci.

TESTY ZRNICOWANYCH ZDOLNOCI

PASMA CENTYLI (NORMY OGLNOKRAJOWE)


1

5 10 20 30 40 50 60 70 80 90 95 99

Rozumowanie Weraalne
Rozumowanie Liczbowe
Rozumowanie Abslrakcyine
Szyt*osc i Dokadno Spostrzegania
Rozumowanie Tecfniczne
, Relaga Pizestoeme
i Ortografia
Uycie Jzyka

Uzdolnienia SztalneiRW+RI.)
Im 11,'Hiill

Rysunek 4-6. Profil wynikw w Teslach Zrnicowanych Zdolnoci, ilustrujcy

zastosowanie pasm cenlylowych.

(Danr z: n d t o j d u a ! Repon. Differenltal AptUude Tests.


Psychologicai Corporation. Przedruk za zezwoleniem)

5th ed.

Copyright 0

!990 by V,e
V

Rzetelno

185

Bd standardowy rnicy midzy dwoma wynikami jest wikszy ni


btd pomiaru ktregokolwiek z dwch wynikw. Wynika to z faktu, e na
rnic t wpywaj przypadkowe bdy obecne w obu wynikach. Bd
standardowy rnicy midzy dwoma wynikami mona wyliczy z bdu
standardowego pomiaru obu wynikw, stosujc nastpujcy wzr 9 :
SE d(fr =

SEM,) 2 + (SEM 2 ) 2

gdzie SE(llfr. to bd standardowy rnicy midzy dwoma wynikami, a


SEM, i SEM 2 to bdy standardowe pomiaru kadego z dwch wynikw.
Podstawiajc SD Vi - r,, zamiast SEM, i SDVT - r22 zamiast SEM 2 .
moemy przepisa wzr, posugujc si ju bezporednio wspczynnikami rzetelnoci:
SE dlff = SDV2 - r - r 22
Jak wida, stosujemy tu to samo odchylenie standardowe dla testw 1 i
2. gdy ich wyniki musz by wyraone w lej samej skali, aby mona je
byo porwnywa.
Ilustracj przedstawionej procedury moe by porwnanie ilorazw
inteligencji w Skali Sownej i Skali Bezsownej zrewidowanej wersji Skali
Inteligencji D. Wechslera dla Dorosych. fWAIS-R) Rzetelno szacowana
metod powkow wynosi dla tych wynikw odpowiednio 0,97 i 0.93.
Dewiacyjne ilorazy inteligencji w WA1S-R wyraone s w skali ze redni
100 i odchyleniem standardowym 15. A zatem bd standardowy rnicy
midzy tymi dwoma wynikami mona obliczy w nastpujcy sposb:
SEd|ff = V2 - 0,97 - 0,93 = 4,74
Aby okreli, jak du rnic w wynikach mona otrzyma przypadkowo
na poziomic 0,05, mnoymy bd standardowy rnicy (4.74) przez 1,96.
Otrzymujemy 9,29, a w przyblieniu 10 punktw. A wic rnica midzy
ilorazami inteligencji w Skali Sownej i Skali Bezsownej WA1S-R powinna wynosi co najmniej 10 punktw, aby mona byo uzna j za istotn
na poziomie 0.05 l 0 .

Wzoru tego nie naley myli z wzorem na standardowy bd rnicy midzy


dwoma rednimi grupowymi, ktry obejmuje czon korelacyjny, gdy dwie
porwnywane zmienne s skorelowane. Bdy pomiaru dwch zmiennych s
bdami losowymi, a zatem przyjmuje si, te s nieskorelowane.
9

10 Bardztej
precyzyjne oszacowanie mona uzyska, jeli wykorzystuje si
wspczynniki rzetelnoci I odchylenia standardowe dla kadej grupy wieku. Jeli
lak postpimy to minimalna Istotna rnica midzy Skal Sown 1 Skal
Bezsown na poziomie 0,05 wynosi, wedug podrcznika, od 8,83 do 12,04.
Wikszo wartoci jest jednak bliska 10.

156

ZAGADNIENIA PSVCIIOMETKVCZNE

Jak pamitamy z rozdziau 3. w testach zorientowanych r.a standard


wykonania zazwyczaj (cho nie zawsze) wykonanie ocenia si z punktu
widzenia uzyskanej biegoci, a nie poziomu osigni. Gwn statystyczn implikacj testowania biegoci jest redukcja zmiennoci wynikw
midzy osobami badanymi. Teoretycznie, gdyby kady kontynuowa trening a do momentu opanowania danej umiejtnoci, zmienno
zostaaby zredukowana do zera. W rozdziale tym bya ju wczeniej
mowa o tym. e na kad korelacj, wczajc w to wspczynniki rzetelnoci. wpywa zmienno w grupie, dla ktrej ta korelacja jest liczona. W
miar jak zmniejsza si zmienno w prbie, maleje te wspczynnik
korelacji. Jest wic rzecz oczywist, e w przypadku wikszoci testw
zorientowanych na standard wykonania zastosowanie zwykych procedur oceny rzetelnoci wobec osb. ktre osigny zakadany wczeniej
poziom biegoci, byoby niewaciwe. W takiej sytuacji mogoby si
okaza, e nawet wysoce stabilny i wewntrznie zgodny test ma rzetelno blisk zera.
Ten oczywisty problem w ocenie rzetelnoci wynika z trudnoci w
okreleniu, co ma by przedmiotem pomiaru w lesiach /.orientowanych
na standard wykonania. W praktyce testy tc s stosowane przede
wszystkim w celu rnicowania midzy osobami, ktre osigny i nie
osigny umiejtnoci i wiedzy wymaganych dla okrelonej dziaalnoci.
Szczegowe powody, dla ktrych przeprowadza si badanie tymi testami. mog by bardzo rne, poczynajc od egzaminu na prawo jazdy czy
przydzielenia na okrelone stanowisko w pracy, po promocj do nastpnego etapu w programie indywidualnego ksztacenia lub przyjcie na
okrelone zajcia na studiach. Jednak we wszystkich tych sytuacjach
sam fakt uycia testu oznacza, e oczekuje si zrnicowania w poziomie
wykonania. Wikszo tego zrnicowania odzwierciedla rnice indywidualne w iloci uprzedniego treningu w zakresie odpowiednich funkcji
Do szacowania rzetelnoci testw zorientowanych na standard wyko
nania suy ponad tuzin rnych metod (Berk. I984b; Brennan. 1984;
Subkoviak. 1984). Niektre z nich s odpowiednie wtedy, gdy chodzi
lylko o rozstrzygnicie, czy jednostka osigna wymagany poziom, czy
nie. a wszystkie bdy w klasyfikacji traktowane s jako rwnie powane,
bez wzgldu na odlego uzyskanego rezultatu od wyniku granicznego
(czyli punktu odcicia). W takich przypadkach mona przeprowadzi
dwukrotne badanie rwnolegymi wersjami testu, by okreli, w stosunku do jakiego procentu osb zostanie podj.a taka sama decyzja za
pierwszym i drugim razem. Dane te mona nastpnie analizowa
obliczajc odpowiednie wskaniki zgodnoci i sprawdzajc ich istotno.
Stosujc inne procedury, bierze si pod uwag faktyczne wyniki olrzy-

Rzetelno

157

manc w obu badaniach i oblicza si wskaniki, ktre odzwierciedlaj


odchylenie wynikw kadej osoby w gr lub w dl od danego wyniku
granicznego. Dokonujc wyboru konkretnej metody, naley bra pod
uwag rodzaj i zastosowania danego testu, pozycj wynikw granicznych
1 inne wasnoci psychomctryczne testu. Obszerne rozwaania na ten
lemat mona znale w specjalistycznej lileraturze (patrz: Berk, 1984a.
Feldt 1 Brennan. 1989).

Trafno: podstawowe pojcia

krafno testu dotyczy kwestii, co test mierzy i jak dobrze lo C2yni.


iMwi nam, o czym mona wnioskowa na podstawie wynikw
'testowych. W zwizku z tym powinnimy wystrzega si traktowania
nazwy testu jako wskanika mierzonej zmiennej. Nazwa stanowa
jedynie krtk i wygodn etykietk dla celw identyfikacyjnych. W wikszoci przypadkw nazwy testw s o wiele za szerokie i zbyt
nieokrelone, by mogy dostarcza istotnych wskazwek co do przedmiotu badania, cho coraz czciej czyni si starania, by byy bardziej
konkretne i wywodziy si z empirii. Cech mierzon przez dany test
mona zdefiniowa tylko dziki badaniu obiektywnych rde informacji
I stosowaniu empirycznych procedur okrelania jego trafnoci. Co wicej,
trafnoci testu nie mona okrela w sposb oglny. O adnym tecie nie
mona powiedzie, e ma wysok" lub nisk" trafno w ogle Trafno
musi by okrelona w odniesieniu do konkretnego zastosowania,
przewidywanego dla lego testu.
Zasadniczo wszystkie procedury suce okrelaniu trafnoci testu
polegaj na badaniu zwizku midzy wynikami testowymi a innymi,
niezalenie obserwowanymi zmiennymi zwizanymi z dan waciwoci.
Do badania takich zalenoci suy wiele konkretnych metod, ktre
nosz rne nazwy. Te tradycyjne etykietki koncentruj si na rnych
aspeklach trafnoci, wynikajcych z rnych zastosowa testu. W miar
jak poszerza si obszar zastosowa testw, zmieniao si pojcie trafnoci (Anastasi. 1986a: Messick, 1988. 1989).
1S8

Trafno: podstawowe pojcia

159

EWOLUCJA POJCIA TRAFNOCI TESTU


Historycznie rzecz biorc, najpierw testy stosowano po to, by oceni,
czego ludzie nauczyli si w konkretnych dziedzinach. Dzisiaj z tego
rodzaju zastosowaniami mamy do czynienia przy egzaminach kocowych
w szkoach, egzaminach na prawo jazdy lub przy kwalifikowaniu do
okrelonych zawodw. Badanie trafnoci takiego testu, powszechnie
okrelanego Jako test osigni, na ogl polega na porwnywaniu jego
treci z zawartoci treciow dziedziny, ktr ma bada. Taki opisowy
sposb podejcia do badania trafnoci stosuje si do dzisiaj w pewnych
przypadkach; omwiono go w jednej z nastpnych czci rozdziau.
W miar upywu czasu badania testowe przechodziy na drugi etap, na
ktrym gwny nacisk kadziono na prognoz. Jak bd si zachowyway
rne osoby w danej sytuacji, teraz lub w przyszoci? Jak bdzie
reagowa jednostka w rnych konkretnych sytuacjach? Przewidywane
zachowanie okrelono Jako kryterium. Trafno testu stosowanego w
celu przewidywania zazwyczaj charakteryzuje si podajc wspczynnik
korelacji midzy wynikami testu a bezporedni, niezalen miar tego
kryterium. Taki sposb jest odpowiedni zwaszcza wtedy, gdy test ma by
stosowany do selekcji lub odpowiedniego zakwalifikowania osb, ktre
maj uczestniczy w programach edukacyjnych, by zatrudnione do
okrelonych prac lub bra udzia konkretnych w programach terapeutycznych. Na przykad dla testu uzdolnie mechanicznych takim kryterium moe by pniejsze funkcjonowanie w pracy na stanowisku
mechanika: dla testu uzdolnie szkolnych kryterium mog by oceny
szkolne, dla testu przeznaczonego do badania neurotyzmu - oceny
kolegw lub inne dostpne informacje dotyczce zachowania jednostki w
rnych sytuacjach yciowych.
Obecny etap w historii bada testowych charakteryzuj dwie gwne
tendencje: (1) zdecydowane ukierunkowanie na teori 1 (2) cise
wizanie weryfikacji dokonywanej drog empirycznego i eksperymentalnego testowania hipotez z teori psychologiczn. Tendencje te wyranie
ujawniaj si w procesie konstruowania testw i sprawdzania ich
trafnoci, tak jak i w innych dziedzinach psychologii (Anastasi. 1992a,
1992b, 1995). Jednym ze skutkw takiego sposobu podejcia Jest coraz
wiksze docenianie wartoci, jak dla opisywania i rozumienia ludzkiego
zachowania maj konstrukty. Konstrukty s szerokimi kategoriami,
wyprowadzanymi na podstawie waciwoci wsplnych bezporednio
obserwowanym zmiennym behawioralnym. S one bykami teoretycznymi, ktre same nic s bezporednio obserwowalne. Zainteresowanie konstruktami przyczynio sle do wprowadzenia pojcia trafnoci teoretycznej, ktr pocztkowo traktowano jako trzeci rodzaj trafnoci (AERA.
APA. NCME, 1985: APA, AERA. NCME, 1974: Cronbach i Meeh, 1955).
Ostatecznie Jednak uznano, e Jest to rodzaj trafnoci najbardziej pod-

160

ZAGADNIENIA PSYCHOMETTRYCZNE

stawowy 1 najbardziej oglny. |ako e wanie ona okrela, co mierzy test.


Procedury suce do badania trafnoci treciowej i prognostycznej s
jednymi z wielu rde informacji, ktre pomagaj zdefiniowa i zrozumie konstrukty mierzone za pomoc testu. Jednoczenie kada z tych
procedur przynosi cenne informacje, ktre s specyficzne tylko dla niej i
niezastpione przy ocenie testw przeznaczonych do okrelonych celw.
A zatem pojcia te (i odpowiadajce im terminy) przetrway, mimo e
zostay wczone w oglne pojcie trafnoci teoretycznej.

SPOSOBY BADANIA TRAFNOCI TRECIOWEJ


Natur*. Procedury okrelania trafnoci treciowej testu zasadniczo
polegaj na systematycznym analizowaniu jego treci w celu
stwierdzenia, czy stanowi ona reprezentatywn prb dziedziny, ktra
ma by przedmiotem pomiaru Tak procedur wahdacyjn powszechnie
stosuje si w odniesieniu do testw przeznaczonych do pomiaru stopnia
opanowania przez jednostk okrelonych umiejtnoci lub materiau
nauczania. Mogoby si wydawa, e do ustalenia tego rodzaju trafnoci
powinna wystarczy sama analiza treci. Test mnoenia, ortografii czy
ksigowoci mona by z definicji uzna za trafny, jeli zawiera zadania
wymagajce, odpowiednio, mnoenia, znajomoci ortografii czy ksigowania.
Jednak rozwizanie nie jest tak proste, jakby si wydawao. Pierwszy
problem polega na adekwatnym wyborze zada z caego universum pozycji. Aby upewni si, c zadania testowe obejmuj, i to we waciwych
proporcjach, wszystkie gwne aspekty dziedziny, ktra ma by przedmiotem badania, naley podda j systematycznej analizie. Na przykad
atwo moe doj do tego. e w tecie nadreprezentowane s te aspekty,
dla ktrych bez trudu mona opracowa obiektywne zadania. Badan
dziedzin naley wic z gry dokadnie opisa, a nie definiowa j dopiero
po opracowaniu testu. Na przykad poprawnie skonstruowany test szkolny powinien uwzgldnia nie tylko treci, ale take cele ksztacenia.
Obszar, ktry ma zosta objty badaniem, naley wic zdefiniowa
wystarczajco szeroko, by wzi pod uwag zarwno podstawowe cele,
takie jak umiejtno zastosowania regu i interpretacji danych, jak i
wiedz faktograficzn. Ponadto trafno bardziej zaley od zwizku
midzy odpowiedziami udzielanymi w tecie przez osob badan a dan
dziedzin ni od pozornie oczywistej odpowiednioci treci zada. Sama
analiza lestu moe nie ujawni procesw faktycznie wykorzystywanych
przez osoby badane przy jego rozwizywaniu.
Wane jest take, aby ustrzec si przed formuowaniem zbyt oglnych
wnioskw na lemat dziedziny, ktrej prbk stanowi test, Na przykad

Trafno: podstawowe pojcia 159

test ortograficzny zawierajcy zadania z wieloma odpowiedziami do


wyboru moe mierzy zdolno do rozpoznawania poprawnie 1
niepoprawnie napisanych slow. Ale nie mona zakada, e mierzy on te
zdolno do poprawnego pisania dyktowanych slow, czsto bdw
ortograficznych w wypracowaniach i inne aspekty zdolnoci
ortograficznych (Ahlstrm. 1964: Knoell i Harris. 1952). rdem jeszcze
innych problemw moe by wpywanie na wyniki testowe czynnikw nie
majcych zwizku z celem badania. Na przykad wyniki w tecie przeznaczonym do pomiaru biegoci w matematyce czy mechanice mog w
zbyt duym stopniu zalee od zdolnoci do rozumienia sownych
instrukcji lub od szybkoci wykonywania prostych, rutynowych zada.
Konkretne procedury. Trafno treciowa Jest wbudowana w test od
samego pocztku poprzez wybr odpowiednich pozycji. W przypadku
lesiw stosowanych w szkolnictwie opracowanie pozycji poprzedza systematyczna analiza stosownych programw nauczania i podrcznikw,
jak rwnie konsultacje z ekspertami w zakresie danego przedmiotu. Na
podstawie zebranych w len sposb informacji sporzdza si specyfikacj
zawartoci testu dla osb. ktre maj opracowa pozycje. Powinna ona
informowa, jakie treci lub tematy ma obj test. jakie cele ksztacenia
lub procesy naley uwzgldni, a take, jaka jest wzgldna wano
poszczeglnych tematw i celw. I wreszcie powinna zawiera informacj
o tym. ile pozycji kadego rodzaju naley opracowa dla kadego lematu.
Na przykad ocena zdolnoci czytania moe obejmowa rozumienie sw
w kontekcie, dosowne zrozumienie treci i wyciganie poprawnych
wnioskw z podanych informacji. Moe te uwzgldnia materia
pochodzcy z rnych rde, takich jak eseje, utwory pisane wierszem,
artykuy z gazet czy instrukcje obsugi sprztu. Test matematyczny moe
obejmowa umiejtnoci rachunkowe, rozwizywanie zada tekstowych i
stosowanie wyuczonych procedur w innych, nieznanych kontekstach.
Omwienie trafnoci treciowej w podrczniku do testu osigni
szkolnych powinno zawiera opis zastosowanych procedur, ktre miay
zagwarantowa, e zawarto testu bdzie odpowiednia i reprezentatywna dla dziedziny bdcej przedmiotem badania. Jeli w procesie konstruowania testu uczestniczyli eksperci w dziedzinie danego przedmiotu,
naley poda Ich liczb oraz kwalifikacje zawodowe. Jeli penili oni rol
sdziw przy klasyfikowaniu pozycji, to naley przytoczy instrukcj.
Jak otrzymali, a take poda stopie zgodnoci midzy nimi. Ze wzgldu na to, e programy i treci programowe zmieniaj si wraz z upywem
czasu, szczeglnie podane jest okrelenie daty. kiedy konsultowano si
z ekspertami z danego przedmiotu. Podobnie naley poda informacj o
liczbie, rodzaju i dalach publikacji podrcznikw oraz programw szkolnych, ktre stanowiy podstaw konstruowanego testu.

162

ZAGADNIENIA PSYCHOMETTRYCZNE

Zazwyczaj stosuje si te pewne procedury empiryczne, ktre dostarczaj dodatkowych informacji na temat trafnoci treciowej testu
osigni szkolnych. Mona sprawdzi wyniki oglne i wykonanie
poszczeglnych zadah w kolejnych klasach. Na ogl zostawia si w tecie te pozycje, dla ktrych mona zaobserwowa najwikszy przyrost
poprawnych rozwiza midzy modszymi i starszymi klasami Inne
dodatkowe procedury, ktre mona stosowa, o ile ma to sens. obejmuj
analizowanie rodzajw powszechnie popenianych bdw oraz obserwowanie metod pracy stosowanych przez osoby badane. Obsenvacj tak
mona przeprowadzi w ten sposb, e bada si uczniw indywidualnie,
polecajc im gono myle" w trakcie rozwizywania kadego problemu.
Rol szybkoci mona oszacowa odnotowujc liczb osb. ktrym nie
udaje si skoczy testu, lub za pomoc ktrej z bardziej wyrafinowanych metod przedstawionych w rozdziale 4. Aby sprawdzi, czy na
wyniki testu me wpywaj przypadkiem zdolnoci do czytania instrukcji,
mona skorelowa wyniki w danym tecie z wynikami w tecie czytania
ze zrozumieniem Natomiast jeli test jest przeznaczony wanie do
pomiaru czytania ze zrozumieniem, to podanie pyta bez tekstu, ktrego
pytania te dotycz, ujawni, na ile spord nich badani mog
odpowiedzie, korzystajc wycznie z posiadanych wczeniej informacji
lub z innych, nie majcych zwizku z testem, wskazwek (Scherich i
Hanna, 1977),
Zastosowania. Badanie trafnoci treciowej, zwaszcza wspomagane
takimi rodkami kontroli empirycznej, o jakich bya mowa wyej, stanowi
adekwatny sposb oceny testw osigni. Pozwala te udzieli
odpowiedzi na dwa pytania, podstawowe dla trafnoci testw osigni
szkolnych i zawodowych: (1) Czy test obejmuje reprezentatywn prb
okrelonych umiejtnoci i wiedzy? (2) Czy na poziom wykonania testu
nie wpywaj w znaczcym stopniu zmienne nie majce zwizku z celem
badania? Analiza trafnoci treciowej jest odpowiednia zwaszcza w
odniesieniu do testw zorientowanych na standard wykonania,
opisanych w rozdziale 3. Jeli wemiemy pod uwag to, e wyniki w tych
testach interpretuje si w kategoriach treci, slaje si oczywiste, e
informacje na temat trafnoci treciowej s niezbdne do prawidowego
posugiwania si nimi. Niemniej jednak dla penej oceny takich testw
istotne znaczenie maj take dane dotyczce innych rodzajw trafnoci
(zob. Hambleton. 1984b).
Trafno treciowa jest wana take w przypadku pewnych testw
zawodowych, przeznaczonych do selekcji i klasyfikacji pracownikw,
ktre przedstawiono w rozdziale 17. Omawiany rodzaj danych na temat
trafnoci ma tu sens wtedy, gdy test stanowi prbk faktycznych czynnoci zawodowych bd w inny sposb odwouje si do takich samych
umiejtnoci lub takiej samej wiedzy, jakie s wymagane w pracy.

Trafno: podstawowe pojcia

163

W takich przypadkach naley przeprowadzi gruntown analiz pracy,


by wykaza, c midzy czynnociami zawodowymi a testem istnieje cise
podobiestwo. Zastosowanie tych procedur do opracowania testu czytania opisw technicznych przedstawiaj szczegowo i przystpnie
Schoenfcldt, Schoenfeldt, Acker i Perlson (1976). Badacze ci. w cisej
wsppracy z osobami aktualnie zatrudnionymi oraz z kierownikami,
dokonali analizy wymaga w zakresie czytania. Jakie stawiaj pracownikom duego zakadu produkcyjnego zadania wykonywane w okresie
wstpnym. Wymagania te scharakteryzowano z uwagi zarwno na
aspekty treciowe. Jak 1 potrzebne umiejtnoci rozumienia. Nastpnie
opracowano zadania testowe w taki sposb, by korespondoway z tymi
wymaganiami. Taki sposb podejcia Jest szeroko stosowany przy opracowywaniu testw dla pracownikw rzdowych na szczeblu federalnym
i stanowym (Hardt, Eyde, Primoff i Tordy, 1981: Menne, McCarthy 1
Menne, 1976; Primoff i Eyde. 1988; Tordy, Eyde, Primoff i Hardt, 1976).
Badanie trafnoci treciowej zazwyczaj nie jest odpowiednim
sposobem walidacji testw uzdolnie i osobowoci, a nawet moe
prowadzi na manowce. Wprawdzie analiza odpowiednioci i reprezentatywnoci treci jest niezbdna na pocztkowym etapie konstruowania
kadego testu, jednak ostateczna walidacja testw uzdolnie i osobowoci wymaga empirycznej weryfikacji za pomoc procedur opisanych w dalszych czciach rozdziau. W porwnaniu z testami osigni, testy te
wykazuj mniej podobiestwa do dziedziny, ktrej prbk maj stanowi. Wskutek tego analiza treci testw uzdolnie i osobowoci ujawnia
niewiele wicej ni tylko hipotezy, ktre doprowadziy konstruktorw
testu do wyboru pewnych treci w celu pomiaru okrelonych cech. Aby
ustali trafno testu, trzeba te hipotezy zweryfikowa empirycznie.
W odrnieniu od testw osigni, testy uzdolnie i osobowoci nie s
oparte na konkretnym programie ksztacenia ani na jednolitym zbiorze
uprzednich dowiadcze, ktre mogyby by podstaw treci testu
Osoby wykonujce tego rodzaju lesty bd si znacznie bardziej, ni
ludzie badani testami osigni, rni w zakresie stosowanych metod
pracy czy procesw psychologicznych zaangaowanych w odpowiadanie
na tc same pytania testowe. Identyczny test moe wic mierzy u rnych
osb rne funkcje. W takiej sytuacji na podstawie analizy treci waciwie nie da si okreli, jakie funkcje psychologiczne mierzy dany test. Na
przykad absolwenci college'u mog rozwizywa dany problem werbalnie lub z wykorzystaniem matematyki, podczas gdy robotnik dojdzie do
takiego samego rozwizania drog wizualizacji przestrzennej. Podobnie
test rozumowania arytmetycznego przeznaczony dla uczniw pierwszej
klasy szkoy redniej, jeli zostanie podany studentom co!lege'u. moe
mierzy wycznie rnice Indywidualne w szybkoci rachowania.

164

ZAGADNIENIA

PsYCHOMElKYCzN

Trafno fasadova. Trafnoci treciowej nie naley myli z trafnoci


fasadow. Ta ostatnia nic jest trafnoci w sensie formalnym: dotyczy
nie lego. co tesl rzeczywicie mierzy, lecz lego. co wydaje si mierzy".
Mwic o trafnoci fasadowej mamy na myli to, czy lesl wyglda na
trafny" w oczach osb, ktre go rozwizuj, personelu administracyjnego. kliy decyduje o uyciu go, oraz w oczach innych niefachowcw.
Zasadniczo problem trafnoci fasadowej dotyczy sfery kontaktw i relacji
midzyludzkich. Chocia zastosowanie terminu trafno" moe w tym
przypadku rodzi nieporozumienia, trafno fasadowa sama w sobie Jest
podan waciwoci testu. Na przykad testy opracowane z myl o
dzieciach i pierwotnie przeznaczone tylko dla nich. uyte polem w badaniu dorosych, czsto spotykay si z odrzuceniem i krytyk wanie z
powodu braku trafnoci fasadowej. Jeli tre testu wydaje si nieistotna. nieodpowiednia, niemdra lub dziecinna, lo oczywicie skutkiem
tego bdzie brak wspdziaania ze strony osoby badanej, bez wzgldu na
rzeczywist trafno testu. Zwaszcza w badaniach osb dorosych nie
wystarczy, aby test byl obiektywnie trafny. Powinna go le charakteryzowa trafno fasadowa, jeli ma skutecznie funkcjonowa w praktyce.
Trafno fasadowa decyduje te o stopniu akceptacji testu wpywajcym
na decyzje legislacyjne i sdowe oraz opini, jak cieszy si w
spoeczestwie.
W liuiuwacyjriym piugramie badawczym powiconym testowaniu
spostrzeganemu z perspektywy osoby badanej (omwionym w rozdz. 1),
Baruch Nevo i jego wsppracownicy uwzgldnili take badanie trafnoci
fasadowej (B. Nevo. 1985. 1992, 1993: Nevo i Sfez, 1985). Najpierw zwrcili oni uwag na brak bada, ktre byyby powicone trafnoci fasadowej. mimo e prawdopodobnie wpywa ona na postawy przejawiane
wobec testw. Nastpnie zaproponowali sposb ilociowego szacowania
trafnoci fasadowej, polegajcy na lym, e badani i inne zainteresowane
testem osoby, ktre jednak nic znaj si na psychometrii, oceniaj, czy
test Len nadaje si do takiego zastosowania, do jakiego jest przeznaczony; lak sam procedur mona stosowa do oceny poszczeglnych
pozycji testowych lub baterii testw. Autorzy przedstawili dane. pochodzce z analizy odpowiedzi w Kwestionariuszu Sprzenia Zwrotnego ze
Strony Osoby Badanej (Examinee Feedback Queslionnaire). wypenionym
przez 1385 studentw izraelskich, ktrzy w ramach egzaminu wstpnego
na uniwersytet wykonywali sze testw. Uzyskane wyniki wykazay
obiecujc zgodno midzy sdziami, rzetelno szacowan na podstawie powtarzania testu oraz zrnicowanie midzy testami, a take midzy
podgrupami respondentw, ktrzy mieli zamiar specjalizowa si w
rnych dziedzinach. Zalecono, aby w podrcznikach testowych podawa
zarwno ilociowe, jak i jakociowe dane na temat trafnoci fasadowej.
Trafno fasadow czsto mona zwikszy po prostu przeformuowujc pozycje testowe w taki sposb, aby wydaway si tym.

Trafno: podstawowe pojcia

165

wobec ktrych tesl bdzie stosowany, sensowne i moliwe do przyjcia


Na przykad Jeli tesl prostego rozumowania arytmetycznego jest przeznaczony dla mechanikw, zadania powinny dotyczy raczej operacji
technicznych ni problemw w rodzaju: .ile pomaraczy mona kupi za
86 centw?" czy Innych typowo szkolnych pyta wystpujcych w
podrcznikach do matematyki. Podobnie do testu arytmetycznego dla
personelu okrtowego mona wprowadzi zadania dotyczce tematyki
morskiej i nie wpynie to na zmian mierzonych funkcji. Trzeba wyranie
powiedzie, c trafnoci fasadowej nic naley uwaa za substytut obiektywnie okrelonej trafnoci. Nie mona zakada, e poprawa trafnoci
fasadowej testu poprawi jego obiektywn trafno. Ale nie mona te
przyjmowa, e modyfikujc lesl tak, aby zwikszy jego trafno fasadow. na pewno nie zmieniamy jego trafnoci obiektywnej. Trafno
ostatecznej wersji lestu naley zawsze sprawdza bezporednio.

SPOSOBY BADANIA TRAFNOCI KRYTERIALNEJ


Trafno diagnostyczna i prognostyczna.
Procedury sprawdzania
trafnoci kryterialnej odnosz si do skutecznoci lesiu w prognozowaniu funkcjonowania Jednostki w okrelonej sferze. Miar kryterialn, w
stosunku do ktrej walidowane s wyniki testu, mona uzyskiwa
w przyblieniu w tym samym czasie, co wyniki testowe, albo po upywie
pewnego czasu od badania testowego. W Standardach dla testw
(Testing Standards) z 1985 roku wprowadzono rozrnienie midzy
trafnoci diagnostyczn 1 prognostyczn wanie na podstawie relacji
czasowych zachodzcych midzy kryterium a badaniem testowym.
Termin prognoza" mona stosowa w znaczeniu szerszym, na okrelenie
wszelkich przewidywa dokonywanych na podstawie wynikw
testowych, lub wszym - majc na myli przewidywanie tego. co bdzie
miao miejsce po upywie pewnego czasu. I w tym wanie wszym
znaczeniu termin len jest uywany w w/raeniu .trafno prognostyczna". Dane na temat trafnoci prognostycznej maj podstawowe znaczenie w przypadku testw stosowanych do celw selekcji i klasyfikacji personelu. Przyjmowanie osb zgaszajcych si do pracy, egzaminy wstpne do collegeow lub szk zawodowych, przydzielanie personelu
wojskowego na szkolenia w zakresie rnych specjalnoci - to niektre
przykady sytuacji, w ktrych stosowanie i podejmowanie decyzji na
podstawcie lesiw wymaga wrtedzy na temat ich trafnoci prognostycznej.
Innym przykadem moe by zastosowanie testw w celu odsania
kandydatw, u ktrych prawdopodobnie pojaw/i si zaburzenia
emocjonalne pod wpywem stresujcych warunkw, lub zastosowanie

166

ZAGADNIENIA PSYCHOMETRYCZNF.

testw do wyonienia tych pacjentw psychiatrycznych, ktrzy najprawdopodobniej odnios korzy z okrelonej terapii.
W wielu przypadkach trafno diagnostyczn traktuje si po prostu
jako substytut trafnoci prognostycznej. Rozcignicie bada walidacyjnych na czas potrzebny do okrelenia trafnoci prognostycznej jest
czsto niewykonalne, podobnie jak uzyskanie odpowiedniej prby preselekcyjnej do celw badania testowego. Kompromisowym rozwizaniem w
takiej sytuacji Jest wic zbadanie testem grupy, dla ktrej dane krylerialne s ju z gry dostpne Wyniki testowe studentw collegeu mona
zatem odnosi do redniej ocen uzyskiwanej w momencie testowania, a
wyniki pracownikw - do aktualnego powodzenia w pracy zawodowej.
Jednake w przypadku niektrych zastosowa testw psychologicznych odwoywanie si do trafnoci diagnostycznej jest najbardziej
waciwe i tumaczy si samo przez si. U podstaw logicznego
rozrnienia midzy trafnoci prognostyczn i diagnostyczn \eiy kwestia me czasu, lecz celw testowania. Trafno diagnostyczna jest istotna
dla testw stosowanych w celu diagnozy istniejcego statusu, a nie prognozy przyszych wynikw. Rnic t mog zilustrowa pytania: Czy
pana Smitha mona uzna za dobrego pilota?" i Czy pan Smith ma
warunki niezbdne do tego. by sta si dobrym pilotem?". Pierwsze
pytanie odnosi si do trafnoci diagnostycznej, a drugie - do trafnoci
prognostycznej.
W przypadku trafnoci diagnostycznej kryterium Jest zawsze dostpne
w czasie badania testowego, moe wic pojawi si pytanie, jak funkcj
peni wwczas test. Ot testy s w zasadzie prostszym, szybszym i mniej
kosztownym substytutem danych kryterialnych. Na przykad jeli kryterium stanowi wyniki cigej obserwacji pacjenta prowadzonej w czasie dwutygodniowego okresu jego hospitalizacji, to test, ktry pozwoliby
na dokonanie podziau na osoby normalne, zaburzone oraz przypadki
wtpliwe, znacznie zredukowaby liczb osb wymagajcych takiej rozlegej obserwacji.
Kontamlnacja kryterium. Przy sprawdzaniu trafnoci testu naley
upewni si. e wyniki testowe same nie wpywa( na pozycj jednostki
w zakresie branego pod uwag kryterium. Na przykad jeli nauczyciel w
college'u lub kierownik w zakadzie pracy wie, e dana osoba uzyskaa
bardzo slaby wynik w tecie uzdolnie, to wiedza ta moe wpywa na
stopnie stawiane danemu uczniowi lub oceny przyznawane danemu pracownikowi. Natomiast w przypadku osoby uzyskujcej wysoki wynik w
tecie wszelkie wtpliwoci - przy wystawianiu ocen szkolnych czy ocenianiu funkcjonowania w pracy - mog by rozstrzygane na jej korzy.
Takie wpywy bd w sztuczny sposb podwysza korelacj midzy
wynikami testu a kryterium.

Trafno:

podstawowe pojcia 165

To moliwe rdlo bdu przy walidacji lestu znane jest Jako kontamlnacja kryterium, poniewa oceny kryterialne zostaj .skaone" na skutek
lego. e osoba oceniajca zna wyniki w tecie. Jeli chcemy unikn tego
bdu, lo Jest rzecz absolutnie konieczn, by adna spord osb
biorcych udzia w ocenianiu kryterium nic nie wiedziaa na temat
wynikw testowych osb badanych. Z tego wanie powodu wyniki
testowe wykorzystywane do testowania lestu" musz by utrzymywane
w cisej tajemnicy. Przekonanie nauczycieli, pracodawcw, przeoonych
w wojsku i Innego personelu o tym, e Jest to wany rodek ostronoci,
bywa czasami trudne. Osoby takie, usiujc przy podejmowaniu decyzji
natychmiast wykorzysta wszystkie dostpne informacje, mog nie
zdawa sobie sprawy z tego, e dopki nie uzyska si danych kryterialnych i nie sprawdzi Iralnoci, wyniki testu naley odoy na bok.
Miary kryterialne.
Trafno testu mona sprawdza w stosunku do
tak wielu kiyteriw, jak wiele jest specyficznych zastosowa danego
testu. Kada metoda oceny zachowania w dowolnej sytuacji moe dostarczy miary kryterialnej dla jakiego konkretnego celu. Przytaczane w
podrcznikach testowych kryteria, ktre stosuje si w badaniach
trafnoci, mona podzieli na kilka oglnych kategorii. Do kryteriw
najczciej stosowanych w badaniach trafnoci testw inteligencji nale
takie czy Inne wskaniki osigni szkolnych- Wanie z tego powodu
testy te s czsto bardziej precyzyjnie okrelane jako narzdzia do
pomiaru uzdolnie szkolnych. Do wskanikw osigni szkolnych
stosowanych jako miary kryterialne nale: oceny szkolne, wyniki w teslach osigni, promocje i opinie na wiadectwach, specjalne nagrody I
wyrnienia, oceny inteligencji" dokonywane przez nauczycieli lub
wykadowcw. Jeli w danym rodowisku oceny nauczycieli rzeczywicie
odzwierciedlaj poziom funkcjonowania szkolnego jednostki, to mona je
zaliczy do kryterium, jakim s osignicia szkolne.
Danymi kryterialnymi na wszystkich poziomach edukacji, od zerwki
po college 1 studia wysze, s rozmaite wskaniki osigni szkolnych.
Cho zasadniczo stosuje si Je w badaniach trafnoci testw inteligencji,
to su te jako kryteria dla pewnych lestw osobowoci i wielowymiarowych baterii uzdolnie. Na przykad czsto stosowanym kryterium
w badaniach trafnoci lestw przeznaczonych do selekcji studentw college^ jest wyraona w punktach rednia ocen uzyskanych w pierwszym
roku nauki. Miar, t uzyskuje si w ten sposb, e oblicza si redni
ocen ze wszystkich przedmiotw nauczanych na pierwszym roku. przy
czym kada ocena jest waona ze wzgldu na liczb punktw, ktr si
za ni otrzymuje.
Pewnym wariantem kryterium osigni szkolnych, czsto wykorzystywanym w badaniu dorosych, ktrzy ju si nie ucz. jest zdobyte
wyksztacenie. Przyjmuje si. e - oglnie rzecz biorc - osoby bardziej

168

ZAGADNIENIA PSYCHOMBTRYCZNE

inteligentne duej si ucz. podczas gdy mniej inteligentne odpadaj ze


szkoy wczeniej. U podstaw lego kryterium ley zaoenie, zgodnie z
ktrym drabina edukacyjna suy jako czynnik stopniowej selekcji,
eliminujcy na kadym etapie tych mniej zdolnych. Cho bez wtpienia
jest prawd, e na przykad absolwenci collegeu stanowi bardziej wyselekcjonowan grup ni absolwenci szkoy podstawowej, lo zwizek
midzy poziomem wyksztacenia a uzdolnieniami szkolnymi jest daleki
od doskonaoci. Szczeglnie na wyszych szczeblach edukacji kontynuowanie nauki przez jednostk moe -zalee od czynnikw o charakterze pozainteleklualnym - ekonomicznych, spoecznych, motywacyjnych i innych. Co wicej, przy tego rodzaju trafnoci diagnostycznej
trudno jest rozwika problem zalenoci przyczynowo-skutkowych. W
jakim stopniu otrzymane rnice w wynikach lesiu Inteligencji s po
prostu rezullatem rnic w poziomie wyksztacenia? A w jakim stopniu
mona byoby na podstawie wynikw testu przewidzie rnice
indywidualne w przebiegu dalszego ksztacenia? Na takie pytania mona
odpowiedzie tylko wtedy, gdy test zastosuje si wczeniej, a dopiero
potem przychodzi czas zbierania danych kryterialnych, czyli tak, jak to
ma miejsce w przypadku badania trafnoci prognostycznej.
Przy opracowywaniu lesiw uzdolnie specjalnych czsto stosuje si
kryterium oparte na wynikach specjalistycznego ksztacenia. Na
przykad tralno testw uzdolnie technicznych mona bada biorc
pod uwag kocowe osignicia na kursach zawodowych. Rnego
rodzaju kursy biurowe, np. maszynopisania czy ksigowoci, dostarczaj
kryteriw trafnoci dla testw uzdolnie w tych wanie zakresach.
Podobnie osignicia w szkoach muzycznych czy artystycznych wykorzystuje si w badaniu trafnoci lestw uzdolnie muzycznych czy
artystycznych. Trafno niektrych testw uzdolnie zawodowych
okrelano ze wzgldu na osignicia uzyskiwane na wydziaach prawa,
medycyny, stomatologii, na politechnikach i innych uczelniach. W przypadku testw wykonywanych na zamwienie, przeznaczonych do
stosowania w ramach okrelonych programw, czstym rdem danych
kryterialnych s wiadectwa ze szkolenia. Znakomit lego ilustracj jest
badanie trafnoci testw przeznaczonych do selekcji pilotw w silach
powietrznych, w ktrym kryterium stanowiy osignicia na szkoleniu z
podstaw latania. Osignicia uzyskiwane w programach szkoleniowych
wykorzystuje si te powszechnie jako kryteria trafnoci testw przeznaczonych dla innych specjalnoci wojskowych oraz do niektrych zastosowa w przemyle.
Do typowych wskanikw osigni w szkoleniu, wykorzystywanych
jako kryteria trafnoci, nale wyniki w lesiach osigni wykonywanych
po zakoczeniu szkolenia, formalne stopnie, oceny instruktorw oraz
fakt ukoczenia - lub nieukoczenia - szkolenia, Wyniki wielowymiarowych baterii uzdolnie czsto odnosi si do ocen uzyskiwanych z

Trafno: podstawowe pojcia

169

okrelonych przedmiotw w szkoach rednich lub collegeach. co


pozwala okreli prognostyczn trafno rnicow poszczeglnych
testw. Na przykad wyniki w tecie rozumienia sownego mona zestawia z ocenami z jzyka angielskiego, wyniki w tecie wzrokowoprzcstrzcnnym - z ocenami z geometrii i tak dalej.
W zwizku z tym. e wiadectwa ze szkolenia wykorzystuje si Jako
miary kryterialne, mona wprowadzi uyteczne rozrnienie na kryteria
porednie i ostateczne. Na przykad przy opracowywaniu testu do
selekcji pilotw w silach powietrznych lub testu uzdolnie lekarskich
ostatecznymi kryteriami byyby odpowiednio osignicia bojowe 1
osignicia w praktyce lekarskiej. Oczywicie chcc zebra tego rodzaju
dane kryterialne trzeba byoby bardzo dugo czeka. Co wicej, mona
mle wtpliwoci, czy prawdziwie ostateczne kryterium w ogle daoby
si w praktyce uzyska. I wreszcie, nawet gdyby takie ostateczne kryterium byo osigalne, prawdopodobnie podlegaoby wpywowi wielu
niekontrolowanych czynnikw, ktre sprawiayby, e stawaoby si ono
bezuyteczne. Na przykad trudno byoby oceni wzgldne stopnie sukcesu lekarzy specjalizujcych si w rnych dziedzinach lub
praktykujcych w rnych czciach kraju. Z tych powodw Jako miary
kryterialne czsto wykorzystuje si porednie kryteria, takie jak
wiadectwa z pewnego etapu szkolenia.
W wielu przypadkach najbardziej satysfakcjonujcym rodzajem kryterium jest miara oparta na pniejszych ocenach rzeczywistych
osigni w pracy. Kryterium to w ograniczonym zakresie wykorzystuje
si w badaniach trafnoci testw inteligencji oglnej i testw osobowoci, a w duo wikszym - w badaniach trafnoci testw uzdolnie specjalnych. Powszechnie te stosuje si je przy badaniu trafnoci testw
robionych na zamwienie i dotyczcych konkretnych prac. Prace", o
ktrych mowa, mog by bardzo rne, zarwno pod wzgldem rodzaju,
jak i stopnia zoonoci, I wiza si z dziaalnoci w biznesie, przemyle. siach zbrojnych czy wykonywaniem wolnych zawodw.
Wikszo miar wykonania pracy prawdopodobnie nie stanowi kryteriw
ostatecznych, s to jednak cakiem dobre kryteria porednie dla wielu
zastosowa testw. Z tego wzgldu naleaoby je przedkada nad
wiadectwa ze szkolenia. Z drugiej jednak strony, pomiar wykonania
pracy nie pozwala na takie ujednolicenie warunkw, jakie moliwe jest
podczas szkolenia. Ponadto kryterium poziomu wykonania pracy
zazwyczaj wymaga prowadzonych w duszym czasie bada podunych,
co czyni prawdopodobnym ubytek liczby dostpnych osb badanych.
Ze wzgldu na to, e prace, ktre podobnie si nazywaj, czsto maj
zupenie odmienny charakter, w podrcznikach testowych naley
podawa nie tylko konkretne miary kryterialne, ktre zastosowano przy
badaniu trafnoci, ale take zakresy obowizkw pracownikw.

170

ZAGADNIENIA PSYCHOMETRYCZNF.

W badaniu trafnoci metod gmp kontrastowych zazwyczaj bierze si


pod uwag zoone kryteria, ktre odzwierciedlaj skumulowane I
niekontrolowane wpywy selekcyjne wystpujce w codziennym yciu.
Podstaw tego rodzaju kryteriw jest fakt. e Jedne osoby pozostaj w
danej grupie, a Inne wypadaj z niej. Na przykad porwnujc wyniki
uzyskane przez uczniw szkoy muzycznej czy technicznej z wynikami
uzyskanymi przez niewyselekcjonowan prb uczniw szkoy redniej
lub college u. mona sprawdzi trafno testu uzdolnie muzycznych lub
mechanicznych. Oczywicie grupy kontrastowe mona dobiera na
podstawie dowolnego kryterium, takiego Jak oceny szkolne czy poziom
wykonania pracy, po prostu wczajc do nich osoby z kracw rozkadu
miary kryterialnej. Przede wszystkim jednak chodzi tu o odrbne grupy,
ktre powstaway stopniowo, w wyniku zrnicowanego dziaania
zoonych wymaga codziennego ycia. Kryterium jest wic w takim
przypadku bardziej zoone i trudniej Je zdefiniowa ni kryteria
wczeniej omwione
Metoda grup kontrastowych jest do powszechnie stosowana w badaniach nad trafnoci testw osobowoci. Badajc trafno testu przeznaczonego do pomiaru cech spoecznych mona wic porwnywa wyniki, z jednej strony, sprzedawcw czy kierownikw, a z drugiej - urzdnikw czy inynierw. U podstaw takiego postpowania ley zaoenie, e
osoby, ktre wybray i wykonuj takie zawody, jak sprzedawca czy
kierownik, pod wzgldem wielu cech spoecznych przewyszaj, jako
grupa, osoby wykonujce prac urzdnikw czy inynierw. Podobnie
studentw college u, ktrzy angauj si w wiele zaj pozalekcyjnych,
mona porwnywa z tymi. ktrzy w podobnym okresie nauki nic zaangaowali si w adn dziaalno. Przy tworzeniu i badaniu trafnoci
testw zainteresowa, takich jak Arkusz Zainteresowa Zawodowych
Stronga (Strong Vocational Interest Blank - SV1B). czy przy opracowywaniu skal postaw czsto wykorzystuje si grupy zawodowe. W badaniach
trafnoci skal postaw czasem wykorzystywane s grupy polityczne, religijne, geograficzne czy inne, o ktrych oglnie wiadomo, c reprezentuj
wyranie zrnicowane punkty widzenia na pewne sprawy.
W empirycznych badaniach trafnoci testw zorientowanych na standard wykonania stosuje si, oprcz zwykych procedur badania trafnoci treciowej (Hambleton, 1984b), pewne modyfikacje metody grup kontrastowych. W tym celu porwnuje si wyniki testowe grup rnicych
si pod wzgldem iloci zastosowanego wiczenia. Jeli stosuje si ocen
wynikw z punktu widzenia osignicia, lub nieosignicia. biegoci, to
mona przeprowadzi analiz 2x2. w ktrej porwnuje si proporcj
sukcesw i poraek w grupie przed wiczeniem z proporcj sukcesw i
poraek w grupie po wiczeniu (Paneli i Laabs. 1979). Podobne porwnania mona czyni wtedy, gdy testem badani s uczniowie klasy o rok
niszej i o rok wyszej ni klasa, w ktrej nauczane s pojcia lub

Trafno: podstawowe pojcia

171

umiejtnoci oceniane za pomoc danego testu. Jeli badanie testowe


przeprowadza si kilkakrotnie, po zrnicowanym okresie wiczenia, to
mona obliczy korelacj midzy wynikami w tecie a iloci wiczenia.
Przy opracowywaniu pewnych testw osobowoci wykorzystuje si
diagnoz psychiatryczn jako zarwno podstaw selekcji pozycji
testowych, jak 1 dowd trafnoci testu. Diagnoz psychiatryczn mona
traktowa Jako zadowalajce kryterium, jeli jest ona efektem dugotrwaej obserwacji i szczegowej historii przypadku, a nie pobienego
wywiadu czy badania psychiatrycznego. W tym ostatnim przypadku nie
ma adnego powodu, by oczekiwa, e diagnoza psychiatryczna bdzie
lepszym wskanikiem stanu emocjonalnego jednostki ni wynik testu.
Tak diagnoz psychiatryczn naley Lraktowa nie jako miar kryterialn, lecz raczej jako wskanik czy predyklor, ktrego trafno trzeba
dopiero okreli.
W zwizku z innego rodzaju kryteriami wspomniano ju o pewnych
rodzajach ocen pochodzcych od nauczycieli, instruktorw specjalistycznych szkole i personelu kierowniczego w pracy. Mona do tego
doda oceny dokonywane przez oficerw w wojsku, oceny dokonywane
przez doradcw szkolnych w odniesieniu do uczniw, oceny dokonywane
przez wsppracownikw, kolegw klasowych, czonkw klubu przyjaci
i inne grupy koleeskie. Oceny omawiane wczeniej stanowiy jedynie
dodatkowy sposb uzyskiwania informacji dotyczcych takich kryteriw,
jak osignicia szkolne, wyniki specjalistycznego szkolenia lub powodzenie zawodowe. Obecnie rozwaymy wykorzystanie ocen jako podstawowych miar kryterialnych. W takiej sytuacji oceny same stanowi kryterium. Co wicej, nie ograniczaj si do szacowania konkretnych
osigni, ale uwzgldniaj osobiste opinie obserwatora na temat
szeregu cech. ktre testy psychologiczne usiuj zmierzy. Tak wic
osoby stanowice prb walidacyjn mona ocenia ze wzgldu na takie
waciwoci, jak dominacja, pomysowo techniczna, oryginalno,
przywdztwo czy uczciwo.
Oceny wykorzystuje si w badaniach trafnoci niemal wszystkich
rodzajw testw. S one szczeglnie uyteczne w odniesieniu do testw
osobowoci, poniewa w tej dziedzinie Jest o wiele trudniej znale obiektywne kryteria. Dotyczy to zwaszcza cech wyranie spoecznych, dla
ktrych oceny oparte na osobistym kontakcie mog stanowi najbardziej
uzasadnione logicznie kryterium. Oceny mog by podatne na wiele
bdw zwizanych z osob oceniajcego, jednak gdy uzyskuje si je w
starannie kontrolowanych warunkach, stanowi wartociowe rdo
danych kryterialnych. O tym. w jaki sposb mona udoskonali
dokadno ocen i ograniczy czsto spotykane bdy, jest mowa w
rozdziale 16.
I wreszcie, czsto na dowd trafnoci testu przytaczane s korelacje
midzy nowym testem a testami ju wczeniej dostpnymi. Jeli nowy

172

ZAGADNIENIA PSYCHOMETTRYCZNE

test Jest skrcon lub uproszczon odmian wczeniejszego testu, ten


ostatni mona traktowa jako miar kryterialn. A wic trafno testu
typu .papier 1 owek- mona sprawdza traktujc jako kryterium wyniki bardziej skomplikowanego i czasochonnego testu wykonar.iowego.
ktrego trafno sprawdzono Ju wczeniej. Trafno testu przeznaczonego do bada grupowych mona sprawdza wykorzystujc test
przeznaczony do bada indywidualnych. Na przykad Stan/ordzka Skala
Bineta wielokrotnie suya jako kryterium w badaniach trafnoci testw
grupowych. W takim przypadku nowy test mona w najlepszym razie
uzna za z grubsza podobny do wczeniejszego. Naley zwrci uwag, e
jeli nowy test nie jest uproszczonym lub krtszym substytutem lestu
wczeniejszego, lo uycie tego ostatniego jako kryterium jest niewaciwe.
W latach 80. i 90. duym krokiem naprzd w dziedzinie konstruowania testw byo zwrcenie uwagi na kwesti analizy kryterium. Jest to ten
aspekt pracy nad testem, ktry w tradycyjnych badaniach powszechnie
lekcewaono. Przez lata lylko nieliczni podnosili kwesti koniecznoci
prowadzenia systematycznych bada dotyczcych kryterium, ale w praktyce i tak niewiele z lego wynikao (L.R. James. 1973; Tenopyr. 1986).
Nawet w poprawnie opracowanych programach, w ktrych jako drogowskaz przy konstruowaniu testu stosowano staranne analizy pracy,
ich wyniki miay niewielki wpyw na wybr miary kryterlalnej stosowanej
nastpnie w badaniach trafnoci. Zazwyczaj przyjmowano, e kryterium
po prostu Jest" i zbyt czsto byl to pojedynczy globalny wskanik
poziomu wykonania pracy oparty na ocenach lub kocowych
wiadectwach.
Obecnie powszechnie uznaje si. e najlepszy sposb badania trafnoci testu polega na identyfikowaniu gwnych konstruktw opisujcych
poziom wykonania danej pracy, a nastpnie na wybieraniu lub opracowywaniu testw, ktrych wyniki bd pozwalay na ich ocen (J.P.
Campbell. 1990a; J.P. Campbell. Mcenry i Wise 1990; L.V. Jones i
Appelbaum, 1989: Messlck. 1995). Znakomitego przykadu gruntownego
badania kryterium, jako pierwszego etapu opracowywania baterii testw,
dostarcza program badawczy powicony scickcji 1 klasyfikacji w arinii
Stanw Zjednocznych (L/.S. Army's Selection and Classification Project),
powszechnie znany jako Projekt A" (J.P. Campbell, 1990b). Ze wzgldu
na swoje znaczenie dla wykorzystania testw w przemyle i w organizacjach. ten przygotowany z duym rozmachem siedmioletni projekt
omwiono bardziej dokadnie w rozdziale 17.
Generalizacja trafnoci. Przewidywanie kryterium czsto stosuje si
w lokalnych badaniach trafnoci, w ktrych przedmiotem oceny ma by
skuteczno testu ze wzgldu na konkretny program. Z takim sposobem
podejcia mamy do czynienia na przykad wtedy, gdy dana spka prag-

Trafno: podstawowe pojcia

173

nie dokona oceny testu przeznaczonego do selekcji osb starajcych si


o jedn z prac wykonywanych w lej spce lub gdy college chce sprawdzi. jak dokadnie mona przewidzie postpy w nauce na podstawie
wynikw lestu uzdolnie szkolnych. Trafno kryterialn mona
najlepiej scharakteryzowa jako trafno praktyczn lestu dla
okrelonego celu.
W pocztkach bada nad trafnoci lestw stosowanych w przemyle
wyniki standaryzowanych testw uzdolnie korelowano z poziomem
wykonania prac. o ktrych zakadano, e s podobne; otrzymywano
wwczas bardzo zrnicowane wspczynniki trafnoci (Ghiselli, 1959.
1966). Podobn zmienno wspczynnikw trafnoci zaobserwowano
wtedy, gdy kryterium byy oceny szkolne z rnych przedmiotw (G.K.
Bennett, Seashore i Wesman, 1984|. Takie wyniki zrodziy do
powszechny pesymizm co do moliwoci generalizowania danych o
trafnoci testu na rne sytuacje. Do poowy lat 70. .sytuacyjn specyfik" wymaga psychologicznych uwaano powszechnie za powane
ograniczenie uytecznoci standaryzowanych testw w selekcji personelu. Jednake Schmidt. Hunter i ich wsppracownicy, ktrzy
przeprowadzili wyrafinowan analiz statystyczn tego problemu,
wykazali, e wiele z tej zmiennoci w zakresie uzyskiwanych wspczynnikw Lrafnocl moe by artefaktem wynikajcym z malej liczebnoci
prb. niedostatecznej rzetelnoci kryterium i maego zrnicowania pracownikw wchodzcych w skad prb. 1
Prby skadajce si z osb zatrudnionych w przemyle, dostpne dla
bada nad trafnoci testw, s zazwyczaj zbyt mae. aby mogy dawa
stabilne oszacowanie korelacji midzy predyktorem i kryterium. Z tego
samego powodu uzyskiwane wspczynniki korelacji mog by zbyt
niskie, by osigay poziom istotnoci statystycznej, a co za tym idzie nie
s dowodem trafnoci testu. Szacuje si. e okoo poowa prb walidacyjnych wykorzystywanych w badaniach prowadzonych w przemyle
liczy nie wicej ni 40 czy 50 przypadkw (Schmidt. Hunter i Urry. 1976).
Przy tak maych prbach badanie trafnoci kryterialnej jest technicznie
niewykonalne.
Schmidt. Hunter i ich wsppracownicy zastosowali opracowane przez
siebie nowe techniki analizy do danych z wielu prb obejmujcych rne
specjalnoci zawodowe i wykazali, e trafno testw uzdolnie werbalnych, liczbowych i rozumowania mona generalizowa na rne zawody
w o wiele szerszym zakresie ni uznawano to wczeniej. Zmienno
1
Praca ta stanowia cz programu badawczego opisywanego w wielu
artykuach 1 monografiach. Do najbardziej znaczcych publikacji dotyczcych
omawianego problemu nale (cho nic wycznie): Pearlman. Schmidt I Hur.ter
(1980), Schmidt, Gast-Rosenberg i Hunter (1980), Schmidt l Hunter (1977).
Schmidt, Hunter i Pearlman (1981) oraz Schmidt. Hunter. Pearlman i Shane
(1979).

174

ZAGADNIENIA PSYCHOMETTRYCZNE

wspczynnikw korelacji otrzymywanych we wczeniejszych badaniach


w przemyle okazaa si nie wiksza od takiej, jak mona by uzna za
dzieo przypadku. Byo tak nawet wtedy, gdy konkretne obowizki
zawodowe zwizane z rnymi specjalnociami byy zupenie niepodobne. Najwyraniej sukces w wielu rnych obszarach zawodowych zaley
od wsplnego rdzenia umiejtnoci poznawczych. Testy zastosowane w
tych badaniach obejmoway gwnie te rodzaje treci I umiejtnoci,
ktre mona znale w tradycyjnych testach inteligencji i uzdolnie
szkolnych. Wydaje si wic. e ten zesp umiejtnoci poznawczych i
wiedz)' pozwala w szerokim zakresie przewidywa wyniki zarwno w
sferze dziaalnoci szkolnej, jak i zawodowej, niezbdnej w zaawansowanych technologicznie spoeczestwach. Niemniej jednak, chcc
podejmowa bardziej precyzyjne decyzje selekcyjne, naley bra pod
uwag wyniki dotyczce dwch lub trzech szerszych zespow zdolnoci
poznawczych, najlepiej uzupeniajc to pomiarem specjalistycznych
umiejtnoci, specyficznych dla zada wykonywanych w danej pracy
(Hartigan 1 Wigdor. 1989; L.L. Wise. McHeniy 1 Campbell. 1990:
J Zeidner i Johnson. 1991).
Metaanaliza. Procedury
statystyczne
stosowane
w
pracach
dotyczcych moliwoci generalizowania trafnoci dostarczaj sposobu
na integrowanie wynikw pochodzcych z rnych badan - czenie
danych z bada aktualnych i dawniejszych czy prowadzonych w rnych
miejscach lub danych przedstawionych w rnych publikacjach.
Podstawowe procedury tego rodzaju stosowano od dziesitkw lat.
zwaszcza w innych naukach (Hartigan i Wigdor. 1939. rozdz. 6). ale do
bada psychologicznych wprowadzono je w latach 70. (Glass, 1976;
Schmidt i Hunter. 1977) Metaanalizie powica si w psychologii coraz
wicej uwagi, traktujc j jako substytut tradycyjnych przegldw literatury (Upsey i Wilson. 1993: Schmidt, 1992). W takich przegldach
zazwyczaj omawiano pewn liczb bada, w ktrych stwierdzano, na
przykad, statystycznie istotne rnice midzy rednimi dla grup
eksperymentalnych i kontrolnych lub korelacje midzy wynikami
testowymi a innymi zmiennymi. Ten tradycyjny sposb postpowania nie
przynosi jednak obiecujcych rezultatw, poniewa prby w poszczeglnych badaniach byy zbyt mae, by mona byo uzyska istotne rnice.
Metaanaliza, w ktrej czy si publikowane wyniki szeregu bada i,
jeli to moliwe, way je, biorc pod uwag istotne metodologiczne I formalne cechy kadego badania, moe prowadzi do wanych i wiarygodnych rezultatw. Kolejna korzy polega na tym. e metaanaliza pozwala
na obliczenie rozmiarw wpywu. Zarwno dla celw teoretycznych, jak
I praktycznych oszacowanie wielkoci rnic lub korelacji Jest bardziej
uyteczne ni zwyke pokazanie, e s one istotnie wiksze od zera.
W lalach 80. i 90 niemal w kadej dziedzinie psychologii nastpi
gwatowny rozwj bada o charakterze metaanallz. Najwiksze zaintere-

Trafno: podstawowe

pojcia

175

sowanie wzbudzio prawdopodobnie ich zastosowanie w badaniach


powiconych selekcji i klasyfikacji zawodowej (patrz: rozdz. 17).
Zainteresowanie metaanallz stale ronie, cigle le opracowuje si coraz
bardziej wyrafinowane proceduiy. Cho konkretne techniki budz pewne
kontrowersje, lo Jednak bez wzgldu na to, jakie zastosowano procedury 2 , zasadnicze wyniki nie rni si istotnie.

PROCEDURY IDENTYFIKOWANIA KONSTRUKTW

Pojcie trafnoci teoretycznej" zostao oficjalnie wprowadzone do


leksykonu psychometrii w 1954 roku we Wskazwkach technicznych dla
testw
psychologicznych
i
narzdzi
diagnostycznych
(Technical
Reccomendations for Psychological Tests and Diagnostic Techniues)
(APA, 1954), ktre zoyy si na pierwsze wydanie Standardw dla
testw z 1985 roku. Pierwszy szczegowy opis pojcia trafnoci teoretycznej ukaza si w nastpnym roku. w artykule Cronbacha i Meehla
(1955). Dyskusje na temat trafnoci teoretycznej. Jakie potem nastpiy
- i trwaj nadal - suyy wyjanianiu konsekwencji jej badania oraz
dostarczaniu systematycznego uzasadnienia stosowanych w tym celu
procedur. Pojcie trafnoci teoretycznej zwraca uwag badaczy na rol
teorii psychologicznej w konstruowaniu testw 1 potrzeb formuowania
hipotez, ktre mona potwierdzi lub obali w procesie walidacji.
Badanie trafnoci teoretycznej stao si te bodcem do poszukiwania
nowatorskich sposobw zbierania danych walidacyjnych. Wprawdzie
szereg technik stosowanych w badaniu trafnoci teoretycznej znano od
dawna, lccz ich repertuar 1 rnorodno znacznie si powikszyy.
Trafno teoretyczna testu Jest to stopie, w jakim mierzy on konstrukt teoretyczny lub cech. Przykadami konstruktw mog by uzdolnienia szkolne, mylenie techniczne, pynno sowna, szybko
chodzenia neurotyzm czy lk. Kady konstrukl tworzy si po to, by
wyjani obserwowan stao reakcji i nada jej pewn organizacj. Jest
on wyprowadzany na podstawie ustalonych zalenoci midzy miarami
zachowania. Badanie trafnoci teoretycznej wymaga stopniowego gromadzenia informacji pochodzcych z rnych rde. Wszelkie dane.

Najnowsze zastosowania, szczegowe omwienie procedur 1 krytyczn ocen


mona znale w: Hartigan I Wigdor (1989). Hedges (1988). Hunter 1 Schmidt
(1990). L.R James. Demaree, Mulaik i Ladd (1992). L.V. Jones i Appelbaum
(1989). R. Rosenthal (1991). Schmidt (1992). Schmidt i ln. (1993) oraz Schmidt.
Ones I Hunter (1992). Wprowadzenie do procedur statystycznych - patrz: FMWolf (1986). Szerszy przegld zastosowania metaanalizy w badaniach behawioralnych - patrz: Cook I ln. (1992), Cooper I Hedges (1994), Hasselblad 1 Hedges
(1995) oraz Wachter 1 Straf (1990).
2

176

ZAGADNIENIA PSYCHOMETTRYCZNE

ktre rzucaj wiato na natur i przejawy analizowanej cechy oraz na


warunki wpywajce na Jej rozwj, stanowi odpowiedni materia dla tego
rodzaju walidacji. W kolejnych czciach rozdziau zostan przedsta
wion poszczeglne techniki identyfikowania konstnjktw.
Zmiany rozwojowe. Gwnym kryterium stosowanym w badaniach
trafnoci wielu tradycyjnych testw inteligencji s rnice zwizane z
wiekiem. W przypadku takich testw, jak Stanfordzka Skala Bineta lub
inne przeznaczone dla dzieci w wieku przedszkolnym, badanie zalenoci
midzy wynikami a wiekiem chronologicznym ma na celu sprawdzenie.
czy rosn one wraz z wiekiem. Poniewa w okresie dziecistwa zdolnoci przypuszczalnie wzrastaj wraz z wiekiem, to jeli test jest trafny,
podobny wzrost powinny wykazywa take wyniki testowe. Sajno pojcie
rozwojowej skali inteligencji, zapocztkowane przez Bineta. opiera si na
zaoeniu, e .inteligencja" ronie wraz z wiekiem, przynajmniej do okresu dojrzaoci.
Oczywicie kryterium rnic zwizanych z wiekiem nic da si zastosowa do tych wszystkich funkcji, ktre nie wykazuj wyranych i
staych zmian tego rodzaju. Na przykad w dziedzinie pomiaru osobowoci to kryterium ma ograniczone zastosowanie. Co wicej, naley
zauway, e nawet wtedy, gdy daje si ono zastosowa, zrnicowanie
zwizane z wiekiem jest koniecznym, lecz niewystarczajcym warunkiem
trafnoci. Jeli wyniki testowe nie rosn wraz z wiekiem, to prawdopodobnie test nie jest trafn miar zdolnoci, ktre mia mierzy.
Jednake samo wykazanie, e tesl mierzy co. co ronie wraz z wiekiem,
nie okrela zbyt precyzyjnie przedmiotu pomiaru. Wzrost czy waga take
wykazuj regularne przyrosty w miar wieku, cho oczywicie nie
nazwiemy narzdzi do ich pomiaru testami inteligencji.
Ostatnia sprawa, na ktr naley zwrci uwag, dotyczy interpretacji
kryterium wieku. Test psychologiczny, ktrego trafno bada si w
odniesieniu do takiego kryterium, mierzy waciwoci wzrastajce z
wekiem w warunkach istniejcych w takim rodowisku, w jakim test by
standaryzowany. Rne kultury mog jednak pobudza bd uatwia
rozwj zupenie innych zachowa, nie mona wic przyjmowa, e kryterium rnic zwizanych z wiekiem ma charakter uniwersalny.
Podobnie jak wszyslkie inne kryteria. okrela Je konteksl kulturowy, z
ktrego pochodzi.
Analizy rozwojowe s rwnie podstaw oceny trafnoci teoretycznej
plagetowsklch skal porzdkowych, omwionych w rozdziaach 3 1 9.
Podstawowe zaoenie lece u podstaw takich skal mwi o sekwencyjnoci rozwoju, ktra polega na tym. e osignicie wczeniejszych
etapw w rozwoju poj jest warunkiem koniecznym nabycia
pniejszych umiejtnoci w zakresie mylenia pojciowego. Tre tych
skal jest wic z natury uporzdkowana hierarchicznie. Badanie trafno-

Trafno: podstawowe pojcia

177

cl teoretycznej skal porzdkowych powinno zatem prowadzi do uzyskania danych empirycznych na temat niezmiennoci porzdku kolejnych
stadiw. W tym celu trzeba sprawdzi, jak dzieci na rnych poziomach
rozwoju rozumiej takie pojcia, jak pojcie staoci czy trwaoci przedmiotu. Czy dziecko, ktre ujawnia opanowanie pojcia na danym
poziomie, wykazuje rwnie dobre opanowanie poj z niszych
poziomw?
Korelacje z innymi testami. Czsto przytacza si korelacje midzy
nowym testem a Innymi, istniejcymi ju wczeniej, na dowd, e nowy
test mierzy w przyblieniu to samo. co inne noszce tak sam nazw,
jak na przykad .testy inteligencji" czy testy uzdolnie mechanicznych".
Te korelacje, w odrnieniu od korelacji uzyskiwanych w badaniach
trafnoci prognostycznej, powinny by umiarkowanie wysokie, ale nie za
wysokie. Jeli nowy test koreluje zbyt wysoko z innym, wczeniej dostpnym. to o ile nie jest krtszy lub atwiejszy w stosowaniu, sianowi Jego
niepotrzebne powtrzenie.
Korelacje z innymi testami wykorzystuje si w Jeszcze Inny sposb, aby
pokaza, e nowy test jest stosunkowo niezaleny od wpywu pewnych
czynnikw nie majcych zwizku z celem badania. Na przykad testy
uzdolnie specjalnych lub testy osobowoci nie powinny wysoko
korelowa z testami inteligencji oglnej czy testami uzdolnie szkolnych.
Na wyniki takich testw nie powinna te w znaczcym stopniu wpywa
umiejtno czytania ze zrozumieniem. Dlatego te czasami podaje si
korelacje z testami inteligencji oglnej, czytania, rozumienia werbalnego
i traktuje je jako niebezporedni i negatywny dowd trafnoci. W takich
przypadkach wysokie korelacje nakazuj ostrono. Jednake niskie
korelacje same przez si nie gwarantuj trafnoci. Odnotujmy, e tego
rodzaju wykorzystanie korelacji z innymi testami jest podobne do jednej
z technik uzupeniajcych, omwionych w czci dotyczcej procedur
pomiaru trafnoci treciowej.
Analiza czynnikowa. Analiza, czynnikowa, stworzona jako sposb identyfikowania cech psychologicznych. Jest szczeglnie przydatna w badaniach trafnoci teoretycznej. Jest to wyrafinowana technika statystyczna
przeznaczona do analizowania wzajemnych relacji midzy danymi
behawioralnymi. Na przykad Jeli 300 osobom podano 20 testw, to
pierwszy krok polega na policzeniu korelacji kadego testu z kadym.
Przegld otrzymanej tabeli ze 190 wspczynnikami moe ujawni istnienie pewnych wizek testw, sugerujc ulokowanie w nich wsplnych
cech. Tak wic. gdyby takie testy jak Sownik. Analogie. Przeciwiestwa
i Niedokoczone Zdania koreloway ze sob wysoko, a z wszystkimi
pozostaymi nisko, moglibymy wstpnie wnioskowa o istnieniu czynnika rozumienia werbalnego. Ze wzgldu na to. e taka analiza tabeli

1 7 8 ZAGADNIENIA PSYCHOMETRYCZNF.

korelacji jest trudna I zawodna, opracowano bardziej precyzyjne metody


statystyczne, ktre pozwalaj zlokalizowa wsplne czynniki wyjaniajce uzyskane korelacje. Techniki analizy czynnikowej omwiono w
rozdziale 11. w zwizku z jej zastosowaniem w badaniach naci natur
inteligencji.
Analiza czynnikowa prowadzi do ograniczenia liczby zmiennych czy
kategorii, przy pomocy ktrych mona opisa wyniki kadej jednostki:
zamiast pocztkowych wielu zmiennych odpowiadajcych zastosowanym
testom otrzymujemy wzgldnie ma liczb c z y n n i k w , czyli wsplnych
cech. W cytowanym powyej przykadzie do wyjanienia korelacji midzy
20 testami mogoby wystarczy pi lub sze czynnikw. A zatem kad
osob mona byoby opisa ze wzgldu na jej wyniki uzyskane w piciu
lub szeciu czynnikach, a nie w pierwotnych 20 testach. Gwnym celem
analizy czynnikowej jest uproszczenie opisu zachowania poprzez zredukowanie liczby kategorii z pocztkowej wieloci zmiennych testowych
do kilku wsplnych czynnikw czy cech.
Po wyodrbnieniu czynnikw mona posugiwa si nimi do opisu
struktury czynnikowej lestu. Tak wic kady lesl niona scharakteryzowa z punktu widzenia gwnych czynnikw determinujcych jego
wyniki, podajc wag. czyli adunek, kadego czynnika oraz jego
korelacj z testem. Korelacja midzy testem a czynnikiem okrelana jest
czasem jako trajno czynnikowa lesiu. Jeli wic korelacja midzy czynnikiem rozumienia werbalnego a testem sownikowym wynosi 0.66. to
trafno czynnikowa tego testu, jako miary rozumienia werbalnego,
wynosi 0,66. Naley zauway, e trafno czynnikowa jest zasadniczo
korelacj teslu ze wszystkim, co wsplne dla grupy testw lub innych
wskanikw zachowania. Zbir analizowanych zmiennych moe oczywicie obejmowa zarwno dane testowe, jak i nietestowe. Aby odkry struktur czynnikow konkretnego testu i zdefiniowa wsplne cechy, jakie
mierzy, mona zatem, oprcz innych testw, wykorzystywa take oceny
1 inne miary kryterialne,
Zgodno wewntrzna,
w publikowanych opisach niektrych testw,
zwaszcza z dziedziny osobowoci, mona znale stwierdzenie, e
trafno badano metod zgodnoci wewntrznej. Podstawow cech tej
metody jest to. e me ma lu innego kryterium poza wynikiem oglnym
samego testu Czasami stosuje si nieco zmodyfikowan wersj metody
grup kontrastowych, wybierajc grupy skrajne na podstawie oglnego
wyniku w tecie. Porwnuje si odpowiedzi udzielone w kadym pytaniu
przez osoby z najwyszymi 1 najniszymi wynikami. Za nietrafne
uwaane s te pytania, w ktrych proporcja poprawnych" (czyli zgodnych z kluczem) odpowiedzi w grupie z najwyszymi wynikami nie jest
istotnie wysza ni w grupie z najniszymi wynikami, pytania takie
usuwa si lub poprawia. Do lego rodzaju analizy mona stosowa take

Trafno: podstawowe pojcia

179

metody korelacyjne. Na przykad dla kadego pytania mona obliczy


korelacj dwuseryjn midzy odpowiedziami poprawnymi-niepoprawnymi" a wynikiem oglnym. Pozostawia si tylko te pozycje, ktre
istotnie koreluj z wynikiem oglnym. O tecie, ktrego pozycje dobrano
za pomoc takiej metody, mona powiedzie, e charakteryzuje go zgodno wewntrzna, poniewa kada pozycja rnicuje osoby badane w taki
sam sposb, co cay test.
Innym kryterium zgodnoci wewntrznej moe by korelacja wynikw
w podtestach z wynikiem oglnym. Na przykad wiele testw inteligencji
skada si z oddzielnie stosowanych podtestw (takich Jak Sownik,
Arytmetyka, Uzupenianie Obrazkw. Itd.). ktrych wyniki czy si.
otrzymujc wynik oglny. Konstruujc takie testy, czsto koreluje si
wyniki kadego podtestu z wynikiem oglnym 1 usuwa si te podtesty,
dla ktrych korelacje s zbyt niskie. Korelacje pozostaych podtestw z
wynikiem oglnym podaje si jako dowd zgodnoci wewntrznej caego
narzdzia.
Jest rzecz oczywist, e zgodno wewntrzna jest miar jednorodnoci, bez wzgldu na to, czy korelacje dotycz zada, czy podtestw.
Stopie jednorodnoci testu ma pewne znaczenie dla jego trafnoci teoretycznej. poniewa pozwala scharakteryzowa dziedzin zachowania czy
cech mierzon przez test. Niemniej jednak wkad danych dotyczcych
zgodnoci wewntrznej w walidacj testu jest ograniczony. Jeli brak jest
danych zewntrznych w stosunku do samego testu, to niewiele mona
si dowiedzie o tym, co test mierzy.
Trafno zbiena i rnicowa. Analizujc kwesti trafnoci teoretycznej, D.T. Campbell (1960) zauway, e po to, by jej dowie, musimy
nie tylko wykaza, e test wysoko koreluje z innymi zmiennymi, z ktrymi teoretycznie powinien korelowa, ale take e nie koreluje istotnie ze
zmiennymi, z ktrymi korelowa nie powinien. We wczeniejszym
artykule D.T. Campbell i Fiske (1959) opisali ten pierwszy proces jako
badanie trafnoci zbienej, a ten drugi - jako badanie trafnoci
rnicowej. Przykadem trafnoci zbienej bdzie korelacja midzy
wynikami testu lozumowania ilociowego a pniejszymi stopniami z
matematyki. Dowodem trafnoci rnicowej tego samego testu bdzie
niska i nieistotna korelacja z wynikami testu czytania ze zrozumieniem,
poniewa umiejtno czytania jest zmienn nie zwizan z tym. co
mierzy test rozumowania ilociowego.
Naley tu przypomnie, c o wymogu niskich korelacji ze zmiennymi
nie zwizanymi z przedmiotem badania testowego bya ju mowa
wczeniej, w zwizku z dodatkowymi, zabezpieczajcymi procedurami
stosowanymi w badaniu trafnoci treciowej. Trafno rnicowa jest
szczeglnie wana dla testw osobowoci, bowiem w Ich przypadku te nie
zwizane z przedmiotem pomiaru zmienne mog w rny sposb
wpywa na wyniki.

178

ZAGADNIENIA

PSYCHOMETTRYCZNE

Campbell i Fiske (1959) zaproponowali systematyczny plan eksperymentalny pozwalajcy na jednoczesne zbadanie trafnoci zbienej I
rnicowej, ktry nazwali macierz wielu cech wielu metod. Metoda ta
wymaga oceny dwch lub wicej cech przy pomocy dwch lub wicej
metod. Do zilustrowania tej procedury posuy hipotetyczny przykad
przedstawiony przez Campbella i Fiskc go. W tabeli 5-1 przedstawione s
wszystkie moliwe korelacje uzyskane w badaniu trzech cech. z ktrych
kad mierzono przy uyciu trzech metod. Tymi trzema cechami mogyby
by waciwoci osobowoci, takie jak (A) dominacja. (B) uspoecznienie
i (C) motywacja osigni. Trzema zastosowanymi metodami mogyby
by (1) inwentarz oparty na samoopisie, (2) technika projekcyjna. (3)
oceny rwienikw. A wic A, bdzie oznacza wynik w zakresie dominacji uzyskany w inwentarzu opartym na samoopisie. Aj - wynik w
zakresie dominacji pochodzcy z badania technik projekcyjn; C3 oceny rwienikw dotyczce motywacji osigni.
Hipotetyczne korelacje przedstawione w tabeli 5-1 obejmuj
wspczynniki rzetelnoci (w nawiasach, wzdu gwnej przektnej) i
wspczynniki trafnoci (tustym drukiem, wzdu trzech krtszych
przektnych). W przypadku wspczynnikw trafnoci korelowane s
wyniki dla tej samej cechy uzyskane za pomoc rnych metod; kada
miara jest wic sprawdzana w stosunku do innych, niezalenych miar tej
samej cechy, lak jak to ma miejsce w znanej procedurze walidacyjnej.
Tabela zawiera take korelacje midzy rnymi cechami mierzonymi t
sam melod (trjkty narysowane lini cig) oraz korelacje midzy
rnymi cechami mierzonymi za pomoc rnych metod (trjkty
narysowane lini przerywan). Aby mona byo mwi o satysfakcjonujcej trafnoci teoretycznej, wspczynniki trafnoci oczywicie
powinny by wysze ni korelacje midzy rnymi cechami mierzonymi
za pomoc rnych metod; powinny by te wysze ni korelacje midzy
rnymi cechami mierzonymi za pomoc tej samej metody, Na przykad
korelacja midzy dominacj mierzon inwentarzem opartym na samoopisie a dominacj mierzon przy pomocy testu projekcyjnego powinna
by wysza ni korelacja midzy dominacj i uspoecznieniem mierzonymi inwentarzami opartymi na samoopisie. Jeli ta ostatnia korelacja,
odzwierciedlajca wariancj wspln metody, byaby wysoka, mogoby
to na przykad wskazywa, e na wyniki w tych inwentarzach wpywa
niepotrzebnie jaki wsplny czynnik, laki jak zdolno do rozumienia
pyta lub pragnienie pozytywnego zaprezentowania si w zakresie wszysIkieh cech.
Manipulacje eksperymentalne.
Kolejnym rdem danych na temat
trafnoci teoretycznej s eksperymenty dotyczce wpywu wybranych
zmiennych na wyniki testowe. Sprawdzajc trafno testu przeznaczonego do stosowania w programie indywidualnego ksztacenia, mona
porowna wyniki pretestu, przeprowadzanego przed wiczeniem i

Trafno: podstawowe pojcia

181

Hipotetyczna macierz wielu cech - wielu metod


Metoda 1

Metoda 3

Metoda 2

Metoda 3

B.

Uwaga. Ulery A.B.C odnosz si do cech. cyfry 1.2.3 do metod. Wspczynniki trafnoci
(|edna cecha
rne metody) podane s tustym drukiem na trzech przektnych:
wspczynniki rzetelnoci Uedna cecha - jedna metoda) podane s w nawiasach wzdtu
gwnej przektnej. Trjkty narysowane lini cig zawieraj korelacje rnych cech
mierzonych Jedn metod: trjkty narysowane Uni przerywan zawieraj korelacje
rnych cech mierzonych rnymi metodami.
(Z: Campbell i Flske. 1959. str. 82. Copyright 1959 by American Psychologtcal Associacion.
Przedruk za zezwoleniem)

posttestu. przeprowadzanego po wiczeniu. Logika takiego testu wymaga. aby wyniki pretestu byy niskie, a wyniki posttestu - wysokie
Zaleno t mona te sprawdzi dla pojedynczych pozycji testu. W Idealnym przypadku najwiksza proporcja badanych powinna nieprawidowo odpowiedzie na pytanie w pretecie i prawidowo w posttecle.
Pytania, w ktrych nieprawidowe odpowiedzi s powszechne w obu

182

ZAGADNIENIA PSYCHOMETTRYCZNE

badaniach, s zbyt trudne, za pytania, na ktre badani odpowiadaj


poprawnie w przypadku obu badali, s za atwe z punktu widzenia celw
takiego testu Jeli znaczca proporcja badanych poprawnie odpowiada
na pytanie pretestu. a niepoprawnie - na lo samo pytanie z posltestu, lo
oczywicie musi by co nie w porzdku z lym pytaniem, z instrukcj lub
z jednym i z drugim.
Test przeznaczony do pomiaru skonnoci do lku mona zastosowa
wobec osb. klrc nastpnie znajd si w sytuacjach wzbudzajcych lk.
takich jak zdawanie egzaminu w stresujcych i rozpraszajcych uwag
warunkach. Pocztkowe wyniki w tecie przeznaczonymi do pomiaru lku
mona wic skorelowa z fizjologicznymi, i innymi, wskanikami
lku podczas egzaminu i po nim. Inn hipotez dotyczc tego testu
mona sprawdzi stosujc go przed i po dowiadczeniu wzbudzajcym
lk oraz rejestrujc, czy wyniki testu s istotnie wysze w drugim badaniu. Pozytywny rezultat takiego eksperymentu bdzie wskazywa na to,
e wyniki testowe odzwierciedlaj aktualny poziom lku. W podobny
sposb mona zaplanowa eksperymenty, ktre posu testowaniu
innych hipotez dotyczcych cechy mierzonej przez dany test.
Modelowanie za pomoc rwna strukturalnych. Wanym krokiem
naprzd w badaniach trafnoci, poza identyfikacj konstruktw dotyczcych wynikw testowych i kryterium, bya analiza zalenoci midzy
konslruktami oraz drogi, na jakiej konstrukt wpywa na kryterium (J.P.
Campbell. 1990a: Messick 1989: Schmidt. Hunter i Outerbridge. 1986).
Na przykad zainteresowania jakiego czowieka dan dziedzin mog
wpywa na wyniki jego pracy wskutek tego. e ma on coraz wiksz
wiedz na dany temat, nabywa potrzebnych umiejtnoci lub ksztatuje
si u niego motywacja niezbdna do woenia maksymalnego wysiku w
wykonywanie koniecznych czynnoci. Badanie, w jaki sposb zidentyfikowany konstrukt czy cecha prowadzi do dobrego lub zego poziomu
wykonania, przyczynia si w istotny sposb do zrozumienia, dlaczego
dany test ma wysok lub nisk trafno w danej sytuacji. Tego rodzaju
analiz uatwia procedura statystyczna znana jako modelowanie za
pomoc rwna strukturalnych, ktrej zastosowanie wyranie wzroso w
lalach 80. i 90. wiadczy o tym na przykad powstanie czasopisma zatytuowanego StrucCural Eualion Modelu ly (1994). Procedura ta jesl cile
zwizana z niektrymi wersjami analizy cieek, a obie czsto okrela si,
w sposb nieformalny, jako modelowanie przyczynowe".-3
Co szczeglnego daje nam modelowanie za pomoc rwna strukturalnych i jak si ono narodzio? Elementarna statystyka uczy, e korclaAby unikn filozoficznych implikacji dotyczcych kwestii cakowitej lub ostatecznej przyczyny jakiegokolwiek zdarzenia, psychologowie wol posugiwa si
bardziej neutralnymi zwrotami, takimi jak twierdzenie, e A determinuje wpywa
lub oddziauje na B. Niemniej jednak termin przyczynowy" jesl czasami
uywany w odniesieniu do wszystkich lego rodzaju zalenoci, przy zaoeniu e
jego ograniczenia s zrozumiae same przez si (patrz np : L R. James, Mulaik I
Brell, 1982. rozdz. 1; PA. Whlle, 1990).
3

Trafno: podstawowe pojcia

183

cja nie oznacza zwizku przyczynowego. Znanym przykadem s rzekome


korelacje zwizane z wiekiem. Wrd dzieci w wieku od 6 do 14 lat prawdopodobnie Istnieje wysoka korelacja midzy wzrostem a znajomoci
matematyki: nic mona jednak wnioskowa, e jedna z tych zmiennych
wpywa na drug. Na istnienie takiej korelacji wpywa przede wszystkim
wiek, ktry z kolei wie si z liczb lat nauki. Podejmujc prb badania zalenoci przyczynowych, badacze zaczli stosowa w latach 60. 1
70. krzyowe plany eksperymentalne uwzgldniajce czynnik czasu (D.T.
Campbell i Stanley, 1966; Cook i Campbell, 1976, str. 284-293).
Na przykad analiza zalenoci przyczynowej midzy postaw ucznia
wobec matematyki a jego osigniciami z matematyki moe obejmowa
pomiar postawy wobec matematyki i osigni z matematyki w dwch
momentach. Mona wic obliczy korelacj midzy postaw wobec
matematyki w czasie 1 a osigniciami z matematyki w czasie 2 oraz
midzy osigniciami z matematyki w czasie 1 a postaw wobec matematyki w czasie 2. Wysoko tych dwch wspczynnikw korelacji bdzie
pokazywa wzgldn sil wpywu w kadym kierunku. Przez kilka lat
wydawao si. e bdzie to obiecujcy sposb oceny wzajemnego wpywu
dwch zmiennych.
Jednak wkrtce analizy, zarwno logiczne, jak i statystyczne,
ujawniy sabe punkty takich krzyowych korelacji. Cho podstawowy
plan byl znakomity, to stosowanie prostych korelacji zerowego rzdu
znieksztacao rezultaty i prowadzio do niepoprawnych wnioskw na
temat zalenoci przyczynowych (Rogosa, 1980). Wrd rde bdw
tej procedury leao nieuwzgldnianie: po pierwsze - korelacji midzy
zmiennymi w pocztkowym oraz kocowym etapie badania: po drugie rzetelnoci zmiennych i ich staoci w czasie: po trzecie - moliwego
wkadu zmiennych, ktre nie byy przedmiotem pomiaru, takich jak
wiek i liczba lat nauki w cytowanym wyej klasycznym ju przykadzie.
Model rwna strukturalnych pozwala unikn tych trudnoci.
Wykorzystuje on rwnanie regresji do przewidywania zmiennej zalenej
na podstawie zmiennych niezalenych w analizach krzyowych lub
innych modelach przyczynowych. W tej procedurze oblicza si korelacje czstkowe, by znale wspczynniki regresji, i w ten sposb wcza
si wszystkie korelacje midzy zmiennymi: pod uwag bierze si
zarwno bdy prby, jak i bdy pomiaru: wprowadzone s te pewne
zabezpieczenia, pozwalajce przynajmniej rozpozna moliwo wpywania dodatkowych, nie mierzonych zmiennych (Bentler, 1988; L R. James
i in.. 1982: Loehlin, 1992; Rogosa, 1979).
Pierwszy krok w modelowaniu za pomoc rwna strukturalnych
polega na opracowaniu modelu hipotetycznych zalenoci przyczynowych, ktry ma by testowany. Wane jest, aby ten model byl
oparty na gruntownej znajomoci istniejcych danych dotyczcych
badanych zmiennych t sytuacji. Hipotetyczne zalenoci powinny mle

184

ZAGADNIENIA PSYCHOMETTRYCZNE

solidne uzasadnienie teoretyczne. Faktyczne testowanie modelu


dokonuje si poprzez rozwizywanie zbioru rwnowanych rwna
regresji liniowej.'1 W modelowaniu przyczynowym zazwyczaj Jest wicej
rwna ni niewiadomych, co pozwala na uzyskanie rozwizania w
postaci kilku rnych modeli. Kady model porwnuje si z pierwotn,
empiryczn macierz korelacji, oceniajc dobro dopasowania. Moe by
jednak i tak, e do danych rwnie dobrze pasuje kilka modeli przyczynowych (MacCallum. Wegener, Uchino i Fabrigar.
1993).
Te statystycznie rwnowane modele mog odpowiada rnym ciekom
przyczynowym i w len sposb dostarcza rnych wyjanie dla
empirycznie obserwowanych skutkw. Na podstawie posiadanej wiedzy
badacz musi oceni uzyskane modele ze wzgldu na ich sensowno i
wiarygodno.
Inn cech modelowania za pomoc rwna strukturalnych jest to, e
obliczenia suce ustaleniu zalenoci przyczyn owych zwykle wykonuje
si biorc pod uwag konstrukty, a nie poszczeglne zmienne,
stanowice przedmiot pomiaru. Na przykad do oceny postawy ucznia
wobec matematyki mona uy kilku wskanikw, dotyczcych zainteresowa. ukierunkowania na cele. samooceny w zakresie uzdolnie
matematycznych i innych istotnych zmiennych zwizanych z emocjami.
Wsplna wariancja tych wskanikw bdzie definiowa konstrukt postaw jednostki wobec matematyki, ktra sama moe by zwizana z
pniejszymi osigniciami z matematyki. Zastosowanie konstruktw
dostarcza bardziej stabilnych i rzetelnych szacunkw, w ktrych wariancja bdu i wariancja specyficzna oddzielnych wskanikw znosz
si.
Obecnie istniej rne metodologiczne sposoby podejcia do modelu
rwna strukturalnych, jak te indywidualne modyfikacje i udoskonalenia tej procedury (patrz np.: Anderson i Gerbing. 1988: Bentler, 1990:
Bollen i Long, 1993: Breckler, 1990: Cole, Maxwell, Arvey i Salas. 1993;
James, 1980; Mulaik i in. 1989). Modelowanie za pomoc rwna strukturalnych cigle jest na etapie rozwoju, lecz stanowi obiecujc procedur czc podejcie teoretyczne, eksperymentalne i statystyczne. Jest
ju szeroko stosowane w takich obszarach, jak psychologia rozwojowa,
psychologia osobowoci, psychologia spoeczna, przemysowa i
wychowawcza (np. Graves i Powcll, 1988; L.A. James i L.R. James, 1989:
MacCallum i Browne 1993: McCardlc, 1989; Parkerson, Lomax. Schiller
I Walberg. 1984; Shavclson i Bolus, 1982). Podejmowane s take prby
ujednolicenia i uproszczenia procedury (np. Jreskcg i Srbom, 1993).

Wprowadzenie w szczegy procedury - patrz: Bollen (1989) l Lochlm (1992)


Obliczenia mona wykonywa korzystajc z dostpnych programw kompu^I ( ?7 n ch l L I S R E L (Hayduk. 1988: Jreskog 1 Srbom, 1986. 1989) i
t y b (Bentler. 1985).

Trafno: podstawowe pojcia

185

Wkad psychologii poznawczej.


Lata 70 przyniosy wzajemne
zblienie midzy psychologi eksperymentaln a psychometrl. co
znacznie przyczynio si do zrozumienia konstruktw ocenianych na
podstawie testw inteligencji i innych testw uzdolnie (Ronning. Glover.
Conoley i Witt, 1987; R.E. Snow i Lohman, 1989). Ju w latach 50. psychologowie poznawczy zaczli stosowa pojcia teorii przetwarzania
informacji w badaniach nad rozwizywaniem problemw. Niektrzy
badacze opracowali programy komputerowe odtwarzajce procesy
przetwarzania informacji i pozwalajce w len sposb symulowa ludzkie
mylenie. Mona opracowa programy symulujce wykonywanie zada
przez ludzi o rnym poziomic umiejtnoci, a dysponujc takimi programami mona przewidywa liczb i rodzaj popenianych bdw oraz
czas potrzebny do udzielenia rnych odpowiedzi. Opracowujc taki program, badacz zwykle zaczyna od analizy zadania, ktra moe opiera si
na introspektywnym badaniu wasnej metody rozwizywania problemu,
zapisach gonego mylenia osb badanych lub na danych pochodzcych
z innych, bardziej wyrafinowanych procedur obserwacyjnych.
Porwnujc, jak ten sam problem rozwizuje komputer oraz doroli i
dzicci lub eksperci i nowicjusze, badacze mog testowa hipotezy na
temat sposobu wykonywania zada przez ludzi. Przykadami zada
badanych za pomoc takich metod s klasyczne zagadki, problemy logiczne, problemy szachowe, zadania algebraiczne, problemy fizyczne i
problemy diagnostyczne z zakresu praktyki lekarskiej (Chi. Glaser i Farr,
1988; J.H. Larkin. McDermott. Simon i Simon. 1980a, 1980b: Newell i
Simon. 1972: Simon. 1976).
Na podstawie tego rodzaju bada mona Identyfikowa takie zmienne,
jak znajomo procedur (umiejtnoci) i wiedza deklaratywna (dotyczca
faktw i infcrmacji). Modele poznawcze opisuj procesy intelektualne
zaangaowane w wykonanie zadania, sposb ich zorganizowania, zasb
wiedzy potrzebnej do rozwizania oraz form, w jakiej wiedza ta jest
magazynowana w pamici i. gdy trzeba, przywoywana. Coraz wicej
uwagi powica si te tak zwanym procesom nadzorujcym, czyli
metapoznaniu, ktre oznacza kontrol, jak jednostka sprawuje nad
wyborem procesw, reprezentacji poznawczych i sLrategii zaangaowanych w wykonywanie zadania. W lalach 70. niektrzy psychologowie poznawczy zaczli wykorzystywa techniki analizy zada i symulacji komputerowej do dociekania, co mierz testy inteligencji.
Poszczeglni badacze zajmowali si tym problemem z odmiennych punktw widzenia (patrz: Resnick, 1976: Sternberg. 1981. 1984. 1985b).
Badania realizowane w tym nurcie stopniowo przyczyniaj si do istotnego postpu w dziedzinie konstruowania i stosowania testw.
Prace Embretson (1983, 1986, 1995a) szczeglnie dobrze pokazuj
implikacje bada realizowanych w ramach psychologii poznawczej dla
sprawdzania trafnoci teoretycznej. Stwierdzajc, c tradvrvin<< badanie

186

ZAGADNIENIA PSYCHOMETTRYCZNE

trafnoci teoretycznej jest zbyt ograniczone, Embretson zaproponowaa


uwzgldnianie dwch podstawowych aspektw walidacji testu, ktiymi
s: (1) odtworzenie konstruktu oraz (2) okrelenie przestrzeni nomotetycznej. Tradycyjne badanie trafnoci teoretycznej koncentrowao si
wanie na tym drugim aspekcie - przestrzeni nomotetycznej. Chodzi tu
o relacje wynikw testowych istniejce w obrbie nomotetycznej sieci"
innych zmiennych. Tego rodzaju zalenoci zazwyczaj bada si korelujc
wyniki testowe z innymi miarami, takimi jak poziom zachowa kryterialnych i inne dane wzite z ycia.
Jeli chodzi natomiast o odtwarzanie konstruktu. to celem jest tu
ustalenie, jakie konkretne elementy procesu przetwarzania informacji
oraz jakie zasoby wiedzy s niezbdne do wykonania zada skadajcych
si na pozycje testowe. Takie analizy mona przeprowadza dokonujc
eksperymentalnie dekompozycji zadania.5 Przykadami moliwych procedur s: manipulowanie zoonoci zadania, prezentowanie go czciami
lub dostarczanie wskazwek, ktre zmieniaj jego wymagania.
Opracowano specjalne modele matematyczne do okrelania wkadu, jaki
rne elementarne operacje skadowe wnosz w wykonanie poszczeglnych pozycji testu. Innym, szeroko wykorzystywanym sposobem analizy
zada poznawczych jest analiza protokow (Ericsson, 1987; Ericsson i
Simon, 1993; van Someren, Barnard i Sandberg, 1994). W lym przypadku osoby badane otrzymuj instrukcj, aby w trakcie wykonywania
zadania czy rozwizywania problemu gono mylay". Zadania mog
by rne, od mnoenia w pamici dwch podanych liczb, przypominania sobie szczegw minionych wydarze czy wykrywania przyczyny
zego funkcjonowania sprztu, a po odpowiadanie na kolejne pytania w
tecie zdolnoci. Ubocznym produktem zastosowania takiej metody moe
by stwierdzenie, e ta sama pozycja testowa aktywizuje zupenie inne
procesy poznawcze u badanych rnicych si dowiadczeniami.
Jakie wnioski mona sformuowa na temat wkadu psychologii poznawczej do badania trafnoci teoretycznej? Sposb podejcia koncentrujcy si na procesach przetwarzania informacji, cho cigle jest na
etapie poszukiwa, dostarczy heurystyk ukierunkowujcych dalsze
badania. Wyranie skupi uwag na procesach odpowiadania, w przeciwiestwie do tradycyjnego podejcia stosowanego w badaniach psychometrycznych. koncentrujcego si na kocowych produktach mylenia. Analiza funkcjonowania w lecie, uwzgldniajca konkretne procesy
poznawcze, z pewnoci pozwala lepiej zrozumie, co mierz testy. Co
wicej, analiza indywidualnych wynikw odwoujca si do elementarnych procesw, ktre do nich doprowadziy, powinna wreszcie
umoliwi dokadne okrelenie. Jakie s rda mocnych i sabych stron
kadej osoby, a co za tym idzie - zwikszy diagnostyczn warto testw
n o ^ t " P ! l f Butterfleld. Nielsen. Tangen I Rlchardson (1985), Embretson
(1985b) l Sternberg (1977. 1980)

Trafno: podstawowe pojcia

187

(Embretson. 1987, 1994: Estes. 1974; Pellegrino l Glaser. 1979:


Sternberg i Weil. 1980). To z kolei powinno uatwi dopasowywanie programw szkoleniowych do indywidualnych potrzeb. Podsumowujc,
zwizek midzy psychometrycznym 1 poznawczym sposobem podejcia
mona scharakteryzowa, po pierwsze, z punktu widzenia bada
stosowanych i praktyki, Jako komplementarny. W zalenoci od tego. w
Jakim celu dokonywana Jesl diagnoza, preferowany moe by jeden bd
drugi sposb podejcia. Po drugie, z punktu widzenia bada podstawowych i teoni, zwizek ten mona okreli jako wzajemny. W tym przypadku Jeden sposb podejcia pomaga wyjani i wzbogaci drugi:
cznie pozwalaj lepiej zrozumie, czym jest inteligentne zachowanie.

UWAGI KOCOWE I PODSUMOWANIE


Porwnanie

sposobw

badania

trafnoci.

Omwilimy

kilka

sposobw rozumienia pytania: .Jak trafny jest ten test?" Aby wskaza na
cechy wyrniajce poszczeglne procedury badania trafnoci, zastosujmy kad z nich do testu skadajcego si z 50 rnych problemw
arytmetycznych. W tabeli 5-2 przedstawiono cztery sposoby wykorzystania tego testu oraz adekwatne do kadego z tych sposobw procedury
sprawdzania trafnoci. Przykad ten wyranie pokazuje, e wybr procedury walidacyjnej zaley od tego. do czego bd wykorzystywane wyniki
testowe. Jeli ten sam test ma by wykorzystywany do rnych celw, to
jego trafno naley bada na rne sposoby. W przypadku testu
osigni, ktry ma by stosowany do przewidywania funkcjonowania na
wyszym szczeblu ksztacenia, na przykad w selekcji uczniw szkoy
redniej do college'u, naleaoby sprawdza raczej nie trafno treciow,
lecz trafno kryterialn. traktujc Jako kryterium pniejsze
funkcjonowanie w college'u.

Nadrzdno trafnoci teoretycznej. Przykady podane w tabeli 5-2


maj pokaza rnice midzy poszczeglnymi typami procedur walidacyjnych. Blisza analiza tych procedur pokazuje jednak, e poszczeglne
rodzaje trafnoci, a wic trafno treciowa, kryterialna i teoretyczna, nie
stanowi odrbnych ani logicznie rwnorzdnych kategorii. Wrcz przeciwnie. trafno teoretyczna jest szerokim pojciem, ktre zawiera w
sobie inne rodzaje trafnoci. Jako sposoby identyfikacji konstruktu
mona wyliczy wszystkie szczegowe techniki analizy treci oraz
pomiaru zalenoci midzy testem a kryterium, omawiane we
wczeniejszych czciach rozdziau. Na przykad korelacje testu uzdolnie mechanicznych z wynikami kursw zawodowych 1 osigniciami w
rnego rodzaju zawodach pomagaj nam lepiej zrozumie konstrukt.

188

ZAGADNIENIA PSYCHOMETTRYCZNE

Badanie
trafnoci
jednego
przeznaczonego do rnych celw

testu

Pytania ilustrujce
Cel badania

zastosowanie testu

Jak wiele Dick nauczy


Ocena osigni
si w przeszoci?
z arytmetyki /. zakresu
szkoy podstawowej
Jak dobrze Jane
Ocena uzdolnie
pozwalajcych przewidywa bdzie uczya si
w przyszoci?
postpy w matematyce
w szkole rednie)
Diagnoza trudnoci
Czy wyniki Billa
w uczeniu si
wskazuj na Jakie
specyficzne trudnoci?
Jak wie si wynik
Pomiar rozumowania
Helen z innymi wskaniIlociowego
kami Jej zdolnoci rozumowania?

arytmetyki

S p o s b okrelania

trafnoci
Opis treci
Przewidywanie krylenum
- po upywie pewnego
czasu
Przewidywanie krylenum
- rwnoczesnego

Identyfikacja konstruktu

ktry mierzy test. Konstrukt staby si jeszcze wyraniejszy, gdyby


nastpnie porwna kontrastowe grupy pracownikw - osigajcych
powodzenie i nie osigajcych go.
W podrcznikach leslowych zwykle podaje si dane na temat trafnoci sprawdzanej ze wzgldu na rne kryteria praktyczne; robi si tak. by
pomc potencjalnemu uytkownikowi w zrozumieniu, co mierzy tesl.
Cho uytkownik moe nie by bezporednio zainteresowany przewidywaniem adnego z uwzgldnionych kryteriw, to jednak analizujc je,
bdzie w stanic wyrobi sobie pojcie o dziedzinie zachowania, ktrego
prb stanowi tesl. Jeli pjdziemy dalej lym lokiem, lo stwierdzimy, e
trafno teoretyczna ma podstawowe znaczenie dla interpretacji wynikw
w przypadku kadego rodzaju zastosowa teslu. a
fakt len jest
uznawany coraz powszechniej (J.P. Campbell. 1990a; Guion, 1991;
Messick, 1980b. 1968, 1989; Tenopyr. 1986). Testy rzadko, jeli w ogle,
stosuje si w warunkach identycznych jak te, w ktrych zbierano dane
walidacyjne. 1 dlatego nieuniknione s pewne uoglnienia wynikw.
Podstaw interpretacji wynikw testowych s dane na temat konstruklw. konstrukty mog za znacznie rni si pod wzgldem moliwoci
generalizacji, czyli stopnia, w jakim mona odnosi Je do innych dziedzin
zachowania oraz innych populacji I kontekstw.
Messick (1980b, 1989) przekonujco uzasadni tez, e termin
.trafno" naley zarezerwowa dla trafnoci teoretycznej, poniewa

Trafno:

podstawowe pojcia 187

wskazuje ona na moliwoci interpretacyjne testu. Inne procedury, ktre


tradycyjnie kojarz si z trafnoci, naley, zdaniem Messicka. okrela
za pomoc bardziej specyficznych terminw opisowych. Tak wic.
trafno treciow mona okreli Jako .odpowiednio treciow" f
kompletno treci" majc na myli w pierwszym przypadku dokadny
opis zawartoci testu, w drugim za - jego reprezentatywno dla
okrelonej dziedziny. Trafno kryterialn mona nazwa uytecznoci
prognostyczn" t uytecznoci diagnostyczn", co odpowiadaoby
trafnoci prognostycznej 1 diagnostycznej. Tc zdecydowanie bardziej
opisowe okrelenia bez wtpienia pozwalaj lepiej zrozumie, co tak
naprawd osiga si. stosujc rne procedury. Niemniej jednak
odrnianie poszczeglnych rodzajw procedur badania trafnoci Jest
uyteczne przy poszukiwaniu testw do konkretnych celw. Z lego wzgldu naley je w taki sposb omawia w podrczniku testowym, by mona
byo atwo rozpozna, o ktr z nich chodzi.
Patrzc na t spraw z innego jeszcze punktu widzenia, warto zwrci
uwag, e nawet wtedy, gdy dla bezporedniego praktycznego zastosowania wany jest opis treci (jak to ma miejsce w diagnozie szkolnej)
lub przewidywanie kryterium (jak w dziedzinie selekcji zawodowej),
bardziej efektywne jest posugiwanie si konstruklami o odpowiednim
zakresie ni miarami poziomu wykonan.a konkretnego testu. Badania
kryterialne coraz wyraniej wskazuj, e znacznie bardziej odpowiednim
sposobem wyraania zarwno miar kryterialnych. j a k i wynikw
testowych jest przedstawianie ich jako odpowiadajcych sobie konstruklw. Coraz wyraniej przyznaje si te. e badanie zalenoci przyczynowych midzy konstruktami. Jak to ma miejsce w modelowaniu rwna strukturalnych, wnosi znaczcy wkad w zrozumienie, jak i dlaczego
funkcjonuj testy. 6

Badanie trafnoci w procesie konstruowania testu.

Ronie wiado-

mo faklu. e opracowanie trafnego testu wymaga stosowania, w


okrelonej kolejnoci, zoonych procedur na rnych etapach jego konstruowania (Anastasi, 1986a; Guion, 1991; Jackson, 1970, 1973; N.G.
Peterson i in . 1990). Trafno jest wic wbudowana w test od samego
pocztku, a jej badanie nie ogranicza si do ostatnich etapw jego opracowywania. jak lo miao miejsce w tradycyjnej walidacji, zorientowanej
na kryterium. Proces badania trafnoci rozpoczyna si od okrelenia
konkretnej cechy lub sformuowania definicji konstruktu na podstawie
teorii psychologicznej, uprzednich bada lub systematycznych
obserwacji i analiz odpowiedniej dziedziny zachowania. Nastpnie przygotowuje sie pozycje testowe, tak aby odpowiaday definicji konstruktu.
Kolejny krok polega na przeprowadzeniu empirycznej analizy pozycji.
Przykad zastosowania bardziej wyrafinowanych procedur walidacji lestu
mona znale w: LA. King 1 D.W. King (1990).

190

ZAGADNIENIA PSYCHOMETTRYCZNE

ktra prowadzi do wyboru najbardzie^Sjwwiednich, czyli trafnych,


zada z puli pocztkowej. Mona te przeprowadzi inne. stosowne analizy struktury testu, w tym statystyczne analizy wizek pozycji lub
podtestw. W kocowym etapie przeprowadza si analizy statystyczne
uwzgldniajce zewntrzne, z ycia wzite kryteria, by okreli trafno
wynikw i ich konfiguracji, ktre stanowi podstaw dla rnych interpretacji.
Niemal kada informacja uzyskiwana w procesie opracowywania lub
stosowania testu jest istotna dla jego trafnoci Dane na temal zgodnoci wewntrznej i rzetelnoci szacowanej metod powtarzania testu pomagaj okreli jednorodno konstruktu i jego stao czasow.
Charakterystyk konstruktu z powodzeniem mog wzbogaci normy,
zwaszcza gdy s opracowane oddzielnie dla podgrup wyrnionych ze
wzgldu na takie kryteria, jak wiek. ple lub inne zmienne
demograficzne, ktre wpywaj na histori dowiadcze Jednostki, a co
za tym idzie - na jej wyniki w tecie. Co wicej, gdy test zostanie juz
opublikowany, to stopniowe gromadzenie obserwacji klinicznych i realizacja specjalnych projektw badawczych mog dostarcza danych
pozwalajcych lepiej zrozumie i wzbogaci moliwoci interpretacji
wynikw.7

Indywidualne i spoeczne konsekwencje przeprowadzania testu.


Niektrzy psychometrzy zalecaj wczanie do pojcia trafnoci testu
pewnego dodatkowego elementu, a mianowicie konsekwencji testowania
dla jednostki i spoeczestwa. Wybitnym przedstawicielem takiego rozszerzonego rozumienia pojcia trafnoci jest Messick (1980b, 1988,
1989, 1995). Szczeglny nacisk kadzie on na niezamierzone konsekwencje okrelonych zastosowa testw, ktre mog by krzywdzce dla
Jednostek lub dla czonkw pewnych grup etnicznych i populacji
majcych odmienne dowiadczenia i przeszo. Doskonal ilustracj
problemw zwizanych z odpowiednim wywaeniem rnych celw i
wartoci w procesie oceniania osb starajcych si o prac stanowi
raport komitetu ekspertw powoanych przez Komitet Bada Naukowych
(National Research Council). ktry bada t sytuacj niezwykle sumiennie
(Hartigan i Wigdor. 1989 - patrz: zwaszcza rozdz. 13 i 14).
Etyczne i spoeczne implikacje stosowania testw z pewnoci
zasuguj na powszechne zainteresowanie. Pewnym wprowadzeniem do
tych zagadnie s rozwaania przedstawione w rozdziale 18. Bardziej
specjalistyczne aspekty, cznie z problemem stronniczoci testu", s
omwione w rozdziale 6. Jednak, jak zwracaj uwag inni psychometrzy
(np. Cole i Moss, 1989). wczanie tych kwestii do pojcia trafnoci nie
wydaje si najbardziej skutecznym sposobem stawienia im czoa. Nie
Udane zastosowanie tego wszechstronnego modelu badania trafnoci testu patrz: ElUott (1990b. rozdz. 9).
7

Trafno: podstawowe pojcia

191

mona ich rozstrzyga odwoujc si wycznie do danych empirycznych


1 analiz statystycznych. Podanych wartoci nie naley te przemilcza,
ograniczajc si do stosowania Jedynie manipulacji statystycznych.
Naley o nich mwi wprost Jako o niezalenym celu. ktry rwnie obok danych dotyczcych empirycznej, statystycznie udowodnionej
trafnoci okrelonych zastosowa testu - powinien by przedmiotem
rozwaa. Do rozsdnej decyzji, rwnowacej konfliktowe cele, dochodzi
si w sposb uwzgldniajcy fakt, c wchodz tu w gr systemy wartoci (Mullen 1 Roth. 1991: Zelchmelster 1 Johnson. 1992).8 Stosowane w
tym celu metody wymagaj zdrowego rozsdku, systematycznej dyskusji,
kompromisw i rozwizywania konfliktw: w dziaaniach tych powinni
by odpowiednio reprezentowani rzecznicy odmiennych systemw
wartoci. Mieszanie empirycznych, opartych na statystyce procedur
okrelania trafnoci z ocen spoecznych i etycznych konsekwencji
stosowania okrelonego testu tylko gmatwa spraw 1 utrudnia
rozwizanie.
Z rozwaa dotyczcych tego trudnego 1 wanego problemu wynika
jeden wniosek: jest nim ponowne stwierdzenie, e gwn rol odgrywa
uytkownik testu - o czym bya ju mowa w rozdziale 1. Jeli w gr
wchodz sdy wartociujce, zwaszcza w indywidualnych przypadkach,
lym wiksza odpowiedzialno spoczywa na uytkowniku. Dokonujc
wyboru odpowiednich testw, jak rwnie interpretujc ich wyniki,
uytkownik moe kontrolowa konsekwencje testowania. Zarwno
uznawane wartoci, jak i spoeczna wraliwo uytkownika testu mog
znaczco przyczyni si do waciwego stosowania testw, nie tylko z
naukowego, ale take z etycznego punktu widzenia. 9

Patrz te: Arkes (1993), gdzie przedstawiony Jest szerszy przegld tego zagadnienia oraz dodatkowa bibliografia.
8

9 Naley zauway na marginesie, e nowatorski sposb podejcia do psychologii.


Jako caoci, proponuje psychologia dyskursywna". w ktrej problemy bada si
zarwno poprzez dyskurs ludzi w wiecie ycia codziennego, jak i poprzez tradycyjne metody eksperymentalne (patrz np.: Harr 1 Stearns. 1995: J. Smith. Harrt
l Van Langenhove, 1995).

Trafno pomiar i interpretacja

rozdziale pitym omwiono pojcie trafnoci oraz rda danych


^^ ^walidacyjnych; tu zajmiemy si ilociowymi wskanikami trafnoci
^ ^ ^ ^ ^ F o r a z ich interpretacj. Uytkownicy testw interesuj si trafnoci
^ ^ ^ ^ n a co najmniej jednym z dwu etapw swojego dziaania. Po pierwsze,
analizuj dostpne dane na temat trafnoci przedstawione w
podrczniku testowym lub w innych publikowanych materiaach wtedy,
gdy rozwaaj przydatno testu do swych celw. Dziki tym informacjom z grubsza orientuj si, jakie funkcje psychologiczne faktycznie
mierzy dany test i czy odpowiada to zamierzonemu zastosowaniu. Jeli
uytkownicy testu polegaj na publikowanych danych na temat trafnoci, to w istocie rzeczy maj do czynienia z trafnoci teoretyczn, bez
wzgldu na to, jakie konkretne procedury stosowano przy zbieraniu
danych. Jak wiemy z rozdziau 5, kryteria brane pod uwag w badaniach
walidacyjnych czsto nie s identyczne z tymi. ktre chce przewidywa
uytkownik testu Czynnoci zawodowe noszce tak sam nazw rzadko bywaj identyczne w dwch rnych miejscach pracy. Podobnie w
dwch rnych college'ach kursy jzyka angielskiego dla pierwszego roku
mog by zupenie rne. Tak wic przy wyborze testu trzeba dokonywa
pewnych uoglnie dotyczcych trafnoci,
Rnorodno powodw, dla ktrych wykonuje si badania testowe, a
take wnioskw, jakie formuuje si na podstawie ich wynikw, sprawiaj, e niektrzy uytkownicy mog chcie sprawdzi trafno
wybranego testu ze wzgldu na lokalne kryteria. Jeeli jest to technicznie
192

Trafno: pomiar I Interpretacja

180

moliwe, to takie bezporednie potwierdzenie trafnoci jest podane 1 to


nawet wwczas, gdy publikowane dane wyranie wskazuj na wysok
trafno danego lestu w okrelonej sytuacji. Walidacja testu w stosunku
do specyficznych, lokalnych kryteriw sianowi drugi etap. na ktrym
uytkownik tego testu interesuje si Jego Irafnoci. Techniki omawiane
w lym rozdziale nadaj si zwaszcza do analizy danych walidacyjnych
uzyskiwanych przez samych uytkownikw testw. Jednak informacje
na ten temat przydaj si take do zrozumienia i interpretacji danych o
trafnoci przytaczanych w podrcznikach testowych.

WSPCZYNNIK TRAFNOCI I BD OSZACOWANIA


Pomiar zalenoci.
Wspczynnikiem trafnoci jest korelacja midzy
wynikiem testu a miar kryterialn. Ze wzgldu na to. e jest to pojedynczy wskanik liczbowy, w podrcznikach testowych zwykle omawia
si trafno testu w stosunku do kadego kryterium, dla ktrego dostpne s dane. Dane wykorzystywane do obliczania wspczynnika korelacji
mona przedstawi take w postaci tabeli wartoci oczekiwanych i
wykresu wartoci oczekiwanych, prezentowanych w rozdziale 3. Takie
tabele i wykresy w prosty i dogodny sposb pokazuj znaczenie
wspczynnika trafnoci przy badaniu konkretnej osoby. Przypomnijmy,
e wykresy wartoci oczekiwanych podaj prawdopodobiestwo osignicia okrelonego wyniku kryterialnego przez osob, ktra uzyskaa dany
rezultat w tecie. Na przykad wemy pod uwag tabel 3-6: jeli znamy
wynik ucznia w tecie Rozumowania Liczbowego z Testu Zrnicowanych
Zdolnoci (DiJJerential Aptilude Tests - DAT), moemy okreli, jakie ma
on szanse na uzyskanie konkretnego stopnia na kursie w szkole redniej. Obliczony dla tych danych wspczynnik trafnoci wynis 0,60,
Jeli zarwno zmienna testowa, jak i kryterialna s zmiennymi cigymi,
stosuje si znany wspczynnik korelacji wedug momentu iloezynowego
Pearsona. Natomiast wtedy, gdy dane maj inn posta, na przykad zastosowane kryterium ma charakter dwu kategoria lny [0-1). oblicza si inne
rodzaje wspczynnikw korelacji. Konkretne procedury obliczania tych
wspczynnikw mona znale w kadym standardowym podrczniku
statystyki.
Czynniki wpywajce na wspczynniki trafnoci.
Podobnie Jak w
przypadku rzetelnoci, niezbdne jest okrelenie charakteru grupy, ktrej
wyniki byy podstaw szacowania wspczynnika trafnoci. Ten sam test
moe mierzy rne funkcje w zalenoci od tego, kto jest nim badany,
przy czym istotn rol mog odgrywa tu takie zmienne. Jak wiek. pe.
poziom wyksztacenia, zawd i inne. Na przykad osoby majce za sob

ZAGADNIENIA PSYCHOMETTRYCZNE

odmienne dowiadczenia mog stosowa rne metody pracy w celu


rozwizania tego samego problemu testowego. W zwizku z tym tesl
moe mie wysok trafno prognostyczn w stosunku do danego kryterium w jednej populacji i w oglne nie by trafny (lub mie nisk
trafno) w innej. Moe te by trafn miar rnych funkcji w kadej z
tych populacji. W podrcznikach do testw, ktre s przeznaczone dla
rnych populacji, naley podawa odpowiednie dane dotyczce
moliwoci uoglniania danych walidacyjnych. Jeli w obrbie jakiej
populacji wyniki testowe s bardzo zrnicowane, to i wspczynniki
trafnoci dla poszczeglnych czci zakresu wynikw mog si znacznie
rni: naley wic je sprawdzi dla stosownych podgrup (R. Lee i Foley.
1986).
Kwestia heterogenicznoci prby Jest tak samo istotna dla pomiaru
trafnoci, jak i dla pomiaru rzetelnoci, poniewa w obu przypadkach
mamy do czynienia ze wspczynnikami korelacji. Przypomnijmy, e jeli
Inne elementy s takie same. to im szerszy jesl zakres wynikw, tym
wysza jest korelacja. O tym fakcie warto pamita, interpretujc
wspczynniki korelacji podawane w podrcznikach testowych.
W wielu prbach walidacyjnych mamy do czynienia ze szczeglnego
rodzaju problemem wynikajcym z presetekcjL Zamy, e prowadzone
s badania walidacyjne nowego testu przeznaczonego do selekcji
zawodowej 1 zostaje nim zbadana grupa osb nowo przyjtych do pracy,
ktrych funkcjonowanie zawodowe bdzie potem stanowi miar kryterialn. Jest jednak wielce prawdopodobne, e ci pracownicy ju stanowi
grup wyselekcjonowan spord wszystkich, ktrzy starali si o t
prac. W takiej grupie zostaj wic odcite dolne czci rozkadu zarwno
wynikw testowych, jak i miar kryterialnych. Skutkiem takiej preselekcji
bdzie zanienie wspczynnika trafnoci. Mona spodziewa si, e w
przyszoci, gdy test ten bdzie wykorzystywany do badania wszystkich
starajcych si o prac, trafno bdzie nieco wysza.
Wspczynniki trafnoci mog te ulega zmianom wraz z upywem
czasu, ze wzgldu na zmieniajce si standardy selekcji. Przykadu
dostarcza tu porwnanie wspczynnikw trafnoci obliczonych w
odstpie 30 lat dla studentw z Yale (Burnham, 1965) Korelowano prognostyczny wskanik opary na wynikach lestw dla college'u i
wiadectwach ze szkoy redniej z przecitn ocen z pierwszego roku.
W cigu 30 lat korelacje te zmalay z 0,71 do 0.52. Analiza dwuzmiennowych rozkadw wyjania powd tego spadku. Ze wzgldu na wysze
wymagania przy przyjmowaniu na studia, ostatni rocznik stanowi o
wiele bardziej jednorodn grup ni rocznik wczeniejssy i to zarwno
jeli chodzi o wyniki testowe, jak i kryterialne. W konsekwencji, w tej
ostatniej grupie korelacja bya nisza, cho dokadno, z jak mona
byo prognozowa oceny jednostek, zmienia si niewiele. Mwic innymi
sowy, zaobserwowany spadek wielkoci wspczynnika korelacji nie
oznacza, e predyktory byy mniej trafne ni 30 lat wczeniej. A mona

Trafno: pomiar I Interpretacja 180

by tak bdnie wnioskowa, gdyby zignorowa istniejce rnice w jednorodnoci grup.


Waciwa interpretacja wspczynnika trafnoci wymaga te zwrcenia
uwagi na ksztat zalenoci midzy wynikami w tecie i w kryterium.
Obliczajc wspczynnik korelacji Pearsona. przyjmuje si zaoenie, e
zaleno Jest liniowa 1 Jednakowa dla caego zakresu zmiennych.
Badania zalenoci midzy wynikami testowymi a funkcjonowaniem
zawodowym wskazuj, e warunki te najczciej s spenione (Coward 1
Sacketl, 1990; Hawk, 1970). Niemniej jednak w szczeglnych okolicznociach moe by inaczej i uytkownik lestu powinien by wyczulony na
lak moliwo. Na przykad wykonywanie okrelonej pracy moe wymaga pewnego minimum w zakresie umiejtnoci czytania ze zrozumieniem. tak by pracownicy byli w stanic przeczyta instrukcje obsugi,
etykietki itp. Jednak po przekroczeniu tego progu, dalszy wzrost umiejtnoci czytania moe ju nie by zwizany z poziomem powodzenia
zawodowego. Byby to przykad nieliniowej zalenoci midzy wynikami
testu a funkcjonowaniem zawodowym. Analiza dwuzmiennowego
rozkadu, czyli wykresu rozrzutu dla wynikw w czytaniu ze zrozumieniem i miaiy krylerialnej, wykazaaby wzrastanie poziomu funkcjonowania zawodowego a do momentu osignicia progowego minimum
umiejtnoci czytania ze zrozumieniem, a nastpnie - po przekroczeniu
tego progu - stabilizacj. Tak wic punkty grupowayby si raczej w
pobliu linii krzywej, a nie prostej.
W innych sytuacjach najlepiej dopasowana do danych moe by linia
prosta, ale pojedyncze przypadki, czciej w pobliu grnego ni dolnego
kraca skali, mog si od niej odchyla. Przypumy, e dobre wyniki w
tecie uzdolnie szkolnych s koniecznym, ale niewystarczajcym
warunkiem osignicia powodzenia w nauce. Uczniowie osigajcy niskie
wyniki w tecie ucz si wic sabo, natomiast wrd uczniw
osigajcych wyniki wysokie s tacy. ktrzy ucz si dobrze, ale s te
tacy, ktrzy ucz si sabo z powodu niskiej motywacji do nauki, braku
zainteresowania lub innych niesprzyjajcych okolicznoci. W takiej sytuacji zmienno w zakresie kryterium (wyniki w nauce) bdzie wiksza
wrd uczniw osigajcych wysokie wyniki w tecie ni wrd tych.
ktrzy osigaj wyniki niskie. Ten ukad w rozkadzie dwuzmiennowym
Jest znany jako heteroscedastyczno. Korelacja Pearsona zakada
homoscedaslyczno. czyli jednakow zmienno dla caego zakresu
dwuzmiennowego rozkadu. W omawianym przykadzie rozkad dwuzmiennowy bdzie mia ksztat wachlarza - szerokiego na grnym kracu
1 wskiego na dolnym. Analiza samego rozkadu dwuzmiennowego
zazwyczaj stanowi dobr wskazwk co do natury zalenoci midzy
lesiem a kryterium. Tabele wartoci oczekiwanych 1 wykresy wartoci
oczekiwanych rwnie trafnie pokazuj wzgldn efektywno testu na
rnych poziomach jego wykonania.

196

ZAGADNIENIA PSYCHOMETTRYCZNE

Wielko wspczynnika trafnoci. Jak wysoki powinien by


wspczynnik trafnoci? Na to pytanie nic ma oglnej odpowiedzi,
poniewa interpretacja wspczynnika trafnoci musi uwzgldnia wiele
towarzyszcych mu okolicznoci. Oczywicie wspczynnik korelacji
powinien by na tyle wysoki, by osiga istotno statystyczna na jakim
akceptowalnym poziomie, takim jak 0,01 czy 0,05. o czym bya mowa w
rozdziale 4. Mwic innymi sowy, zanim wycigniemy jakikolwiek
wniosek na lemat trafnoci testu, musimy by w uzasadniony sposb
przekonani o tym. e nie jest tak. i na skutek przypadkowych riiikluaeji
zwizanych z doborem prby uzyskano wspczynnik korelacji wikszy
od zera, mimo e w populacji korelacja wynosi zero.
Jeli korelacja midzy wynikami testu a kryterium okazaa si istotna,
to nastpny krok polega na ocenie jej wielkoci w wietle przewidywanych zastosowa testu. Gdy chcemy przewidywa dokadny wynik
jednostki w zakresie miary kryterialnej, na przykad redni ocen, jak
ucze uzyska w college'u. wspczynnik trafnoci mona interpretowa w
kategoriach

bdu

standardowego

oszacowania

(standard

error

oj

esti-

mate- SEcs(). analogicznego do bdu pomiaru omawianego w zwizku z


kwesti rzetelnoci Przypomnijmy, e bd pomiaru wskazuje nam. z
jakim marginesem bdu naley si liczy w przypadku indywidualnego
wyniku, na skutek nierzetelnoci testu. Podobnie bd oszacowania
pokazuje, jaki margines bdu naley bra pod uwag przy przewidywaniu wyniku jednostki w zakresie kryterium, na skutek niedoskonaej
trafnoci testu.
Bd oszacowania oblicza si korzystajc z nastpujcego wzoru:
SE Mt = SDyVl - r j
gdzie r^ 2 jest kwadratem wspczynnika trafnoci, a SDV odchyleniem
standardowym wynikw kryterialnych. Naley zwrci uwag, e gdyby
trafno testu bya doskonaa (r = 1.00). bd oszacowania wynisby
zero. Natomiast jeli test miaby zerow trafno, lo wielko bdu oszacowania byaby rwna wielkoci odchylenia standardowego rozkadu
zmlennel kryterialnej (SE t = SDy Vi - 0 = Sn y ). W takiej sytuacji
przewidywanie nie rnioby si od zgadywania, a zakres bdu przewidywania rwny byby zakresowi rozkadu wynikw zmiennej kryterialnej.
Midzy tymi dwoma kracami mona znale bdy oszacowania
odpowiadajce lesiom o rnej trafnoci.
Odwoujc si do wzoru na SEcs| widzimy, e wyraenie /l - r 5 suy
okreleniu

wielkoci

bdu

stosunku

do

bdu,

ktry

wystpiby

sytuacji samego lylko zgadywania (tzn. przy zerowej trafnoci). Innymi


sowy, jeli Vi - r j * jest rwne 1.00. bd oszacowania jest tak duy "jak
wtedy, gdyby zgadywa wynik jednostki w zakresie zmiennej kryterialnej
Udoskonalenie przewidywania, ktre mona byoby przypisa zaslosowa-

Trafno:

pomiar I Interpretacja 180

niu testu, wynosi wic zero. Jeli wspczynnik trafnoci wynosi 0.80. to
Vi - r^ 2 jest rwne 0.60, a bd stanowi 60% lego. ktry wystpiby w
sytuacji samego tylko zgadywania. Mona to wyrazi jeszcze inaczej:
zastosowanie testu umoliwia nam przewidywanie poziomu wykonania w
zakresie zmiennej kryterialnej z marginesem bdu, ktry jest o 40%
mniejszy ni wtedy, gdybymy Jedynie zgadywali.
Okazuje si zatem, e nawet wtedy, gdy wspczynnik trafnoci wynosi
0,80, a wic 1 tak jest niezwykle wysoki, bd przy przewidywaniu
wynikw jest znaczny. Gdyby podstawow funkcj testw psychologicznych byo przewidywanie dokadnej pozycji kadej jednostki w
rozkadzie zmiennej kryterialnej. to perspektywy byyby do zniechcajce. Wikszo lesiw, w wietle bdu oszacowania, nie naley do
specjalnie skutecznych narzdzi. Na ogl w badaniach testowych nie
chodzi jednak o przewidywanie, jaki poziom wykonania w zakresie
danego kiyterium osign poszczeglne osoby, lecz o okrelenie, ktre z
nich przekrocz pewien poziom minimalny, czyli wynik graniczny. Jakie
s szanse, e Mary Grccn ukoczy szko medyczn, e Tom Higgins zda
egzamin z rachunku rniczkowego, lub e Bruce Blake zrobi karier
jako astrcnaula? Ktrzy spord starajcych si o prac bd dobrymi
urzdnikami, agentami ubezpieczeniowymi czy operatorami maszyn?
Takie informacje s uyteczne nie tylko przy selekcji grupowej, ale take
przy planowaniu indywidualnej kariery. Na przykad studentce moe
przyda si informacja, e ma due szanse zaliczenia wszystkich przedmiotw w szkole prawniczej, nawet jeli nie moemy powiedzie z du
pewnoci, e jej rednia ocen bdzie wynosi 3.8 czy 4.2.
Tesl moe znaczco poprawi skuteczno przewidywania, jeli
wykazuje jakkolwiek istotn korelacj z kryterium, choby najnisz.
W pewnych wanmkach nawet lak niskie wspczynniki trafnoci, jak
0.20 czy 0.30 mog usprawiedliwia wczenie testu do programu
selekcji. W przypadku wielu zastosowa ocenianie testw ze wzgldu na
wielko bdu oszacowania jest nierealistycznie surowe. Trzeba wic
rozway inne sposoby oceny wkadu wnoszonego przez test - takie,
ktre bd uwzgldnia typ decyzji podejmowanych na podstawie
wynikw testowych. Niektre z tych procedur zostan przedstawione w
nastpnej czci tego rozdziau.

TRAFNO TESTU I TEORIA DECYZJI


Podejcie podstawowe.
Przypumy, e 100 kandydatw wykonywao
tesl uzdolnie, a nastpnie, po upywie Jakiego czasu, kadego z nich
oceniono ze wzgldu na poziom powodzenia zawodowego. Na rysunku
6-1 pokazany jesl dwuzmiennowy rozkad wynikw testowych l

198

ZAGADNIENIA PSYCHOMETRYCZN;

wskanikw sukcesu zawodowego dla wspomnianych 100 osb.


Korelacja midzy tymi dwoma zmiennymi wynosi nieco poniej 0.70.
Akceptowalne minimum poziomu wykonania pracy zawodowej, czyli
wynik graniczny w zakresie kryterium, przedstawiono na wykresie w
postaci grubej poziomej linii 40 przypadkw przypadajcych poniej tej
linii to osoby, ktre poniosy porak zawodow, natomiast 60 przypadkw znajdujcych si ponad t lini to osoby, ktre odniosy sukccs,
Gdyby wic do pracy przyjto ca setk kandydatw, to 60% z nich
powiodoby si w pracy. Podobnie gdyby przyjto do pracy mniej osb.
ale selekcja miaaby charakter losowy, czyli dokonywano by jej bez
odwoywania si do wynikw testw, to proporcja sukcesw byaby prawdopodobnie bliska 60%. Przypumy jednak, e do tego, by spord 100
kandydatw wybra 45 najlepiej zapowiadajcych si osb (wspczynnik
selekcji = 0.45) wykorzystywane s wyniki testowe. W takim przypadku
wybrano by 45 osb mieszczcych si po prawej strome grubej pionowej
linii. Jak mona zauway, w tej grupie jest 7 osb ponoszcych porak
zawodow - s to bdne akceptacje przypadajce poniej grubej
poziomej linii - oraz 38 odnoszcych sukces zawodowy. A zatem procent
sukcesw zawodowych wynosi teraz 84, a nie 60 (tzn. 38/45 = 0,84). Ten
wzrost mona przypisa wykorzystaniu testu jako narzdzia prze-

r.

Ouiy

sukces

B* idne odrzucenia
(22)

Tra/ne akceptacje
(38)

j,

co
s
z

Maty f
sukces :

/
Tratne l
odrzuceni
(33)
'

-r*

II

III

III

II

HH-i

iii

II

im

<111 tti /

Hit

im

it

li

III

Bkidne afc
. (7)

ii

7-

II

ii

...

ii
1

Sukces
zawodowy

II

- ' -

. .

na

WyniK
graniczny
_ w zakresie
kryterium
zawodowego

Poraka
zawodowa

Rysunek 6-1. Wzrost proporcji .sukcesw" wynikajcy z zastosowania testu


selekcyjnego.

Trafno:

pomiar I Interpretacja 180

slewowego Warto zauway, e bdy w przewidywaniu wyniku kryterlalnego, ktre nie wpywaj na decyzj, mona ignorowa. Selekcyjn
skuteczno testu obniaj tylko te bdy w przewidywaniu, ktre wi
si z przekroczeniem linii granicznej i w zwizku z tym powoduj, e Jednostka zostaje umieszczona w niewaciwej kategorii.
Aby ocena testu Jako narzdzia przesiewowego bya pena, naley
przeanalizowa jeszcze jedn kategori przypadkw przedstawionych na
rysunku 6-1. Jest to kategoria bdnych odrzuce, obejmujca 22 osoby,
ktre uzyskay wynik poniej punktu granicznego dla testu, ale powyej
granicznego poziomu kryterium. Na podstawie tych danych oszacowalibymy. e 22% z oglnej liczby kandydatw to potencjalni dobrzy pracownicy, ktrzy jednak zostan odrzuceni, jeli jako narzdzie przesiewowe zostanie uyty test z takim wynikiem granicznym. Okrelajc
wynik graniczny w tecie, naley zwrci uwag zarwno na procent
bdnych odrzuce, jak i na procent sukcesw i poraek w obrbie wyselekcjonowanej grupy. W pewnych przypadkach wynik graniczny
powinien by ustalony na tyle wysoko, by wykluczy niemal wszystkie
osoby, ktre mog odnie niepowodzenia zawodowe. Tak naleaoby
zrobi przy przyjmowaniu do pracy, w ktrej niewykwalifikowany pracownik moe spowodowa powane straty lub szkody. Przykadem moe
by praca pilota samolotow pasaerskich. W innych okolicznociach
waniejsze mogoby by to, by przyj do pracy tak wiele wykwalifikowanych osb, jak tylko jest to moliwe, godzc si przy tym na
ryzyko, e wicej bdzie takich, ktrzy ponios potem porak zawodow.
W tym ostatnim przypadku liczb bdnych odrzuce mona zmniejszy,
wybierajc niszy wynik graniczny w tecie. Do innych czynnikw, ktre
normalnie okrelaj umiejscowienie wyniku granicznego, nale dostpne zasoby pracownikw, liczba wolnych miejsc pracy i szybko, z jak
te nowe miejsca trzeba zapeni1.
W przypadku wielu decyzji dotyczcych personelu wspczynnik
selekcji wynika z praktycznego zapotrzebowania w konkretnej sytuacji.
Ze wzgldu na liczb wolnych miejsc z jednej strony i osb chtnych do
pracy z drugiej, w jednym przypadku trzeba, na przykad, zatrudni 40%
najlepszych kandydatw, a w innym - 75%. Jeli wspczynnik selekcji
nic jest narzucony z zewntrz, to wynik graniczny mona ustawi w
takim punkcie, ktry daje najwiksze rnice midzy grupami kryterialnymi. Z pewnym przyblieniem mona to zrobi porwnujc rozkad
wynikw testowych w dwch grupach kryterialnych. Opracowano te
bardziej precyzyjne, matematyczne procedury okrelania optymalnych
wynikw granicznych (Darlington i Stauffer, 1966; 1 Guttman i Raju,
1965; Jaeger, 1989; Livingston i Zieky, 1982; Martin 1 Raju. 1992; Rorer.
Hoffman I Hsieh, 1966). Procedury te umoliwiaj uwzgldnianie innych
1 Podobne tezy, eho z innego punktu widzenia, przedstawiono we wstpnym
omwieniu wynikw granicznych w rozdziale 3.

200

Zagadnienia PsychometTryczne

istotnych parametrw, lakich jak wzgldne znaczenie bdnych odrzuce


i bdnych akceptacji. Jeli tego rodzaju szacunk: s elementem caego
procesu, to w ktrym momencie musz zosta wczone opinie
czowieka.
W jzyku teorii decyzji przykad podany na rysunku 6-1 ilustruje
prost strategi, czyli sposb decydowania o tym. ktrych spord
starajcych si o prac przyj, a ktrych odrzuci. Mwic bardziej
oglnie, strategia jest technik wykorzystywania informacji w celu podjcia decyzji dotyczcej jednostki. W tym przypadku strategia polegaa na
zaakceptowaniu 45 osb z najwyszymi wynikami w tecie. Wzrost, z 60
do 84. odsetka pracownikw, ktrzy odnosz sukces zawodowy, mona
wykorzysta jako podstaw szacowania czystej korzyci wynikajcej z
zastosowania testu.
Teori decyzji statystycznych opracowa Wald (1950), majc w
szczeglnoci na wzgldzie decyzje wymagane przy inspekcji i jakociowej
kontroli produktw przemysowych. Wynikajce z tej teorii konsekwencje dla konstruowania i interpretacji lestw psychologicznych w sposb
systematyczny przedstawili Cronbach i Glcser (1965), Zasadniczo teoria
decyzji jest prb wyraenia procesu podejmowania decyzji w postaci
matematycznej, w taki sposb, aby mona byo wykorzysta dostpne
informacje do dokonania najbardziej trafnych, w danych okolicznociach, rozstrzygni. Niektre z podstawowych poj teorii decyzji
okazuj si pomocne w przeformulowywaniu i wyjanianiu pewnych
kwestii dotyczcych testw. Kilka z nich znalazo zastosowanie w
odniesieniu do bada testowych jeszcze przed formalnym opracowaniem
teorii decyzji statystycznych, a polem uznano e pasuj one do ych ram.
Przewidywanie wynikw. Prekursorski charakter, jeli idzie o zastosowanie teorii decyzji w psychologicznych badaniach testowych, miay
tablice Taylora-Russella (1939): pozwalaj one okreli czysty zysk w
dokadnoci selekcji, wynikajcy z zastosowania testu. Potrzebne s do
tego nastpujce dane: wspczynnik trafnoci testu, proporcja kandydatw, ktrzy maj zosta przyjci (wspczynnik selekcji), i proporcja
osigajcych powodzenie zawodowe kandydatw wybranych bez
stosowania testu (proporcja podstawowa). Zmiana w zakresie ktregokolwiek z tych trzech warunkw moe zmieni prognostyczn
skuteczno testu.
Dla ilustracji przedstawiono w tabeli 6-1 reprodukcj jednej z tablic
Taylora-Russella. Ta wianie tablica przeznaczona jest do uytku wtedy,
gdy proporcja podstawowa, czyli procent osigajcych powodzenie
kandydatw wybranych przed zastosowaniem testu, wynosi 60. Inne
tablice opracowane przez Taylora i Russella podaj wartoci dla innych
proporcji podstawowych. W grnym rzdzie tabeli znajduj si rne
wartoci wspczynnika selekcji, a z lewej strony - wspczynniki
trafnoci testu. Dane zawarte w tabeli pokazuj proporcj osigajcych

Trafno: pomiar I Interpretacja 180

Oczekiwane proporcje sukcesw" okrelane dziki wykorzystaniu testu o danej trafnoci i przy danym wspczynniku selekcji, dla proporcji podstawowej 0,60
Wspczynnik selekcji
TVafno 0,05 0,10

0,20

0,30

0,40 0,50 0,60

0,70

0,80

0,90

0,95

0,00
0,05
0,10
0,15
0,20

0,60
0,64
0,68
0,71
0,75

0,60
0,63
0,67
0,70
0,73

0,60
0,63
0,65
0,68
0,71

0,60
0,62
0,64
0,67
0,69

0,60
0,62
0.64
0.66
0,67

0,60
0,62
0,63
0,65
0,66

0,60
0,61
0,63
0,64
0,65

0,60
0,61
0,62
0,63
0,64

0,60
0,61
0,61
0,62
0,63

0,60
0,60
0,61
0.61
0,62

0,60
0,60
0,60
0,61
0,61

0,25
0,30
0.35
0,40
0,45

0,78
0,82
0.85
0,88
0.90

0.76
0,79
0,82
0,85
0,87

0,73
0,76
0,78
0,81
0,83

0,71
0,73
0.75
0,78
0,80

0,69
0,71
0.73
0,75
0.77

D.68
5,69
0,71
0.73
0,74

0,66
0,68
0.69
0,70
0,72

0,65
0.66
0.67
0,68
0,69

0,63
0,64
0.65
0,66
0,66

0,62
0,62
0,63
0,63
0,64

0,61
0,61
0,62
0,62
0,62

0,50
0,55
0,60
0,65
0,70

0,93
0,95
0.96
0,98
0,99

0,90
0,92
0,94
0,96
0,97

0,86
0,8B
0,90
0,92
0,94

0,82
0,84
0,87
0,89
0,91

0,79
0,81
0,83
0.85
0,87

0,76
0,78
C,80
C,82
C,84

0,73
0,75
0,76
0,78
0,80

0,70
0,71
0,73
0,74
0.75

0,67
0,68
0,69
0,70
0,71

0,64
0,64
0,65
0,65
0.66

0,62
0,62
0.63
0,63
0,63

0,75
0,80
0.85
0,90
0,95
1,00

0,99
1,00
1,00
1,00
1,00
1,00

0,99
0,99
1,00
1,00
1,00
1,00

0,96
0,98
0,99
1,00
1,00
1,00

0,93
0,95
0,97
0,99
1,00
1,00

0.90
0,92
0,95
0.97
0.99
1,00

0,86
0,88
0,91
0,94
0,97
1,00

0,81
0,83
0,86
0,88
0,92
1.00

0.77
0.78
0,80
0,82
0,84
0,86

0,71
0,72
0,73
0,74
0,75
0.75

0,66
0,66
0,66
U.67
0,67
0.67

0,63
0,63
0.63
0.63
0,63
0.63

Uwaga. Peny zestaw tabel moina znale w: H.C. Taylm


i llgen (1980 Aneks B)
(Z: H.C. Taylor I Russell. 1939, str. 576)

powodzenie osb wybranych po zastosowaniu testu. A zatem rnica


midzy 0.60 i wartoci znalezion w tabeli pokazuje wzrost proporcji
trafnych decyzji selekcyjnych, ktry mona przypisa testowi.
Oczywicie gdyby wspczynnik selekcji wynosi 100%, to znaczy
gdyby wszyscy kandydaci mieli zosta przyjci, aden test, niezalenie od
tego. Jak bardzo byby trafny, nie usprawniby procesu selekcji. Tabela

202

ZAGADNIENIA PSYCHOMETTRYCZNE

6-1 pokazuje, e Jeli ma zosta przyjtych 95% kandydatw, to nawet


test idealnie trafny (r = 1.00) zwikszy proporcj osb osigajcych
powodzenie tylko o 3% (z 0,60 do 0,63). Z drugiej strony, jeli ma zosta
wybranych tylko 5% kandydatw, to test. ktrego wspczynnik trafnoci wynosi zaledwie 0.30. zwikszy procent trafnie wybranych kandydatw z 60 do 82. Wzrost z 60 do 82 stanowi trafno zyskan testu
(Sechrest. 1963). czyli przyrost trafnoci prognostycznej, ktry mona
przypisa testowi. Trafno zyskana wskazuje na wkad danego testu w
dobr jednustek speniajcych minimalne standardy w zakresie kryterium. Stosujc tablice Taylora-Russella naley pamita o tym. c
trafno testu powinna by oszacowana dla grupy tego samego rodzaju,
co grupa, ktrej wyniki byy podstaw szacowania procentu
wczeniejszych sukcesw. Mwic innymi sowy, wkad testu nie jest
oceniany w stosunku do przypadkowego powodzenia, chyba e kandydaci byli wczeniej wybierani losowo, co jest najmniej prawdopodobn
sytuacj. Jeeli kandydatw wybierano na podstawie informacji dotyczcych wczeniejszej kariery zawodowej, listw z rekomendacjami i
wywiadw, to wkad testu naley szacowa na podstawie lego, co test
wnosi do uprzednich procedur selekcyjnych.
Trafno zyskana wynikajca z uycia testu zaley nie tylko od
wspczynnika selekcji, ale take od proporcji podstawowej. W przedstawionej uprzednio sytuacji selekcji zawodowej proporcja podstawowa
odnosi si do proporcji pracownikw osigajcych powodzenie przed
wprowadzeniem testu do celw selekcyjnych. W tabeli 6-1 przedstawiono
przewidywane wyniki, gdy proporcja podstawowa wynosi 0.60. Prsy
innych wartociach proporcji podstawowej naley zajrze do innych,
odpowiednich tablic (H.C. Taylor 1 Russell. 1939). Rozwamy przykad, w
ktrym trafno testu wynosi 0.60, a wspczynnik selekcji - 40%. Jaki
byby, w takich warunkach, wkad trafnoci zyskanej testu, jeli
zaczlibymy od proporcji podstawowej wynoszcej 50%? A jaki, gdybymy zaczli od bardziej skrajnych proporcji podstawowych
wynoszcych 10% i 90%? W odpowiednich tablicach Taylora-Russella
znajdujemy, e dla tych proporcji podstawowych procent pracownikw
osigajcych powodzenie wzrsby w pierwszym przypadku z 50 do 70, z
10 do 21 w drugim i z 90 do 99 w trzecim Tak wic wzrost odsetka pracownikw osigajcych powodzenie, ktry mona przypisa zastosowaniu testu, wynosi 25 przy proporcji podstawowej 50, ale tylko 1119, gdy
proporcje podstawowe s bardziej skrajne.
Konsekwencje skrajnych proporcji podstawowych s szczeglnie
interesujce w psychologu klinicznej: proporcja podstawowa odnosi si
tu do czstoci wystpowania w badanej populacji stanu patologicznego,
ktry ma by diagnozowany (Buchwald. 1965; Cureton, 1957a- Meehl i
Rosen. 1955: J.S. Wiggins. 1973/1988). Na przykad jeli 5% populacji
trafiajcej do kliniki ma organiczne uszkodzenie mzgu, to proporcja

Trafno: pomiar I Interpretacja 180

podstawowa przypadkw uszkodzenia mzgu w tej populacji wynosi 5%.


Wprawdzie wczenie Jakiegokolwiek trafnego testu poprawi dokadno
prognozy czy diagnozy, lecz poprawa ta bdzie najwiksza wtedy, gdy
proporcja podstawowa bdzie najblisza 50%. Natomiast przy skrajnych
proporcjach podstawowych, ktre wystpuj w odniesieniu do rzadkich
stanw patologicznych, poprawa moe by nieistotna. W takiej sytuacji
stosowanie lestu moe okaza si nieuzasadnione, jeli wemie si pod
uwag koszty badania 1 obliczania wynikw. W warunkach klinicznych
koszt len ohrjmowalby czas pracy wysoko wykwalifikowanego personelu,
ktry w przeciwnym wypadku mgby zaj si innymi pacjentami
(Buchwald. 1965). Liczba bdnych diagnoz pozytywnych, czyli normalnych osobnikw nietrafnie zaklasyfikowanych Jako przypadki patologiczne. oczywicie zwikszyaby te koszty.
Jeli powany charakter rzadko wystpujcego stanu patologicznego
czyni jego diagnoz spraw piln, to na wczesnym etapie procesu podejmowania decyzji mona wykorzysta testy o umiarkowanej trafnoci. Na
przykad na samym pocztku mona wszystkie osoby obj badaniem
przesiewowym, stosujc w tym celu test o umiarkowanej trafnoci,
ktrego przeprowadzanie jest stosunkowo atwe. Jeli wynik graniczny
ustawi si dostatecznie wysoko (w przypadku, gdy wysokie wyniki s
korzystne, tzn. wiadcz o zdrowiu), to niewiele bdzie bdnych diagnoz
negatywnych, a wiele pozytywnych, co oznacza du liczb osb normalnych zdiagnozcwanych jako przypadki patologiczne. Zostan one nastpnie wykryte w wyniku bardziej intensywnych bada indywidualnych
obejmujcych wszystkie osoby, ktre na podstawie wynikw uzyskanych
w tecie zosta)' zdiagnozowane jako przypadki patologiczne. Tego rodzaju postpowanie jest odpowiednie wtedy, gdy istniejce warunki
powoduj, e niewykonalne jest indywidualne badanie wszystkich osb.
Zwizek trafnoci z wydajnoci. W praktyce czsto chodzi o oszacowanie skutkw zastosowania testu selekcyjnego ze wzgldu nie tyle na
procent badanych przekraczajcych minimalny poziom wykonania, ile
na ogln wydajno wybranych osb. Jak wyglda porwnanie faktycznej sprawnoci zawodowej czy osigni kryterialnych osb przyjtych do
pracy na podstawie wynikw testu I kandydatw z oglnej prby, ktrych
zatrudniono by bez badania testem? Idc ladem prac Taylora i Russella,
niektrzy badacze zajli si tym wanie problemem. Brogden (1946b)
jako pierwszy dowid, e oczekiwany wzrost wydajnoci jest wprost proporcjonalny do trafnoci testu. A zatem usprawnienie wynikajce z zastosowania testu, ktrego trafno wynosi 0,50, stanowi 50%
usprawnienia, ktrego naleaoby si spodziewa w przypadku zastosowania testu o idealnej trafnoci.

204

ZAGADNIENIA PsYCHOMETOYCZNE

Zaleno midzy trafnoci testu a oczekiwanym wzrostem osigni


kryterialnych mona bez trudu dostrzec w tabeli 6-2.2 Podane s tam
oczekiwane rednie wyniki kryterialne. wyraone w postaci wynikw
standaryzowanych o redniej zero i odchyleniu standardowym rwnym
1.00. dla pracownikw wybranych na podstawie testu o danej trafnoci
1 przy danym wspczynniku selekcji. Wyjciowa rednia wydajno,
odpowiadajca poziomowi wykonania pracy przez kandydatw
wybranych bez uycia testu, podana jest w kolumnie dla zerowej trafnoci. Uycie testu o zerowej trafnoci jest rwnoznaczne z niezastosowaniem testu w ogle. Ilustrujc sposb korzystania z tabeli
przyjmijmy, e przyjto 20% kandydatw (wspczynnik selekcji = 0,20),
ktrzy uzyskali najwysze wyniki w tecie majcym wspczynnik
trafnoci rwny 0,50. Tabela 6-2 podaje, e rednia wynikw kryterialnych wynosi dla tej grupy 0,70 odchylenia standardowego powyej
oczekiwanej redniej wyjciowej dla prby nie badanej testem Gdyby
przy tym samym wspczynniku selekcji (20%) zastosowa idealny test.
(wspczynnik trafnoci = 1,00). to redni wynik kryterialny uzyskany
przez przyjtych kandydatw wynisby 1.40. a wic byby dwa razy
wikszy ni w przypadku zastosowania testu, ktrego trafno wynosia
0,50. Podobne liniowe zalenoci obserwujemy w obrbie kadego rzdu
w tabeli 6-2, porwnujc inne rednie wynikw kryterialnych.
Na przykad jeeli wspczynnik selekcji rwny jest 60%. a trafnoci 0.25, to redni wynik kryterialny wynosi 0.16, natomiast dla wspczynnika trafnoci 0,50 rednia rwna si 0,32. I znw dziki podwojeniu
trafnoci dwukrotnie zwikszy si wydajno.
Analiz wydajnoci w zalenoci od trafnoci testu zajmowali si
nastpnie Schmidt i wsppracownicy (Schmidt. Hunter. McKenzie i
Muldrow, 1979), Na przykadzie pracy programisty komputerowego w
rzdzie federalnym badacze ci szacowali wyraony w dolarach wzrost
wydajnoci, wynikajcy ze stosowania przez jeden rok w selekcji nowo
zatrudnianych osb testu uzdolnie komputerowych (trafno = 0,76).
Szacunki oparli na danych dostpnych w amerykaskim urzdzie
zatrudnienia, do ktrych zastosowali techniki oparte na teorii decyzji.
Oczekiwane korzyci policzono dla dziewiciu wspczynnikw selekcji
zawierajcych si midzy 0.05 a 0,80 oraz dla piciu wspczynnikw
trafnoci wczeniejszych procedur selekcyjnych - wspczynniki te
wahay si od zera (selekcja losowa) do 0,50.
Wyniki wykazaiy imponujcy wzrost wydajnoci wynikajcy z uycia
testu w kadej z tych sytuacji. Gdy selekcj z uyciem testu porwnywano z selekcj losow, to zysk w dolarach waha si od 97,2 miliona dla
wspczynnika selekcji 0,05 do 16,5 miliona dla wspczynnika selekcji
0.80. Gdy trafno wczeniejszej procedury selekcyjnej wynosia 0.50. to
Tabel zawierajc wicej wartoci zarwno wspczynnikw selekcji. Jak I
wspczynnikw trafnoci, opracowali Naylor i Shine (1965).
2

rednie standaryzowane wyniki kryterialne


trafnoci testu i wspczynnika selekcji
Wspczynnik
'lekcji oco

'I

>
t
i
i
i

0,00
11,00
0,00
0,00
0,00
0,00
0.00
o.oe
0,00
o.oo
0,00-

zakwalifikowanych

osb

zalenoci

od

Wspczynnik trafnoci
0 05 010
0,10
0,09
0,08
0,07
0,06
0,06
0,05
0,05
0,04
0,04
OM
003
)3

0.50 0.55

0,21 1
0.42
0,18 I
0.35
015 1
0,31
0,14 1
0,28
0,13 I
0.25
0,12 I
0.23
0,11 10,16 0,21
0,10 I
0,19
0,09 I
0,18
0,08 I
0,07 I
x.0,14
0.06 I
0.13
0,09 (
-tyl
OJ)
V.0,M
.or i
0,08
6,07
m
0,06
0W
m

12: Brown I Ghlaelll. 1953. atr. 342)

0.52
0,44
0,39
0,35
0,32
0,29
0,26

0,24
0.22

0.18
0,16
0,14
0,12
0,11

0,08
0,07
a
"

0.62 0,73 0,83


0,53 0,62 0,70
0,46

0,54

0,42
0,38
0.35
0,32
0,29
0.26
0,24
0,22
0,19
M7
0,15
0,13
0,11
0fit
MS

0,49
0.44
0,40
0,37
0,34
0,31
0,28
0,25
0,23
0,20
0,17
0,15
0,12
0,10
0,07
W

0,6?

0,56
0.51
0,46
0,42
0,39
0,35
0,32
0,29
0,26
0,23
0,20
0,1/
0,04 J<
0,11
OflB
0*

1.04
0,88
0.77
0,70
0,63
0,58
0,53
0,48
0.44
0,40
0,36
0,32
0,28
0,25
0,21
0,18
0,14
0,10
0,05

0,14
0,97
0,85
0,77
0,70
0,64
0,58
0,53
0,48
0,44
0,40
0,35
0,31
0,27
0,23
0,19
0,15
0.11
0,06

0,60 0.65 0,73

0,75 O.SC

1,25
1,05
0,93
0,84
0,76
0,69
0,63
0,58
0,53
0,48
0,43
0,39
0,34
0,30
0,25
0,21
0,16
0,12
0,07

1,56
1,32
1,16
1,05
0,95
0,87
0,79
0,73
0,66
0,60
0,54
0,48
0,43
0,37
0,32
0,26
0,20
0,15
0,08

1,35
1,14
1.01
0,91
0.82
0,75
0,69
0,63
0.57
0,52
0,47
0,42
0,37
0,32
0,27
0,22
0,1B
0,13
0,07

1.46
1,23
1,06
0,98
0,89
0,81
0,74
0,68
0,62
0,56
0.50
0,45
0,40
0,35
0,30
0.55
0,19
0,14
0,08

1.66 1,77 1.87 1.98 2,08


1.41 1.49 1,58 1.67 1.76
1.24 132 1,39 1,47 1.55
1.12 1,19 1.26 1,33 1,40
1.01 1,08 1.14 1,20 1,27
0,92 0.98 1,04 1.10 1.16
0,84 0,90 0,95 1,00 1.06
0,77 0,82 0.87 0,92 0.97
0,70 0.75 0,79 0.84 0.88
0,64 0,68 0,72 0,76 0,80
0,58 0,61 0,65 0,68 0.72
0,52 0,55 0,58 0,61 0.64
0,46 0,48 0.51 0,54 0.57
0,40 0,42 0,45 0,47 0,50
0,33 0,36 0,38 0,40 042
0,28 0,30 0,32 0,33 0""
0,22 0,23 0,25 0,26
0,16 0,17 0,18 0,19
0,09 0,09 0,10 0,10

206

ZAGADNIENIA PSYCHOMETTRYCZNE

zysk waha si odpowiednio od 33.3 miliona dolarw do 5.6 miliona.


Zyski te byyby rozoone na przewidywany okres zatrudnienia nowo
przyjtych pracownikw, ktry w przypadku programistw komputerowych rzdu federalnego nieznacznie przekracza 10 lat. Naley te
odnotowa, e szacunki oparto na zaoeniu, i dobr zaczyna si od
kandydatw uzyskujcych najlepsze wyniki i kolejno przyjmowane s
osoby z coraz sabszymi wynikami, a do osignicia okrelonego
wspczynnika selekcji. Innymi sowy, procedura zakada optymalne
wykorzystanie procesu selekcji.
Korzystajc z danych pochodzcych ze spisu ludnoci, ktre pozwalaj
oceni liczb osb zatrudnionyrh w charakterze programistw komputerowych w caej populacji Stanw Zjednoczonych, wspomniani badacze
opracowali take odpowiednie szacunki dotyczce skutkw zastosowania
testu w skali oglnokrajowej. W kolejnych, Jeszcze szerzej zaplanowanych badaniach Hunter 1 Schmidt (1981) analizowali moliwo
wykorzystania tych samych technik statystycznych do danych
dotyczcych caej, zatrudnionej we wszystkich zawodach, siy roboczej w
kraju. Wslpne szacunki s jeszcze surowe i tymczasowe, a alternatywne
sposoby przeprowadzania tego rodzaju analiz przynosz nisze oszacowania (Burk i Frederick. 1984; U.S. Department of Labor, 1983b;
Weekley. Frank, 0'Connor i Peters, 1985). Niemniej jednak dostpne
rezultaty wyranie wskazuj, e efektywne metody alokacji pracownikw
mog w istotny sposb przyczyni si do wzrostu wydajnoci w kraju.
Coraz wicej uwagi powica si te naturze wydajnoci zawodowej, jak
rwnie indywidualnym i organizacyjnym czynnikom, ktre na ni
wpywaj. Coraz wicej bada nad kryteriami uywanymi przy walidowaniu testw charakteryzuje si znacznym stopniem teoretycznego i
metodologicznego zaawansowania (J.P. Campbell, Campbell 1 wsp.,
1988; Hunter, Schmidt i Judiesch. 1990; Raju, Burk i Normand, 1990)
Pojcie uytecznoci w teorii decyzji. Charakterystyczn cech
teorii decyzji w odniesieniu do oceny testw jest to, e dokonuje si jej ze
wzgldu na efektywno testu w okrelonej sytuacji. Przy takiej ocenie
bierze si pod uwag nie tylko trafno testu w zakresie przewidywania
okrelonego kryterium, ale take pewn liczb innych parametrw, w
tym proporcj podstawow oraz wspczynnik selekcji. Innym wanym
parametrem jest wzgldna uyteczno oczekiwanych rezultatw, a wic
lo. na ile kady z nich oceniany Jest jako korzystny lub niekorzystny.
Brak adekwatnych systemw przypisywania uzyskiwanym rezultatom
okrelonej wartoci na jednolitej skali uytecznoci jest jedn z gwnych
przeszkd w zastosowaniu teorii decyzji. W przypadku decyzji podejmowanych w przemyle czsto rnym rezultatom mona przypisa
warto wyraon w dolarach. Jednak nawet i w lakich przypadkach
pewne rezultaty zwizane z atmosfer pracy, stosunkami midzyludzkimi 1 morale pracownikw trudno jest ocenia w kategoriach flnan-

Trafno: pomiar I Interpretacja 180

sowych. Podejmujc decyzje w sferze edukacji trzeba uwzgldnia cele


Instytucjonalne, wartoci spoeczne i Inne stosunkowo niewymierne
czynniki. W decyzjach Indywidualnych, takich, z Jakimi mamy dc
czynienia w poradnictwie, trzeba bra pod uwag Indywidualne preferencje i systemy wartoci. Wielokrotnie Jednak zwracano uwag, e teoria decyzji nie wczya kwestii wartoci do procesu decyzyjnego,
wskazujc Jedynie na problem. Systemy wartoci zawsze odgryway rol
w podejmowaniu decyzji, ale dotychczas nie zajmowano si lym w sposb
systematyczny.
O postpie w zakresie metod przypisywania wartoci, stosowanych
przy tworzeniu modeli procesu podejmowania decyzji, wiadcz badania
nad wydajnoci prowadzone przez Schmidta. Huntera i wsppracownikw. omwione w poprzedniej czci rozdziau. Cho dotyczyy one
wyraonej w dolarach wartoci dbr i ustug wytwarzanych przez pracownikw. to opracowane w tych badaniach techniki daj si zastosowa
do pomiaru innych wartoci. Tak sam procedur, opart na ilociowym okreleniu ocen formuowanych przez ludzi, mona stosowa w
stosunku do dowolnej skali numerycznej, przy zaoeniu, e jest ona
jasno zdefiniowana i konsekwentnie stosowana. Naley zwrci uwag,
e szacunki wymagane przez modele decyzyjne dotycz tylko wzgldnej,
a nie absolutnej wartoci rnych rezultatw. Wyczerpujcy opis
sposobu podejcia do kwestii uytecznoci w decyzjach dotyczcych personelu mona znale w pracy Boudreau (1991). 3
Przy dokonywaniu wyboru strategii decyzyjnej chodzi o maksymalizacj oczekiwanej uytecznoci ze wzgldu na wszystkie moliwe rezultaty.
Na rysunku 6-2 przedstawiono w sposb schematyczny prost strategi
podejmowania decyzji. Wykres ten pokazuje strategi decyzyjn przedstawion na rysunku 6-1 - grup kandydatw bada si jednym testem,
a decyzj o zaakceptowaniu lub odrzuceniu kandydata podejmuje si na
podstawie wyniku granicznego w tecie. Na cztery moliwe rezultaty
skadaj si trafne i bdne akceptacje oraz trafne i bdne odrzucenia.
Prawdopodobiestwo kadego rezultatu mona okreli na podstawie
znajomoci liczby osb znajdujcych si w kadej z czterech czci
rysunku 6-1. Poniewa w tym przykadzie byo 100 kandydatw, to
dzielc podane liczby przez 100 otrzymujemy prawdopodobiestwo
kadego z czterech rezultatw, co wida na rysunku 6-2.
Jeszcze jednym rodzajem danych, ktre s tu potrzebne. Jest
uyteczno rnych rezultatw, wyraona na wsplnej skali.
Hipotetyczne wartoci w tym zakresie, uzyskane za pomoc dowolnej
procedury sdziowania, podane s w ostatniej kolumnie na rysunku
6-2. Oczekiwan ogln uyteczno tej strategii mona obliczy mnoc
Ocena uytecznoci z Innych punktw widzenia przedstawiona Jest w pracach:
Cascio I Morris (1990). Messick (1989, str.78-81) I Sadacca. Campbell. Dlfazio
Schultz I Whlte (1990).
3

308

ZAGADNIENIA PSYCHOMETTRYCZNE

najpierw prawdopodobiestwo kadego rezultatu przez uyteczno tego


rezultatu, nastpnie dodajc iloczyny otrzymane dla kadego z czterech
rezultatw i wreszcie odejmujc warto odpowiadajc kosztowi badania testowego. Ten ostatni element zwraca uwag na fakt, c czasem
mona zastosowa nawet 1 taki test. ktry ma nisk trafno, o ile Jest lo
test krtki, lani. daje si przeprowadza grupowo, a badanie jest na tyle
atwe, e mog je wykonywa nawet stosunkowo mao wykwalifikowane
osoby. Test przeznaczony do bada indywidualnych, ktrym moe bada
tylko wykwalifikowany personel, lub ktry wymaga kosztownych pomocy. musiaby mie wysz trafno, aby jego uycic byo uzasadnione. W
hipotetycznym przykadzie przedstawionym na rysunku 6-2 koszt badania jesi szacowany jako 0,10 na skali uytecznoci. Oglna oczekiwana
uyteczno (expeeted utility - EU) tej strategii decyzyjnej wynosi:
EU = 0,38 x 1,00 + 0,07 x (-1.00) + 0.33 * 0 + 0.22 x (-0,50) - 0.10 = +0,10
T EU mona nastpnie porwna z innymi EU uzyskanymi przy zastosowaniu rnych punktw granicznych, rnych testw (rnicych
si trafnoci i kosztem przeprowadzenia badania) lub baterii testw, jak
rwnie rnych strategii decyzyjnych.4
Strategie sekwencyjne 1 postpowanie adaptacyjne, W pewnych
sytuacjach mona zwikszy efektywno testu stosujc bardziej zoone
strategie decyzyjne, w ktrych bierze si pod uwag jeszcze wicej parametrw. Dwa pnykady zilustruj te moliwoci. Po pierwsze, testy
mona wykorzysta przy podejmowaniu kolejnych decyzji etapowych, a
nie ostatecznych. Przy prostej strategii podejmowania decyzji, przedstawionej na rysunkach 6-1 i 6-2, wszystkie decyzje akceptacji lub
odrzucenia traktowane s jako decyzje ostateczne. Natomiast na
rysunku 6-3 pokazana jesl dwuetapowa strategia sekwencyjna. Test A
mgby by krtkim i atwym w stosowaniu testem przesiewowym. Na
podstawie wynikw uzyskanych w tym tecie osoby zostayby podzielone
na trzy kategorie - zaakceptowanych, odrzuconych oraz tzw.
niepewnych", stanowicych grup poredni, ktr nastpnie przebadano by przy pomocy bardziej zoonych technik, okrelonych lu jako
Tesl B. Na podstawie wynikw badania testowego w drugim etapie grupa
ta zostaaby podzielona na dwie kategorie - osb zaakceptowanych l
odrzuconych.
Inna strategia, odpowiednia do diagnozy zaburze psychologicznych,
polega na podziale osb tylko na dwie kategorie, z tym e nastpnie bada
si wszystkie przypadki, ktre na podstawie badania wstpnym testem
przesiewowym zostay sklasyfikowane jako pozytywne (tzn. prawdoPrzykady kilku strategii decyzyjnych, zawierajce wszystkie etapy oblicze
mona znale w pracy J.S. Wiggtnsa (1973/1988, rozdz.6).

Trafno:

Sirategia

pomiar I Interpretacja 180

Rezultat

Decyzja

bieiiscwo

uyteczni

Trafna
akceptacja

0.38

I.OO

Bdna
iLmrf-5^13
akceptacja 1

0,07

-1.00

Trafne
odrzucenie

0:33

0.22

-0.50

| i

At"'
rjr?eprowac7ii:
badaniu
testowe i
zastosowa

wynik
graniczny

Odrzucic

M- , J gBUi

Bdne
odrzucenie

--,

Rysunek 6-2 Prosta strategia podejmowania decyzji.


podobnie patologiczne). O tej strategii wspomniano ju wczeniej w tym
rozdziale. w zwizku z zastosowaniem testw do diagnozy stanw patologicznych o bardzo niskiej proporcji podstawowej.
Warto te zwrci uwag, e wiele decyzji personalnych to w rzeczywistoci decyzje etapowe, cho mog nie by tak spostrzegane.
Niekompetentnych pracownikw zatrudnionych na skutek bdw w
przewidywaniu mona zazwyczaj zwolni po okresie prbnym: studentw, ktrzy nie daj sobie rady z nauk, mona usun z col!ege'u na
rnych etapach. W takich sytuacjach tylko niepomylne decyzje selekcyjne maj ostateczny charakter. Niewtpliwie nietrafne decyzje
selekcyjne, ktre potem s korygowane, mog by kosztowne ze wzgldu
na osobiste systemy wartoci. Ale s one czsto mniej kosztowne ni ze
decyzje ostateczne.
Drugim czynnikiem, ktry moe zmieni efektywno testu psychologicznego, jest dostpno alternatywnych sposobw postpowania i
moliwo dostosowania sposobu postpowania do waciwoci jednostki. Przykadem mogoby by stosowanie rnych procedur szkoleniowych
dla pracownikw rnicych si poziomem uzdolnie lub wprowadzenie
zaj reedukacyjnych dla uczniw przejawiajcych pewne trudnoci
szkolne. W takich sytuacjach strategia decyzyjna stosowana w indywidualnych przypadkach powinna uwzgldnia dane dotyczce Interakcji

210

ZAGADNIENIA PSYCHOMETRYCZN;

Rysunek 6-3 Sekwencyjna strategia podejmowania decyzji.


midzy wynikiem w zastosowanym na pocztku tecie a zrnicowanym
postpowaniem. Jeli wykorzystuje si adaptacyjny sposb postpowania, to jest wielce prawdopodobne, e istotnie zwikszy si proporcja
sukcesw. Przydzielanie jednostek do odpowiednich grup jest zasadniczo
kwesU klasyfikacji, a nie selekcji, dlatego bardziej obszerne omwienie
stosownej metodologii znajduje si w nastpnej czci rozdziau, powiconej decyzjom klasyfikacyjnym.
Przedstawione przykady ilustruj kilka sposobw wykorzystania poj
i gwnych zaoe teorii decyzji przy ocenie testw psychologicznych z
punktu widzenia ich okrelonych zastosowa. Zasadniczo teoria decyzji
suy zwiceniu uwagi na zoono czynnikw okrelajcych wkad, jaki
test wnosi w konkretnej sytuacji. Sam wspczynnik trafnoci nie
wystarcza, by zdecydowa, czy dany test naley zastosowa, czy le nie;
stanowi on bowiem tylko jeden z kilku elementw, ktre trzeba rozway,
oceniajc wpyw danego testu na skuteczno caego procesu
decyzyjnego.5

Szersze omwienie Implikacji. Jakie ma teoria decyzji dla stosowania testw patrz: J.S. Wlggins (1973/1988. rozdz.6). natomiast bardziej specjalistyczne
podejcie do tej kwestii - patrz: Cronbach i Glescr (1965).

Trafno: pomiar I Interpretacja 180

Zmienne poredniczce. Trafno testu ze wzgldu na dane kryterium moe by rna dla podgrup skadajcych si z osb o odmiennych
waciwociach. W klasycznym modelu psychometrycznym przyjmuje
si, e bdy przewidywania s cech testu, a nie osoby, oraz e bdy te
losowo rozkadaj si midzy osobami. Elastyczno sposobu podejcia
zapocztkowanego przez teori decyzji zachcia do poszukiwania modeli
predykcji obejmujcych interakcj midzy osobami i testami. Taka interakcja oznaczaaby, e wyniki tego samego testu pozwalaj lepiej
przewidywa kryterium w przypadku pewnych grup czy klas osb ni w
przypadku innych. Na przykad dany tesl moe by lepszym predyktorem wynikw kryterialnych dla mczyzn ni dla kobiet albo dla
kandydatw pochodzcych z grup o niszym statusie spoleczno-ekonomicznym ni dla kandydatw o wysokim statusie. W tych przykadach
ple 1 slatus spoleczno-ekonomiczny s zmiennymi poredniczcymi,
poniewa zmieniaj trafno teslu (Saunders, 1956).
Funkcj zmiennych poredniczcych mog peni zainteresowania i
motywacja. Jeli kandydaci mao interesuj si prac, to prawdopodobnie bd mie kiepskie osignicia, bez wzgldu na wyniki uzyskiwane w
stosownych teslach uzdolnie. Dla takich osb korelacja midzy
wynikami testu uzdolnie a poziomem wykonania pracy bdzie niska.
Natomiast dla osb, ktre s zainteresowane i maj wysok motywacj
do pracy, korelacja midzy wynikiem w tecie zdolnoci l sukcesem
zawodowym moe by cakiem wysoka. W latach 50. i 60. pojawio si
mnstwo bada uwzgldniajcych ca gam moliwych zmiennych
poredniczcych. Szereg prac. ktre prowadzi Ghiselli (1956. 1960.
1963. 1968), dotyczyo kwestii przewidywania poziomu wykonania pracy
Inni badacze weryfikowali hipotezy na temat roli zmiennych osobowociowych, zwaszcza w zakresie przewidywania osigni szkolnych
(N. Frederiksen i Gilbert. 1960: N. Frederiksen i MeMlle. 1954: Grooms
i Endler, 1960; L.J. Strlcker, 1966).
Do zgodnie stwierdzano w tych badaniach, e istniej zwizane z
pci rnice w moliwoci przewidywania ocen szkolnych. Analizy obejmujce setki wspczynnikw korelacji, pochodzcych z rnych rde
ujawniay e korelacje midzy wynikami w testach uzdolnie a ocenami
szkolnymi s wysze dla kobiet ni dla mczyzn (Gross. Faggen 1
McCarthy. 1974; Schmitt, Mellon i Bylenga. 1978; Seashore, 1962)
Tendencj tak stwierdzano w szkole redniej i w college u, cho w tym
drugim przypadku bya bardziej wyrazista. Dane nie wskazuj powodu
takich zrnicowanych moliwoci przewidywania osigni szkolnych,
ale interesujce moe by rozwaenie tego problemu w wietle innych
znanych rnic zwizanych a pci. Uczennice zazwyczaj s bardziej konformlstyczne i skonne do akceptowania wartoci oraz standardw szkolnych. a wic ich osignicia szkolne prawdopodobnie bd w duej
mierze zalee od ich zdolnoci. Natomiast uczniowie s skonni kon-

212

ZAGADNIENIA PSYCHOMETTRYCZNE

centrowa wysiki na aktywnoci (w szkole 1 poza ni), ktra rozwija ich


indywidualne zainteresowania; rnice w ych zainteresowaniach
wprowadzaj wic dodatkow zmienno w osigniciach szkolnych i
powoduj, e trudniej jest je przewidywa na podstawie wynikw w tecie uzdolnie. Naley jednak zwrci uwag, e zwizane z pci rnice
we wspczynnikach trafnoci s wprawdzie systematyczne, ale
zazwyczaj niewielkie. Co wicej, w nowszych badaniach s pewne oznaki zmniejszania si tych rnic; wynik ten moe odzwierciedla zmieniajce si postawy kobiet w latach 60 i 70.
Oglnie rzecz biorc, pocztkowe oczekiwania dotyczce wkadu
zmiennych poredniczcych nic speniy si (Abrahams i Alf. 1972;
Pinder, 1973; Zedeck. 1971). Analizy metodologiczne ujawniy wiele
puapek. Walidacja krzyowa przeprowadzana na nowych prbach czsto me potwierdzaa pocztkowych wynikw. A wprowadzenie tych zmiennych do rwna regresji nie poprawio zasadniczo przewidywa, ktre
mona byo formuowa nie odwoujc si do tego rodzaju danych.
W wietle obecnej wiedz)' o adnej zmiennej nie mona zakada, e
zmienia trafno, jeli brak jest wyranego dowodu wskazujcego, e taki
efekt ma miejsce. Niemniej jednak pojcie zmiennych poredniczcych
moe mie warto heurystyczn, pomagajc w zrozumieniu indywidualnego zachowania, na przykad w klinicznych studiach przypadku, oraz
sugerujc nowe hipotezy, ktre powinno si sprawdza z zachowaniem
odpowiedniej kontroli metodologicznej. W latach 70. i 80. odyo zainteresowanie zmiennymi poredniczcymi. Niektrych spord nich nie
wykryway wczeniej stosowane procedury, a teraz mona je identyfikowa dziki bardziej wyrafinowanym analizom statystycznym (Morris.
Sherman i Mansfield, 1986; E.F. Stone i Hollenbeck. 1989).

CZENIE INFORMACJI POCHOOZCYCH Z RNYCH TESTW


By mc przewidzie jakie kryteria praktyczne, czsto potrzebne s nie
Jeden lecz kilka testw. W wikszoci przypadkw kryteria s zoone, a
miara kryterialna zaley od szeregu rnych cech. Jeli do pomiaru
takiego kryterium miaby suy jeden tesl. to musiaby by wysoce heterogeniczny. Jednake, jak ju bya o tym mowa. lepszy jest stosunkowo
Jednorodny, mierzcy jedn cech test, poniewa jego wyniki s bardziej
Jednoznaczne (rezdz. 5). Tali wic czsto lepiej jest zastosowa cznie
kilka wzgldnie jednorodnych lestw, z ktiych kady dotyczy innego
aspektu kryterium, ni jeden test skadajcy si z wielu rnych rodzajw zada.
Jeli szereg specjalnie wybranych testw stosuje si cznic w celu
przewidywania pojedynczego kryterium, to testy te okrela si mianem

Trafno: pomiar I Interpretacja 180

baterii testw. Gwny problem pojawiajcy si przy stosowaniu takich


baterii dotyczy sposobu, w jaki naley czy wyniki w rnych testach,
by mc podejmowa na ich podstawie decyzje dotyczce poszczeglnych
osb. Stosuje si w tym celu dwojakiego rodzaju procedury - rwnanie
regresji wielokrotnej I analiz profilow. Jeli testy stosuje si w badaniu
Indywidualnych przypadkw, jak to ma miejsce w diagnozie klinicznej,
poradnictwie czy przy ocenianiu wyszej kadry kierowniczej, to
powszechn praktyk jest wykorzystywanie przez badajcego wynikw
testowych bez poddawania ich dalszej analizie statystycznej. Psycholog,
ktry ma opracowa raport i sformuowa wnioski na temat badanego
przypadku, przy interpretowaniu stwierdzonych ukadw wynikw oraz
integrowaniu danych pochodzcych z rnych testw opiera si na
wasnych sdach, minionym dowiadczeniu i zaoeniach teoretycznych.
Rwnanie regresji wielokrotnej.
Rwnanie regresji wielokrotnej
pozwala okreli przewidywany wynik jednostki w zakresie kryterium na
podstawie wynikw uzyskanych we wszystkich testach baterii.
Nastpujce rwnanie regresji ilustruje zastosowanie tej techniki do
przewidywania osigni z matematyki ucznia szkoy redniej na podstawie jego wynikw w testach: werbalnym CV), liczbowym (N) i rozumowania (R):
Osignicia z matematyki = 0,2IV + 0,2IN + 0.32R +1,35
W tym przykadzie wyniki w testach oraz wynik kryterialny wyraone s
w staninach. Do tego celu mona jednak uy kadej innej skali
wynikw. W powyszym rwnaniu wyraony w staninach wynik ucznia w
kadym z trzech testw mnoy si przez odpowiednie wagi podane
w rwnaniu. Suma tych iloczynw, do ktrej dodaje si pewn stal
(1,35), informuje o pozycji ucznia, wyraonej take w staninach, z
matematyki.
Przypumy, e Betty Jones otrzymuje nastpujce wyniki, wyraone
w staninach;
Werbalny
Numeryczny
Rozumowania

6
4
8

Aby oszacowa osignicia z matematyki tej uczennicy, postpujemy w


nastpujcy sposb:
Osignicia z matematyki = 0.21 x 6 + 0,21 * 4 + 0.32 * 8 + 1.35 = 6,01

214

ZAGADNIENIA PSYCHOMETTRYCZNE

Przewidywane osignicia Bctty z matematyki odpowiadaj w


przyblieniu szstemu Staninowi. Przypomnijmy (rozdz. 3), c Stanin
pity odpowiada przecitnemu poziomowi wykonania. Mona zatem
oczekiwa, e Betty wypadnie nieco lepiej ni przecitnie na kursie
matematyki. Jej znakomity wynik w tecie rozumowania (R = 8) i ponadprzecitny w tecie werbalnym (V = 6) rekompensuj slaby wynik w szybkoci i dokadnoci liczenia (N = 4).
Konkretne sposoby obliczania rwna regresji mona znale w pracach powiconych zastosowaniom statystyki w psychologii (np. D.C.
HowclI, 1997: Runyon i Haber. 1991) Zasadniczo rwnanie takie jest
oparte na korelacji kadego testu z kryterium, jak rwnie na interkorelacjach midzy testami. Oczywicie testy, ktre wyej koreluj z kryterium. bd miay wysze wagi. Rwnie wane Jesl jednak uwzgldnianie korelacji kadego testu z pozostaymi lesiami baterii. Te. ktre
wysoko ze sob koreluj, stanowi niepotrzebne powtrzenie, poniewa
w duej mierze dotycz tych samych aspektw kryterium. Wczenie
dwch takich testw nie zwikszy w znaczcym stopniu trafnoci caej
baterii, nawet jeli oba wysoko koreluj z kryterium. W takim przypadku. gdy jeden z lestw jest niemal rwnie efektywny jak dwa razem, w
baterii powinien pozosta tylko jeden z nich.
Jednak nawet wtedy, gdy najpowaniejsze przypadki powtrze
zostan wyeliminowane, lesty pozostajce w baterii bd w rnym stopniu ze sob korelowa. Aby warto prognostyczna bya maksymalna,
testy, ktre wnosz stosunkowo najbardziej unikatowy wkad w ca
baten. powinny mie wysze wagi ni te. ktre czciowo dubluj funkcje innych testw. Przy obliczaniu rwnania regresji wielokrotnej kady
test ma wag wprost proporcjonaln do swej korelacji z kryterium i
odwTolnie proporcjonaln do swej korelacji z Innymi testami. Tak wic
najwysze wagi przypisuje si testom, ktre maj najwysz trafno i w
najmniejszym stopniu pokrywaj si z reszt baterii.
Trafno calcj baterii mona okreli obliczajc korelacj wielokrotn
(R) midzy kryterium a bateri. Koiclacja ta pokazuje najwysz warto
prognostyczn, jak mona uzyska na podstawie danej baterii, jeli
kademu testowi zostanie przypisana waga optymalna z punktu
widzenia przewidywania tego kryterium. A wic wagi optymalne to te,
ktre s okrelone przez rwnanie regresji.
Naley -zauway, e wagi te s optymalne lylko dla tej konkretnej
prby, dla ktrej je otrzymano. Ze wzgldu na losowe bdy we
wspczynnikach korelacji bdcych podstaw ich okrelania, wagi
regresji mog si rni z prby na prb. Bateria powinna by zatem
poddana, i to na nowej prbie, walidacji krzyowej, polegajcej na
korelowaniu przewidywanych wynikw kryterialnych z rzeczywicie
otrzymanymi. Wprawdzie istniej wzory pozwalajce szacowa wielko

Trafno: pomiar I Interpretacja 180

obnienia korelacji wielokrotnej, ktrego mona oczekiwa, gdy rwnanie


regresji sLosuJc si do Innej prby, lecz zawsze, gdy Jest lo moliwe,
podana Jesl weryfikacja empiryczna. Im wiksza Jesl prba, ktrej
wyniki byy podstaw obliczenia wag regresji, tym mniejsze bdzie
obnienie.6
W pewnych sytuacjach mona zwikszy trafno prognostyczn
baterii, wczajc do rwnania regresji test. ktry ma zerow korelacj z
kryterium, ale wysoko koreluje z Innym lestem w baterii. Ta osobliwa
sytuacja powstaje wtedy, gdy test nleskorelowany z kryterium dziaa jak
zmienna tumica, ktra eliminuje lub tumi niepodan zmienno w
innym tecie (Conger i Jackson. 1972). Na przykad czytanie ze zrozumieniem moe wysoko korelowa z wynikami w tecie uzdolnie
mechanicznych Lub matematycznych, poniewa zadania testowe wymagaj zrozumienia skomplikowanych inslrukcji pisemnych. Jeli czytanie
ze zrozumieniem nic ma wikszego znaczenia dla funkcjonowania
zawodowego, ktre chcemy przewidywa, to umiejtno czytania ze
zrozumieniem wymagana w tych testach wprowadza wariancj bdu i
obnia trafno prognostyczn testw. Badanie testem czytania ze zrozumieniem i wczenie wyniku tego testu do rwnania regresji wyeliminuje wariancj bdu 1 zwikszy trafno baterii. Zmienna tumica pojawi
si w rwnaniu regresji z wag ujemn. A zatem, im wyszy wynik jednostki w czytaniu ze zrozumieniem, tym wicej odejmuje si od jej
wyniku w tecie matematycznym czy mechanicznym. Jednak w kadej
sytuacji lepiej jest bardziej bezporednio poprawi test. by wyeliminowa
niepodan wariancj, ni dokonywa takiej eliminacji w sposb
poredni, wprowadzajc za pomoc metod statystycznych zmienn
tumic. Jeli nie mona dokona zmian w tecie, naley rozway
badanie zmiennych tumicych. W takich przypadkach ich wpyw naley
zawsze sprawdzi na nowej prbie.
Analiza profilowa i wyniki graniczne.
Ukad wynikw testowych
uzyskanych w baterii przeznaczonej do selekcji personelu mona ocenia
nie tylko na podstawie analizy Indywidualnego profilu, co stosuje si w
diagnozie klinicznej, ale take wykorzystujc wielokrotne wyniki
graniczne. Mwic w skrcie, procedura ta polega na ustaleniu minimalnego wyniku granicznego w kadym tecie. Jeli cile trzyma si tej
metody, to kada osoba, ktra w ktrymkolwiek z odpowiednich testw
uzyska wynik niszy od minimalnego, jest odrzucana. Dokonujc wyboru
odpowiednich testw i okrelajc w nich wyniki graniczne dla danego
zawodu, zazwyczaj bierze si pod uwag co wicej ni tylko trafno
testu. Gdyby uwzgldnia tylko te testy, dla ktrych wspczynniki
W pewnych przypadkach bardziej wskazane moe by stosowanie jednolitych
wag lub Jeszcze innych sposobw, a nie wag regresji. Krtki przegld bada
powiconych rnym metodom waenia - patrz: Dunnette i Borman (1979).
6

216

ZAGADNIENIA PSYCHOMETTRYCZNE

trafnoci s istotne, mona byoby przegapi jedn lub wicej wanych


zdolnoci, w Ktrych celuj wszyscy wykonujcy dany zawd: trzeba
zatem bra pod uwag take 1 te uzdolnienia, w zakresie ktrych przedstawiciele danego zawodu jako grupa maj przewag, nawet jeli rnice
indywidualne powyej pewnego minimum nie s zwizane z poziomem
powodzenia w pracy. Co wicej, w niektrych zawodach pracownicy
mog stanowi tak Jednorodn grup w zakresie kluczowej cechy, e
zakres rnic indywidualnych moe by zbyt wski, by korelacje midzy
wynikami testowymi a kryterium byy istotne.
Zastosowanie metody wielokrotnych wynikw granicznych najpeniej
Ilustruje Bateria Testw Uzdolnie Oglnych [General Aptitude Tesl
Battery - GATB)7 opracowana przez amerykaski urzd zatrudnienia
(United States Employment Seryices) i przeznaczona dla doradztwa
zawodowego (U.S. Department oj Labor. 1970). Mierzy ona dziewi
uzdolnie. Te. ktre naley uwzgldnia w przypadku poszczeglnych
zawodw, wybrano na podstawie ich korelacji z kryterium, wielkoci
rednich i odchyle standardowych pracownikw zatrudnionych w tych
zawodach, a take na podstawie wynikw jakociowych obserwacji
prowadzonych w toku analizy pracy.
Najmocniejszy argument przemawiajcy za stosowaniem wielu
wynikw granicznych, a nie rwnania regresji, dotyczy moliwoci kompensowania si wynikw. Chodzi tu o to. e jeli osoba wykazuje
powany deficyt w zakresie jednej umiejtnoci, to biorc pod uwag jej
wynik oglny w caej baterii mona tego nie wykry w przypadku, gdy
osoba ta bdzie miaa wysoki wynik w innym tecie. Jeli deficyt dotyczy
umiejtnoci, ktra ma kluczowe znaczenie dla poziomu wykonania
danej pracy, to wybrany kandydat poniesie porak. Mona jednak
unikn takiej sytuacji, okrelajc jedn lub wicej krytycznych umiejtnoci wymaganych w danej pracy i stosujc wynik graniczny tylko w testach dotyczcych tych umiejtnoci. W przypadku wikszoci testw
zazwyczaj lepiej jest pozostawi faktyczny wynik, poniewa im wyszy
wynik w tecie uzyskuje dana osoba, tym lepiej bdzie funkcjonowa w
pracy. Na ogl istnieje liniowa zaleno midzy wynikiem stanowicym
podstaw przewidywa a wynikiem kryterialnym. Naley doda, e liczne
badania z uyciem GATB potwierdzaj istnienie tego rodzaju liniowej
zalenoci (Coward i Sackett, 1990: Hartigan i Wigdor, 1989: Mawk.
1970). W takiej sytuacji dobr na podstawie faktycznej wysokoci
wynikw uzyskanych w tecie prowadzi do zatrudniania ludzi lepiej
wykonujcych prac, ni miaoby to miejsce, gdyby akceptowa tych
wszystkich, ktrzy przekroczyli minimalne wyniki graniczne.

7 Ta powszechnie stosowana bateria testw Jest szerzej omawiana w rozdziale 17


w zwizku z zastosowaniem testw w przemyle I w organizacjach.

Trafno: pomiar I Interpretacja 180

ZASTOSOWANIE TESTW W DECYZJACH KLASYFIKACYJNYCH


Istota klasyfikacji. Testy psychologiczne mog by uywane w celu
selekcji osb, ich rozlokowania lub klasyfikacji. Przy selekcji kada jednostka zostaje albo zaakceptowana, albo odrzucona. Przykadami decyzji
selekcyjnych s decyzje dotyczce tego, czy przyj, czy te nie, ucznia
do college u. kandydata do pracy, rekruta na szkolenie oficerskie. Jeli
selekcja przebiega etapami, to jej wczeniejsze fazy s czsto okrelane
jako przesiew", za termin .selekcja" zarezerwowany jest dla bardziej
Intensywnych etapw kocowych. Przesiew" moe take oznacza kady
szybki i do powierzchowny proces selekcji, nawet jeli nie nastpuj po
nim dalsze procedury selekcyjne.
Lokowanie i klasyfikacja rni si od selekcji tym, e nikt nie zostaje
odrzucony ani wyeliminowany. Wszystkie osoby zostaj przydzielone do
odpowiednich grup. tak by zmaksymalizowa skuteczno rezultatw
ksztacenia, terapii itd. W przypadku lokowania decyzje o przydziale
oparte s na pojedynczym wyniku. Moe to by wynik jednego testu, na
przykad testu osigni matematycznych. Jeli stosuje si bateri
testw, to wykorzystuje si wynik zoony, obliczony na podstawie pojedynczego rwnania regresji. Przykadami decyzji dotyczcych rozlokowania s: podzielenie nowo przyjtych uczniw college'u na rnice si
poziomem kursy z matematyki na podstawie uzyskanych przez nich
wynikw w tecie osigni, przydzielenie nowo zatrudnionych do prac
urzdniczych wymagajcych rnego poziomu umiejtnoci i odpowiedzialnoci czy te okrelenie dla celw terapii pacjentw psychiatrycznych jako bardziej" i mniej zaburzonych". W kadej z tych decyzji
bierze si pod uwag lylko jedno kryterium, a ulokowanie jest zalene od
pozycji jednostki na pojedynczej skali sucej do przewidywania kryterium.
Klasyjikacja natomiast zawsze obejmuje co najmniej dwa kryteria.
W wojsku, na przykad, gwnym problemem jest wanie klasyfikacja,
poniewa w ramach danej puli stanowisk kada jednostka musi zosta
przydzielona do takiej specjalnoci wojskowej, w ktrej bdzie moga
najbardziej efektywnie peni sub. Decyzje klasyfikacyjne s potrzebne take w przemyle, kiedy to nowych pracownikw kieruje si na
szkolenia w zakresie rnego rodzaju prac. Inne przykady to doradztwo
dla studentw dotyczce wyboru programu nauki w collegeu (nauki
cise, nauki humanistyczne, itd.), jak rwnie specjalizacji. Doradztwo
w zasadzie opiera si na klasyfikacji, poniewa klienta informuje si o
lym, jakie ma szanse powodzenia w zakresie ronych kierunkw studiw
czy w rnych zawodach. Take diagnoza kliniczna stanowi problem
klasyfikacyjny, poniewa jej gwnym celem Jest decyzja dotyczca
najbardziej odpowiedniego rodzaju terapii.

318

ZAGADNIENIA PSYCHOMETRYCZNE

Decyzj o ulokowaniu mona podj opierajc si na jednym lub wikszej liczbie predyktorw. natomiast klasyfikacja wymaga predyktorw
zoonych, ktrych trafno okrela si pojedynczo, w stosunku do
kadego kiyterium. Bateria klasyfikacyjna wymaga odmiennego rwnania regresji dla kadego kiyterium. Niektre testy mog mie wagi, cho
o rnej wartoci, wc wszystkich rwnaniach: inne lesty mog by
wczone tylko do jednego lub dwch rwna, majc dla pozostaych kryteriw wagi zerowe lub nieistotne. Tak wic dla poszczeglnych kryteriw
wykorzystuje si rne zestawy testw z caej baterii, rne s te wagi
przypisywane wynikom tych testw. Jedn z pierwszych tego rodzaju
baterii testw przeznaczonych do klasyfikacji opracowano w siach powietrznych Stanw Zjednoczonych i wykorzystywano przy kierowaniu
personelu na rne szkolenia. Bateria, ktra skada si zarwno z testw
typu .papier 1 owek". Jak i lestw aparaturowych, ma wyraone w staninach wyniki dla pilotw, nawigatorw, bombardierw i kilku innych
specjalistw wchodzcych w skad zaogi samolotu. Odnajdujc wyliczone z rnych rwna regresji szacunkowe wyniki kryterialne jednostki, mona przewidzie, czy ma ona lepsze kwalifikacje na przykad
na pilota, czy na nawigatora. Daleko bardziej obszernym i nowszym
przykadem jest projekt klasyfikacji i selekcji w armii USA (U.S. Army
Seleclion and Classijtcation Project), znany jako Projekt A (J.P. Campbell,
1990b).
Trafno rnicowa. Oceniajc bateri przeznaczon do celw klasyfikacyjnych. przede wszystkim bierze si pod uwag jej trafno
rnicow w odniesieniu do poszczeglnych kryteriw Bateri tak stosuje si po to. by przewidzie rnice wynikw, jakie uzyska dana osoba
w zakresie dwch lub wikszej liczby typw pracy, szkole lub innych
dziaa stanowicych kryterium. Testy wybrane do takiej baterii powinny mie wyranie zrnicowane wspczynniki trafnoci dla poszczeglnych kryteriw. Jeli klasyfikacja ma by dokonywana na przykad ze
wzgldu na dwa kryteria, to idealny test powinien wysoko korelowa z
jednym kryterium i w ogle nie korelowa (a jeszcze lepiej - korelowa
ujemnie) z drugim. Testy inteligencji oglnej stosunkowo mao nadaj si
do celw klasyfikacji, poniewa niemal z rwnym powodzeniem
przewiduj sukces w wikszoci dziedzin. Wskutek tego ich korelacje z
kryteriami, w zakresie kliych powinny rnicowa, s zbyt podobne.
Osoba uzyskujca wysoki wynik w takim tecie zostanie zaklasyfikowana
jako kto, komu powiedzie si w kadym zakresie; w takim przypadku
nie mona wic bdzie przewidzie, w ktrym obszarze bdzie ona lepsza.
W baterii przeznaczonej do celw klasyfikacji powinny znale si
zarwno takie testy, ktre pozwalaj przewidywa kryterium A i nie
pozwalaj przewidywa kryterium B. jak i takie, ktre nie pozwalaj
przewidywa kryterium A, a pozwalaj przewidywa kryterium B

Trafno: pomiar I Interpretacja 180

Opracowano procedury statystyczne umoliwiajce taki dobr testw


do baterii klasyfikacyjnej, by maksymalizowa Jej trafno rnicow
(Brogden. 1946a, 1951. 1954: Horst. 1954: Mollenkopf. 1950b; Zeidner
i Johnson, 1991). Jednak jeli liczba kryteriw przekracza dwa. problem
staje si do zoony. W praktyce stosuje si rne sposoby empiryczne
pozwalajce przybliy si do podanych celw. Wyczerpujc analiz
zoonoci problemu klasyfikacji przedstawia J.P.Campbell (1990a.
sir. 715-721).
Wielokrotne funkcje dyskryminacyjne. Alternatywny sposb podejmowania decyzji klasyfikacyjnych polega na wykorzystaniu wielokrotnej
funkcji dyskryminacyjnej (French, 1966). Zasadniczo jest to procedura
matematyczna pozwalajca okreli stopie podobiestwa midzy
wynikami jednostki w caym zbiorze testw a typowymi wynikami osb
wykonujcych dany zawd, uczcych si wedug okrelonego programu,
ujawniajcych okrelony zesp objaww psychiatrycznych czy
nalecych do innej jeszcze kategorii. Osoba jest przypisywana do grupy,
ktrej wyniki najbardziej przypominaj Jej wasne. Rwnanie regresji
pozwala przewidywa stopie powodzenia w kadej dziedzinie, a
wielokrotna funkcja dyskryminacyjna traktuje wszystkie osoby nalece
do jednej kategorii Jako osoby o takim samym statusie. Jedynym rodzajem danych kryterialnych wykorzystywanych w tej metodzie jest przynaleno do grupy. Funkcja dyskryminacyjna jest uyteczna wtedy, gdy
niedostpne s dane kryterialne i jedyn rzecz, ktr mona okreli
jest przynaleno do grupy. Na przykad trafno niektrych testw
sprawdza si w ten sposb, e bada si nimi osoby wykonujce rne
zawody, cho w obrbie kadej z takich grup nie dokonuje si ju pomiaru powodzenia zawodowego dla poszczeglnych jednostek.
Funkcj dyskryminacyjn wykorzystuje si take i w takich przypadkach, gdy zaleno midzy kryterium a jedn lub kilkoma zmiennymi,
ktre maj to kryterium przewidywa, jest nieliniowa. Na przykad dla
danego zawodu moe istnie pewne optimum nasilenia niektrych cech
osobowoci. Wiksze bd mniejsze nasilenie takich cech bdzie wic
niekorzystne. Na przykad uzasadnione wydaje si oczekiwanie, e
najwiksze prawdopodobiestwo powodzenia w pracy maj sprzedawcy
wykazujcy umiarkowanie wysoki poziom dominacji spoecznej, a szansa
na sukces spada, w miar jak wyniki w zakresie tej zmiennej oddalaj
si od optimum. Stosujc funkcje dyskryminacyjne bdziemy wic
skonni wybiera jednostki mieszczce si w obrbie tego optymalnego
zakresu. Natomiast z rwnania regresji wynikaoby, e Im wyszy wynik
w zakresie dominacji, tym lepszy bdzie przewidywany rezultat.
Oczywicie gdyby korelacja midzy kryterium a zmienn, ktra ma Je
przewidywa, bya ujemna, to rwnanie regresji pozwalaoby formuowa
bardziej korzystne prognozy w stosunku do osb uzyskujcych niskie

220

ZAGADNIENIA PSYCHOMETTRYCZNE

wyniki. Ale nie ma adnego bezporedniego sposobu, ktry pozwalaby


formuowa najbardziej pozytywne przewidywania w odniesieniu do osb
majcych wyniki rednie. W wielu przypadkach te dwie techniki bd
prowadzi do dokonywania takich samych wyborw, s jednak I takie
sytuacje, w ktrych osoby zostan odmiennie zaklasyfikowane w
zalenoci od tego, czy podstaw decyzji bd rwnania regresji, czy
funkcje dyskryminacyjne. Ze wzgldu na cele psychologicznych badan
testowych, na og lepsze efekty daje stosowanie rwna regresji. Jednak
w pewnych okolicznociach bardziej odpowiednim sposobem uzyskania
podanych informacji jest funkcja dyskryminacyjna.
Maksymalizowanie

wykorzystania

talentu.

Rnicowe

przewidy-

wanie kryteriw przy uyciu baterii testw pozwala na peniejsze wykorzystanie dostpnych zasobw ludzkich ni byoby to moliwe przy zastosowaniu jednego oglnego testu lub wyniku zoonego pochodzcego
z pojedynczego rwnania regresji. Jak bya ju o Lym mowa wczeniej, a
take jak wida z tablic Taylora-Russella, efektywno kadego testu w
selekcji personelu do danej pracy zaley od wspczynnika selekcji. Przy
podejmowaniu decyzji klasyfikacyjnych mamy do czynienia z niszym
wspczynnikiem selekcji, a zatem jestemy w stanie przydzieli do
kadej pracy osoby wyej wykwalifikowane. Jeeli spord 100 kandydatw trzeba wybra po 10 do kadego z dwch miejsc pracy, to gdy stosujemy oddzielne predyktory dla kadej z tych prac, wspczynnik
selekcji dla kadej z nich wynosi 10%. Gdyby do selekcji kandydatw
zastosowano pojedynczy predyktor (taki jak test inteligencji oglnej), to
wspczynnik selekcji wynisby 20%. poniewa nie moglibymy zrobi
nic lepszego ni wybra 20 kandydatw z najwyszymi wynikami.
Nawet jeli predyktory dwch prac wysoko ze sob koreluj, tak e
niektrzy kandydaci zostaliby zakwalifikowani do obu. lo i tak zastosowanie oddzielnych predyktorw przynosi wyran korzy. Sytuacj
tak przedstawiono w tabeli 6-3, w ktrej podano rednic standaryzowane wyniki kryterialne dla pracownikw wybranych do dwch prac
przy zastosowaniu strategii selekcyjnej (pojedynczy predyktor) oraz
strategii klasyfikacyjnej obejmujcej dwa rne predyktory, ktrych
trafno badano oddzielnie, ze wzgldu na waciwe dla kadego z nich
kryteria wykonania pracy. Gdyby pracownicy byli przydzielani do pracy
przypadkowo, bez dokonywania selekcji, lo redni wynik standaryzowany w tej skali wynisby zero. Byoby tak, gdyby wspczynnik
selekcji dla kadej pracy wynosi 50%. a wic zostaoby przyjtych 100%
kandydatw. Zauwamy, e nawet w takich warunkach dziki wykorzystaniu dwch predyktorw poziom wykonania pracy byby wyszy, co
wida w ostatnim wierszu tabeli. Gdyby dwa predyktory nie byy skorelowane. redni poziom wykonania pracy wynisby 0,31 (w
przyblieniu 1/3 odchylenia standardowego powyej wartoci przypad-

Trafno: pomiar I Interpretacja 180

rednie standaryzowane wyniki kryterialne osb przyjtych


do dwch rodzajw pracy przy zastosowaniu strategii
selekcyjnej lub klasyfikacyjnej
Wspczynnik
selekcji dla kadego
rodzaju pracy
5%
10
20
30
40
50

Selekcja:
pojedynczy
predyktor
0.88
0,70
0,48
0,32
0.18
0,00

Klasyfikacja: dwa predyktory,


midzy ktrymi korelacja wynosi:
0

0,20

0,40

0,60

0,80

1.03
0,87
0,68
0,55
0,42
0,31

1,02
0.86
0,67
0.53
0.41
0,28

1.01
0.84
0,65
0,50
0.37
0,25

1,00
0.82
0.62
0.46
0.34
0.22

0.96
0.79
0.59
0,43
0,29
0,17

{ O p r a c o w a n e na podstawie: B r o g d e n . 1951. atr. 162)

kowej). W miar jak ronie korelacja midzy predyktorami. efektywno


pracy wybranych pracownikw maleje, ale i tak jest wysza ni przypadkowa i to nawet wtedy, gdy korelacja wynosi 0,80. Przy niszych
wspczynnikach selekcji moemy oczywicie otrzyma lepiej wykwalifikowany personel. Jak mona to Jednak zobaczy w tabeli 6-3. dla
kadego wspczynnika selekcji redni poziom wykonania pracy jest lepszy wtedy, gdy kandydaci s wybierani przy zastosowaniu strategii klasyfikacyjnych, ni gdy stosuje si strategie selekcyjne.
Korzyci pynce z zastosowania strategii klasyfikacyjnych Ilustruje
sposb wykorzystania wynikw Obszarw Uzdolnie (Aptitude Areas)
przy przydzielaniu personelu do wojskowych specjalnoci zawodowych w
armii Stanw Zjednoczonych (Malcr i Fuchs. 1973). W badaniach tych
kady
Obszar Uzdolnie odpowiada grupie zada w armii,
wymagajcych podobnego zestawu zdolnoci, wiedzy i zainteresowa. Do
okrelenia wyniku danej osoby w kadym z Obszarw Uzdolnie wykorzystywano kombinacje trzech do piciu testw baterii przeznaczonej do
celw klasyfikacyjnych, skadajcej si z 13 testw. Na rysunku 6-4
pokazano rezultaty bada obejmujcych 7500 kandydatw do wojska;
porwnywano wykorzystanie wynikw Obszaru Uzdolnie i oglnego
testu przesiewowego - Kwalifikacyjnego Testu Si Zbrojnych (Armed
Forces Qualification Test - AFQT). Warto zauway, e tylko 56% badanej
grupy osigno lub przekroczyo 50. centyl w AFQT, podczas gdy przecitny wynik standaryzowany rwny 100 w swym najlepszym Obszarze
Uzdolnie osigno lub przekroczyo 80% badanych. Tak wic jeli przydziela si ludzi do okrelonych prac biorc pod uwag wymagane u.-

222

ZAGADNIENIA PSYCHOMETTRYCZNE

5 6 % powyej
przecitnej

44% poniej
przecitnej

50 lub wyisz;
centyl w

ArQT

W*
8 0 % powyej
przecitnei

2 0 % poniej
przecitnej
Wynik
standaryzowany
rwny 100 lub
wicej w
najlepszym
Obszarze
Uzdolnie

Rysunek 6-4. Procent osb uzyskujcych wyniki powyej przecitnej w AFQT i


w

najlepszym

Obszarw

Uzdolnie

Baterii

Klasyfikacyjnej

Armii

prbie

7500 kandydatw do wojska.


(Dane z Instytutu Badawczego Nauk Spoecznych i Behawioralnych Armii USA
[U.S. Army Research InsCtiute f o r Behauiorat and SoclaJ Sciences))

kadej z nich uzdolnienia, to zdecydowana wikszo osb jest w stanie


osign poziom przecitny lub lepszy ni cala grupa. T pozornie
niemoliw rzecz, gdy niemal kady znajduje si powyej przecitnej,
mona uzyska wykorzystujc fakt, e niemal kady przewysza innych
w zakresie jakiej zdolnoci.
Przykadem ilustrujcym t sam kwesti, ale w odniesieniu do innej
populacji, s rezultaty badania dzieci uzdolnionych (Feldman i Bratton,
1972). Dla celw eksperymentalnych 49 uczniw z dwch klas pitych
oceniono na 19 wymiarach, ktre wczeniej wykorzystano do selekcji
dzieci majcych wzi udzia w specjalnych programach przeznaczonych
dla uzdolnionych, Na wymiary te skaday si oglne wyniki w grupowym
tecie inteligencji i w baterii testw badajcych osignicia szkolne,
wyniki testw badajcych poszczeglne uzdolnienia i poszczeglne
dziedziny nauki szkolnej, takie jak czytanie i arytmetyka, wyniki testu
twrczego mylenia, oceny z muzyki 1 sztuki oraz wyniki techniki nomi-

Trafno: pomiar I Interpretacja 180

nacyjnej, w ktrej nauczyciele wskazywali najbardziej uzdolnione 1


najbardziej twrcze dzieci w kadej klasie. Gdy dla kadego kryterium
wybrano po picioro dzieci plasujcych si najwyej w rankingu, to
stanowiy one 92% catej grupy. Tak wic znowu dowiedziono, e niemal
wszyscy czonkowie grupy bd przewysza innych. Jeli zastosuje si
wielorakie kryteria.

ANALIZY STATYSTYCZNE STRONNICZOCI TESTU


Problem. Jeli chcemy przeprowadza badania testowe po to. by
przewidywa rezultaty w jakiej przyszej sytuacji, na przykad
funkcjonowanie kandydatw w college'u czy w pracy, potrzebujemy
testw, ktre maj wysok trafno prognostyczn w stosunku do
okrelonego kryterium. Opracowujc tak zwane testy sprawiedliwe kulturowo (omawiane szerzej w rozdz. 9 i 12). zwykle nie zwraca si uwagi
na to wymaganie. Tymczasem dc do tego. by takie testy obejmoway
tylko te funkcje, ktre s wsplne dla rnych kultur lub podkultur,
moemy dobra treci majce niewielki zwizek z kryterium, ktre chcemy przewidywa. Lepszym rozwizaniem jest wic wybr treci
zwizanych z kryterium, a nastpnie badanie ewentualnych rnic
midzy populacjami ze wzgldu na skuteczno testu w zastosowaniu do
zamierzonego celu. Wspczynniki trafnoci, wagi w rwnaniu regresji i
wyniki graniczne mog rni si w zalenoci od przeszych dowiadcze osb badanych testem Gdy wic s powody, by oczekiwa, e
pewne podgrupy wypadn inaczej ni pozostae, naley to sprawdzi.
Mona przyj, e ewentualne rnice midzy podgrupami s szczeglnym przypadkiem dziaania zmiennych poredniczcych omawianych w
poprzedniej czci rozdziau. A trzeba tu przypomnie, e poszukiwanie
Istotnych i staych efektw dziaania tych zmiennych nie przynioso
oczekiwanych rezultatw. W tym rozdziale zajmiemy si specyficznymi
zastosowaniami tego rodza)u analizy do mniejszociowych populacji w
Stanach Zjednoczonych.
Naley zauway, e w przypadku testu, ktry z natury rzeczy ma
istotny zwizek z kryterium, prawdopodobiestwo zrnicowania prognostycznych waciwoci wynikw testowych zalenie od przynalenoci
do grup kulturowych jest mniejsze. Jeli test werbalny wykorzystuje si
do przewidywania poziomu wykonania pracy niewerbalnej, to w Jakiej
jednej grupie kulturowej moe on przypadkowo okaza si trafny ze
wzgldu na tradycyjne skojarzenia wystpujce w minionych dowiadczeniach typowych dla tej kultury. Jednak w grupie o Innych dowiadczeniach test moe okaza si zupenie nietrafny. Natomiast test.
ktry stanowi prbk zachowa kryterialnych, lub taki, ktry mierzy

istotne umiejtnoci stanowice warunek tyche zachowa, prawdopodobnie pozostanie trafny w rnych grupach.
Od polowy lat 60. obserwujemy gwatowny wzrost liczby bada
powiconych moliwym rnicom etnicznym w prognostycznym znaczeniu wynikw testowych.8 Ogromna wikszo przeprowadzonych dotd
bada dotyczy amerykaskich Murzynw, cho niektre objy take
inne mniejszoci etniczne. Badane problemy mona zwykle podcign
pod kategori stronniczoci testu Termin .stronniczo" stosuje si w
tym kontekcie w sensie statystycznym, na oznaczenie staego lub systematycznego bdu w przeciwiestwie do bdu losowego. Chodzi tu o to
samo znaczenie, z jakim mamy do czynienia, gdy mwimy o stronniczej
prbie w przeciwiestwie do prby losowej. Gwne kwestie, ktre podnoszono w zwizku zc stronniczoci testu, dotycz wspczynnikw
trafnoci (stronniczo wyraana przez nachylenie linii regresji) oraz
zalenoci midzy rednimi grupowymi w tecie i w kryterium (stronniczo wyraana przez przesunicie linii regresji). Kwestie te zostan
omwione w nastpnych czciach rozdziau
Stronniczo wyraana przez nachylenie linii regresji. Aby uatwi
zrozumienie technicznych aspektw stronniczoci testu, zacznijmy od
wykresu rozrzutu, czyli dwuzmiennowego rozkadu, takiego jak przedstawione w rozdziale 4 (zwaszcza na rysunku 4-3). Dla celw obecnej
analizy na osi poziomej (X) przedstawione s wyniki w tecie, a na osi
pionowej (Y) - wyniki kryterialne, takie jak przecitna ocen w eollege'u
czy wskanik poziomu wykonania pracy. Przypomnijmy, e kreski,
pokazujce pozycj jednostki zarwno ze wzgldu na test. jak i na kry
terium. wskazuj na kierunek i ogln wielko korelacji midzy tymi
dwoma zmiennymi. Linia najlepszego dopasowania, ktr tworz te kreski, jest znana jako linia regresji, a jej rwnanie jest rwnaniem regresji.
W tym przykadzie rwnanie regresji miaoby tylko jeden predyktor.
Rwnanie regresji wielokrotnej, omawiane wczeniej, ma kilka predyktorw, ale zasada jesl la sama.
Jeli zarwno wyniki leslowe, jak i kryterialne s wyraone w postaci
wynikw standaryzowanych (SD = 1,00), nachylenie linii regresji rwna
si wspczynnikowi korelacji. Z tego wanie powodu, jeli wspczynnik
trafnoci danego testu jest w dwch grupach istotnie rny, lo rnica la
jest opisywana jako stronniczo wyraajca si nachyleniem linii
regresji. W takim przypadku mamy do czynienia z inn (rn) trafnoci dla rnych grup. co czsto okrela si jako zrnicowan trafno".
Niektrzy badacze posugiwali si te terminem trafno dla pojedynczej
Mona przytoczy tylko kilka reprezentatywnych prac z lej obszernej literatury. Szukajcym przegldu problemu I analizy wielu Jego aspektw polecamy
prace: N.SCole I Moss (1989). Hunter. Schmidt I Rauschenberger (1977) l
5

C.R.Reynolds i Brown (1984).


'

Trafno: pomiar I Interpretacja 180

grupy", okrelajc w ten sposb test. dla ktrego wspczynnik trafnoci


osiga poziom istotnoci statystycznej w Jednej grupie, ale nie osiga w
innej.
Na rysunku 6-5 przedstawiono w sposb schematyczny linie regresji
dla kilku dwuzmiennowych rozkadw. 9 Elipsy odpowiadaj obszarowi,
w obrbie ktrego powinny znale si kreski dla kadej prby.
Przypadek 1 pokazuje dwuzmiennowy rozkad dla dwch grup majcych
rne rednie w tecie, ale identyczne linie Tegresji dla zalenoci midzy
wynikiem w tecie a kjyterlum. W takim przypadku stronniczo testu
nie wystpuje, poniewa w obu grupach dany wynik w tecie (X)
odpowiada identycznemu wynikowi w zakresie kryterium (Y). Przypadek
2 ilustruje stronniczo wyraan przez nachylenie linii regresji, gdy
wspczynnik trafnoci jesl niszy w grupie mniejszociowej.
W badaniach nad zrnicowan trafnoci testu dla rnych grup
powszechnym problemem jest to. e liczba przypadkw w prbie
skadajcej si z przedstawicieli jakiej mniejszoci jest o wiele mniejsza
ni liczba przypadkw w prbie skadajcej si z przedstawicieli wikszoci. Taki sam wspczynnik trafnoci bdzie wwczas Istotny
statystycznie w prbie zawierajcej przedstawicieli wikszoci i nieistotny w prbie skadajcej si z przedstawicieli mniejszoci (czyli mamy tu
do czynienia z trafnoci dla pojedynczej grupy) Na przykad dla 100
przypadkw korelacja rwna 0,27 jest istotna na poziomie 0.01. a dla 30
przypadkw la sama korelacja nie osiga istotnoci statystycznej nawet
na poziomie 0,05. Z tego powodu odpowiedni procedur w badaniach
zrnicowania trafnoci jesl ocena rnicy midzy dwoma wspczynnikami trafnoci, a nie testowanie istotnoci statystycznej kadego z nich
oddzielnie (Humphreys, 1973). Stosujc ten ostatni sposb, mona
byoby z atwoci udowodni", e test jest trafny, powiedzmy, dla
biaych i nie jest trafny dla czarnych. Jedyne, co trzeba byoby w tym
celu zrobi, to tylko zapewni, by grupa biaych bya wystarczajco dua.
a grupa czarnych - wystarczajco maa!
Wyrafinowana analiza statystyczna obejmujca wyniki 19 opublikowanych bada, w ktrych znalezione wspczynniki trafnoci dla
prb skadajcych si z biaych i czarnych pracownikw, skania do
powanych wtpliwoci dotyczcych wnioskw sformuowanych w niekTen rodzaj analizy stronniczoci testowej, ktrego ilustracj jest rysunek 6-5,
stal si znany Jako model Cleary'ego", poniewa zosta zastosowany przez
Ciearyego (1968) w powszechnie cytowanym badaniu powiconym wynikom
uzyskiwanym w Tecie Uzdolnie Szkolnych dla Collegeu (College Board
Scholaslic Aptilude Test) przez uczniw wywodzcych si z grup mniejszociowych. Procedury matematyczne opracowali Gulliksen 1 Wilks (1950). a zastosowanie do porwna grup etnicznych i pciowych zaproponowa Humphreys
(1952). Wykresy przedstawione na rysunku 6-5 pochodz z bada M.A.Gordona
(1953) przeprowadzonych pod kierunkiem Humphreysa w silach 2brojnych
Stanw Zjednoczonych.
9

Przypadek 1
IDENTYCZNE R E G R E S J E

Przypadek 2
RONE NACHYLENIA

Wikszo (B)

Wynik w tecie

Wynik w tecie
Przypadek 3
RNE PRZESUNICIA

Przypadek 4
RONE PRZESUNICIA
Wikszo (B)

Mniejszo (A)

Wikszo (B)

*
Wynik w tacie

Mniejszo (A)

*
Wynik w tecie

Rysunek 6-5. Stronniczo wyraana przez nachylenie Unii regresji oraz przez
przesunicie linii regresji w przewidywaniu wynikw w zawesle kryterium. Elipsy
pokazuj obszary, w ktrych znajduj si czonkowie kadej grupy, Jeli na
wykresie uwzgldniamy jednoczenie Ich wyniki w tecie I w kryterium.
(Przypadki 1. 2 i 4 opracowane na podstawie: M.A. Gordon, 1953, str. 3)

trych wczeniejszych badaniach (Schmidt. Berner i Hunter. 1973).


Badacze wzili pod uwag uzyskane wspczynniki trafnoci oraz
wielko prb w kadym badantu 1 wykazali, e rnice w wysokoci
wspczynnikw trafnoci uzyskanych dla czarnych i biaych nie odbiegaj od przypadkowych. Wniosek ten potwierdzia pniejsza, bardziej
wyczerpujca analiza obejmujca wyniki 39 badan (Hunter, Schmidt 1

Trafno: pomiar I Interpretacja 180

Hunter. 1979), Problem zrnicowania trafnoci, rozwaany w odniesieniu do starajcych si o prac przedstawicieli mniejszoci i wikszoci,
od ponad dekady budzi cigle dyskusje. Niektrzy badacze uznali, e ze
wzgldu na ograniczenia metodologiczne wyniki po prostu nie s
rozstrzygajce. Warto jednak zwrci uwag, e w dobrze zaprojek
towanych, realizowanych na du skal badaniach, obejmujcych prby
pracownikw zatrudnionych w przemyle (J.T.Campbcll. Crooks.
Mahoney 1 Rock. 1973) i personel zatrudniony w armii (Maier i Fuchs.
1973). nie znaleziono dowodw, ktre przemawiayby na rzecz zrnicowania trafnoci. W poprawnych metodologicznie badaniach zazwyczaj
nie stwierdza si tego rodzaju rnic w zakresie trafnoci.
Podobne rezultaty uzyskano w wielu badaniach obejmujcych
czarnych i biaych studentw college'u (Brcland. 1979). Wspczynniki
trafnoci Testu Uzdolnie Szkolnych i innych testw stosowanych przy
przyjmowaniu do collegc'u byy zazwyczaj rwnie wysokie dla czarnych,
jak i biaych studentw, a nawet czasem wysze dla czarnych,
Stwierdzano lo zarwno wtedy, gdy prby czarnych i biaych uczszczay
do ych samych college ow. jak i wwczas, gdy uczyy si w rnych.
Pracujc z dziemi w zupenie innym wieku. B.C. Mitchell (1967) bada
trafno dwch testw dojrzaoci szkolnej - korelowa ich wyniki z
wynikami testw osigni przeprowadzanych pod koniec roku szkolnego z uczniami klasy pierwszej. Trafno wyniku oglnego oraz
wynikw w podtestach dla duych prb czarnych i biaych dzieci bya
bardzo podobna, a nawet nieco wysza dla czarnych. Podsumowujc,
wyczerpujce przegldy i krytyczne analizy dostpnych bada nie
potwierdziy hipotezy mwicej, e w zakresie przewidywania
funkcjonowania zawodowego i szkolnego lesty zdolnoci s mniej trafne
dla czarnych ni dla biaych (Hunter, Schmidt i Rauschenberger, 1984:
Linn. 1978).
O wiele mniej tego rodzaju bada dotyczy innych mniejszoci, ale
podobne rezultaty uzyskano dla Amerykanw pochodzenia latynoskiego
w odniesieniu do testw stosowanych zarwno w szkolnictwie. Jak 1 w
dziedzinie zatrudnienia (Breland, 1979: Duran, 1983, 1989: PennockRornan, 1990; Schmidt. Pearlman i Hunter. 1980). Interpretowanie
wynikw tych badanych komplikuje jednak to. e s oni w rnym stopniu dwujzyczni, a take to. e wystpujce w Ich rodowisku domowym
postawy l Inne zmienne kulturowe wpywaj nie tylko na wyniki w tecie, ale take na osignicia szkolne i zawodowe; w takich warunkach nie
ma powodu, by oczekiwa Jakich zmian w zakresie trafnoci prognostycznej. W przegldzie opublikowanych bada na temat zastosowania
testw przy przyjciach do collegeu Duran (1983) zauway, e w przypadku uczniw pochodzenia latynoskiego zmienianie testw nie stanowi
obiecujcego rozwizania tych problemw; naley je raczej bada t
rozwizywa bezporednio. Niemniej jednak Interpretacja wynikw
testowych powinna uwzgldnia pen wiedz na temat poredniczcego

2 2 8 ZAGADNIENIA PSYCHOMETRYCZN;

wpywu zmiennych rodowiskowych dziaajcych w indywidualnych


przypadkach. Ponadto, dokonujc uoglnie dotyczcych Amerykanw
pochodzenia latynoskiego, naley bra pod uwag moliwe rnice
midzy podgrupami, takimi jak Portorykaczycy. Meksykanie i inni.
Stronniczo wyraana przez przesunicie llnll regresji.
Nawet Jeli
wspczynniki trafnoci danego testu s takie same dla dwch grup.
moe on mimo to wykazywa stronniczo wyraan przez przesunicie
linii regresji. Wspczynnik przesunicia (itttercepl) rwnania regresji
wskazuje punkt, w ktrym przecina ona o y. a tym samym Informuje
o przesuniciu tej linii wzgldem osi x. Test wykazuje stronniczo
wyraan przez przesunicie linii regresji, jeli w sposb systematyczny
nie docenia wynikw kryterialnych uzyskiwanych przez konkretn
grup lub przecenia je. Spjrzmy znowu na Przypadek 1. przedstawiony
na rysunku 6-5 - regresje dla prby wikszociowej i mniejszociowej s
identyczne. W tej sytuacji nie mamy wic do czynienia ani ze stronniczoci wyraan przez nachylenie, ani przez przesunicie linii regresji.
Cho rednie wyniki w tecie dla tych grup istotnie si rni, to
odpowiednio rni si take wyniki kryterialne. Natomiast w
Przypadku 3 linie regresji dla obu grup maj takie samo nachylenie, ale
rne przesunicia. W tym przypadku wspczynnik przesunicia dla
grupy mniejszociowej (A) jest wikszy ni dla grupy wikszociowej IB);
linia regresji dla grupy mniejszociowej przecina wic o Y w wyszym
punkcie ni linia regresji dla grupy wikszociowej. Cho wspczynniki trafnoci obliczone dla kadej z tych grup s takie same, to dowolny
wynik w tecie (Xl bdzie odpowiada innym wynikom kryterialnym w
kadej z tych grup. co pokazuj punkty YA i Y 0 . A zatem taki sam wynik
w tecie ma rne znaczenie prognostyczne dla kadej z tych grup.
Psychologowie zaniepokojeni kwesti moliwej niesprawiedliwoci
testw wobec czonkw grup mniejszociowych wyobraaj sobie sytuacj. ktr ilustruje Przypadek 3. Zauwamy, e w tym przypadku prba
skadajca si z przedstawicieli wikszoci uzyskuje lepsze wyniki w tecie ni prba skadajca si z przedstawicieli mniejszoci, ale w zakresie kryterium obie prby wypadaj rwnie dobrze Selekcja kandydatw
dokonywana na podstawie wyniku granicznego w tecie, ustalonego w
rezultacie badania grupy wikszociowej, dyskryminowaaby wic
kandydatw mniejszociowych. W takich warunkach zastosowanie w
stosunku do obu grup linii regresji wyznaczonej dla grupy wikszociowej prowadzioby do prognozowania niedoceniajcego wynikw kryterialnych u czonkw grupy mniejszociowej. Tego rodzaju sytuacja
moe wystpi wtedy, gdy dua cz wariancji testowej nie ma zwizku
z wynikami kryterialnymi I dotyczy takich funkcji, w zakresie ktrych
grupa wikszociowa przewysza mniejszociow. Dokadna analiza

Trafno: pomiar I Interpretacja 180

pracy 1 dbao o satysfakcjonujc trafno lestu chroni przed


wyborem takiego narzdzia.
Problem stronniczoci wyraanej przez przesunicie linii regresji cile
wie si z tym. co potocznie okrela si Jako bezstronno" czy sprawiedliwo" lesiu. Cho terminy bezstronno testu" i stronniczo
lestu" s czasem uywane w odniesieniu do ych samych aspektw,
zwizanych ze stosowaniem lestw wobec mniejszoci kulturowych, to
zazwyczaj bezstronno utosamia si z brakiem stronniczoci wyraanej
przez przesunicie linii regresji. W takim znaczeniu uywa si sowa
bezstronno" w zbiorze wskazwek dotyczcych procedur selekcji pracownikw (Uniform Guidelines on Employee Selection Procedures) (1978).
W rozdziale powiconym Bezstronnoci (148) znajdujemy nastpujc
definicj:
Jeeli w rezultacie stosowanej procedury selekcyjnej osoby jednej rasy,
plei lub grupy etnicznej otrzymuj nisze wyniki ni osoby bdce czonkami innej grupy, a rnice w tych wynikach nie znajduj odzwierciedlenia
w poziomie wykonania pracy, to ta procedura selekcji moe niesprawiedliwie zmniejsza szanse czonkw grupy, ktra uzyskuje nisze wyniki.
Jednak empiryczne badania dotyczce faktycznego stosowania testw
dowodz braku istotnej stronniczoci wyraanej przez przesunicie linii
regresji lub, co zdarza si czciej, sabej tendencji w przeciwnym
kierunku, czego ilustracj jesl Przypadek 4 na rysunku 6-5. Wspczynnik przesunicia jest tu wikszy w przypadku grupy skadajcej si z
przedstawicieli wikszoci (B) ni w przypadku grupy mniejszociowej
(A). W takich warunkach zastosowanie w stosunku do obu grup linii
regresji dla grupy wikszociowej prowadzioby do prognozowania
przeceniajcego wyniki kryterialne u czonkw grupy mniejszociowej, a
zatem do faworyzowania grupy mniejszociowej. Takie rezultaty
uzyskano przy prognozowaniu ocen w collegeu (Breland. 1979: Duran.
1983; Zeidner, 1987). ocen w szkole prawniczej (Lirrn, 1975), osigni w
programach szkoleniowych armii i wojsk lotniczych (Gordon, 1953:
Maier i Fuchs. 1973: Shore i Marion. 1972) oraz w odniesieniu do wielu
rnych kryteriw slosowanych w przemyle (przegld patrz: Hunter l
in., 1984).
Dowiedziono matematycznie, e Przypadek 4 (rys. 6-5) wystpuje
wtedy, gdy dwie grupy rni si pod wzgldem jednej lub wikszej liczby dodatkowych zmiennych, ktre koreluj dodatnio zarwno z testem,
jak i z kryterium (Llnn i Werts. 1971: Reilly, 1973). Niewielkie przecenianie przy prognozowaniu jest artefaktem statystycznym zwizanym z
braniem pod uwag lylko Jednego predyktora. Jeli do baterii doda si
wicej predyktorw, to przecenianie zmniejsza si. co udowodniono
empirycznie w badaniu kilku populacji, poczynajc od studentw szkoy
prawniczej 1 urzdnikw biurowych, a na dzieciach przedszkolnych
koczc (zob. Hunter i in., 1984).

230

ZAGADNIENIA PSYCHOMETTRYCZNE

Co ciekawe, le same rezultaty uzyskuje si przy porwnaniach midzy


grupami zrnicowanymi ze wzgldu na poziom wyksztacenia czy status
spoeczno-ekonomiczny. Prognozy sporzdzane na podstawie wynikw
Baterii Klasyfikacyjnej w Armii (The Army Classificalion Battery) nieco
przeceniay osignicia w programach szkoleniowych przygotowujcych
do wojskowych specjalnoci zawodowych u osb. ktre odpady ze szkoy
redniej, i nie doceniay osigni absolwentw collegeu (Maier, 1972).
Podobne tendencje wystpiy w przypadku prognozowania stopni w college'u na podstawie wynikw uzyskiwanych w rnych testach uzdolnie
szkolnych - nie doceniano stopni uczniw, ktrych ojcowie wykonywali
wolne zawody, a przeceniano stopnie uczniw majcych ojcw zaliczanych do niszych grup zawodowych (Hewer, 1965). We wszystkich
tych badaniach porwnania grup uzyskujcych wysokie i niskie wyniki
albo me ujawniy istotnych rnic wskazujcych na stronniczo przesunicia, albo wykazay niewielk stronniczo na korzy grup
uzyskujcych nisze wyniki w testach.
Modele decyzyjne w bezstronnym testowaniu. Stopniowo punkt
cikoci w badaniach pocz przesuwa si z oceny stronniczoci testu
w kierunku planowania strategii selekcyjnych w taki sposb, by
zapewni sprawiedliwe stosowanie testw wobec mniejszoci kulturowych. Jeli strategia selekcyjna opiera si na modelu regresji (zob
Cleary) przedstawionym na rysunku 6-5, jednostki s wybierane (przyjmowane do collegeu, do pracy itd.) wycznie na podstawie ich przewidywanego wyniku kryterialnego. Ta strategia maksymalizuje oglny poziom
wynikw kryterialnych, a pomija inne cele procesu selekcji. Wedle tej
strategii istot bezstronnego wykorzystania lestw w selekcji jest
wycznie moliwie najlepsze oszacowanie poziomu wynikw kryterialnych dla kadej jednostki.
Zaproponowano kilka innych modeli decyzyjnych, ktre w procesie
selekcji prowadz do wyboru wikszego odsetka osb z grupy o
najniszych wynikach. Rezultat ten jest zgodny z celem powszechnie
okrelanym przy pomocy takich terminw jak ..akcja afirmacyjna" czy
redukcja krzywdzcego efektu" w procesie selekcji. Gdy wprowadzono te
alternatywne modele po raz pierwszy, wydawao si, e sposb
postpowania jesl zupenie inny ni w przypadku procedur opartych na
modelu regresji.10 Jednak pniej dowiedziono, e wszystkie je mona
wyrazi jako warianty jednego oglnego modelu (Darlington, 1971; Gross
literatura powicona rnym modelom decyzyjnym sucym bezstronnemu
testowaniu jest obszerna i w wikszoci specjalistyczna. Przystpne podsumowanie cech rnicych poszczeglne modele oraz implikacji tych modeli
mona znalez w pracach: Bond (1981), Dunnetlc i Borman (1979 str 497-5001
S l T L ' ^ ,19 , 75 ' S t r , J 5 0 3 5 1 ) 1 C.R.Reynolds (1962). Bardziej szczegowe
wyjanienia moina znale w pracach: Hunter 1 Schmidt (1976) oraz Hunter 1 ln

Trafno: pomiar I Interpretacja 180

I Su, 1975; Petersen 1 Novick, 1976). Rnice midzy poszczeglnymi


modelami mona wyjani odwoujc si do sdw wartociujcych
zawartych Implicite w kadym z nich. O roli wartoci w strategiach podejmowania decyzji bya Ju mowa w tym rozdziale (patrz: rys. 6-2).
Przypomnijmy, e przypisanie wzgldnej uytecznoci kademu wynikowi
wymaga oceny stopnia, w jakim wynik ten Jest korzystny lub niekorzystny. Sdy na temat wartoci, cznie z prawdopodobiestwem kadego
wyniku, wykorzystuje si do obliczania oglnej oczekiwanej uytecznoci (EU) danej strategii podejmowania decyzji.
Teoretyczne analizy decyzji dotyczce bezstronnego wykorzystania
testw dowiody, c proponowane modele rni si sposobem definiowania bezstronnoci, jako e implicite przypisuj rne wartoci
akceptacji i odrzuceniu moliwych sukcesw i poraek w obrbie populacji mniejszociowych 1 wikszociowych. W modelu oczekiwanej
uytecznoci mwi si wprost o spoecznych wartociach lecych u podstaw decyzji. Taki sposb podejcia wymaga jawnej deklaracji na temat
uytecznoci: do takiej deklaracji nie mona doj za pomoc metod
statystycznych, bowiem wymaga ona otwartej dyskusji i kolejnych przyblie pozwalajcych osign stan rwnowagi midzy sprzecznymi celami (N.S. Cole i Moss, 1989: Darlington. 1976: Messick. 1989). Wrd
celw, klre naley pogodzi ze sob. s midzy innymi: stworzenie
rwnych szans dla wszystkich, maksymalizacja wskanika powodzenia i
wydajnoci, zwikszenie rnorodnoci demograficznej i reprezentatywnoci siy roboczej (przynajmniej w pewnych zawodach) oraz preferencyjne traktowanie grup pokrzywdzonych na skutek doznanych w
przeszoci niesprawiedliwoci.
Na koniec naley podkreli, e statystyczne dopasowywanie wynikw
testowych, wynikw granicznych i formu prognozowania nie jest specjalnie obiecujcym sposobem wyrwnywania nierwnoci spoecznych.
Stosowanie manipulacji statystycznych, ktre polegaj na opracowywaniu oddzielnych norm dla ras czy podgrup11 po to. by ukrywa istniejce
midzy nimi rnice w wynikach, moe wyrzdza ludziom krzywd na
skutek kierowania Ich do takich prac, czy na takie tory ksztacenia, do
ktrych brak tm niezbdnej wiedzy lub wymaganych tam umiejtnoci
Skutkiem takiego postpowania mog by kiepskie osignicia, ktre nie
tylko wpyn niekorzystnie na samoocen jednostki i jej postaw wobec
pracy, ale mog take przyczyni si do utrwalenia stereotypu, zgodnie z
ktrym osoby nalece do pewnych kategorii kulturowych czy etnicznych
le funkcjonuj. Inne sposoby podejcia omawiane w tym rozdziale oferuj bardziej konstruktywne rozwizania w tym zakresie. Jednym z
takich sposobw jest badanie wielu uzdolnie i stosowanie strategii
klasyfikacyjnych pozwalajcych na peniejsze wykorzystanie tych zdoiII Patrz: np.: D.C.Brown (1994). L.S.Gottfredson (1994) oraz Sackeli . Wilk
(1994).

232

ZAGADNIENIA PSYCHOMETR ^ N B

noci. ktre w poszczeglnych rodowiskach kulturowych znajduj


szczeglnie sprzyjajce warunki rozwoju. Do przewidywania poziomu
funkcjonowania w pracy czy w szkole przyczynia si te szersze uwzgldnianie istotnych cech osobowoci, motywacji i postaw. Inny sposb
podejcia polega na adaptacyjnym postpowaniu, takim jak zindywidualizowane programy szkoleniowe. Aby maksymalnie dopasowa lego
rodzaju programy do waciwoci jednostki, niezwykle islotne jest, by
testy moliwie precyzyjnie i w peni ujawniay aktualny poziom rozwoju
danej osoby w zakresie potrzebnych zdolnoci. Oglne modele decyzyjne
stwarzaj ramy dla czenia wielu rnych sposobw podejcia i systemw wartoci oraz oceny efektywnoci kadego rozwizania.

s i

Analiza pozycji testowych

k najomo podstawowych poj i technik analizy pozycji, podobnie jak


I wiedza o innych fazach konstruowania testu, moe pomc uytkow"rukom w occnic publikowanych testw. Analiza pozycji ma ponadto
szczeglnie znaczenie dla konstruowania nieformalnych, lokalnych
testw, takich jak testy egzaminacyjne przygotowywane przez nauczycieli
do uytku w klasie. Niektre oglne wskazwki dotyczce efektywnego
ukadania zada, jak rwnie prostsze techniki statystyczne wykorzystywane w analizie pozycji, mog w istotny sposb ulepszy testy stosowane
w klasie i warto ich uywa nawet wobec maych grup.
Analiza pozycji testowych moe mie charakter jakociowy, uwzgldniajcy ich Lre i form, oraz ilociowy, uwzgldniajcy ich wasnoci
statystyczne. Analiza jakociowa obejmuje rozwaanie trafnoci treciowej. omawianej w rozdziale 5. jak rwnie ocen pozycji z punktu
widzenia efektywnoci procedur ich konstruowania. Na analiz ilociow
skada si gwnie pomiar trudnoci oraz mocy dyskryminacyjnej pozycji. Zarwno trafno, jak i rzetelno kadego testu zale od waciwoci skadajcych si na pozycji Dziki analizie pozycji mona z gry
wbudowa w test wysok rzetelno i trafno. Mona te ulepsza testy,
dokonujc selekcji, modyfikacji lub wymiany pozycji.
Analiza pozycji umoliwia skrcenie testu z Jednoczesnym zwikszeniem jego trafnoci i rzetelnoci. Jeli inne warunki s takie same, to
duszy test jest bardziej trafny i rzetelny ni krtki. Wpyw wyduania
1 skracania testu na wspczynnik rzetelnoci omwiono w rozdziale 4
i tam te podano wzr Spearmana-Browna sucy do szacowania tego
wpywu. Zmiany w rzetelnoci nastpuj wtedy, gdy usuwane pozycje s
rwnowane wzgldem tych, ktre zostaj, lub gdy rwnowane nowe

233

2 3 4 ZAGADNIENIA PSYCHOMETRYCZN;

pozycje dodaje si do testu. Podobne zmiany w trafnoci nastpi W


wyniku usunicia lub dodania pozycji rwnowanych pod wzgldem
trafnoci. Wszystkie tego rodzaju szacunki zmian w rzetelnoci lub
trafnoci odnosz si do wyduania lub skracania testw poprzez
losowy wybr pozycji, bez przeprowadzania ich analizy. Jeeli jednak
eliminuje si najmniej satysfakcjonujce pozycje, to skrcony test moe
okaza si bardziej trafny i rzetelny ni pierwotne dusze narzdzie.

TRUDNO POZYCJI
Procent odpowiedzi zgodnych z kluczem. W wikszoci przypadkw
Lrudno pozycji okrela si jako procent (lub proporcj) osb. ktre na
dane pytanie udzielaj poprawnej odpowiedzi. Im atwiejsza jesl pozycja.
tvm wikszy bdzie to procent. Sowo, ktre poprawnie definiuje 70%
prby standaryzacyjnej (p = 0.70), uwaa si za atwiejsze ni sowo
poprawnie definiowane tylko przez 15% (p = 0.15). Przyjte jest
porzdkowanie pozycji wedug stopnia trudnoci, tak by osoba
wykonujca tesl zaczynaa od pozycji wzgldnie atwych i przechodzia
do coraz trudniejszych. Takie uporzdkowanie spiawia, e badani s
bardziej pewni siebie, a take zmniejsza prawdopodobiestwo tracenia
przez nich zbyt wicie czasu na rozwizywanie zada lecych poza
zasigiem ich moliwoci, kosztem opuszczenia zada atwiejszych, ktre
mogliby rozwiza poprawnie.
W procesie konstruowania lestu lrudno pozycji okrela si przede
wszystkim po to. by dokona wyboru zada o odpowiednim poziomie
trudnoci. Przeznaczeniem wikszoci standaryzowanych lestw zdolnoci Jesl moliwie dokadna ocena osignitego przez jednostk
poziomu okrelonej zdolnoci. Z punktu widzenia takiego celu. jeli w
danym zadaniu nikt nie udziela odpowiedzi zgednej z kluczem, stanowi
ono nadbaga w tecie. To samo mona powiedzie o zadaniach, w
ktrych wszyscy udzielaj odpowiedzi zgodnej z kluczem. aden z tych
dwch rodzajw zada nie daje jakiejkolwiek informacji na temat rnic
indywidualnych. Zadania takie nie wpywaj na zmienno wynikw
lestowych. nie przyczyniaj si wic w aden sposb ani do trafnoci, ani
do rzetelnoci lestu. Im bardziej wskanik trudnoci pozycji zblia si do
1.00 lub do 0. tym mniej zrnicowane informacje przynosi ona na temat
osb badanych. I odwrotnie, im trudno pozycji blisza jest 0,50, tym
lepiej pozycja ta rnicuje. Zamy, e spord 100 osb, 50
odpowiedziao na dane pytanie zgodnie z kluczem, a 50 - niezgodnie z
kluczem (p = 0,50). Pytanie lo umoliwia nam rnicowanie midzy
kad z osb odpowiadajcych poprawnie i kad odpowiadajc
niepoprawnie. Otrzymujemy w ten sposb 50 x 50 czyli 2500 porwna

Analiza pozycji testowych

235

parami, a wic tyle bitw zrnicowanych informacji. Pytanie, na ktre


70% osb odpowiedziao zgodnie z kluczem, daje nam 70 x 30 czyli 2100
bilw informacji, lakic. w ktrym 90% badanych odpowiedziao
poprawnie, daje 90 x 10 czyli 900. za takie, w ktrym 100 % osb
odpowiedziao zgodnie z kluczem, dostarcza 100 x 0. czyli 0. Z lak sam
zalenoci mielibymy do czynienia dla trudniejszych pozycji, na ktre
mniej ni 50% odpowiada zgodnie z kluczem.
Mogoby si wic wydawa, e aby uzyska maksymalne rnicowanie,
naley wybiera pozycje, ktrych stopie trudnoci wynosi 0.50. Sprawa
nie jest jednak taka prosta, ze wzgldu na to, e pozycje danego lestu s
wzajemnie skorelowane. Im bardziej jednorodny jest test. tym wysze s
inlerkorelacjc. W skrajnym przypadku, gdyby wszystkie pozycje byy idealnie skorelowane zc sob. a poziom trudnoci wszystkich wynosiby
0,50, lo poowa spord 100 osb odpowiedziaaby zgodnie z kluczem na
wszystkie pytania, a pozostali - na adne. W konsekwencji polowa osb
badanych testem otrzymaaby maksymalny wynik, a poowa - wynik
zerowy. Ze wzgldu na wzajemne korelacje midzy pozycjami najlepiej
jest wybiera zadania o umiarkowanym rozrzucie stopnia trudnoci,
takie jednak, ktrych przecitna trudno wynosi 0,50. Ponadto im
wysze s korelacje midzy pozycjami (lub korelacje pozycji z wynikiem
oglnym), lym wiksza powinna by rozpito stopnia trudnoci pozycji.
Inna kwestia zwizana z wyborem odpowiedniego stopnia trudnoci
dotyczy prawdopodobiestwa zgadywania w przypadku pyta z wieloma
odpowiedziami do wyboru. Aby uwzgldni fakt. e pewna cz osb
badanych bdzie wybiera prawidow odpowiedz dziki zgadywaniu,
podan proporcj poprawnych odpowiedzi okrela si wyej niby to
miao miejsce w przypadku pyta otwartych. Na przykad w pytaniach z
picioma odpowiedziami do wyboru przecitna proporcja poprawnych
odpowiedzi powinna wynosi w przyblieniu 0.69 (Lord. 1952).
Skale przedziaowe. Procent osb odpowiadajcych na dane pytanie
zgodnie z kluczem jest wskanikiem stopnia trudnoci wyraonym na
skali porzdkowej: pokazuje on kolejno, czyli wzgldn trudno pozycji. Jeli na przykad zadania 1 . 2 1 3 poprawnie rozwizuje odpowiednio
- 30%. 20% i 10% badanych, to moemy stwierdzi, e zadanie 1 Jest
najatwiejsze spord tych trzech, a zadanie 3 - najtrudniejsze. Nie
moemy jednak wnioskowa, e rnica w stopniu trudnoci midzy
zadaniami 1 i 2 jest taka sama. jak midzy zadaniami 2 i 3. Rwnym
rnicom procentowym odpowiadayby rwne rnice w stopniu trudnoci tylko wtedy, gdybymy mieli do czynienia z rozkadem
prostoktnym, a wic lakim, w klrym przypadki s rwnomiernie
rozoone dla caego zakresu. Podobny problem pojawia si w odniesieniu do centyli, ktre take bazuj na rozkadzie procentowym.

236

ZAGADNIENIA PSYCHOMETTRYCZNE

Z rozdziau 3 pamitamy, e centyle nie stanowi rwnych jednostek, a


ich wielko zmienia si w miar przechodzenia od rodka do kracw
rozkadu (rys. 3-4).
Jeli zaoymy, e cecha mierzona przez Jak pozycj ma rozkad
normalny, to poziom trudnoci tej pozycji moemy wyrazi na skali
przedziaowej majcej rwne Jednostki, korzystajc w tym celu z tabeli
czstoci pod krzyw normaln. W rozdziale 3 zobaczylimy na przykad,
e w rozkadzie normalnym w przyblieniu 34% przypadkw ley w
obszarze midzy redni a jednym odchyleniem standardowym w jedn
lub drug stron (rys. 3-3). Dysponujc lak informacj, moemy
przeanalizowa rysunek 7-1, ktry pokazuje poziom trudnoci pozycji
poprawnie rozwizywanej przez 84% badanych- Poniewa poprawnie
rozwizuj zadanie osoby z grnego kraca rozkadu, a le z dolnego
kraca ponosz porak, to na wspomniane 84% skada si grna
poowa (50%) plus 34% osb z dolnej polowy rozkadu (50 + 34 = 84). A
zatem pozycja la znajduje si w odlegoci jednego odchylenia standardowego poniej redniej, jak to wida na rysunku 7-1. Pozycja, na ktr
zgodnie z kluczem odpowiada 16% osb. znajdowaaby si o jedno
odchylenie standardowe powyej redniej, poniewa powyej lego punktu mieci si 16% przypadkw ( 5 0 - 3 4 = 16). Zadanie, ktre rozwizuje
dokadnie 50% osb, wypada w miejscu redniej, a wic jego warto na
tej skali wynosi zero. Trudniejsze pozycje maj wartoci dodatnie, a
atwiejsze - wartoci ujemne. Poziom trudnoci odpowiadajcy danemu
procentowi osb udzielajcych odpowiedzi zgodnej z kluczem mona
znale w tabeli czstoci pod krzyw normaln, znajdujcej si w
kadym standardowym podrczniku statystyki.
Skala bezwzgldna Thurstonea. Wskaniki trudnoci pozycji
wyraone w postaci procentw lub jednostek krzywej normalnej odnosz
si tylko do zakresu zdolnoci wystpujcego w prbie, dla ktrej zostay
uzyskane. Jednak w pewnych przypadkach potrzebna jest taka miara
trudnoci pozycji, ktr mona byoby stosowa do rnych prb,
zrnicowanych pod wzgldem poziomu zdolnoci. Na przykad w testach
osigni szkolnych przydaje si moliwo porwnywania wyraonych w
tej samej skali wynikw uzyskiwanych przez dziecko w kilku kolejnych
klasach Oczywicie jednak rzecz niewykonaln byoby wyskalowanie
pozycji dla wszystkich klas na podstawie badania przeprowadzonego w
jednej grupie: pewne pozycje byyby wtedy za trudne, a inne za atwe dla
niemal wszystkich osb z tej grupy.
Innego pr/ykadu dostarczaj realizowane na du skal pi ugramy
bada testowych, takie jak programy przyj do college u. ktre wymagaj stosowania wielu rwnowanych wersji w rnym czasie. Problem
ten by omawiany w rozdziale 3. poniewa wie si z interpretacj
wynikw oglnych w lakich narzdziach, jak Test Diagnozy Szkolnej

Analiza pozycji testowych

-lo

Pylenie 1

rednia

1o

*2"

237

+V

Rysunek 7-1. Zaleno midzy procentem osb udzielajcych na dane pytanie


odpowiedzi zgodnej z kluczem a trudnoci tego pytania wyraon w jednostkach
rozkadu normalnego.

(Scholastic Assessment Test). Rozwizanie tam opisywane polegao na


wykorzystaniu staej, standardowej grupy odniesienia, ktra suya do
wyznaczenia Jednostek skali, co pozwalao potem przeksztaca wszystkie nowo uzyskiwane wyniki na wyniki wyraone w tej wanie skali.
Takie przeksztacanie wymaga zbioru bazowych pozycji, ktre s
wczane do testw stosowanych wobec kadej pary grup. Pozycje te
tworz minitest, poniewa s reprezentatywne dla caego testu, zarwno
pod wzgldem treci, jak i formy. Dla rnych par grup wsplne mog
by rne zbiory powizanych pozycji. Kada nowa wersja jest powizana
z jedn lub dwoma wczeniejszymi wersjami, ktre z kolei s powizane
z innymi wersjami poprzez acuch minitestw sigajcy do pierwotnej
grupy odniesienia.
T sam ogln metod mona wykorzysta do pomiaru trudnoci
pojedynczych pozycji na jednolitej skali; skal t mona zastosowa
wobec dowolnej liczby wzajemnie powizanych grup. Thurstone (1925,
1947a) opracowa procedur statystyczn, znan jako skalowanie
bezwzgldne; bya ona powszechnie stosowana przy konstruowaniu
testw (np. Donlon, 1984), Zasadniczo procedura ta obejmuje dwa etapy.
Po pierwsze, oddzielnie dla kadej grupy znajdujemy wartoci skalowe.
przeksztacajc dla kadego pytania procent zgodnych z kluczem
odpowiedzi na wyraone w Jednostkach odchylenia standardowego

238

ZAGADNIENIA PSYCHOMETRYCZN;

odlegoci pod krzyw normaln, czyli wartoci z. Po drugie,


przekadamy te wszystkie wartoci skalowe na odpowiadajce im wartoci ustalone dla jednej z tych grup, wybranej jako grupa standaryzacyjna,
czyli grupa odniesienia Jako grup odniesienia mona wybra jakkol
wiek, na przykad pierwsz zbadan grup, najmodsz, znajdujc si
w rodku zakresu lub inn. ktr z jakiego powodu wygodnie nam tak
traktowa. Tym, co niezbdne, jest zbir wsplnych, bazowych pozycji
zastosowanych wobec dwch lub wikszej liczby grup i skalowanych w
obrbie kadej grupy.
Wartoci skaiowe tych samych pozycji stosowanych w dwch (lub
wicej) grupach su do okrelania relacji midzy nimi i pozwalaj na
dokonywanie zamiany wskanikw trudnoci wszystkich pozycji dla jednej grupy na wskaniki trudnoci pozycji dla innej grupy, Zaleno t
przedstawiono schematycznie na rysunku 7-2, pokazujcym w jednostkach odchylenia standardowego (z) odlegoci od redniej tego samego
zadania (i) w dwch ssiadujcych grupach A i B. To samo zadanie (i)
poprawnie rozwizuje wikszy odsetek osb w grupie B ni w grupie A.
Jego odlego od redniej jest wic mniejsza w grupie B (z 0 ) ni w grupie
A (zA). Odpowiadajce sobie wartoci w grupach A i B dla wszystkich
wsplnych pozycji stanowi podstaw formuy zamiany, za pomoc
ktrej wskaniki trudnoci wszystkich pozycji stosowanych w grupie B
mona przeksztaci na wskaniki trudnoci dla grupy A i odwrotnie.

TS

Ma

W b Zadanie i

Pfoporcia osob w grupie A poprawnie


rozwizujcych zadanie i

Rysunek 7-2 Warton z dla krzywej normalnej pokazujce wzgldn trudno


lego samego zadania w grupach A I B.

Analiza pozycji testowych

239

Proste przyblienie mona uzyska sporzdzajc wykres wartoci z dla


grupy A wzgldem wartoci z dla grupy B. Lini lego wykresu mona
potem wykorzystywa do odszukiwania wartoci zA dla wszystkich
innych pozycji zastosowanych w grupie B.
Procedur konwersji mona rozcign na dowoln liczb grup. biorc
pod uwag pary ssiadujcych grup. Na przykad w tecie przeznaczonym dla klas I-VI!I wartoci skalowe dla klasy smej mona przeksztaci na jednostki skali dla klasy sidmej, skal dla klasy sidmej
przeoy na skal dla klasy szstej i tak dalej, a do klasy pierwszej.
Ssiednie grupy s zazwyczaj wystarczajco podobne, by dla celw
powizania dua cz testu moga by wsplna. Jednak kada klasa
powinna mie inne czci wsplne z najblisz wysz i najblisz nisz
klas,
Rozkad wynikw testowych.
Trudno testu jako caoci zaley
oczywicie od trudnoci skadajcych si na zada. Oglnym sposobem
sprawdzenia trudnoci caego teslu dla populacji, dla ktrej jest on
przeznaczony, moe by analiza rozkadu wynikw oglnych. Jeli prba
standaryzacyjna stanowi reprezentatywny przekrj takiej populacji, to
oczekuje si. e wyniki bd miay w przyblieniu rozkad normalny.
Przypumy jednak, e otrzymany rozkad nie ma charakteru normalnego, ale jest wyranie skony, taki jak w czciach A i B rysunku 7-3.
Pierwszy z tych rozkadw, ze spitrzeniem po stronie niskich wartoci,
ilustruje zjawisko tzw. efektu podogowego, oznaczajce brak, dla
rozwaanej grupy, wystarczajcej iloci atwych pozycji, ktre
pozwoliyby na waciwe rnicowanie w obrbie ruskich wynikw.
Wskutek tego osoby, ktrych rezultaty normalnie pokryyby znaczn
cz rozkadu, otrzymuj w lym tecie wyniki zerowe lub bliskie zera.
Uzyskuje si wic spitrzenie wynikw po tej stronie skali, po ktrej znajduj si niskie wyniki. Takie sztuczne spitrzenie wynikw przedstawiono schematycznie na rysunku 7-4 - grupa, w ktrej dana cecha ma
rozkad normalny, w jakim konkretnym tecie uzyskuje rozkad skony.
Przeciwny rodzaj skonoci ilustruje cz B rysunku 7-3, na ktrej
wyniki s spitrzone po stronie wysokich wartoci, sugerujc tym
samym niedostateczny puap testu. Tego rodzaju skony rozkad otrzymujemy zazwyczaj wtedy, gdy test przeznaczony dla populacji oglnej
stosujemy wobec wyselekcjonowanych prb studentw czy absolwentw
collegeu i wielu spord nich uzyskuje najwysze moliwe wyniki. Przy
pomocy takiego testu nie mona mierzy rnic indywidualnych wystpujcych wrd najzdolniejszych studentw w grupie. Gdyby do testu
wczono trudniejsze pozycje, to niewtpliwie pewne jednostki
uzyskayby wysze wyniki ni pozwala na to obecny test.
Jeli rozkad wynikw testowych w prbie standaryzacyjnej istotnie
odbiega od rozkadu normalnego, lo zazwyczaj modyfikuje si poziom
trudnoci testu dopty, dopki rue otrzyma si rozkadu zblionego do

240

ZAGADNIENIA PSYCHOMETTRYCZNE

A. Spitrzenie po slronie mzszyUi wartoci

B Spitrzenie po slronie wyzszycli wartoci

Rysunek 7-3. krzywe obrazujce rozkady skone


normalnego. W zalenoci od tego, z jakim rodzajem odchylenia od normalnoci mamy do czynienia, potrzebne moe by dodanie atwiejszych
lub trudniejszych pozycji, wyeliminowanie lub zmodyfikowanie pewnych
pozycji, zmiana ich miejsca czy le zrewidowanie wag przypisywanych
pewnym odpowiedziom przy obliczaniu wynikw. Takie poprawki kontynuuje si tak dugo, a rozkad stanie si przynajmniej w przyblieniu
normalny. Wtedy najbardziej prawdopodobny wynik, uzyskiwany przez

Rozk/ad zdolnoci
Rozkad wynikw testowych

Zakres lesiu

Rysunek 7-4. Skono wynikajca z niewystarczajcej liczby atwych pozycji


(.efekt podogowy)
r j j

Analiza pozycji testowych

241

najwiksz liczb osb, zwykle odpowiada okoo 50% poprawnie


rozwizanych zada. Komu, kto Jest nie obznajomlony z metodami konstruowania testw psychologicznych, wynik odpowiadajcy poowie
poprawnych rozwiza moe wyda si szokujco niski. Na tej podstawie
zarzuca si czasami badaczowi, e zbyt nisko ustawi poprzeczk lub te
wyciga si wniosek, e badana grupa jest szczeglnie saba. Oczywicie
obie te konkluzje s cakowicie pozbawione sensu, jeli patrzy si na nie
przez pryzmat procedur stosowanych przy opracowywaniu testw psychologicznych. Takie lesty celowo s tak konstruowane i specjalnie
modyfikowane, aby redni wynik wynosi w nich w przyblieniu 50%
poprawnych odpowiedzi. Tylko w ten sposb mona w tecie osign
maksymalne zrnicowanie jednostek o bardzo rnym poziomie zdolnoci. Jeli rednia wynosi w przyblieniu 50% poprawnych odpowiedzi,
to istnieje najwiksza szansa na uzyskanie rozkadu normalnego, w
ktrym indywidualne wyniki rozcigaj si szeroko ku obu kracom 1 .
Zaleno midzy trudnoci pozycji a celem badania testowego.
Standaryzowane testy psychologiczne s zazwyczaj tak pomylane, by
ujawniay maksymalne zrnicowanie midzy jednostkami i to na
wszystkich poziomach mierzonej cechy. Nasza dyskusja na temat trudnoci pozycji dotyczy, jak dotd, takiego wanie rodzaju testw.
Jednake przy konstruowaniu testw do specjalnych zastosowa wybr
pozycji o odpowiednim stopniu trudnoci, jak te optymalna forma
rozkadu wynikw testowych, zale od tego, o jaki rodzaj rnicowania
nam chodzi. Test przeznaczony do celw przesiewowych powinien zawiera pozycje, dla ktrych warto wskanika trudnoci jest moliwie
najblisza podanemu wspczynnikowi selekcji. Na przykad jeli celem
badania testowego jest wybranie grnych 20% przypadkw, to najlepszymi pozycjami bd takie, ktrych trudno oscyluje wok p rwnego
0,20 (lub nieco wyszej wartoci, by uwzgldni zgadywanie). Od testu
przesiewowego nie wymaga si. by rnicowa w obrbie zaakceptowanej
lub odrzuconej grupy; czas badania testowego zostanie wic najefektywniej wykorzystany, gdy trudno pozycji bdzie si grupowa wok
punktu krytycznego. I tak na przykad, jeli test ma by stosowany w
celu wybrania z populacji studentw college'u kandydatw do stypendium. lo pozycje powinny by znacznie trudniejsze ni przecitne dla tej
populacji. Podobnie jeli celem jest wybr sabych uczniw na zajcia
1 W rzeczywistoci krzywa normalna pozwala na bardziej precyzyjne rnicowanie na kracach ni w rodku skali. Rwnie precyzyjne rnicowanie we
wszystkich punklach skali wymagaoby rozkadu prostoktnego. Jeli Jednak w
przyszoci maj by przeprowadzane analizy staiystyczne wynikw, to krzywa
normalna ma tu przewag, poniewa wiele powszechnie uywanych technik
statystycznych zakada w przyblieniu normalno rozkadu Z tego i z Innych
powodw wikszo testw przeznaczonych do powszechnego uytku zapewne
bdzie w dalszym cigu opiera si na modelu krzywej normalnej.

242

ZAGADNIENIA PSYCHOMETTRYCZNE

reedukacyjnc. lo podane bd pozycje, ktre s o wiele atwiejsze ni


przecitne.
Innego przykadu wyboru poziomu trudnoci pozycji zalenie od
szczeglnych celw badania dostarcza badanie biegoci. Przypomnijmy
(rozdz. 3). e czsto wie si ono z testowaniem zorientowanym na standard wykonania Jeli celem badania testowego jesl stwierdzenie, czy
jednostka opanowaa w wystarczajcym stopniu zasadnicze elementy
jakiej umiejtnoci lub nabya wiedz wymagan do przejcia na
nastpny etap ksztacenia, lo moliwa do przyjcia waitu wskanika p
dla pozycji takiego lestu powinna wynosi okoo 0.80 lub 0,90. W takiej
sytuacji mona oczekiwa, e wikszo osb badanych rozwie
poprawnie niemal wszystkie zadania. I te wanie bardzo atwe zadania
(nawet rozwizywane przez 100% badanych), ktre w zwykych standaryzowanych testach uwaa si za niernicujce. zostayby wczone do
testu badajcego biego. Podobnie rzecz si ma w przypadku pretestu,
stosowanego przed waciw nauk, aby okreli, czy ktry z uczniw
umie ju to, co ma by przedmiotem nauczania - procent osb
rozwizujcych kade zadanie bdzie wtedy bardzo niski. W lym przypadku nie powinno si odrzuca zada, dla ktrych wskanik p jest
bardzo niski, a nawet ma warto zero. poniewa ujawniaj one, co
Jeszcze pozostao do nauczenia si.
Z przedstawionych przykadw wynika w sposb oczywisty, e to, jaki
poziom trudnoci zada bdzie odpowiedni, zaley od przeznaczenia
testu. Cho w wikszoci przypadkw maksimum informacji o poziomie
funkcjonowania kadego badanego dostarczaj zadania, ktrych trudno oscyluje wok wartoci redniej (0,50), to jednak decyzji
dotyczcych poziomu trudnoci zada nie mona podejmowa w sposb
rutynowy, nie wiedzc, do czego bd wykorzystywane wyniki testowe.

MOC DYSKRYMINACYJNA POZYCJI


W y b r kryterium. Moc dyskryminacyjna lo stopie", w jakim dana
pozycja trafnie rnicuje osoby wykonujce test. w zakresie zachowania,
ktre ma on mierzy. O ile trafno testu jako caoci ma by
sprawdzana przez uycie kryterium zewntrznego, to oceny 1 doboru
pozycji rwnie mona dokonywa na podstawie ich zwizku z tym kryterium. Tak procedur stosowano zwaszcza przy opracowywaniu
pewnych testw osobowoci i zainteresowa, omawianych w rozdziaach
13 1 14. Metody tej zwykle uywa si le przy wyborze twierdze, ktre
maj zosla wczone do inwentarzy biograficznych, uwzgldniajcych
na ogl zbir heterogenicznych danych na temat Jednostki i jej
rodowiska. W przypadku tego rodzaju narzdzi nie Istniej podstawy, by

Analiza pozycji testowych

243

a priori klasyfikowa dan odpowied jako dobr lub z bd przypisywa Jej okrelon wag przy obliczaniu wynikw: umoliwia to dopiero
porwnanie statusu osiganego w zakresie kryterium przez osoby, ktre
udzielaj odpowiedzi. Z pocztkowej puli pozycji zostawia si te, ktre
najlepiej rnicuj osoby zaklasyfikowane ze wzgldu na kryterium do
rnych kategorii, takich jak poszczeglne zawody czy zespoy objaww
psychiatrycznych. Czsto grupy kryterialne skadaj si z osb
osigajcych powodzenie i ponoszcych porak na kursie akademickim,
w programie szkoleniowym cy w danym rodzaju pracy.
W badajcych biego testach zorientowanych na standard wykonania, omawianych w rozdziale 3. mona ocenia poszczeglne pozycje
porwnujc poziom ich wykonania przez osoby, ktre maj za sob rn
ilo wiczenia w zakresie badanej funkcji (Paneli i Laabs. 1979; L.A.
Shepard, 1984). Zwykle porwnanie dotyczy proporcji osb, ktre
udzieliy poprawnej odpowiedzi, w grupach przed i po wiczeniu.
Poniewa testy te stosuje si po to. by okreli, czy jednostki osigny
okrelony poziom biegoci, rnice w oglnym poziomie wykonania przy
pojedynczym badaniu s sprowadzone do minimum. Wewntrzna analiza
pozycji nie ma zatem wikszego znaczenia, a potrzebne jest jakie
zewntrzne kryterium, takie jak ilo stosownego wiczenia.
W innego rodzaju testach osigni, jak rwnie w wielu testach zdol
noci, moc dyskryminacyjn pozycji zwykle bada si w stosunku do
wyniku oglnego w samym tecie2. Dla testw osigni szkolnych
zewntrzne kryterium w zasadzie jest nieosigalne. W przypadku testw
uzdolnie przypisywanie coraz wikszego znaczenia trafnoci teoretycznej sprawia, e za odpowiednie kryterium wyboru pozycji uznaje si
wynik oglny. Na pocztkowych etapach opracowywania testu wynik
oglny stanowi pierwsz i przyblion miar badanej zdolnoci, cechy czy
konstruktu.
Przyjrzyjmy si bliej konsekwencjom wybierania pozycji na podstawie
zewntrznego kryterium i na podstawie oglnego wyniku w tecie. W
pierwszym przypadku maksymalizujemy trafno testu w stosunku do
zewntrznego kryterium, w drugim - maksymalizujemy zgodno
wewntrzn, czyli jednorodno testu. W pewnych warunkach te dwa
sposoby podejcia mog prowadzi do przeciwnych rezultatw - pozycje
wybrane na podstawie trafnoci zewntrznej s wanie tymi. ktre
odrzucamy na podstawie analizy zgodnoci wewntrznej. Zamy, e
wstpna wersja testu uzdolnie szkolnych skada si ze 100 zada arytmetycznych i 50 zada sownikowych. Jeli mamy wybra zadania z tej
puli. odwoujc si przy tym do metody zgodnoci wewntrznej, to dla
2 Korelacje danej pozycji z wynikiem oglnym lestu bd nieco zawyone na
skutek wsplnej wariancji specyficznej 1 wariancji bdu w pozycji I w tecie,
ktrego pozycja Jest czci. Istniej wzory z poprawk uwzgldniajc ten efekl
(Gulllbrd 1 Fruchter, 1978, str. 165-167).

242

ZAGADNIENIA

PSYCHOMETRYCZN;

kadego zadania trzeba obliczy wskanik zgodnoci midzy poziomem


jego wykonania a wynikiem oglnym wszystkich 150 zada. Jest rzecz
oczywist, e taki wskanik bdzie wyszy dla zada arytmetycznych ni
sownikowych, poniewa wynik oglny Jest oparty na dwukrotnie wikszej liczbie zada arytmetycznych. Jeli w ostatecznej wersji testu ma
pozosta 75 najlepszych" zada, jest wielce prawdopodobne, e wikszo z nich bd stanowiy zadania arytmetyczne. Gdyby jednak
odwoa si do zewntrznego kryterium. Jakim s osignicia szkolne, to
bardziej trafnym ich predyktorem mogyby si okaza zadania sownikowe. a nic arytmetyczne. Gdyby tak byo. to analiza pozycji
prowadziaby do obnienia, a nie zwikszenia trafnoci testu.
Stosowane w praktyce odrzucanie pozycji, ktre nisko koreluj z
wynikiem oglnym, stanowi sposb na wyklarowanie testu, czyli
uczynienie go homogenicznym. Dziki zastosowaniu takiej procedury w
tecie pozostaj pozycje majce najwysze przecitne korelacje z innymi.
Ta metoda wyboru pozycji zwiksza trafno testu tylko wtedy, gdy pierwotna pula pozycji mierzy pojedyncz cech i cecha ta jest obecna w kryterium lub konstrukcie bdcym przedmiotem oceny. Jednak niektre
rodzaje testw mierz kombinacj cech. poniewa, wymaga tego zoone
kryterium. W takim przypadku wyklarowanie testu moe spowodowa, i
bdzie on obejmowa tylko cz kryterium, a to cbniy jego trafno,
Wybieranie pozycji w taki sposb, by maksymalizowa trafno kryterialn testu, moe wiza si z wyborem testw, ktre zapewni
najwysz trafno baterii. Przypomnijmy (rozdz. 6), e do trafnoci
baterii w najwikszym stopniu przyczynia si taki test. ktry najwyej
koreluje z kryterium i najniej z innymi testami baterii. Jeliby zastosowa t zasad do wyboru pozycji, to oznaczaoby to. e najlepszymi
pozycjami s te, ktre charakteryzuj si najwysz trafnoci
zewntrzn i najniszymi wspczynnikami zgodnoci wewntrznej. A
zatem pozycja, ktra wysoko koreluje z kryterium zewntrznym, ale
wzgldnie nisko z wynikiem oglnym, byaby lepsza ni taka, ktra koreluje wysoko zarwno z kryterium, jak i z wynikiem testowym, poniewa
pierwsza z nich przypuszczalnie mierzy jaki aspekt kryterium, ktrego
w sposb wystarczajcy nie obejmuje reszta testu
Mogoby si wydawa, e pozycje testowe powinny by wybierane za
pomoc tych samych metod, ktre stosuje si przy wyborze testw do
baterii. Kad pozycj naleaoby wic korelowa z zewntrznym kryterium i ze wszystkimi pozostaymi pozycjami. Najlepszym pozycjom,
wybranym w ten sposb, trzeba byoby nastepnie przypisa wagi
wynikajce z rwnania regresji. Taka procedura jest jednak niewykonalna. nie da si te obroni z teoretycznego punktu widzenia. Nie do e
wymagaaby ogromu pracy obliczeniowej, to w dodatku, ze wzgldu na
podatno korelacji midzy pozycjami na fluktuacje zwizane z doborem
prby, dawaaby zbyt niestabilne wagi regresji, by mogy stanowi zado-

Analiza pozycji

testowych 243

walajc podstaw selekcji. Jednak Jeszcze powaniejsze zastrzeenie


dotyczy tego. e otrzymany w ten sposb test byby tak niejednorodny
pod wzgldem treci, i uniemoliwiaoby to jakkolwiek sensown interpretacj Jego wyniku.
Konstruujc test, warto zadba zarwno o zewntrzn trafno, jak 1
wewntrzn zgodno. Wzgldne znaczenie kadego z tych aspektw
zaley Jednak od rodzaju i przeznaczenia testu. W przypadku wielu zastosowa zadowalajcy kompromis polega na podzieleniu wzgldnie jednorodnych pozycji na oddzielne testy lub podtesty. z ktrych kady dotyczy innego aspektu zewntrznego kryterium. Szeroko zakresu obejmowanego przez test osiga si wic dziki rnorodnoci testw, z
ktrych kady przynosi wzgldnie jednoznaczny wynik, a nie poprzez
rnorodno pojycji w obrbie pojedynczego testu. Taka procedura
powoduje, e nie odrzuca si pozycji, ktre maj niskie wskaniki zgodnoci wewntrznej, lecz przydziela si je do oddzielnych testw. W efekcie uzyskuje si wysok zgodno wewntrzn dla kadego podtestu czy
grupy pozycji.

Statystyczne wskaniki m o c y dyskryminacyjnej pozycji.

Odpo-

wiedzi w tecie na ogl rejestruje si jako poprawne lub bdne; pomiar


mocy dyskryminacyjnej zwykle obejmuje wic zmienn dychotomiezn
(pozycja) i zmienn cig (kryterium). W pewnych sytuacjach take kryterium moe by zmienn dychotomiczn, na przykad absolwenci college'u uersus ci, ktrzy go nie ukoczyli" lub powodzenie uersus
niepowodzenie w pracy". Co wicej, dla celw analizy mona zdychotomizowa. kryterialn zmienn cig.
Opracowano ponad 50 rnych wskanikw mocy dyskryminacyjnej
pozycji, ktre stosuje si przy konstruowaniu testw. Jedna z rnic
midzy
nimi
dotyczy
moliwoci
ich
stosowania
do
miar
dychotomicznych lub cigych. Spord tych. ktre stosuje si do zmiennych dychotomicznych, niektre zakadaj cigy i normalny rozkad
lecych u ich podstawy cech, na ktry sztucznie zostaa naoona
dychotomia; inne zakadaj rzeczywist dychotomi. Kolejna rnica
dotyczy zalenoci midzy trudnoci pozycji a rnicowaniem. Pewne
wskaniki dostarczaj miary mocy dyskryminacyjnej pozycji niezalenie
od trudnoci pozycji. Inne przybieraj wysze wartoci, gdy trudno
pozycji jest bliska 0,50, a nisze - gdy zblia si do jednoci lub do zera.
Niezalenie jednak od rnic w zakresie zaoe lecych u ich podstaw oraz procedur obliczania, wikszo wskanikw mocy dyskryminacyjnej daje bardzo podobne rezultaty (Oosterhof, 1976). Cho liczbowe
wartoci tych wskanikw mog si rni, to jednak przewanie te same
pozycje zostaj na ich podstawie utrzymane w tecie i te same odrzucone. W rzeczywistoci zmienno mocy dyskryminacyjnej pozycji
zwizana z prb Jest zwykle wiksza ni zmienno wynikajca z
rnych metod obliczania.

246

ZAGADNIENIA PSYCHOMETRYCZN;

Wykorzystanie grup skrajnych. Powszechn praktyk przy analizowaniu pozycji jest porwnywanie proporcji osb odpowiadajcych
zgodnie z kluczem w kontrastowych grupach kryterialnych. Jeli pomiaru kryterium dokonuje si na skali cigej, jak to ma miejsce w przypadku ocen szkolnych, ocen pracy, rejestrowania wydajnoci czy oglnych wynikw w tecie, to grn (G) i doln (D) grup kryterialn wybiera
si z kracw rozkadu. Oczywicie im bardziej skrajne s lo grupy, tym
ostrzejsze bdzie zrnicowanie. Ale wykorzystanie najbardziej skrajnych
grup, takich jak grne i dolne 10%. obniy rzetelno wynikw ze wzgldu na ma liczb wykorzystanych przypadkw. W rozkadzie normalnym optymalny punkt, w ktrym te dwa aspekty pozostaj w
rwnowadze, osiga si, gdy grna i dolna grupa licz po 27% (T.L.
Kelley. 1939) Jeli rozkad jesl bardziej paski ni krzywa normalna, to
optymalny procent wynosi nieco ponad 27 i zblia si do 33 (Cureton.
I957b). Jeli grupy s mae. na przykad takie, jak klasy szkolne, to bd
prby, jakim obcione s statystyki pozycji, jest tak duy. e mona
otrzyma lylko przyblione wyniki. W takim przypadku nic musimy zbytnio przejmowa si dokadnym odsetkiem osb w grupach skrajnych.
Zadowalajca bdzie kada odpowiadajca nam liczebno midzy 25%
a 33%.
Jeli przy opracowywaniu standaryzowanych testw mamy do
czynienia z duymi prbami, w ktrych rozkad jest normalny, to zwyczajowo bierze si pod uwag grne i dolne 27% rozkadu wynikw w zakresie kryterium. Liczne tablice i abaki opracowane, by uatwi obliczanie
wskanikw mocy dyskryminacyjnej, oparte s na zaoeniu, e
postpowano wedug reguy 27%". Stopniowo jednak, w miar jak
wzrasta dostp do komputerw o duej szybkoci, rne oszczdne procedury, ktre miay uatwi analiz pozycji, s zastpowane przez
bardziej precyzyjne i wyrafinowane metody. Dysponujc komputerem,
lepiej jesl analizowa wyniki cacj prby, a nie tylko grup skrajnych.
Prosta analiza dla maych grup. Analiz pozycji czsto przeprowadza
si dla maych grup, takich jak grupa uczniw, ktrzy pisali klaswk;
rozwamy wic najpierw prost procedur odpowiedni w takiej sytuacji.
Zamy, c w klasie liczcej 60 uczniw wybieramy 20 uczniw (33%) z
najwyszymi i 20 - z najniszymi wynikami w tecie. Mamy teraz trzy
grupy, ktre moemy nazwa grup grn (G). rodkow () i doln (D).
Najpierw trzeba policzy poprawne odpowiedzi na kade pytanie
udzielone przez uczniw w kadej z tych trzech grup. Najatwiej mona
to zrobi wypisujc w pierwszej kolumnie arkusza numery wszystkich
pyta, a obok sporzdzajc trzy kolumny zatytuowane G. i D. Biorc
teraz do rki prace poszczeglnych uczniw trzeba postawi kresk obok
numeru kadego pytania, na ktre ucze odpowiedzia poprawnie
Trzeba tak zrobi z pracami 20 uczniw z grupy G. nastpnie 20 uczniw

Analiza pozycji testowych

247

z grupy S 1 20 z grupy D. Teraz moemy ju zliczy kreski i zapisa ich


sum oddzielnie dla kadej grupy, jak to pokazano w tabeli 7-1. Dla
celw ilustracyjnych podano lam dane tylko dla pierwszych siedmiu
pyta. Dla kadego pytania mona obliczy przybliony wskanik mocy
dyskryminacyjnej odejmujc liczb osb z grupy D. ktre udzieliy
poprawnej odpowiedzi na lo pytanie, od liczby osb z grupy G, ktre
udzieliy lakicj samej odpowiedzi. Rnic G - D podano w ostatniej
kolumnie tabeli 7-1. Na podstawie tych samych danych mona le
obliczy wskanik trudnoci pozycji, dodajc liczb osb odpowia
dajcych poprawnie we wszystkich trzech grupach (G + + D).
Analiza tabeli 7-1 ujawnia cztery wtpliwe pytania, ktre wymagaj
dalszego rozpatrzenia lub dyskusji w klasie. Dwa z nich. o numerach 2
i 7. budz wtpliwoci, poniewa jedno wydaje si zbyt atwe - rozwizuje
je 56 spord 60 uczniw, a drugie zbyt trudne, bo tylko 5 uczniw
odpowiada na nie poprawnie. Pytania 4 i 5 s zadowalajce z punktu
widzenia poziomu trudnoci, lecz maj, odpowiednio, ujemn i zerow
moc dyskryminacyjn. Do tej kategorii zaliczylibymy te wszystkie pytania, dla ktrych rnica G - D. cho dodatnia, jest jednak bardzo m a a
rzdu trzy lub mniej, gdy porwnywane grupy s w przyblieniu tej
wielkoci, co w przykadzie. Jeli grupy s wiksze, zwikszaj si te
rnice, ktre uznajemy za przypadkowe i nie wiadczce wobec tego o
wystarczajcej mocy dyskryminacyjnej.

Prosty sposb analizy pozycji: liczba osb udzielajcych


poprawnych odpowiedzi w kadej grupie kryterialnej

Tytanie

G
(20)

(20)

D
(20)

1
2
2

15
20
19

9
20
18

7
16
9

4
5

10

11

16

II
16
5

13
14
0

I]
9
0

6
7

75
Pozycje wybrane do omwienia

Trudno
(G++D)

31
56*
46
37
35
39
53

Moc dvskrvni.
(G-D

H
4
10
fili-'

248

ZAGADNIENIA PSYCHOMETTRYCZNE

Celem analizy pozycji w testach opracowywanych przez nauczycieli


Jest wykrycie, czy braki wystpuj w tecie, czy w procesie nauczania. Do
rozstrzygnicia tego problemu czsto wystarcza omwienie z klas
wtpliwych pozycji. Jeli winne byo niefortunne sformuowanie zadania,
to w kolejnym badaniu testowym mona je poprawi lub pozycj t
odrzuci. Dyskusja moe jednak wykaza, e pozycja bya dobra, ale
uczniowie nie zrozumieli danej kweslii. W takim przypadku odpowiedni
temat mona jeszcze raz omwi i wyjani. Gdy chce si zawzi
poszukiwania rda trudnoci, pomocne bywa przeprowadzenie
dodatkowej analizy tego rodzaju, jak przedstawiona w tabeli 7-2, w
odniesieniu do co najmniej jednej z wtpliwych pozycji. W tabeli podana
jest liczba uczniw z grupy G i D, ktrzy, odpowiadajc na dane pytanie,
wybrali kad z moliwoci.
W tabeli 7-2 widnieje pytanie 2, jednake dotyczca go analiza czstoci wystpowania poszczeglnych typw bdnych odpowiedzi niewiele
wnosi, poniewa adna osoba z grupy G nic- udzielia niepoprawnej
odpowiedzi, a w grupie D zrobiy to tylko cztery osoby. Rozmowa z uczniami moe jednak wyjani, czy dane pytanie byo za atwe i jako takie
nie miao wartoci, czy moe jaki bd w jego konstrukcji zdradza
prawidow odpowied, czy te wreszcie pytanie byo dobre, alp dotyczyo
akurat takiej kwestii, ktra zostaa wyjtkowo jasno wytumaczona
uczniom i dobrze przez nich zapamitana, W pierwszym przypadku

Analiza odpowiedzi na poszczeglne pytania testu


Pytanie

Gnipa

Grna
Dolna
Grna
Dolna
Grna
Dolna
Grna
Dolna

Moliwe odpowiedzi

0
2
0
2
2
1
5
0

0
0
10
16
3
3
3
5

0
1
9
2
3
3
5
8

w y t l i i M i / u p y m d l i : kleili

20
16
0
0
11
11
4
3

0
1
1
0
2
2
3
4

Analiza pozycji testowych

249

pytanie prawdopodobnie zostaoby usunite, w drugim - poprawione, a


w trzecim - pozostaoby w tecie bez zmian
Dane dotyczce pytania 4 sugeruj, e trzecia spord moliwych
odpowiedzi miaa jakie ukryte znaczenie, ktre spowodowao, e
dziewiciu dobrych uczniw wybrao wanie j. a nie odpowiedz
poprawn. Ten problem mona atwo rozwika, pytajc tych uczniw,
dlaczego wybrali t, a nie waciw odpowied. Jeli chodzi o pytanie 5.
Lo wina ley prawdopodobnie w sformuowaniu albo trzonu, albo
poprawnej odpowiedzi, poniewa uczniowie, ktrzy nie odpowiedzieli
poprawnie, rwnie czsto wybierali kad z czterech bdnych
odpowiedzi. Pytanie 7 jest niezwykle trudne, poniewa bdnie
odpowiedziao na nie 15 osb z grupy G i wszystkie z grupy D. Nieco
wiksza czsto wyboru odpowiedzi nr 3 sugeruje jej powierzchown
atrakcyjno, zwaszcza dla osb z grupy D, ktre atwiej wprowadzi w
bd Podobnie fakt, e nikt z grupy D nie wybiera poprawnej odpowiedzi
(moliwo nr 1). sugeruje, e sformuowano j w taki sposb, I powierzchownie, lub osobom niedouczonym, wydaje si bdna. Oczywicie w
obu przypadkach s Lo podane wasnoci dobrych pozycji testowych.
Dyskusja w klasie moe wykaza, c pytanie 7 jest dobre, ale dotyczy
takiego tematu, ktrego mao kto w klasie faktycznie si nauczy.
W s k a n i k m o c y dyskryminacyjnej.
Jeli liczb osb odpowiadajcych zgodnie z kluczem w dolnej i grnej czci grupy kryterialnej
wyrazimy w postaci procentw, to rnica midzy tymi odsetkami bdzie
wskanikiem mocy dyskryminacyjnej pozycji (MD), moliwym do interpretowania niezalenie od liczebnoci konkretnej prby, dla ktrej go
otrzymano. Wskanik ten wielokrotnie opisywano w literaturze psyehometrycznej (patrz np.: Ebel. 1979; A.P. Johnson, 1951; Oosterhof,
1976). Okazao si, e mimo swej prostoty wykazuje on wysok zgodno
z innymi, bardziej skomplikowanymi miarami mocy dyskryminacyjnej
pozycji (Engclhart. 1965; Oosterhof. 1976). Sposb obliczania wskanika
MD mona zilustrowa odwoujc si do danych przedstawionych w
tabeli 7-1. Po pierwsze, trzeba wyrazi w postaci procentw liczby osb
w grupie G i w grupie D odpowiadajcych zgodnie z kluczem na
poszczeglne pytania. Rnica midzy tymi dwoma wartociami procentowymi stanowi wskanik mocy dyskryminacyjnej, przedstawiony w
tabeli 7-3. Wskanik ten moe przyjmowa warto od +100 do -100.
Jeli na dane pytanie zgodnie z kluczem odpowiedz wszystkie osoby z
grupy G i adna z grupy D, to MD bdzie rwne 100. I odwrotnie, jeli
poprawnie odpowiedz wszystkie osoby z grupy D i adna z grupy G. to
MD bdzie rwne -100. Jeli procent odpowiedzi zgodnych z kluczem
bdzie taki sam w obu grupach, Lo wskanik bdzie rwny zero.
Podobnie jak w przypadku kilku innych wskanikw mocy dyskryminacyjnej, rwnie wartoci MD nie s niezalene od trudnoci pozycji 1

250

ZAGADNIENIA PSYCHOMETTRYCZNE

Obliczanie wskanika mocy dyskryminacyjnej


Procent odpowitdzi zgodnych z kluczem
Grna grupa

Pozycji

Dolna grupa

Wskanik mocy
dyskryminacyjnej (MD)
40

75

35

100

80

20

95

45

50

50

80

-30

55

55

80

45

35

25

25

" " i

L-w.IJLM

I J a i u piiLiiuil/.i

i.ibtli 7 I

wykazuj pewne znieksztacenie na korzy pozycji o umiarkowanym


stopniu trudnoci. W tabeli 7-4 przedstawiono maksymalne moliwe
wartoci MD dla pozycji rnicych si stopniem trudnoci, czyli procentem odpowiedzi zgodnych z kluczem. Jeli 100% lub 0% caej prby
odpowie poprawnie na dane pytanie, to midzy grup G i D nie bdzie
adnej rnicy w proporcji tych. ktrzy odpowiedzieli zgodnie z kluczem;
wskanik MD bdzie wic rwny zero. Na drugim kracu bdziemy mie
do czynienia z sytuacj, w ktrej 50% badanych odpowie zgodnie z
kluczem i wtedy moe by tak, e poprawne odpowiedz wszystkie osoby
z grupy G oraz adna z grupy D; wskanik MD wyniesie wwczas 100
(100 - 0 = 100). Jeli 70% osb odpowie zgodnie z kluczem, to maksymalna warto, jak moe przyj wskanik MD wynosi; (G) 50/50 =
100%: (D) 20/50 = 40%: MD = 100 - 40 = 60. Przypomnijmy, e dla wikszoci zastosowa testw preferowany jest poziom trudnoci pozycji bliski 50%. A zatem wskaniki mocy dyskryminacyjnej, ktre faworyzuj ten
poziom trudnoci, s czsto odpowiednie dla selekcji pozycji.
Wspczynnik phi. Wiele wskanikw mocy dyskryminacyjnej odnosi
si do zalenoci midzy pozycj a kryterium i ma posta wspczynnika
korelacji. Jednym z nich jest wspczynnik phi {$). Wspczynnik <p. ktry
oblicza si z tablicy czteropolowej. jest opary na proporcji osb
odpowiadajcych zgodnie i niezgodnie z kluczem w grnej (G) i dolnej (D)
czci grupy kryterialnej. Podobnie jak wszystkie wspczynniki
korelacji, zawiera si w granicach midzy +1,00 i -1,00. Wspczynnik 0
zakada rzeczywist dychotomi tak odpowiedzi na dane pytanie, jak i
zmiennej kryterialnej. Wskutek tego mona go stosowa wycznie w
odniesieniu do dychotomii, dla ktrej go obliczono. 1 nie mona uoglnia
na wszelkie inne zalenoci midzy cech mierzon przez dan pozycj a

Analiza pozycji testowych

251

Zwizek midzy maksymaln wartoci MD a trudnoci pozycji


Procent zgodnych z kluczem
o d p o w i e d z i n a dane p y t a n i e

Maksymalna

warto MD

100
90
70
50
30

20
60
100
60

10

20

kryterium. Podobnie jak wskanik MD, <p faworyzuje pozycje o umiarkowanym poziomie trudnoci, to znaczy najwysze moliwe korelacje
otrzymuje si wtedy, gdy podzia na dwie czci najbliszy jest proporcji
50:50
Poziom istotnoci wspczynnika ip mona atwo obliczy, odwoujc
si do Jego zwizku ze statystyk chi-kwadrat i do krzywej normalnej.
Moemy okreli minimaln warto <p. istotn na poziomie 0.05 i 0.01:
w tym celu naley zastosowa nastpujcy wzr:
1,96
'0.05

2.58
'o.oi

Vn~

We wzorach tych N odpowiada sumie osb w obu grupach kryterialnych cznie. Jeli wic mamy 50 przypadkw w grupie G i 50 w grupie
D. to N bdzie rwne 100, a minimalna warto <p istotna na poziomie
0.05 wyniesie 1,96 : V100= 0,196. Kada pozycja, dla ktrej <p osigno
lub przekroczyo warto 0,196, istotnie koreluje z kryterium na
poziomie 0,05.
Korelacja dwuseryjna. Jako ostatni przykad powszechnie stosowanej
miary mocy dyskryminacyjnej pozycji rozwaymy korelacj dwuseryjn
lrbis'' kfra pod dwoma wzgldami rni si od wspczynnika Q . Po pierwszc. r b(s zakada cigy i normalny rozkad cechy lecej u podstaw
zarwno dychotomlcznej odpowiedzi na dane pytanie, jak 1 zmiennej kry-

252

ZAGADNIENIA PSYCHOMETRYCZN;

lerialnej. Po drugie, miara zalenoci midzy pozycj a kryterium, ktrej


dostarcza ten wspczynnik. Jest niezalena od trudnoci pozycji.
Obliczajc korelacj dwuseryjn bierze si pod uwag rednie wyniki
kryterialne osb, ktre na dane p y t a n i e odpowiedziay zgodnie i niezgodnie z kluczem, odchylenie standardowe dla caej grupy i proporcj osb,
ktre odpowiedziay zgodnie i niezgodnie z kluczem na dane pytanie.
Wzory suce do obliczania rbls zawiera wikszo podrcznikw do
statystyki (np. Guilford i Fruchter. 1978, sir. 304-306). Slandardowy
bd rbls mona obliczy za pomoc prostego wzoru, korzystajc z wyrae zawartych w samym wzorze na rbl5. Warto doda, e programy komputerowe pozwalaj na bezporednie obliczanie zarwno korelacji
dwuseryjnych. jak i ich bdw standardowych.

TEORIA ODPOWIEDZI NA PYTANIA TESTU


Regresja

pozycji wzgldem

testu.

N a wykresie

rwnania

regresji

pozycji wzgldem testu mona jednoczenie przedstawi zarwno trudno. jak i moc dyskryminacyjn pozycji. Rozwamy wic hipotetyczny
test. skadajcy si z 12 pozycji, ktry wymaga od osoby badanej udzielania krtkich odpowiedzi na pytania otwarte, a wic jest podobny do
testw sownikowych ze skal inteligencji przeznaczonych do bada indywidualnych. W tabeli 7-5 dla kadego wyniku oglnego moliwego do
uzyskania w tym tecie podano proporcj osb. ktre poprawnie
odpowiedziay na kade z dwch pyta. Dane te przedstawiono na wykresie. na rysunku 7-5.
Poziom trudnoci kadej pozycji mona okreli jako jej 50% prg, tak
jak to si zwykle rohl przy lislalaniu progu wraliwoci w psycholizyce.
Na rysunku 7-5 zaznaczono prg dla kadej pozycji w taki sposb, e z
punktu, w ktrym .-tada z krzywych przecina lini 50%, poprowadzono
lini przerywan prostopad do osi poziomej, na ktrej widniej wyniki
oglne. Z wykresu lego wida wic. c osoba uzyskujca wynik oglny
rwny w przyblieniu 8 ma 50% szans na poprawne rozwizanie pozycji
7; takie same szanse na rozwizanie pozycji 12 ma osoba uzyskujca
wynik oglny w przyblieniu rwny 10. Moc dyskryminacyjn kadej
pozycji wskazuje slromo krzywej: im bardziej stroma jest krzywa, tym
wysza jest korelacja midzy odpowiedzi na dane pytanie a wynikiem
oglnym i wyszy wskanik mocy dyskryminacyjnej. Jak wida, moc
dyskryminacyjna pozycji 7 i 12 Jest w przyblieniu taka sama.
Analizujc regresj pozycji wzgldem wyniku, co umoliwia nam
rysunek 7-5, moemy zobaczy, jak efektywnie funkcjonuje dana pozycja. Tego rodzaju wykresy nie tylko cz informacje na lemat trudnoci
I mocy dyskryminacyjnej pozycji, ale take daj peny obraz zalenoci
midzy odpowiedzi na dane pytanie a wynikiem oglnym. Na przykad

Analiza

pozycji

testowych 251

Hipotetyczne dane ilustrujce regresj pozycji


testu
Wynik oglny

Proporcja poprawnych odpowiedzi


Pozycja 7

12
11

10
9

7
6
a
4
3
2
1

wzgldem

1.00
0.82
0.87
0.70
0,49
0.23

0,10

0.06
0.03
0.00
0.00
0.00

Poycia 12
0.62
0.53
0.16

0,05

0,00

0.00
0.00
0.00
0,00
0.00
0,00

dla pozycji 7 obserwujemy zmian kierunku krzywej, poniewa proporcja


osb, ktre zgodnie z kluczem odpowiedziay na to pytanie, bya wysza
wrd tych, ktre uzyskay wynik oglny rwny 10. ni wrd
uzyskujcych wynik oglny rwny 11. Gdyby takie wyniki byy oparte na
rezultatach badania maej prby, to ten zwrot prawdopodobnie byby bez
znaczenia: tutaj chodzi raczej o pokazanie rodzaju informacji, jakie moe
ujawni tego rodzaju analiza danych dotyczcych pozycji.
Dla celw obrbki matematycznej oraz precyzyjnej oceny i selekcji
pozycji takie surowe wykresy maj do ograniczon uyteczno.
Przedstawiony sposb podejcia posuy jako punkt wyjcia dla opracowania bardzo wyrafinowanych 1 skomplikowanych sposobw analizy
pozycji, ktre zaczy przyciga uwag w lalach 70. i wczesnych latach
80. Powodem ich rosncej popularnoci bez wtpienia jesl gwatowne
zwikszenie dostpnoci szybkich komputerw, bez ktrych wymagane
przez takie analizy obliczenia byyby niemoliwe. Wraz z przygotowaniem
programw komputerowych dla proponowanych modeli analizy pozycji,
moliwe siao si praktyczne zastosowanie tych wyrafinowanych procedur. Gwne cechy tego podejcia zostan opisane w nastpnych czciach tego rozdziau.

254

ZAGADNIENIA PSYCHOMETKYCZNK

5W.'! ;

Rysunek 7 - 5 . Regresja pozycji 7 i 12 wzgldem testu.


( D a n e p o c h o d z z tabeli 7 - 5 )

Teoria

odpowiedzi

na

pytania

testu

(Jtem

Response

Theory - I R T ) :

Podstawowe cechy. 3 Matematyczne podejcie, ktre rozwaamy, czyli


iem response theory. okrelano te jako teori ukrytej cechy (latcntnej) i
teori krzywej opisujcej pozycj testow (itern characteristic curve - ICC).
Zasadnicz cech tego sposobu podejcia stanowi to, e sposb
odpowiedzi na pytanie jest wizany z szacowan iloci ukrytej cechy",
Przystpne Informacje na temat metodologii IRT oraz jej zastosowa - patrz:
Hambleton i in. (1991). Bardziej specjalistyczny przegld i oceny krytyczne
mona znale w pracy Hambletona (1989) oraz Drasgowa i Hulina (1990).
Wprowadzenie IRT do psychometru - patrz: Lord (1980), D.J. Weiss (19831 oraz
D.J. Wetss i Davison (1981).
3

Analiza

pozycji

testowych 253

oznaczanej greck liter 0 (theta), u osoby badanej. .Cecha ukryta", tak


jak termin ten jest uywany w tym kontekcie, odnosi si do konstruktu statystycznego; nie oznacza adnego bytu psychologicznego czy
fizjologicznego, realnie istniejcego. W testach poznawczych ukryt
cech zazwyczaj okrela si jako zdolno mierzon przez test. Wynik
oglny w tecie czsto traktuje si jako wstpny szacunek tej zdolnoci.
Krzywe opisujce pozycje testowe wykrela si na podstawie matematycznie wyprowadzonych funkcji, a nie na podstawie danych
empirycznych wykorzystywanych do wykrelania krzywych regresji
pozycji wzgldem testu. W rnych modelach IRT wykorzystuje si
rne funkcje matematyczne, oparte na odmiennych zbiorach zaoe.
W niektrych modelach s to funkcje skumulowanego rozkadu normalnego (ogiwy); w innych stosuje si funkcje logistyczne, ktre wykorzystuj pewne wygodne z matematycznego punktu widzenia waciwoci zalenoci logarytmicznych. Oglnie rzecz biorc, rezultaty
otrzymywane przy stosowaniu rnych modeli s w znacznym stopniu
podobne, pod warunkiem, e w konkretnych sytuacjach spenione s
ich zaoenia. Na rysunku 7-6 przedstawiono ICC dla trzech hipotetycznych pozycji. Na osi poziomej mamy skal zdolnoci 18), szacowanych
na podstawie oglnego wyniku w tecie i innych doslpnych informacji, dotyczcych odpowiedzi testowych uzyskanych w konkretnej prbie. Na osi pionowej mamy przedstawione P, (6). prawdopodobiestwo
poprawnej odpowiedzi na pytanie i. jako funkcj pozycji zajmowanej
przez dan osob na skali zdolnoci (6). To prawdopodobiestwo
pochodzi z danych informujcych o proporcji osb o rnym poziomie
zdolnoci, ktre na dane pytanie odpowiedziay zgodnie z kluczem.
W penym trjparametrycznym modelu kada ICC opisywana Jest
przez trzy parametry wywiedzione matematycznte z danych
empirycznych. Parametr mocy dyskryminacyjnej pozycji (a,) wskazuje
nachylenie krzywej. Jest on odwrotnie proporcjonalny do odlegoci,
jak trzeba przeby wzdu kontinuum zdolnoci (6), aby zwikszy P,
(9). Im wysza warto a,, tym bardziej stroma jest krzywa. Na rysunku
7-6. warto a,, czyli moc dyskryminacyjna, Jest taka sama dla pyta
1 1 2; pytanie 3 ma nisze a,, poniewa Jego krzywa wznosi si wolniej.
Parametr trudnoci pozycji (b,) odpowiada takiemu miejscu na osi zdolnoci, w ktrym prawdopodobiestwo poprawnej odpowiedzi. P^G),
wynosi 0,50. Jak wida, pytania 2 i 3 maj takie samo b,. podczas gdy
pytanie 1 jest atwiejsze, poniewa do tego, by prawdopodobiestwo
poprawnej odpowiedzi wynioso 0.50. wystarczy niszy poziom zdolnoci. Modele IRT przeznaczone do analizy pozycji z wieloma
odpowiedziami do wyboru czsto zawieraj Jeszcze trzeci parametr, tak

2 5 6

ZAGARWIENIA

PSYCH0MTRV(..'.NK

1,00
0,90
0.80

Pytanie

0.70

0,60
0.50

- t o .

-ste

0.40
0,30

t>,

D2

Skala zdolnoci. (U)

Rysunek 7 - 6 .

Hipotetyczne krzywe opisujce trzy pozycje testowe.

zwany parametr zgadywania (c,).4 Odzwierciedla on prawdopodobiestwo przypadkowego pojawienia si poprawnej odpowiedzi. Dla pyta z
wieloma moliwociami do wyboru prawdopodobiestwo udzielenia
poprawnej odpowiedzi nawet przez badanego o bardzo niskim poziomie
zdolnoci jest wysze ni zero. Ilustruje to pytanie 3 na rysunku 7-6, dla
ktrego najniszy punkt asymptoty wypada znacznie powyej zera.
Szacowanie obu parametrw pozycji oraz zdolnoci zwykle odbywa si
przy uyciu metody iteracji czyli kolejnych przyblie; przyblienia s
powtarzane tak dugo, a wartoci ustabilizuj si. Techniki IRT nic lylko
dostarczaj matematycznie wyrafinowanych wskanikw trudnoci i
mocy dyskryminacyjnej pozycji, ale przynosz take szereg innych
korzyci. Wan cech tego sposobu podejcia jest traktowanie rzetelnoci i bdu pomiaru z punktu widzenia funkcji opisujcych pozycje.
Dane obliczane s dla kadej pozycji i stanowi solidn podstaw ich
wyboru przy konstruowaniu testu. Funkcja opisujca pozycje uwzgld-

Niektrzy badacze zalecali, by c, nazywano po prostu n a j n l s z j w punktem


asymptoty lub losowym parametrem ICC. poniewa trjparameiryczne modele
traktuj c, Jako niezalene od zdolnoci, cho zgadywanie j e s l funkcj zdolnoci.

Analiza pozycji

testowych

257

nla wszystkie parametry i pokazuje efektywno pozycji przy rnych


poziomach zdolnoci.
Najbardziej znany wkad, jaki modele IRT wniosy do analizy pozycji,
dotyczy niezalenej od prby natury uzyskiwanych rezultatw, co
fachowo opisywane jest jako niezmienno parametrw pozycji Jest to
podstawowe pojcie teorii IRT. ktre zakada, e parametry pozycji
powinny pozosta niezmienne, gdy obliczane s dla grup rnicych si
poziomem zdolnoci. Oznacza to. e mona opracowa jednolit skal
pomiaru do uytku w rnych gi u pach. Oznacza to te. c tak grupy, jak
Jednostki mona bada przy pomocy rnych zbiorw pozycji, odpowiednich do poziomu zdolnoci, a ich wyniki bd bezporednio porwnywalne. Wynik kadej osoby w tecie jest zaleny nie tylko od liczby pyta,
na ktre odpowiedziaa poprawnie, ale take od ustalonego wczeniej
poziomu ich trudnoci.
Jeli testem ma si bada wiele rnych prb, to mona wykorzysta
du pul pozycji, czyli bank pozycji, ktre uprzednio wykalibrowano na
duej prbie losowej. Gdy zakres zdolnoci jest bardzo szeroki, jak to ma
miejsce w przypadku serii testw osigni przeznaczonych dla dzieci od
najmodszych do najstarszych klas, konieczne jest zastosowanie wsplnych pozycji (okrelanych jako pozycje bazowe, powizane lub kalibracyjne) po to, by utworzy powizania midzy grupami. Gdy pozycje w puli
zostan ju wykalibrowane, to wobec grupy czy jednostki mona
stosowa dowolny podzbir pozycji i otrzymane wyniki bd porwnywalne.
Inne modele IRT.
W poprzedniej czci rozdziau omawialimy model
Irjparametryczny. Modele dwuparametryczne, w ktrych pomija si
parametr przypadkowej odpowiedzi (c(). s odpowiednie wtedy, gdy
wpyw zgadywania na wyniki w tecie mona uzna za nieistotny. Model
jcdnoparametryczny. oparty tylko na trudnoci (b,) zbioru pozycji, zosta
opracowany przez Rascha (1966: patrz le: Andersen, 1983); niektrzy
badacze s gorcymi zwolennikami tego modelu (np. Wright. 1977:
Wright i Stone, 1979). Jesl on oparty na zaoeniu, e zarwno zgadywanie, jak i zrnicowanie pozycji pod wzgldem Ich mocy dyskryminacyjnej. nie maj wikszego znaczenia. Rzecznicy modelu Rascha czsto
odrzucaj przy konstruowaniu testw te pozycje, ktre nie speniaj
powyszych zaoe. Dowodzi si te. e modele IRT s cakiem mocne"
w sensie statystycznym, majc na myli to, e w obrbie pewnych granic
mona pogwaci rne zaoenia i nie znieksztaci to rezultatw.
Oczywicie jest lo kwesti empirycznej weryfikacji.
Rozwaane do tej pory modele zakadaj jednowymiamwo testu;
przyjmuje si wic. e odpowiedzi na pytania mona przypisa pojedynczej cesze. Zaoenie o jednowymiarowoci jest zwykle w wystarczajcym stopniu spenione, jeli wyniki w tecie zale od jednej dominujcej cechy, choby nawet w mniejszym stopniu wpyway na nie inne

258

ZAGADNIENIA PSYCHOMETRYCZN;

cechy. Opracowano te bardziej oglne modele, ktre mona stosowa


wobec wielowymiarowych testw, ale procedury obliczeniowe s tu
bardziej pracochonne! Jeszcze inne warianty, ktre stworzono, miay
suy do analizy odpowiedzi stopniowanych (a nie dychotomicznych,
czyli kwalifikownych na dwie grupy. np. jako dobre" lub ze")
(Samejima. 1969) lub do analizowania rnych opcji w pytaniach z wieloma odpowiedziami do wyboru (Bock. 1972).
A k t u a l n y status. Zalety rnych modeli IRT s cigic szeroko dyskutowane. Matematycznie wyprowadzone wartoci wymagaj jeszeze wielu
weryfikacji i to nic tylko przy uyciu sztucznych danych i komputerowych symulacji, ale take z wykorzystaniem danych wzitych z ycia.
Zwaszcza niezmienno parametrw pozycji wymaga szerokich bada w
realnych sytuacjach. Na przykad te same zadania mog angaowa
rne zespoy zdolnoci, jeli s rozwizywane przez osoby o odmiennych
dowiadczeniach lub przez t sam osob, ale na rnych etapach procesu uczenia si. Dla danych IRT istnieje ju mnstwo rnych
programw komputerowych (patrz np.: Hambleton, 1989, sir. 171-172);
programy te s jednak cigle zmieniane - dokonywane s ich kolejne
modyfikacje i oceny, a starsze wersje zastpowane s nowymi.5
Cho pojawiaj si coraz to nowe rozwizania teoretyczne i metodologiczne. procedury IRT s coraz czciej stosowane w praktyce konstruowania testw. Techniki IRT wcza si do nowo konstruowanych
testw oraz do zrewidowanych wyda szeroko stosowanych baterii
testw opracowanych przez komercyjnych wydawcw. Przykadem mog
by Kalifornijskie Testy Osigni (California Achieuement Tests). Oglny
Test Umiejtnoci Podstawowych (Comprehensiue Test oj Basic Skills). a
take Skale Zrnicowanych Zdolnoci (Difjerenlial Ability Scales) opisane
w rozdziale 8. IRT nadaje si zwaszcza do pewnych nowych rodzajw
bada testowych, takich jak adaptacyjne testowanie komputerowe (computerized adaptiue testing - CAT), omwione w rozdziale 10. W badaniach lego rodzaju kady moe rozwizywa inny zestaw zada, ale wyniki oblicza si dla wszystkich na jednolitej skali (Wainer i in., 1990). IRT
znajduje obecnie zastosowanie w dugofalowymi projekcie dotyczcym
stworzenia komputerowej i przeznaczonej do adaptacyjnego testowania
wersji Baterii Uzdolnie Zawodowych Sub Zbrojnych [Armed Seruices
Yocalional Aptilude Battery) (Wiskoff i Schratz, 1989).

Znakomitym aktualnym przykadem jesl program ASCAL do dwu- I trMparametrycznego logistycznego skalowania IRT, rozprowadzany przez Assessment
Systems Corporation (adres w Aneksie B). Na uwag zasuguje te opracowana
ostatnio zgeneralizowana liniowa ilem response theory (GLIRT). z ktrej mona
wywie rne modele IRT I ktr mona przystosowa do rnie zbudowanych
J
no7Vn iMpll^rhfrK \ClQ/il

Analiza pozycji testowych

259

ANALIZA POZYCJI W TESTACH S Z Y B K O C I


Bez wzgldu na lo. czy szybko jest istotna dla mierzonej funkcji, czy
le nie, wskaniki obliczone dla pozycji w testach szybkoci mog by
mylce Bd one odzwierciedla raczej miejsce -zajmowane przez dan
pozycj w tecie, anieli jej trudno czy moc dyskryminacyjn, oczywicie Jeli pomin pozycje, z ktrymi mieli czas si zmierzy wszyscy lub
prawie wszyscy badani. Zadania, klre pojawiaj si pod koniec testu,
rozwizuje stosunkowo may procent osb z caej prby, poniewa tylko
nielicznym wystarcza czasu, by do nich doj. Bez wzgldu na to, jak
atwe moe by dane zadanie, jeli pojawia si pod koniec lestu szybkoci, okae si trudne. Nawet zadanie wymagajce od badanego tylko
podania swego nazwiska, mogoby zosta poprawnie rozwizane przez
niewiele osb. gdyby znajdowao si pod koniec testu szybkoci.
Dla zada, z ktrymi nie wszyscy badani zdyli si zmierzy, podobnie zawyone s wskaniki mocy dyskryminacyjnej. Bardziej sprawne
osoby na ogl pracuj szybciej, wic to raczej one dochodz do ostatnich
zada w tecie szybkoci. Z tego powodu, jeli pozycja pojawia si pod
koniec testu, to bez wzgldu na jej natur, bdzie korelowa z kryterium.
Aby unikn niektrych z tych problemw, mona byoby przy analizie
kadej pozycji ograniczy si do danych dotyczcych tylko tych osb,
ktre do tej pozycji doszy. Nie jest to jednak w peni zadowalajce
rozwizanie, chyba e liczba osb. ktre nie prboway rozwizywa
danego zadania, jest mala. Przy takim sposobie postpowania liczba
przypadkw branych pod uwag w analizie gwatownie kurczyaby si, co
z kolei powodowaoby, e wyniki dotyczce kocowych pozycji byyby
nierzetelne Co wicej, osoby, ktrych wyniki byyby podstaw analizy
kocowych pozycji, prawdopodobnie stanowiyby wyselekcjonowan
grup, nieporwnywaln z wikszymi prbami wykorzystywanymi przy
analizie pozycji pocztkowych. Jak bya ju o lym mowa. ci. ktrzy
pracuj szybciej, na og s te bardziej sprawni. Podstaw analizy kocowych pozycji byyby wic wyniki prby zoonej z osb lepszych w tecie. Jednym ze skutkw dziaania takiego czynnika selekcyjnego byoby
pozorne obnienie poziomu trudnoci kocowych pozycji, poniewa procent osb poprawnie Je rozwizujcych byby wyszy w wyselekcjonowanej, lepszej grupie, ni w caej prbie. Naley zauway, e jest
to przeciwny bd ni ten. ktry pojawia si. gdy procent osb poprawnie
rozwizujcych zadanie oblicza si na podstawie wynikw caej prby. W
takim przypadku widoczna trudno pozycji Jest sztucznie zawyana.
Wpyw przedstawionego wyej sposobu postpowania na wskaniki
mocy dyskryminacyjnej jest mniej oczywisty, niemniej jednak rwnie
zachodzi. Obserwuje si na przykad, e niektre osoby uzyskujce
niskie wyniki wykonuj cay tesl w popiechu, wybierajc odpowiedzi
niemal losowo, poniewa w ramach danego limilu czasu staraj si

260

ZAGADNIENIA PSYCHOMETRYCZN;

zmierzy ze wszystkimi zadaniami. Tak tendencj duo rzadziej spotyka si wrd osb uzyskujcych wysokie wyniki w tecie. W rezultacie
mona oczekiwa, e prba stanowica podslaw analizy ktrej z kocowych pozycli bdzie si skadaa z pewnej liczby bardzo sabych osb,
ktre udzieliy tu zupenie przypadkowych odpowiedzi, i duej liczby
bardzo dobrych i szybko pracujcych osb. ktre udzieliy odpowiedzi
poprawnych. W takiej grupie korelacja midzy pozycj a kryterium prawdopodobnie bdzie wysza mz W bardziej reprezentatywnej prbie.
Z drugiej za strony, jeli nie dysponujemy prb losow, to grupa, na
ktrej analizowane s kocowe pozycje, obejmuje stosunkowo wski
zakres zdolnoci. W takiej sytuacji wskaniki mocy dyskryminacyjnej
kocowych pozycji bd nisze ni byyby wtedy, gdyby oblicza je dla
caej niewyselckcjonowanej prby.
Przewidywany wpyw szybkoci na wskaniki trudnoci i mocy
dyskryminacyjnej weryfikowano empirycznie, zarwno obliczajc
wskaniki dla wszystkich pozycji na podstaw wynikw caej prby
(Wesman, 1949), jak 1 posugujc si w odniesieniu do kadej pozycji
tylko wynikami tych osb, ktre prboway j rozwizywa (Mollenkopf,
1950a). W tym drugim badaniu porwnywalne grupy uczniw szkl red
nich otrzymay dwie wersje testu werbalnego i dwie wersje testu
matematycznego. Obie wersje zawieray te same zadania, z tym e zadania pocztkowe z jednej wersji znajdoway si na kocu w wersji drugiej.
Kad wersj stosowano z krtkim limitem czasu (jako test szybkoci) i
z bardzo liberalnym limitem czasu (jako test mocy). Moliwe byy wic
rnorodne porwnania uwzgldniajce wersje testu i limity czasu.
Uzyskane wyniki bezspornie dowiody, e miejsce danej pozycji w tecie
szybkoci wpywa na jej wskaniki trudnoci i mocy dyskryminacyjnej.
Jeli zadanie wystpuje pod koniec testu szybkoci, to wikszy procent
osb. ktre si z nim zmierzyy, rozwizuje je poprawnie i wyej koreluje
ono z kryterium ni to samo zadanie znajdujce si na pocztku takiego
testu.
Trudnoci napotykane w -zwizku z analiz pozycji testw szybkoci s
w istocie podobne do problemw omawianych w rozdziale 4, w zwrizku
z rzetelnoci testw szybkoci. Opracowano rne rozwizania, tak
statystyczne, jak i empiryczne, ktre maj pomc w przezwycieniu tych
trudnoci. Jedno z takich empirycznych rozwiza polega na lym, e
grup, na ktrej ma by przeprowadzana analiza pozycji, bada si testem
z zastosowaniem dugiego limilu czasu. To rozwizanie jesl dobre pod
warunkiem, e szybko nic jest wanym aspektem zdolnoci, ktr ma
mierzy test. Niezalenie od technicznych problemw stwarzanych przez
konkretne lesty. dobrze jest pamita o lym. e dane suce analizie
pozycji uzyskiwane dla testw szybkoci s niezbyt pewne i wymagaj
wnikliwego przygldania si im.

Analiza pozycji testowych

261

KRZYOWE BADANIE TRAFNOCI


Znaczenie walidacji krzyowej.
Jest rzecz Istotn, aby trafno
testu byia sprawdzana na innej prbie osb ni ta. ktrej wyniki
stanowiiy podstaw selekcji pozycji. To niezalene okrelanie trafnoci
caego lestu znane Jest Jako walidacja krzyowa. Kady wspczynnik
trafnoci szacowany na podstawie wynikw lej samej prby, ktrej wyniki suyy do selekcji pozycji, bdzie zawyony na skutek wpywu
losowych bdw doboru tej konkretnej prby. W takim przypadku
mona rzeczywicie uzyska wysoki wspczynnik trafnoci, nawet jeli
test w ogle nie jest trafny w zakresie przewidywania okrelonego kryterium.
Zamy, e ze sluosobowej prby studentw medycyny wybrano 30
studentw z najwyszymi 1 30 studentw z najniszymi ocenami w
nauce; bd oni stanowi dwie kontrastowe grupy kryterialne. Jeli teraz
porwna si te dwie grupy pod wzgldem pewnej liczby cech nie
majcych w rzeczywistoci istotnego znaczenia dla sukcesu w studiach
medycznych, to niewtpliwie stwierdzi si pewne przypadkowe rnice.
Na przykad w grupie studentw z najwyszymi wynikami moe by
wyjtkowo duo osb rudych oraz absolwentw szk prywatnych. Jeli
mielibymy ustali wynik kadej osoby przypisujc jej jeden punkt za
ukoczenie szkoy prywatnej i jeden punkt za rude wosy, to niewtpliwie rednia takich wynikw bdzie w grnej grupie kryterialnej wysza
ni w dolnej. Jednak nic jest to dowd trafnoci predyktora. poniewa
tego rodzaju walidacja opiera si na rozumowaniu, ktre ma charakter
bdnego kola. Dwa predyktory wybrano tu przede wszyslkim na podstawie przypadkowych rnic, ktre charakteryzoway t konkretn
prb. I te same przypadkowe rnice spowoduj zrnicowanie rednich
wynikw oglnych. Gdyby jednak zbada inn prb, to przypadkowe
rnice w czstoci bycia absolwentem szkoy prywatnej i posiadania
rudych wosw zapewne zniknyby lub miay odwrotny kierunek.
W konsekwencji trafno wynikw spadaby.

Przykad empiryczny. Klasycznego dowodu na istnienie potrzeby


walidacji krzyowej dostarcza stare badanie przeprowadzone z uyciem
testu plam atramentowych Rorschacha (Kurtz. 1948). Prbujc sprawdzi. czy tesl Rorschacha mgby by uyteczny w selekcji dyrektorw
handlowych agencji ubezpieczeniowych prowadzcych ubezpieczenia na
ycie, przebadano nim 80 takich dyrektorw. Spord kilku setek
zatrudnionych przez osiem towarzystw ubezpieczeniowych wybrano ich
w taki sposb, c grn grup kryterialn stanowio 42 dyrektorw, z
ktrych pracodawcy byli bardzo zadowoleni, a w dolnej grupie kryterialnej znalazo si 38. z ktrych pracodawcy nie byli zadowoleni. Eksperci

262

ZAGADNIENIA PSYCHOMETRYCZN;

od testu Rorschacha przeanalizowali 80 protokow testowych l wybrali


zestaw 32 sygnatur, czyli waciwoci odpowiedzi, ktre pojawiay si
czciej w jednej grupie kryterialnej ni w drugiej Sygnaturom, ktre
czciej wystpoway w grnej grupie kryterialnej, przypisywano ocen
+1, jeli wystpiy w wypowiedzi, i 0. Jeli nie wystpiy: sygnaturom
typowym dla dolnej grupy przypisywano -1 lub 0. Poniewa dla grnej
grupy charakterystycznych byo 16 sygnatur i tyle samo dla dolnej,
wyniki oglne mogy przyjmowa wartoci od -16 do +16.
Klucz oparty na tych 32 sygnaturach ponownie zastosowano do pierwotnej grupy 80 osb i 79 z nich zostao poprawnie zaklasyfikowanych
jako nalece do grnej lub do dolnej grupy. Korelacja midzy wynikiem
w tecie a kryterium bya wic bliska 1.00. Jednake gdy test ten poddano walidacji krzyowej na innej, porwnywalnej grupie 41 dyrektorw,
z ktrych 21 znajdowao si w grnej grupie, a 20 w dolnej, to
wspczynnik trafnoci spad do nieistotnej wartoci 0,02. Okazao si
wic. e klucz opracowany na podstawie rezultatw pierwszej prby byl
nietrafnym narzdziem selekcji takiego personelu.
P r z y k a d z d a n y m i l o s o w y m i . To. e wykorzystanie tej samej prby
do selekcji pozycji i do badania trafnoci moe prowadzi do cakowicie
faszywych wspczynnikw korelacji tylko i wycznie dziki czysto przypadkowym okolicznociom, wykazao klasyczne Ju badanie przeprowadzone przez Curetona (1950). Kryterium, ktre przewidywano, to przecitna ocena uzyskana przez kadego z 29 studentw zapisanych na
kurs psychologii. Kryterium to podzielono na dwie kategorie: oceny B i
lepsze oraz oceny nisze ni B. Na .pozycje testowe" skadao si 85
karteczek ponumerowanych po jednej stronie od 1 do 85. Wynik lestowy
dla kadego studenta otrzymywano w ten sposb, c najpierw potrzsano
pojemnikiem zawierajcym te 85 karteczek, a nastpnie oprniano go
nad stoem. Wszystkie karteczki, ktre spady numerowan stron do
gry zapisywano na koncie danego studenta i traktowano jako wykonane
przez niego zadania testowe. Cakowity wynik kadego studenta
pochodzi z 29 rzutw tymi 85 karteczkami i odzwierciedla wykonanie
lub niewykonanie kadego zadania". Biorc pod uwag procedur
dochodzenia do tych losowych wynikw, Cureton artobliwie nazwa ten
test ..B-Projekcyjnym Testem Psychoktnezy".
Nastpnie przeprowadzono analiz pozycji, a kryterium stanowia
przecitna ocena kadego studenta. Na podstawie wynikw tej analizy
spord 85 pozycji" wybrano 24 Dziewi z nich czciej wykonywali
studenci, ktrzy mieli przecitn ocen B lub wysz, i tym pozycjom
przypisano wag +1; 15 pozycji czciej wykonywali studenci majcy
ocen nisz ni B 1 tym pozycjom przypisano wag -1. Oglnym
wynikiem kadego studenta bya suma wag dla tych wanie pozycji
Mimo e wiadome byo, i te wyniki testowe" s czysto przypadkowe to

Analiza pozycji testowych

263

w pierwotnej grupie 29 studentw, korelacja wyniku oglnego z ocen


stanowic kiyterium wyniosa 0,82. Jest to wynik podobny do tego.
ktry uzyskano w omwionych wczeniej badaniach przy uyciu testu
Rorschacha, W obu przypadkach pozorna zgodno midzy wynikiem
testowym a kiyterium wynikaa z wykorzystania tych samych przypadkowych rnic zarwno przy selekcji pozycji. Jak i przy okrelaniu
trafnoci oglnych wynikw w tecie.
Okolicznoci

wpywajce

na

obnianie

si"

trafnoci.

To.

ile

zmniejszy si wspczynnik trafnoci przy walidacji krzyowej, czciowo


zaley od rozmiaru pierwotnej puli pozycji i od proporcji pozycji, ktre
pozostay. Sytuacja, w ktrej pocztkowa pula pozycji jest dua, a proporcja utrzymanych pozycji maa. sprzyja dziaaniu przypadkowych
rnic i uzyskaniu wskutek tego zawyonego wspczynnika trafnoci.
Inn okolicznoci wpywajc na lo. o ile zmniejszy si wspczynnik
trafnoci przy walidacji krzyowej, jest rozmiar prby. Poniewa pozornie
wysoka trafno w pocztkowej prbie wynika z nagromadzenia si
bdw zwizanych z doborem, to w mniejszych grupach, w ktrych
wiksze s bdy zwizane z doborem, obnienie trafnoci bdzie wiksze.
Jeli pozycje dobiera si na podstawie wczeniej sformuowanych
hipotez wynikajcych z teorii psychologicznej lub z empirii. spadek
trafnoci przy walidacji krzyowej bdzie mniejszy. Na przykad, jeli
hipoteza zakada, e odpowied Tak" bdzie czciej wystpowa wrd
dobrych uczniw, to dana pozycja nie zoslanie utrzymana w tecie, gdy
istotnie wicej odpowiedzi Tak" udziel sabi uczniowie. W przeciwiestwie do tego, lepe trzymanie si empirycznego sposobu podejcia
polega na gromadzeniu rnorodnych pyta bez zwracania specjalnej
uwagi na Ich zwizek z zachowaniem kryterialnym. a nastpnie
pozostawianiu wszystkich tych, ktre pozytywnie lub negatywnie, ale
istotnie, koreluj z kryterium. Przy takim sposobie postpowania mona
oczekiwa wikszego spadku trafnoci ni postpujc w sposb opisany
wczeniej. Rnice w obnieniu trafnoci, ktre faktycznie wystpuj,
gdy pozycje wybiera si przy zastosowaniu strategii racjonalnej lub
empirycznej, wykazali T.W. Mitchell i Klimoski (1986). Podsumowujc,
obnienie trafnoci testu przy walidacji krzyowej jest najwiksze, jeli
prby s mae. pocztkowa pula pozycji jest dua, proporcja pozycji
pozostawionych w tecie Jest maa, a pozycje zostay zebrane bez
wczeniej sformuowanego uzasadnienia.

264

ZAGADNIENIA PSYCMOMBTRYCZNE

ZJAWISKO RNEGO FUNKCJONOWANIA POZYCJI


P r o c e d u r y s t a t y s t y c z n e . Coraz wicej uwagi powica si analizie
stronniczoci pozycji" jako jednemu z aspektw stronniczoci lestu
wobec grup mniejszociowych. Taka analiza koncentruje si zasadniczo
wok kwestii wzgldnej trudnoci poszczeglnych pozycji testowych dla
grup wywodzcych si z odmiennych warunkw rodowiskowych lub
kulturowych. W terminologii psychometrycznej ta dziedzina analizy
pozycji znana jest jako zjawisko ronego funkcjonowania pozycji [differential iem Jimclioning - DIF) Chodzi tu o wskazanie pozycji, dla
ktrych rone jesl prawdopodobiestwo uzyskania sukcesu przez osoby
rwnie zdolne, ale pochodzce z odmiennych grup kulturowych.
Jednakowe zdolnoci oznaczaj w lym przypadku rwno zc wzgldu na
konstrukl. ktry tesl ma mierzy, lub zachowanie krytenalnc. klre lesl
ma przewidywa. Opracowano wiele metod sucych identyfikowaniu
pozycji rnie funkcjonujcych i s wrd tych mclod zarwno procedury
statystyczne, jak i procedury oparte na sdziowaniu (Berk. 1982; Camilli
1 Shepard. 1994; Hambleton i Rogers. 1989 : P.W.Holland i Thayer, 1988;
P.W.Holland i Warner. 1993; Osterlind, 1983; C.R.Reynolds i Brown,
1984).
Gwny problem polega na tym, c rnice w trudnoci pozycji istniejce midzy grupami demograficznymi (lub innymi grupami o odmiennych dowiadczeniach) s cile zwizane ze rednimi rnicami w
poziomie wykonania teslu jako caoci, co znajduje odbicie w rednich
wynikach oglnych. W konsekwencji jest wielce prawdopodobne, e
pozycje, ktre maj dobr moc dyskryminacyjn z punktu widzenia
wyniku oglnego, zostan uznane za stronnicze" i nastpnie odrzucone.
W celu kontroli rnic w wyniku oglnym stosuje si szereg procedur.
Do najbardziej obiecujcych naley technika oparta na item response
theory (IRT). Tego rodzaju procedury s odpowiednie szczeglnie w
takich przypadkach, gdy mamy do czynienia z duymi prbami. Jak ju
bya o tym wczeniej mowa. krzywe opisujce pozycj teslow (ICC)
wskazuj dla kadego zadania prawdopodobiestwo poprawnej
odpowiedzi w relacji do skali zdolnoci mierzonych testem (rysunek 7-6)
Porwnujc ICC dla tych samych pozycji w dowolnych dwch grupach,
moemy okreli, klre pozycje wyranie inaczej funkcjonuj w
zalenoci od wyraonych na jednolitej skali oglnych wynikw
uzyskanych w tecie przez te grupy. Takie porwnanie dla dwch pozycji mona zobaczy na rysunku 7-7. Jak wida, ICC s dla pytania nr 1
zupenie niepodobne w grupach A i B, a dla pytania nr 2 - bardzo podobne. Dla kadej pozycji mona okreli zakres badanej zdolnoci, w obrbie ktrego mamy do czynienia z efektem rnego funkcjonowania pozycji (DIP), wykorzystujc w lym celu obszar zawarty midzy dwoma tego
rodzaju ICC. Gdy okrelone s Ju pozycje, ktre rnie zachowuj si"
w -zalenoci od poziomu zdolnoci, to bez wzgldu na to. jak procedur

Analiza pozycji

testowych 263

zastosowano w lym cclu. nastpny krok polega na zbadaniu natury i


rda tych rnic. Wyniki takich analiz okrelaj dalsze losy pozycji.
W lym celu moe by potrzebne zastosowanie procedur opartych na
sdziowaniu, najlepiej cznie z dalsz analiz statystyczn.
Procedury

oparte

na

sdziowaniu.

Nie

istnieje

jedna,

.najlepsza

metoda" analizy stronniczoci pozycji, ktra nadawaaby si do wszystkich celw. Kada pozwala uzyska nieco innego rodzaju informacje i z
tego powodu podane jesl stosowanie kombinacji rnych metod. To.
jaka kombinacja jest odpowiednia, zaley od przewidywanych zastosowa lesiu oraz od rodzaju wnioskw, jakie bd formuowane na
podstawie jego wynikw. Zazwyczaj najlepszym poczeniem jest zastosowanie pewnych procedur statystycznych 1 pewnych procedur opartych na sdziowaniu.
Procedury oparte na sdziowaniu, jeli s we waciwy sposb
stosowane, mog dostarczy uytecznych informacji, ktrych nie da si
uzyska w inny sposb (Scheuneman. 1982; Titte, 1982). S one
odpowiednie zwaszcza na pocztkowych i kocowych etapach konstruowania lesiu, jeli poprzedzaj analizy statystyczne oraz nastpuj
po nich. Zwykle wykorzystuje si je na pocztku procesu opracowywania
testu, by odsia treci, ktre mog by obraliwe lub poniajce dla grup
mniejszociowych, bd te takie, ktre powielaj stereotypy zwizane z
rolami zawodowymi i innymi rolami spoecznymi. W tym celu wikszo
wydawcw lesiw regularnie zleca swym pracownikom lub reprezentujcym rne grupy konsultantom z zewntrz dokonywanie wstpnych
przegldw pozycji (Berk, 1982. rozdz. 9). Przegldy takie pomagaj te
wyapa treci, ktre mog mie kulturowo ograniczony zasig, a co za
tym idzie, mog by obce dla poszczeglnych populacji badanych testem.
Naley jednak zwrci uwag, e przegldy dokonywane przez sdziw
zazwyczaj nie s trafn melod przewidywania wzgldnej trudnoci lub
mocy dyskryminacyjnej pozycji dla rnych populacji (Plake, 1980;
Sandoval i Miillc, 1980; Scheuneman, 1982). Do tego niezbdne s analizy statystyczne empirycznych rezultatw.
Nie mona jednak powiedzie, e wszystkie pozycje, ktre wykazuj
jakie ujawniane przez analizy statystyczne odchylenia, s stronnicze.
Uzyskane w wyniku analiz statystycznych rezultaty powinno si interpretowa w wietle ponownej - i lo innego ni wczeniej rodzaju - analizy pozycji opartej na sdziowaniu. Analiza ta dotyczy moliwych rde
odchylenia. Stwierdzone w rezultacie analiz statystycznych odstajce
dane zazwyczaj nic ujawniaj adnej wsplnej cechy ani adnego oczywistego powodu odchylenia; kad pozycj naley przeanalizowa oddzielnie. Niektre odstajce obserwacje mog po proslu odzwierciedla
artefakty statystyczne wynikajce z zastosowania jakiej konkretnej procedury. W Innych przypadkach odchylenia nioea wvnika z wpywu

266

ZAGADNIENIA PSYCHOMETRYCZNE

1
i 1.0
|
0.9
3
0,8
0,7

Pytanie nr 1

0.6
0.5
0.4
0.3

Grupa B

Grupa A

0.2;
DIF

o.i r
0.0

S k a l a Z d o l n o c i (8)

1.0

Pytanie nr 2

0.9
0,8

0,7
0.6

Grupa 6

0.5

./ *

0,4
Grupa A

0.3
0.2
0.1
0.0
3

-2

-1

S k a l a Z d o l n o c i (II)
(.,;/. ^---.-ij

Ryjunek 7-7, Krzywe opisujce pozycje testowe (ICC) ilustrujce zjawisko


rnego funkcjonowania pozycji (DIF) w duym I maym stopniu.
( W y k r e s o p r a c o w a n y na podstawie: Pashiey.

1992)

ktrego spord wielu czynnikw majcych rne implikacje dla interpretacji testu. Odpowiednia ocena takich pozycji wymaga znajomoci
zarwno dziedziny treciowej, ktrej dotyczy test, jak le rnic w
dowiadczeniach badanych nim populacji.

Analiza pozycji testowych

287

Odchylenie moe te by spowodowane tym. e dana pozycja nie


mierzy tego samego konstruktu w rnych grupach. Na przykad zadania dotyczce analogii mog w jednej grupie mierzy rozumowanie werbalne. a w innej - znajomo stw. poniewa zawieraj siowa, ktre s
nieznane wielu czonkom jakiej grupy mniejszociowej. Podobnie zadania arytmetyczne mog w Jednej grupie mierzy zdolnoci matematyczne,
a w innej zdolno rozumienia zoonych sformuowa werbalnych
W tych dwch przykadach wiedza, ktrej brakowao niektrym
badanym, nie bya istotna dla konstruktu mierzonego przez test jako
cao. Przypumy jednak, e zadania matematyczne, w ktrych s
uamki dziesitne, okazuj si stosunkowo trudniejsze dla czonkw
jakiej grupy. Tym razem jest to istotne dla mierzonego konstruktu,
ktrym s zdolnoci matematyczne. A zatem zadania tego ostatniego
rodzaju, mimo i te wykazuj odchylenia, nie s pozycjami stronniczymi w przyjtym tu znaczeniu tego terminu.
Jeli pozycje, ktre wykazuj jakie odchylenie, identyfikuje si za
pomoc metod statystycznych, to rdo odchylenia mona czciowo
wyjani stosujc dalsze procedury statystyczne, takie jak analiza
bdnych wyborw w zadaniach z wieloma odpowiedziami. Te dodatkowe
analizy, w poczeniu z przegldami dokonywanymi przez sdziw,
powinny stworzy podstawy do podjcia stosownych dziaa.
Odchylajc si pozycj mona usun, poprawi w caoci lub zmieni
w tej czci, ktra wykazuje jakie usterki; mona rozszerzy instrukcj
lub wyjani w niej pewne kwestie; mona te pozostawi pierwotn
pozycj po ponownym jej rozpatrzeniu w wietle zaoe testu Analiza
pozycji moe nawet sugerowa konieczno ponownego rozwaenia
samych zaoe testu. Moe to prowadzi albo do ich zmiany, albo do
wyklarowania pogldu na temat tego, jakie konkretne wnioski mona
formuowa na podstawie wynikw testowych.
Gony

przypadek

niewaciwego

utycia

DIF.

Sprawa

sdowa,

ktrej prawdopodobnie po raz pierwszy wykorzystano analiz pozycji do


oceny stronniczoci testu, uzyskaa znaczny rozgos. Staa si szeroko
znana jako przypadek Golden Rule". poniewa chodzio w niej o zastosowanie egzaminw licencyjnych przy przyjmowaniu pracownikw do
towarzystwa ubezpieczeniowego noszcego tak nazw. Do oglnego
pomieszania poj w tej sprawie prawdopodobnie przyczynio si
podobiestwo nazwy towarzystwa 6 do potocznego znaczenia tych dwch
sw. Ostateczne rozstrzygnicie sprawy oparto na porwnaniu samego
tylko procentu osb odpowiadajcych zgodnie z kluczem na poszczeglne
pozycje, a nie podjto adnej prby, by wyrwna porwnywane grupy
pod wzgldem zdolnoci, ktr test mia mierzy, ani nie przeanalizowano trafnoci pozycji z punktu widzenia zamierzonego zastosowania
6

Golden Rule - zota regua (przvp. dum j

268

ZfCADNtENIA PSYCHOMETRY!:

lestu. Decyzja bya jawnym pogwaceniem zasad zwizanych z pojciem


rnie f u n k c j o n u j c y c h "pozycji l moga spowodowa wyeliminowanie
tych wanie pozycji, ktre byy najlepszymi predyklorami funkcjonowania zawodowego.
Ze wzgldu na to. e decyzja w sprawie Golden Rule" zrodzia wicie
nieporozumie i moga stanowi precedens w zakresie wykorzystania
testw w praktyce edukacyjnej i zawodowej bd w rozumowaniu, ktry
tam si pojawi, analizowano krytycznie z kilku punktw widzenia
(np. Lim i Drasgow. 1990): oficjalne stanowisko zajo w lej kwestii
Amerykaskie Towarzystwo Psychologiczne7. Decyzja ta bya takie
przedmiotem sympozjum na corocznym zjedzie APA, a wikszo przedstawionych lam referatw opublikowano nastpnie w specjalnym wydaniu czasopisma Educational and Psychological Measuremenl: Issues and
Practices (Bond. 1987; Faggen. 1987; Unn i Drasgow. 1987). Analiza lego
cieszcego si zl saw przypadku zwraca uwag na moliwe zagroenia
wystpujce wtedy, gdy przy prbach oceny stronniczoci testu" stosuje si powierzchowne i niekompletne wskaniki.

BADANIA NAD KONSTRUOWANIEM POZYCJI


W lalach 80. i 90. nastpi bardzo szybki wzrost wykorzystania komputerw. ktry w poczeniu z postpem w zakresie psychologii poznawczej
pobudzi! szerokie badania nad innowacyjnymi sposobami podejcia do
tworzenia pozycji. Tradycyjnie konstruowanie pozycji jest raczej czym w
rodzaju sztuki ni nauki. Nawet w najlepszym przypadku ci, klrzy
ukadaj pozycje, dostaj instrukcje okrelajce niewiele wicej ni ich
form i zakres treci. Powszechna jest nadal praktyka przeprowadzania
bada pilotaowych w celu okrelenia stopnia trudnoci oraz mocy
dyskryminacyjnej pozycji. Czy jest jaki sposb pozwalajcy przewidzie
le waciwoci pozycji lylko na podstawie analizy fizycznych lub semantycznych wtaciwoci wykorzystywanych w nich bodcw, zanim
przeprowadzi si badania? Lub jeszcze lepiej, czy mona od razu lak konstruowa zadania, by miay podan trudno i moc dyskryminacyjn?
Czy drog systematycznej manipulacji waciwociami bodca mona z
gry ustali wymagania poznawcze zada osiowych? Te wanie problemy s przedmiotem toczcych si bada, w ktrych wykorzystuje si
zarwno procedury eksperymentalne, jaic i matematyczne (Bejar. 1985.

stanowisko, klre opracowaa komisja do spraw testw psychologicznych i


diagnozy Amerykaskiego Towarzystwa Psychologicznego (APA Committee on
Psycholog,cal Tests and Assessmem). zaaprobowa zarzd A P A [APA Boards) ora?
rada p r z e d s t a w i O l j (Counci! o/ftepreseritotiues)

Analiza pozycji testowych

269

1991; Carrll. 1987; Embretson, 1985a. 1985b. 1991, 1994. 1995:


Freedle, 1990).
Poznawcze wymagania stawiane przez bodce testowe mona bada za
pomoc technik dekompozycji zadania opracowanych w ramach psychologii poznawczej. Procedury te pozwalaj analizowa zalenoci
midzy rnymi waciwociami pozycji a szybkoci wykonania i liczb
bdw. Szereg tego rodza|u bada przeprowadzono w odniesieniu do
zada przestrzennych (Embretson, 1994; Pcllegrino. Mumaw i Shute.
1985). Na przykad bodce prezentowane w tecie analogii przestrzennych mona poklasyfikowa ze wzgldu na: (1) zoono, czyli liczb
oddzielnych elementw, ktre naley zidentyfikowa (np. ksztat, rozmiar, pozycja), i (2) przeksztacenia, czyli liczb sposobw, na jakie
zmieniany jesl bodziec w obrbie ocenianej pary. W niektrych rodzajach
zada przestrzennych wymagajcych od osoby badanej wyboru czci,
klre naley poczy, aby otrzyma okrelon cao, czci mog by
tylko oddzielone od siebie, przemieszczone, zrotowane albo zmienione w
sposb stanowicy poczenie tych moliwoci.
Inne badania dotycz semantycznych waciwoci bodcw werbalnych. Na przykad w testach rozumowania werbalnego mona konstruowa zadania zgodnie ze znanymi zasadami logiki (Colberg. 1985;
Colberg, Nester i Trattncr. 1985; Scheuneman, Geritz i Embretson,
1991; K. Sheehan i Mislevy. 1989; Shye. 1988). Takie procedury gwarantuj. e tylko jedna z odpowiedzi do wyboru jest rzeczywicie poprawna,
oraz e rne relacje logiczne s reprezentowane w puli pozycji w
ustalonej z gry proporcji. Procedura ta umoliwia te manipulowanie
logiczn zoonoci pozycji; zaleno midzy zoonoci a poziomem
trudnoci mona nastpnie bada empirycznie. Niektrzy badacze
eksperymentowali z konstruowaniem serii zoonych z liter i przeznaczonych do badania rozumowania indukcyjnego (Butterfield i in.. 1985).
Najpierw opracowano szczegowy zbir zasad konstruowania takich
serii literowych. Nastpnie sformuowano hipotezy na temat tego, co
ludzie robi, by zrozumie seri. Hipotezy testowano badajc
empirycznie trudno zada polegajcych na uzupenianiu serii.
Najnowsze podejcie do procesu konstruowania zada przedstawia
Embretson (1994). Proces ten zaczyna si od zdefiniowania konstruktw,
ktre maj by przedmiotem oceny, po czym nastpuje projektowanie
poznawczego modelu dla lestu. Szczegowe waciwoci tego modelu
poznawczego stanowi dokumentacj bdc podstaw pisania zada.
Kolejnym krokiem jest empiryczna walidacja zada, majca na celu
sprawdzenie, jak dobrze pasuj one do modelu poznawczego, gdy Jest
stosowany w praktyce. Ca t procedur ilustruje opracowanie Testu
Zdolnoci Uczenia si Przestrzennego [Spalial Learning Ability Test), k t r y
mierzy nie tylko pocztkowe zdolnoci przestrzenne, ale take moliwo
ich modyfikacji w nastpstwie \wstanriary7.niv?ingo wiczenia

270

ZAGADNIENIA PSYCHOMETRYCZNE

Badania powicone przewidywaniu trudnoci pozycji na podstawie


fizycznych i semantycznych waciwoci bodcw nie tylko uatwiaj
osobom ukadajcym zadania tworzenie dobrych testw, ale take mog
prowadzi do konstruowania zada przez komputery. Mona opracowa
programy komputerowe zawierajce szczegowe instrukcje tworzenia
pozycji (zob. np. Butterfield i in.. 1985: Embretson. 1994). Bez wlpicnia
potencjalne zalety tych wci rozwijajcych si procedur konstruowania
testw s imponujce. Trzeba jednak pamita, by nie oczekiwa zbyt
wiele od jakiego jednego sposobu podejcia. Na przykad jest cakiem
prawdopodobne, e test moe dokadnie i skutecznie mierzy jakie
wyranie okrelone konstrukty poznawcze, a mimo lo nie mie wysokiej
trafnoci prognostycznej w odniesieniu do pewnych wanych praktycznych zastosowa. Z tego wzgldu wane jest uwzgldnianie obu aspektw trafnoci teoretycznej, ktre Embretson (1983) nazywa reprezentacj
konstruktu i przestrzeni nomotetyczn. Dekompozycja zadania dostarcza informacji na lemat reprezentacji konstruktu; przestrze nomotetyczn wymaga badania zalenoci wynikw testowych od sieci innych,
zewntrznych zmiennych, wczajc w to miary kryterialne. Druga prze
stroga przed nadmiern generalizacj dotyczy kwestii wiedzy na lemat
treci istotnych dla przedmiotu badania, bowiem znajomo tych treci
umoliwia skuteczne poruszanie si w danym obszarze tematycznym lub
w dziedzinie ekspertyzy. Procesy s czsto zwizane z treci; nie mona
ich z powodzeniem ocenia w oderwaniu od odpowricdnich treci.
Podsumowujc, omawiane w tym rozdziale nowatorskie procedury,
jeli s stosowane wc waciwy sposb, mog istotnie pomc w systematycznym i kontrolowanym tworzeniu pozycji testowych. Dziki temu,
e identyfikuj konstrukty mierzone przez test. mog te znacznie wzbogaci zrozumienie powodw, dla ktrych poszczeglne testy pozwalaj
przewidywa poziom wykonania w sytuacjach kryterialnych. Jest to
wane w przypadku zastosowania lestw do celw diagnostycznych, jeli
rda silnych i sabych stron funkcjonowania jednostki mona powiza
z konkretnymi procesami poznawczymi. Praktyczne wdroenie takiego
podejcia wymaga dalszych bada powieconych pozostaym
nierozwizanym problemom (zob. np. Wainer, 1993a). Obecnie prowadzone s liczne badania dotyczce tworzenia zada pozwalajcych na
okrelenie, jakie procesy poznawcze bior udzia w ich rozwizywaniu
przez poszczeglne osoby badane (WiUson, 1994). Analiza rodzajw
bdw popenianych przez badanych stanowi obiecujcy krok w tym
kierunku (Kullkowich i Alexandcr, 1994).

Testy indywidualne

czci drugiej bya mowa o gwnych zasadach, na ktrych opieraj


H ^ | s i testy psychologiczne. Jestemy teraz gotowi do zastosowania tych
^ ^ ^ ^ ^ F z a s a d przy ocenie konkretnych testw. Wiemy ju, jakie stawia w
^ ^ ^ ^ o d n i e s i c n i u do nich pytania i gdzie szuka odpowiedzi. Podrczniki
testowe oraz roczniki Mental Measurements Yearbooks stanowi
najwaniejsze rda informacji o omawianych tu testach.1
Cele dalszych czci ksiki s dwojakie. Pierwszym z nich jest
stworzenie okazji do przeledzenia. Jak zasady bada testowych zostay
zastosowane w rnego typu testach. Cel drugi stanowi zapoznanie
czytelnika z kilkoma znamienitymi testami reprezentujcymi kad z
gwnych dziedzin bada. W odniesieniu do adnej dziedziny me
bdziemy si stara o dokonanie obszernego przegldu dostpnych
testw. Przegld taki wykraczaby poza zakres lej ksiki. Co wicej,
staby si prawdopodobnie nieaktualny jeszcze przed opublikowaniem, z
uwagi na szybkie tempo pojawiania si nowych testw lub ich rewizji.
. Z tych wzgldw skoncentrujemy si na kilku reprezentatywnych testach
w zakresie kadej kategorii, wybranych z uwagi na szeroko ich
rozpowszechnienia lub to, e ilustruj jakie istotne udoskonalenia
dokonywane w zakresie procedury bada. W czci trzeciej zajmiemy si
Innym uytecznym rdem informacji jesl dziesi tomw wydawnictwa
seryjnego Tesl Cnliques (Keyser i Sweelland. 1984-1994). w ktrym mona
znale przegld setek testw.
272

T e s t y indywidualne

273

testami zdolnoci, w czci czwartej - testami osobowoci, a w czci


pitej zastosowaniami bada testowych w rnych kontekstach.
Wszystkie dane o omawianych tu testach, wyjwszy przypadki, w
ktiych wyranie wskazano, c jest inaczej, pochodz z podrcznikw
testowych lub technicznych dodatkw dostarczanych przez wydawcw.
Czytelnicy, ktrzy chcieliby sami dokonywa analizy poszczeglnych
testw, mog skorzysta z zaproponowanego schematu oceny przedstawionego gdzie indziej (Urbina, 1997). Bardziej szczegowych
wskazwek na ten temat dostarczaj Stundardy dla testw (AERA, APA.
NCME, 1985).
Typy lestw, tradycyjnie nazywanych .testami inteligencji", omwione
w tym i nastpnym rozdziale pochodz bezporednio od skal Bineta. S
one przeznaczone do stosowania w bardzo rnego rodzaju sytuacjach, a
ich trafno sprawdzano przy uyciu stosunkowo szerokich kryteriw
(patrz Alken, 1996) Charakterystyczne Jest dla nich to, e dostarczaj
pojedynczego wyniku globalnego, takiego Jak klasyczny iloraz
inteligencji, jako wskanika oglnego poziomu funkcjonowania osoby
badanej. Zwykle pozwalaj te uzyskiwa wyniki podtestw. czy grup
podtestw. oceniajcych wziej zdefiniowane uzdolnienia. Poniewa
trafno wielu testw inteligencji sprawdzano przyjmujc za kryterium
osignicia w szkole, czsto nazywa si jc testami uzdolnie szkolnych
lub inteligencji akademickiej. Testy inteligencji powszechnie wykorzystuje si jako narzdzia do wstpnego przesiewu, poprzedzajce testy uzdolnie specjalnych. Taka praktyka szczeglnie czsto ma miejsce przy
badaniu osb normalnych - modziey i dorosych - dla celw doradztwa
szkolnego i zawodowego czy selekcji zawodowej i im podobnych. Innym
powszechnym zastosowaniem testw inteligencji jest ich uycie w badaniach klinicznych, zwaszcza przy rozpoznawaniu i klasyfikowaniu osb
upoledzonych umysowo. Do celw klinicznych na og stosuje si testy
przeprowadzane
indywidualnie.
Wrd
indywidualnych
testw
inteligencji (w odrnieniu od grupowych) najpowszechniej uywanymi
s omwione w tym rozdziale Stanfordzka Skala Bineta (Stanford-Binet) i
skale Wechslera. Poniewa Stanfordzka Skala Bineta jest pierwszym
przedstawianym w lej ksice testem, omwiono j peniej ni inne.
Mlalo to stanowi wstpn ilustracj, pokazujc, jakiego rodzaju informacje naley bra pod uwag przy ocenie testu. Naley jednak podkreli, c podanych tu omwie poszczeglnych testw nie mona traktowa jako penych ich opisw, takich jak znajdujce si w rdach w
rodzaju Mental Measurements Yearbooks. Dla celw niniejszej ksiki na
ogl zwracamy uwag zwaszcza na wkad, jaki wnosz poszczeglne
testy do bada testowych, oraz na cechy rnice je midzy sob. 2
Doskonay przegld tematw omawianych w czci trzeciej tej ksiki mona
znale w omie Contemporary intellectual assessment, ktrego redaktorami s
Flanagari, Genshaft 1 Harrison (1996).
2

STANFORDZKA SKALA INTELIGENCJI BINETA


Ewolucja skal. Oryginalne skale Bineta-Simona. wydane we Francji w
latach 1905. 1908 i 1911. opisano ju pokrtce w rozdziale 2.
Przypomnijmy, e spord kilku przekadw i adaptacji wczesnych
testw Bineta. klre pojawiy si w Stanach Zjednoczonych, najywotniejsza okazaa si Stanfordzka Skala Bineta.3 Pierwsza stanfordzka
rewizja skal Bineta-Simona. przygotowana przez Termana i jego
wsppracownikw na Uniwesylecie Stanforda, zostaa opublikowana w
roku 1916 (Terman, 1916). W rewizji tej wprowadzono tak wiele zmian i
uzupenie, e stanowia ona w gruncie rzeczy nowy lesl. Ponad jedna
trzecia pozycji bya nowa. wiele starych zmieniono, przeniesiono na Inne
poziomy wieku lub 'wykluczono. Cala skala zostaa ponownie wystandaryzowana na prbie amerykaskiej, obejmujcej okoo 1000 dzieci
i 400 osb dorosych. Opracowano szczegowe instrukcje dotyczce
przeprowadzania testu i oceniania odpowiedzi i po raz pierwszy wykorzystano Iloraz inteligencji (IQ). nie stosowany jeszcze dotd w adnym w
tecie psychologicznym. Druga rewizja, ktra ukazaa si w roku 1937,
miaa dwie rwnowane formy - L i M (Terman i Merrill. 1937). W tej
nowej wersji skala bya znowu znacznie rozszerzona i zostaa w caoci
ponownie wystandaryzowana na innej prbie. Jednake mimo usilnych
stara, by obj badaniami przekrj populacji, w badanej prbie, liczcej
3184 osb, poziom spoleczno-ekonomiczny by nieco wyszy ni w caej
populacji i znajdowao si w niej wicej osb pochodzcych z miasta:
obejmowaa przy tym lylko biaych.
Trzecia rewizja, opublikowana w roku 1960, miaa tylko jedn form
(L-M). zoon z najlepszych pozycji pochodzcych z form z roku 1937
(Terman i Merrill, 1960). Przygotowujc t wersj z 1960 roku, autorzy
stanli w obliczu typowego w badaniach testowych dylematu. Z jednej
strony, czste rewizje narzdzi s podane, bo pozwalaj wykorzysta
nowe

rozwizania

techniczne

zakresie

konstrukcji

lestw

oraz

dowiadczenia nagromadzone w toku stosowania danego testu, a take


utrzymywa aktualno jego treci. To ostatnie jest szczeglnie wane w
przypadku testw wiadomoci 1 zada wykorzystujcych materia
obrazkowy, ktry moe traci aktualno wskutek zmian fasonw ubra
czy wygldu samochodw, sprztw gospodarstwa domowego i innych
przedmiotw codziennego uytku. Stosowanie przestarzaego materiau
testowego moe powanie pogarsza kontakt z osob badan i zmienia
trudno zada. Z drugiej strony, rewizja sprawia, e wiele nagromadzonych wczeniej danych nie ma ju zastosowania do nowej wersji.
Testy powszechnie uywane przez wiele lat dostarczaj bogatego materiau Interpretacyjnego, naley wic zastanowi si, w jakim stopniu jego
Szczegowe omwienia skal Bineta-Simona oraz rozwoju, zastosowa i klinlrariej interpretacji Stanjordzkiej Skali Bineta mona znale u Salllera (1982.
3

Testy

indywidualne

275

warto stanowi przeciwwag dla potrzeby rewizji. Z tych wzgldw


autorzy Stanfordzkiej Skali Bineta zdecydowali si na skomasowanie dwu
wczeniejszych form w Jedn, wybierajc tym samym poredni drog
midzy alternatywnym ryzykiem: dezaktualizacji lub utraty cigoci.
Rezygnacja z wersji rwnolegych nie stanowia zbyt wysokiej ceny
osignicia tego cclu. W roku 1960 posiadanie alternatywnej formy testu
nie byo ju tak potrzebne, jak w roku 1937, gdy nie Istniay jeszcze
adne inne dobrze skonstruowane indywidualne skale inteligencji. Prace
nad wersj z roku 1960 nte obejmoway ponownej normalizacji. Nowe
prby osb badanych wykorzystano tylko w celu okrelenia zmian, jakim
w midzyczasie ulega trudno pozycji W konsekwencji, wiek umysowy
i ilorazy inteligencji w Formie L-M z 1960 roku byy nadal okrelane w
odniesieniu do prby normalizacyjnej z roku 1937.
Nastpnym krokiem bya resiandaryzacja Formy L-M dokonana w
roku 1972 (Terman 1 Merrill, 1973). Tre testu pozostaa wwczas
waciwie bez zmian, natomiast opracowano normy na nowej prbie,
obejmujcej okoo 2100 osb, badanych w trakcie roku szkolnego
1971/1972. W porwnaniu z normami z 1937 roku, te oparte byy na
bardziej reprezentatywnej prbie i uaktualnione, przez co odzwierciedliy
wszelkie efekty zmian kulturowych wpywajcych na wykonanie testu.
Warto zauway, e te pniejsze normy wykazay wyrany wzrost
wynikw testowych na wszystkich poziomach wieku. Szczeglnie
znaczny okaza si on w wieku przedszkolnym, wynoszc przecitnie 10
punktw ilerazu. Autorzy, wyjaniajc t popraw, wskazywali - wrd
innych zmian kulturowych - na wpyw wywierany na mae dzieci przez
rodki masowego przekazu, a take na upowszechnienie si wrd rodzicw umiejtnoci czytania i pisania oraz wzrost ich poziomu
wyksztacenia. Mniejszy, ale wyranie dostrzegalny by przyrost wynikw
w wieku 15 lat 1 wyej, co - zgodnie z sugesti autorw - mogo si
wiza z lym, e w latach 70. znacznie wicej uczniw kontynuowao
nauk w szkoach rednich ni miao to miejsce w latach 30 R.L.
Thorndike (1977) zajmowa si pniej, w badaniach poprzecznych i
podunych, tymi zmianami w zakresie norm. wnoszc o dziaaniu
innych Jeszcze czynnikw, takich jak wprowadzenie do TV specjalnych
programw edukacyjnych przeznaczonych do stymulowania rozwoju
intelektualnego dzieci w wieku przedszkolnym.
Podnoszenie si norm testowych w latach 70. w porwnaniu z latami
30. czy 40. stwierdzono rwnie w przypadku innych testw mierzcych
oglny poziom intelektualny (Flynn, 1984. 1987). Wanym dla uytkownikw testw wnioskiem wynikajcym z tych wynikw Jest to. e Jednostki lub grupy badane najpierw wczeniejsz, a potem pniejsz form
ujawni spadek zdolnoci, poniewa w tym drugim przypadku ich
funkcjonowanie ocenia si w odniesieniu do wyszego standardu.
Interpretujc wyniki, badajcy musi by wiadom moliwoci
wystpienia tego artefaktu.

276

TESTY ZDOLNOCI

Czwarte wydanie Stanfordzkiej

Skali Bineta

(SB-Wj;

opis

oglny.

Aktualne wydanie tej cieszcej si uznaniem skali (Standard-Blnet


Intelligence Scal - Fourth Edaion; SB-1V] stanowi jej najdalej idc
rewizj (Delaney i Hopkins. 1987: Thorndike. Hagcn i Saltlcr. 1986a,
I986b) Zachowujc gwne zalety wczeniejszych wersji. Jako indywidu
alnie stosowane narzdzie o charakterze klinicznym, ta zrewidowana
wersja staa si zarazem odzwierciedleniem postpu, jaki si w midzyczasie dokona zarwno w zakresie teorii intelektu, jak i w dziedzinie
metod konstruowania lestw. Cigo z wczeniejszymi wersjami
zostaa podtrzymana po czci za spraw pozostawienia wielu wystpujcych w nich typw zada. Jeszcze jednak waniejsze byo
zachowanie gitkiej procedury badania, dziki ktrej kady badany
dostaje tylko te zadania, ktrych trudno odpowiada ujawnianemu
przez niego poziomowi funkcjonowania.
Jednoczenie - w porwnaniu z wersjami wczeniejszymi, skoncentrowanymi gwnie na aspektach werbalnych - znacznie rozszerzono
uwzgldniane treci, dodajc wicej pozycji reprezentujcych zadania
liczbowe, przestrzenne i wymagajce pamici krtkotrwaej. Ponadto
kady typ zada wykorzystany jest w moliwie jak najszerszym zakresie,
co nadaje wiksz porwnywalno ocenom dokonywanym na rnych
poziomach wieku. W obecnej swojej wersji narzdzie przeznaczone jest
dla badanych w wieku od lal 2 do dorosoci.
Przeprowadzanie badania i ocena odpowiedzi.

Standardowe mate-

riay potrzebne do badania przedstawia rysunek 8-1. Skadaj si na nie


gwnie: cztery ksieczki oprawione w sposb pozwalajcy na szybkie
odwracanie kart. na ktrych przedstawione s zadania testowe; pomoce
testowe, takie jak klocki, wkadanka, rnice si barw i ksztatem
koraliki oraz duy obrazek przedstawiajcy lalk o nieokrelonej pci i
rasie: zeszyt do rejestrowania i oceniania odpowiedzi przez badajcego
oraz instrukcja dotyczca sposobu przeprowadzania badania i obliczania
wynikw.
Podobnie jak wikszo indywidualnych testw inteligencji.
Sian/ordzka Skala Bineta wymaga odpowiedniego przygotowania osoby
badajcej Do przeprowadzania badania, oceny odpowiedzi i interpretacji
wynikw potrzebne s specjalne wyszkolenie i dowiadczenie. Aby
badanie przebiegao gadko, trzeba dobrze zna skal i mle wpraw
Niezdecydowanie i niezdarno mog szkodzi kontaktowi z badanym,
zwaszcza gdy jest on osob mod. Drobne pomyki zmieniajce
instrukcje sowne mog modyfikowa trudno zada. Kolejne utrudnienie wynika std. c odpowiedzi musz by oceniane na bieco, w trakcie badania, poniewa dalszy Jego przebieg zaley od tego. jak badany
wykonuje wczeniejsze prby.
Z cisem klinicyci zaczli traktowa Stanfordzk Skul Bineta 1 mne
do niej podobne indywidualne, skale inteligencji nie lylko jako standary-

Testy indywidualne

Rysunek

8-1.

Materiay testowe stosowane przy badaniu

277

Stcmfordzk Skal

Bineta: czwarte wydanie.


(Copyright @ 1986 by the Riuerside Publishing Companyl

zowane testy, leez take jako narzdzia kliniczne. Te same waciwoci,


ktre czyni te skale trudnymi do przeprowadzania, zarazem umoliwiaj
interakcj midzy badanym a badajcym i dostarczaj dowiadczonemu
klinicycie dodatkowych informacji. Stanfordzka Skala Bineta i inne
testy opisane w tym rozdziale pozwalaj na obserwowanie metod pracy
badanego, Jego podejcia do rozwizywania problemw i innych jakociowych aspektw funkcjonowania. Badajcy moe te mie sposobno
dokonania oceny pewnych cech emocjonalnych i motywacyjnych, takich
jak zdolno koncentracji, poziom aktywnoci, pewno siebie i wytrwao. Oczywicie naley jasno zdawa sobie spraw z tego, e wszelkie
dokonywane przy badaniu indywidualnymi skalami obserwacje jakociowe maj taki wanie status, i nie powinny by interpretowane w ten
sam sposb, jak obiektywne wyniki testu. Warto tych obserwacji zaley
gwnie od umiejtnoci, wprawy i dowiadczenia psychologicznego
osoby badajcej, jak te od dostrzegania przez ni puapek i ogranicze
nieodcznych od korzystania z tego typu danych
W odrnieniu od wczeniejszych wersji, w ktrych zadania byy
pogrupowane wedug poziomw wieku, w SB-IV pozycje kadego typu s

278

TESTY ZDOLNOCI

Wiek

e 10

11

12 13 14 15

16

17

18-J

1 Rozumowanie werbalne
| Rozumienie
Niedorzecznoci
| Relacje werbalne

Rozumowanie ((ociowe
Sene liczbowe
C.
Rozumowanie abstrakcyjne
na materiale wzrokowym
Analizawzorow ...
Matryce
Skadanie i przecinanie

P3P'em

1 7

Pami krotkolrwas
Pami wzoru z ko-alikow.

Pami liczb

1 i
Ann--,'.Rysunek

1 1

iwutt* r t ' .>

8 - 2 . Zakres wieku obejmowany prze/, pitnacie l e s i w Staii/ordzkiej

Skali Bineta: czwarte wydanie. Wyjanienie dotyczce szarych pl: W badaniach


standaryzacyjnych testy przeznaczone dla ograniczonych z a k r e s w wieku
dawano w niektrych przypadkach osobom w wieku w y k r a c z a j c y m poza te
granice - starszym Jub modszym: dziao si lak z uwagi na w y j t k o w o niski lub
wysoki poziom, jaki wykazywali ci badani w innych teslach. Ich wyniki w y k o rzystano do opracowania szacunkowych norm dla penych prb. u m i e s z c z a j c je
w tabelach norm; zalecana jest j e d n a k szczeglna ostrono przy ich uywaniu.
Szczegy - patrz: Thorndike I In.. 1986a. str. 7 oraz T h o r n d i k e i in.. 1986b, str.
30.

The Stanforrl Binet Intelligence Scal: Founh Edition. Guide Jor


admmistenng and scoring. str. 7. Copyright 0 1986 by the Riuerside Publishing Company)

(Opracowane na podstawie:

wczone, w kolejnoci zalenej od stopnia trudnoci, do odrbnych


testw. Skala zawiera 15 lesiw, wybranych tak, by reprezentoway
cztery gwne sfery funkcjonowania poznawczego: rozumowanie werbalne, rozumowanie abstrakcyjne na materiale wzrokowym, rozumowanie ilociowe i pami krtkotrwa (patrz rys. 8-2). Cho testy s
do celw oceny pogrupowane na te cztery kategorie, wchodzce w skad

Testy indywidualne

279

tych testw zadania przeprowadza si naprzemiennie, by utrzyma zainteresowanie i uwag badanego. Zakres trudnoci szeciu testw rozciga
si na wszystkie poziomy wieku; pozostae dziewi testw, ze wzgldu
na charakter zawartych w nich zada, pojawia si pniej lub wczeniej
znika, co mona zobaczy na rysunku 8-2.
Przeprowadzanie badania omawian wersj skali obejmuje dwa etapy.
W pierwszym badajcy przeprowadza test Sownik (Vucubulary), ktry
suy do wybrania poziomu wyjciowego dla pozostaych testw. Miejsce,
od ktrego rozpoczyna si test Sownik, zaley wycznie od wieku
chronologicznego osoby badanej. Dla wszystkich pozostaych testw
poziom wyjciowy ustala si biorc pod uwag zarwno wiek chronologiczny. jak i wynik Sownika. W drugim etapie badania okrela si dla
kadego testu poziom podstawowy i poziom kocowy [puap), w
zalenoci od wynikw osoby badanej. Poziom podstawowy osiga si
wwczas, gdy badany radzi sobie z czterema zadaniami na kadym z dwu
kolejnych poziomw. Jeli nie dzieje si to na poziomie wyjciowym,
przeprowadza si testy z coraz to wczeniejszych poziomw, a do
znalezienia poziomu podstawowego. Puap osiga si wtedy, gdy badany
na dwu kolejnych poziuirach nie wykonuje trzech lub czterech zada.
W tym momencie koczy si badanie danej osoby.
Przeprowadzajc kade zadanie, badajcy rejestruje wyniki w przeznaczonym do tego celu zeszycie. Surowy wynik kadego testu znajduje
si odejmujc od numeru ostatniego przeprowadzonego zadania liczb
tych. ktre zakoczyy si niepowodzeniem badanego. W jedenastu
spord pitnastu testw znajduj si te zadania przykadowe; su
one zaznajomieniu osoby badanej z danym testem i nie s uwzgldniane
przy obliczaniu wynikw. W wikszoci testw kade zadanie ma tylko
jed.. dobr odpowied, dnstepn badajcemu do wgldu w instrukcji i
ZkSty.le d ; rejestrowania wy-iikow Kade zadanie ocenia si jako wykonane iub niewykonane, zrodnit z okrelonymi standardami.
W piciu testach odp.'iedz! 'adanego maj charakter swobodny, wobec
czego przy ich ocenie trzeba korzysta ze szczegowych wskazwek
zawartych w instrukcji.4 S te w niej wymienione pewne odpowiedzi
niejednoznaczne, ktre wymagaj zadawania przez badajcego
dodatkowych pyta.
Chocia cala skala obejmuje 15 testw, aden badany nie wykonuje
wszystkich, poniewa niektre przeznaczone s tylko dla pewnych
poziomw wieku. Na og kompletne badanie uwzgldnia od 8 do 13
testw, w zalenoci od wieku osoby badanej i poziomu wykonania ujawnianego przez ni w tecie. czny czas badania zwykle mieci si w
granicach od 30 do 90 minut, ale przy mniejszym dowiadczeniu
badajcego bdzie prawdopodobnie duszy. Skal przeprowadza si na
4 Tych

pi testw to: Sownik. Rozwnieme. Niedorzecznoci, Odwzorowywanie i


Relacje Werbalne

280

TESTY ZDOLNO

og w trakcie jednej sesji, z ewentualn piciominutow przerw midzy


testami. W przypadku niekttych celw badania moliwe jest stosowanie
baterii skrconych, zgodnie z sugestiami przedstawionymi w instrukcji;
badanie trwa wwczas krcej i koncentruje si na testach najlepiej
odpowiadajcych okrelonemu celowi. Jeden z proponowanych rodzajw
baterii skrconych, przeznaczonych do cclw oglnych, obejmuje 6
testw; drugi rodzaj to baterie zoone z 4 testw, przeznaczone do szybkich bada przesiewowych. W obu przypadkach kada z czterech
gwnych sfer poznawczych uwzgldnionych w skali reprezentowana jest
przez co najmniej Jeden tesl. Proponuje si te trzy baterie, przeznaczone
dla trzech poziomw wieku, do kwalifikowania uczniw, ktrzy maj by
objci programami dla wybitnie uzdolnionych, i trzy baterie, rwnie
odpowiadajce rnym poziomom wieku, dla uczniw wykazujcych
trudnoci w nauce szkolnej. We wszystkich skrconych bateriach stosuje si standardowe procedury ustalania poziomu wyjciowego, przeprowadzania badania i oceniania wynikw. Wiele wtpliwoci powstajcych
w odniesieniu do procedury badania za pomoc SB-IV rnego typu osb
wyjania podrcznik dla badajcego (Delaney i Hopkins. 1987).
Standaryzacja i n o r m y . Prba standaryzacyjna obejmowaa nieco
ponad 5000 osb w wieku od 2 do 23 lat. badanych w 47 stanach
(wczajc Alask i Hawaje) i dystrykcie Columbia. Bya to prba warstwowa. o skadzie cile odzwierciedlajcym dane ze spisu ludnoci USA
z roku 1980 z uwagi na region geograficzny, miejsce zamieszkania
(wielko miejscowoci), grup etniczn i ple. Ponadto okrelono poziom
spoleczno-ekonomiczny. oceniony na podstawie zawodu rodzicw i
poziomu ich wyksztacenia. Okazao si. e osoby z warstw wyszych s
w prbie reprezentowane nadmiernie, a osoby z warstw niszych niedostatecznie. Niezgodnoci te skorygowano przy normalizowaniu
wynikw, odpowiednio wac czstoci ich wystpowania. Tak wic
kad osob pochodzc ze rodowiska o wyszym statusie spoecznoekonomicznym liczono jako mniej ni jeden przypadek, podczas gdy
kada osoba ze rodowiska o statusie niszym liczona bya jako wicej
ni jeden przypadek.
Tabel norm uywa si do przeksztacania wynikw surowych kadego
z 15 testw w wyniki standaryzowane relatywnie do wieku (Standard Age
Scores - SAS) 5 S one wyraone w jednostkach skali, opracowanej dla
poszczeglnych poziomw wieku, ze redni rwn 50 i odchyleniem
standardowym wynoszcym 8. Tablice norm sporzdzone s dla wieku
-> Tabele podane s w instrukcji do skali (Thorndike i in., 1986a. str. 183-188)
Niektre wartoci SAS, ustalone na prbach mniejszych nlz 100 osb estymowano w odniesieniu do caej prby (w danym wieku); w tabelach s one
odpowiednio oznakowane (zacienione). Wyniki takie pojawiaj sie. gdy badany w
testach przeznaczonych dla Jego poziomu wieku radzi sobie szczeglnie dobrze
lub szczeglnie zle (Thorndike i in.. 1986b str 29-30)

Testy

indywidualne

281

2-5 lal co 4 mlcslce, dla wieku 6-10 lat - co sze miesicy, a dla wieku
11-17 lat - co 1 rok; dla wieku od 18 do 23 lat przeznaczona jest tylko
Jedna, czna tabela norm. W zeszycie do rejestrowania wynikw znajduje si diagram pozwalajcy na wykrelenie prodlu wynikw standaryzowanych uzyskanych przez badanego w kadym tecie.
Mona te obliczy czne wyniki standaryzowane dla caej skali i dla
kadej z czterech uwzgldnionych w niej sfer funkcjonowania poznawczego. Te wyniki czne odczytuje si w odpowiednich tabelach norm na
podstawie sum standaryzowanych wynikw pojedynczych testw. czne
wyniki standaryzowane ujmowane s na skali ze redni 100 i odchyleniem standardowym wynoszcym 16. Tak wic s one wyraane w takich
samych Jednostkach. Jak
dewiacyjne
ilorazy
inteligencji
we
wczeniejszych wersjach Stanfordzkiej Skali Bineta. Zrezygnowano Jednak teraz cakowicie z uywania terminu _IQ". Dla specjalnych celw
badajcy moe le znale wyniki standaryzowane dla interesujcej go
sumy wynikw cznych dwu lub wicej sfer (.sumy czstkowe"). Na
przykad
poczenie
Rozumowania
Werbalnego
i
Rozumowania
Ilociowego odpowiada uzdolnieniu szkolnemu" i moe by szczeglnie
interesujce w zwizku z ocen osigni szkolnych lub gotowoci szkolnej.
Rzetelno.
Poniewa czwarte wydanie Stanfordzkiej Skali Bineta nie
ma wersji rwnolegej, rzetelno mona byo ocenia tylko na podstawie
zgodnoci wewntrznej i metod powtarzania testu. W wikszoci anali2
posugiwano si metod Kudera-Richardsona, stosujc j do danych
dotyczcych caej prby standaryzacyjnej. Jak mona tego byo oczekiwa. na wszystkich poziomach wieku najwysze byy wskaniki rzetelnoci wyniku cznego caej baterii, wynoszce od 0.95 do 0,99. Rwnie
wysoka okazaa si rzetelno wynikw dotyczcych poszczeglnych sfer,
Zaleaa ona od liczby testw reprezentujcych dan sfer, ale
ksztatowaa si w granicach od 0,80 do 0.97. W przypadku pojedynczych lestw wikszo wspczynnikw rzetelnoci przewyszaa
0.80, ale nie sigaa wartoci 0.90; wyjtek stanowi krtki, zoony z 14
pozycji test Pami Przedmiotw (Memory for Objecls). dla ktrego
uzyskano wspczynniki rzetelnoci zawierajce si w przedziale 0.660,78. Wszystkie wspczynniki rzetelnoci byy, oglnie rzecz biorc,
nieco wysze w starszych grupach wieku ni w modszych.
Dodatkowe dane na temat rzetelnoci szacowanej metod powtarzania
testu uzyskano ponownie badajc 57 dzieci picioletnich i 55 omioletnich po przerwie wynoszcej od 2 do 8 miesicy. Oglnie rzecz biorc,
stao wyniku cznego okazaa si dua - wspczynniki rzetelnoci
wyniosy 0.91 i 0,90. Rzetelno wynikw dotyczcych rozumowania
werbalnego osigaa lub przekraczaa warto 0.80, natomiast w przypadku pozostaych sfer oraz pojedynczych testw wspczynniki byy
bardzo zrnicowane. Wyniki te s trudne do interpretacji, ze wzgldu na

282

TESTY ZDOLNOCI

moliwy wpyw ograniczonoci zakresu niektrych testw oraz efektw


nabywania wprawy, ktre mogy si istotnie rni u rnych osb.
Zarwno w instrukcji, jak i w podrczniku do Skali obok wspczynnikw rzetelnoci podane s dla poszczeglnych poziomw wieku bdy
standardowe pomiaru (SEM) dla kadego teslu i kadej sfery oraz dla
wyniku cznego. S one potrzebne do oceny wynikw indywidualnych 1
interpretacji rnic intraindywidualnych w analizie profilowej. Dla
wyniku cznego (M = 100. SD = 16) bdy standardowe pomiaru wynosz ok. 2-3 punktw. Jeli wic przyjmiemy przecitn warto bdu,
wynoszc 2,5, bdzie to znaczyo, e z prawdopodobiestwem 2:1
prawdziwy" wynik osoby badanej rni si od wyniku przez ni
uzyskanego nie wicej ni o 2.5 punktu: natomiast jest 95 szans na 100,
e rnica ta nie jest wiksza ni 5 punktw (2.5 x 1,96 = 4.90).
Podrcznik dla badajcego (Delancy i Hopkins. 1987) zawiera dane.
ktre mog stanowi podbudow przy interpretacji, pozwalajc na
tworzenie I sprawdzanie hipotez opartych na uzyskanych w badaniu
wynikach ilociowych i obserwacjach jakociowych Analiza ilociowa
opiera si na modelu, jaki proponowali wczeniej F.B. Davis (1959).
Kaufman (1979, 1994) i inni w odniesieniu do skal Wechslera. Zakada
on gwnie porwnywanie wynikw cznych i wynikw dotyczcych
poszczeglnych sfer (patrz rys. 8-2). z uwzgldnieniem ich istotnoci
statystycznej okrelanej przy wykorzystaniu bdw standardowych
pomiaru. Rozmiar stwierdzonych rnic mona te porwnywa z ich
czstoci w prbie standaryzacyjnej. Ponadto mona okreli, ktre z
uwzgldnionych w skali zdolnoci stanowi silne, a ktre sabe strony
jednostki, porwnujc wyniki pojedynczych testw z uzyskanym przez
ni wynikiem przecitnym w caej skali lub w zakresie poszczeglnych
sfer. Podrcznik dostarcza informacji niezbdnych do przeprowadzenia
takich analiz profilowych i cztery ich kompletne przykady; powinny si
one okaza bardzo przydatne zarwno pocztkujcym, jak dowiadczonym badajcym.
Trafno. Zgodnie ze wspczesnym rozumieniem pojcia trafnoci,
powstanie czwartego wydania Stanfordzkiej Skali Bineta poprzedzone
byo wieloma prbami zidentyfikowania i zdefiniowania mierzonych konstruktw. Pocztkowy ich wybr opiera si na rozwaaniach zawartych
w literaturze dotyczcej natury i pomiaru inteligencji (R.L. Thorndike i
in., 1986b, rozdz. 1). Dalszym drogowskazem przy planowaniu konstrukcji testu i podejmowaniu decyzji byy dowiadczenia zwizane ze
stosowaniem wczeniejszych wersji skal Bineta i wynikajce z tych
dowiadcze wnioski na temat zalet i saboci lestu. Na przykad
podane okazao si rozdzielenie poszczeglnych typw zada na
rzetelne podtesty w miejsce tradycyjnej praktyki klinicznej polegajcej na
analizach nieformalnych opartych na subiektywnym grupowaniu zada.

Testy

indywidualne

283

Po dokonaniu wyboru I wstpnym zdefiniowaniu konstruktw, jakie


miay stanowi przedmiot pomiaru w SB-IV, wyszukano odpowiadajce
definicjom zadania 1 dodano nowe. Uzyskan tak pul pozycji poddano
wszechstronnym i statystycznie wyrafinowanym analizom, okrelajc
midzy Innymi - na podstawie ocen sdziw i wskanikw statystycznych
- ich stronniczo (R.L. Thorndike i in., 1986b. rozdz. 2.). Ostateczn
wersj skali, ktrej powstanie byo efektem wczeniejszych prb i bada
wstpnych, poddano standaryzacji, a nastpnie badaniom ukierunkowanym na poszukiwanie trojakiego typu danych trafnociowych; (1)
sprawdzano interkorelacje wynikw i przeprowadzano analizy czynnikowe, (2) szukano korelacji z innymi testami inteligencji, (3) porwnywano wyniki wczeniej zidentyfikowanych grup specjalnych CThorndike i
in., 1986b. rozdz. 6)
Najpierw dla caej prby standaryzacyjnej obliczono interkorelacje
midzy wszystkimi testami, wynikami dotyczcymi poszczeglnych sfer i
wynikami cznymi, oddzielnie dla kadego poziomu wieku. Mediany
korelacji uzyskanych w poszczeglnych grupach wieku wykorzystano w
konfirrnacyjnej analizie czynnikowej. Gwnym jej celem byo sprawdzenie hipotez o istnieniu czynnika oglnego, odpowiedzialnego za
korelowanie :estw dotyczcych rnych sfer, 1 czynnikw grupowych,
odpowiadajcych za korelacje midzy testami w ramach kadej sfery.
Podobne analizy czynnikowe przeprowadzano posugujc si medianami
wspczynnikw korelacji, osobno dla trzech grup wieku (od 2 do 6 lat.
od 7 do 11 lal i od 12 do 18-23 lat).
Rezultaty analiz czynnikowych wykazay istotne adunki czynnika
oglnego we wszystkich testach, co stanowi uzasadnienie dla posugiwania si wynikiem cznym Skali Dla trzech spord czterech sfer
znaczn cz pozostaej wariancji wsplnej wyjaniay czynniki
grupowe. Wyjtek stanowiy cztery testy przeznaczone do mierzenia
rozumowania abstrakcyjnego na materiale wzrokowym, z ktrych kady
okaza si w wysokim stopniu specyficzny. Mona si domyla, e fakt,
i nie udao si wykry odpowiadajcego za t dziedzin czynnika
grupowego, wie si z charakterem programw szkolnych, w ktrych
materia) wzrokowo-przestrzenny nie jest uwzgldniony w sposb tak zorganizowany. jak materia werbalny 1 liczbowy. Rozwj zdolnoci
wzrokowo-przestrzennych zwizany Jest wic w duym stopniu z codziennymi dowiadczeniami osobistymi uczniw, ktre nie s systematycznie uporzdkowane w ramach przedmiotw czy cyklw nauczania, co
ma miejsce w przypadku dowiadcze szkolnych. Mniej jest wic prawdopodobne powstanie typowych, wsplnych rnym osobom ukadw
szczegowych zdolnoci nalecych do omawianej sfery (Anastasi, 1970.
1986b).
Przegld rezultatw analiz czynnikowych omawianych w podrczniku,
jak rwnie tych, ktre przeprowadzali niezalenie inni badacze na
danych pochodzcych ze standaryzacji SB-fV. przemawia za tvm. e

284

TESTY ZDOLNOCI

wynik c z n y jest wskanikiem oglnych zdolnoci intelektualnych (R.M.


Thorndike, 1990). Rni autorzy nie s Jednak zgodni co do liczby i
charakteru wszych czynnikw (patrz le McCallum. 1990). Sytuacj
komplikuje fakt. e poniewa SB-IV obejmuje inne zestawy tentw w
rnych grupach wieku, dane surowe wykorzystywane w analizach czynnikowych (tj. korelacje midzy wynikami testw) rwnie si rni.
Sprawia lo. e na rnych poziomach wieku ujawnia si rna liczba od dwu do czterech - czynnikw i maj one odmienny charakter. Do tego
w rnych badaniach stosowane bywaj rne melody analizy czynnikowej. Na ogl jednak, z wiekiem badanych wzrasta zgodno rezultatw z czteroczynnikowym modelem zakadanym przy konstrukcji SBIV. Ma to miejsce zwaszcza wwczas, gdy przeprowadza si konfirmacyjne, a nie eksploracyjne analizy czynnikowe.
Drugim rdem danych na temat trafnoci byy wyniki serii bada, w
ktrych stosowano czwarte wydanie Stanfordzkiej Skali Bineta i inne
testy inteligencji, w tym wczeniejsz wersj skali - Form L-M.6 Badane
grupy obejmoway dzieci w wieku szkolnym uczce si w normalnych
klasach i okrelone przez nauczycieli jako .typowe" oraz Irzy grupy
.nietypowe" - zoone z dzieci nauczanych wedug programw dla wybitnie uzdolnionych, dzieci z trudnociami w uczeniu si oraz umysowo
upoledzonych. W prbie typowej" korelacja dewiacyjnych ilorazw
inteligencji z wczeniejszej wersji Skali (Formy L-M] z wynikiem cznym
jej wydania czwartego wyniosa 0,81: nastpna co do wielkoci bya
korelacja dla rozumowania werbalnego (0,76). a najnisza dla rozumowania abstrakcyjnego na materiale wzrokowym [0.56); wyniki te s
zgodne z oczekiwaniami, jakie mona byo formuowa, biorc pod uwag
podobiestwa i rnice midzy obu wersjami. We wszystkich grupach
korelacje midzy wynikiem cznym SB-IV i wynikami dotyczcymi
poszczeglnych sfer a cznymi i czstkowymi wynikami innych testw
byy na ogl zgodne z hipotezami dotyczcymi mierzonych konstruktw.
Jednoczenie szczegowa analiza korelacji stwierdzonych midzy
poszczeglnymi testami wydania czwartego a innymi testami inteligencji
pozwolia na lepsze zrozumienie konstruktw mierzonych teraz przez
Skal.
Trzeci rodzaj danych, zebranych na grupach specjalnych, wykaza, e
SB-IV pozwala na trafne rozpoznawanie poziomu wykonania testw
charakterystycznego dla jednostek wybitnie uzdolnionych, uczniw z
trudnociami w uczeniu si i upoledzonych umysowo. W prbie uzdolnionych rednie byty znaczco wysze ni w prbie standaryzacyjnej, w
zakresie zarwno wynikw cznych, jak i wynikw dotyczcych kadej z
czterech sfer. Analogiczne rednic u osb z trudnociami w uczeniu si i
umysowo upoledzonych byy istotnie nisze ni w prbie standaryzaInnymi testami byty WISC-R. WAIS-R. WPPSI I K-ABC, o ktrych bdzie mowa
w dalszej czci lego rozdziau.

Testy indywidualne

285

cyjnej. przy czym znaczco wysze u tych pierwszych w porwnaniu z


drugimi. Naley zwrci uwag, e do kadej z grup nietypowych wyselekcjonowano badanych albo na podstawie innych testw, albo opierajc
si na innych wskanikach funkcjonowania, w adnym wypadku nie
uywajc do tego celu SB-IV.
Dokonujc pniejszego przegldu danych na temat trafnoci SB-IV
(Laurcnt. Swcrdlik i Ryburn. 1992). sformuowano wniosek, e skala ta
wydaje si co najmniej lak dobr miar oglnych zdolnoci intelektualnych. jak inne dostpne wspczenie tesly. dobrze koreluje z miarami
osigni oraz pozwala na rozpoznawanie osb umysowo upoledzonych, wybitnie uzdolnionych 1 z zaburzeniami neurologicznymi.
Autorzy przegldu sdz, e SB-IV moe by narzdziem selekcyjnym
stosowanym do wykrywania dzieci wybitnie uzdolnionych, ze wzgldu na
wysoki puap teslu wynikajcy z szerokiego zakresu wieku, jaki obejmuje; z drugiej strony zwracaj uwag na to, e na dolnym kracu Skalt
brak jest zada wystarczajco atwych, by pozwalay na diagnoz
upoledzenia umysowego u najmodszych badanych.
Liczba bada podbudowujcych interpretacj wynikw poszczeglnych
testw SB-IV i ich kombinacji szybko si powiksza. Opracowano te obszerne podrczniki dotyczce stosowania Skali (Sattler, 1988; Glutting i
Kapan. 1990; Kamphaus. 1993). Czwarte wydanie stanowi niekwestionowane osignicie prac nad skalami Bineta. Pozwala badajcym na
elastyczno w ocenianiu odrbnych zdolnoci, odpowiednio do specyficznych celw badania. Jest le bardziej zgodne ze wspczesnymi
wynikami teoretycznych i empirycznych bada nad natur inteligencji
(patrz rozdz. 11.).

SKALE WECHSLERA
W skad skal Inteligencji stworzonych przez Dawida Wechslera wchodz
trzy kolejno powstae wersje - dla dorosych, dla dzieci w wieku szkolnym i dla dzicci w wieku przedszkolnym. Oprcz uywania ich jako miar
oglnej inteligencji prbuje si te sprawdza moliwo wykorzystywania skal Wechslera w diagnozie psychiatrycznej. Opierajc si na
obserwacjach wskazujcych, e uszkodzenia mzgu, zaburzenia psychotyczne i problemy emocjonalne mog wpywa na pewne funkcje
intelektualne bardziej ni na Inne, Wechsler i inni psychologowie &iniczni uznali, e porwnywanie funkcjonowania osoby badanej w
rnych podtestach powinno ujawnia specyficzne zaburzenia psychiatryczne. Problemy zwizane z takimi analizami profilowymi i ich wyniki
analizowane s w rozdziale 17 Jako przykad klinicznego zastosowania
testw

286

TESTY ZDOLNOCI

wiadectwem zainteresowania skaJami Wechslera i powszechnoci Ich


stosowania s tysice publikacji, jakie si ukazay na ich temat. Oprcz
zwykych przegldw w Mental Measurements Yearbooks badania dotyczce skal Wechslera s okresowo omawiane w czasopismach (Guertin.
Frank i Rabin. 1956: Guertin. Ladd. Frank, Rabin i Hiester. 1966;
Guertin. Ladd. Frank. Rabin i Hiester. 1971: Guertin, Rabin. Frank i
Ladd. 1962; T.D Hill. Reddon i Jackson. 1985. Ullell. 1960; Rabin
i Guertin. 1951: I.L. Zimmerman i Woo-Sam. 1972) i zostay podsumowane w wielu ksikach (np. Forster 1 Malarazzo. 1990; Gyurkc.
1991; Kamphaus. 1993; Kaufman. 1979, 1990. 1994; Sattler, 1988.
1992).
Historia

Skal

Inteligencji

Wechslera.

Pierwsza

wersja

skal

Wechslera. znana jako Skala Inteligencji Wechsler-Belleuue (WechslerBelleuue Intelligence Scal), zostaa opublikowana w roku 1939. Jednym
z gwnych celw jej skonstruowania byo stworzenie testu inteligencji
odpowiedniego dla dorosych. Prezentujc skal po raz pierwszy.
Wechsler (1939) zwrci uwag na lo. e wczeniej istniejce testy
inteligencji byy pierwotnie przeznaczone dla dzieci i potem przystosowywane do badania dorosych przez dodawanie trudniejszych zada
tego samego rodzaju. Tre takich testw czsto niezbyt interesowaa
dorosych. Jeli za pozycje teslowe nie maj niezbdnego minimum
trafnoci fasadowej, nie mona z doros osob badan nawiza
odpowiedniego kontaktu. Wiele zada testw inteligencji, zwaszcza tak
pomylanych, by wizay si z aktywnoci yciow dziecka w wieku
szkolnym, dla wikszoci dorosych wyranie nie ma trafnoci fasadowej.
Nadmierny nacisk na szybko, jaki kadzie si w wikszoci testw,
rwnie moe pogarsza szanse starszych badanych. Podobnie Wechsler
byl zdania, e w tradycyjnych testach inteligencji nadmierne znaczenie
przywizuje si dc stosunkowo formalnego manipulowania sowami.
Zwraca le uwag na to. e normy pod postaci wieku umysowego s
nieodpowiednie dla dorosych, i wskazywa, e niewielu dorosych
wczano do prb standaryzacyjnych we wczeniejszych badaniach nad
indywidualnymi testami Inteligencji.
Wanie w celu przezwycienia tych saboci powstaa Skala
Wechsler-Belleuue. Pod wzgldem formy i Ireci stanowia ona podstawowy wzorzec dla wszystkich nastpnych skal. z ktrych kada, w
porwnaniu ze swoj bezporedni poprzedniczk, wnosia pewne
udoskonalenia. W roku 1949 powstaa Skala Inteligencji Wechslera dla
Dzieci (Wechsler Intelligence Scala for Children - W7SC) jako przeduenie
.w d" Skali Wechsler-Belleuue (Seashorc. Wesman i Doppelt. 1950).
Wiele pozycji bezporednio przeniesiono ze skali dla dorosych, dodajc
ponadto do kadego podlestu atwiejsze zadania tego samego typu. Sama
Skala Wechsler-Belleuue zostaa w roku 1955 zastpiona Skal

Testy

indywidualne

287

Inteligencji Wechslera dla Dorosych (Wechsler Adult Intelligence Scal WAIS}, w ktrej usunito pewne techniczne braki wczeniejszych skal
dotyczce wielkoci i reprezentatywnoci prby normalizacyjnej oraz
rzetelnoci podtestw. Wersj dla najmodszych badanych jest opublikowana w 1967 roku Skala Inteligencji Wechslera dla Dzieci
Przedszkolnych (Wechsler Preschool and Primary Scal oj Intelligence WPPSI), stworzona pocztkowo dla dzieci w wieku od 4 do 6 i p lat jako
przeduenie WISC, przeznaczonej dla wieku od 5 do 15 lat.
W powstaniu WISC mona dostrzec pewien paradoks, poniewa
Wechsler swoje pierwsze przedsiwzicie uzasadnia midzy innymi tym,
e skala dla dorosych nie moe by prostym przedueniem istniejcych
skal dla dzicci. I istotnie pierwsze wydanie WISC byo krytykowane za
niewystarczajce dostosowanie treci do potrzeb badania dzieci.
Przygotowujc wersj zrewidowan (W1SC-R), opublikowan w roku
1974 i przeznaczon dla dzieci w wieku od 6 do 16 lat, podjto specjalne
starania w celu wymiany lub modyfikacji zada dla dorosych, tak by ich
tre staa si blisza typowym dowiadczeniom dzieci. Na przykad w
podtecie Arytmetyka cygara" zmieniono na cukierki". Inne zmiany
polegay na wyeliminowaniu zada, ktre mogyby by w rnym stopniu
znane rnym grupom dzieci, oraz wczeniu do podtestw o charakterze
obrazkowym wikszej liczby rysunkw przedstawiajcych kobiety i osoby
rasy czarnej. Kilka podtestw wyduono w celu zwikszenia ich rzetelnoci. Wprowadzono te pewne udoskonalenia procedury badania i
sposobu oceny odpowiedzi.
Opis Skal. Do dzi kada z trzech skal Wechslera przesza przez Jedn
lub dwie rewizje. Aktualne wersje, publikowane nadal pod nazwiskiem
Dawida Wechslera, ktry zmar w roku 1981. to Skala Inteligencji
Wechslera dia Dorosych - w wersji zrewidowanej (Wechsler Adult
Intelligence Scale-Reuised - WA1S-R; Wechsler. 1981). ktra obejmuje
zakres wieku od 16 do 74 lat; Skala Inteligencji Wechslera dla Dzieci Trzecie Wydanie (Wechsler Intelligence Scal Jor Children-Third Edition W1SC-III; Wechsler. 1991). przeznaczona dla dzieci w wieku od 6 lat do
16 lat i 11 miesicy; oraz Skala Inteligencji Wechslera dla Dzieci
Przedszkolnych - w wersji zrewidowanej (Wechsler Preschool and
Primary Scal oj Intelligence-Reuised - WPPSI-R; Wechsler. 1989). ktra
teraz obejmuje wiek od 3 lat do 7 lat 1 3 mies. Trzecie wydanie WAIS.
znajdujce sie obecnie w przygotowaniu, spodziewane jest pod koniec lat
90.
WA1S-R, W1SC-III 1 WPPSI-R maj wiele cech wsplnych, w tym
budow, charakteryzujc si podziaem na dwie skale - Werbaln
(Verbal). czyli Sown, i Wykonaniow (Performance}, czyli Bezsown, z
ktrych kada skada si z minimum piciu (a maksimum siedmiu)
podtestw i daje odrbny dewiacyjny iloraz Inteligencji. Wyniki badanego

288

TESTY ZDOLNOCI

w kadym z dziesiciu standardowo przeprowadzanych podtestw (w


- jedenastu) skadaj si na iloraz inteligencji w Skali Penej, zc
redni 100 i odchyleniem standardowym 15: takie same s parametry
skal. na ktrych wyraone s odrbne ilorazy inteligencji sownej i
bezsownej. Spord 17 rodzajw podtestw uytych w WAIS-R, WISC-IIt
1 WPPSI-R cznie. 8 (5 sownych i 3 bezsowne) wsplnych jest wszystkim trzem skalom. Podtesty sowne i bezsowne przeprowadzane s
naprzemiennie, w okrelonej kolejnoci, ktra jest inna w kadej skali,
WAIS-R

Pierwszy podtest werbalny to Wiadomoci (Information); podtesl ten


przeprowadzany jesl we wszystkich trzech skalach i pomaga w
nawizywaniu dobrego kontaktu z badanym. Przy dobieraniu pozycji
starano si unika pyta wymagajcych specjalistycznej wiedzy.
Pierwsze s na tyle atwe, c radzi sobie z nimi zdecydowana wikszo
badanych, jeli nic s to osoby upoledzone umysowo lub z zaburzon
orientacj w rzeczywistoci. W takich przypadkach badajcy moe szybko podj decyzj o zaniechaniu badania. Pytania podlesiu Wiadomoci
w WAIS-R i WISC-III dotycz faktw, o ktrych wikszo ludzi yjcych
w Stanach Zjednoczonych miaa si okazj dowiedzie, takich jak np.
.Jak si nazywa miesic poprzedzajcy grudzie?" czy Kim by Mark
Twain?". Pytania w WPPSI-R s podobne, cho reprezentuj niszy
poziom trudnoci. Zaczyna si tu od kilku pozycji prezentowanych w
formie obrazkowej, klre wymagaj jedynie wskazania dobrej
odpowiedzi. Na przykad dziecko ma pokaza na obrazku przedstawiajcym kilka przedmiotw domowego uytku to, co suy do
czyszczenia. Innym podlesiem werbalnym o szerokim zakresie trudnoci. rozcigajcym si na wszystkie trzy skale, jesl Arytmetyka
1Ariihmelic). Najatwiejsze zadania Arytmetyki z WPPSI-R wymagaj
wskazywania wrd szeregu przedstawionych na rysunkach przedmiotw tych. ktre odpowiadaj okrelonym pojciom ilociowym (jak
najmniejszy" czy wicej"). Zadania bardziej zoone polegaj na liczeniu
lub rozwizywaniu problemw arytmetycznych, z ktrych najtrudniejsze
mog wymaga dobrego rozumienia uamkw.
Podtcsly bezsowne (wykonaniowe) skal Wechslera wymagaj manipulowania rnymi przedmiotami, takimi jak ukadanki i klocki, lub analizy wzrokowej materiau graficznego, jak obrazki czy symbole. W kadym
z nieh ograniczony jesl czas wykonania, przy czym w wikszoci przypadkw badany moe te uzyskiwa punkty dodatkowe za szybko.
Natomiast w Skali Sownej czas wykonania bierze si pod uwag tylko w
jednym podlecie (w Arytmetyce). We wszystkich trzech skalach znajduje si podtesl Uzupenianie Obrazkw (Picture Completion); badany ma tu
wskazywa, jakich istotnych czci brakuje na pokazywanych mu
obrazkach przedstawiajcych rne znane przedmioty lub sceny.
Zadania na najniszych poziomach wieku opieraj si na analizie
wzrokowej - jak na przykad zadanie, w ktrym pokazuje si obrazek

Testy

indywidualne

289

zwierzcia bez jednej nogi, By znale braki w trudniejszych zadaniach,


potrzebne Jest le rozumowanie dedukcyjne, specyficzna wiedza lub
Jedno i drugie. Rysunek 8-3 przedstawia dwa stosunkowo atwe zadania,
podobne do tych. Jakie znajduj si w skalach Wechslera.
Skale skrcone.
Od czasu opublikowania skali Wechsler-Belleuue
pojawio si wiele propozycji tworzenia skal skrconych lub krtkich form
skal Wechslera Opracowywano je majr na celu istotne skrcenie czasu
badania w sposb pozwalajcy zarazem na szacowanie ilorazu
inteligencji w Skali Penej, ocenianego zgodnie z istniejcymi normami.
Jednym ze sposobw tworzenia takich krtszych wersji jest po prostu
opuszczanie niektrych podteslw 1 odpowiednie przeliczanie wynikw.
Redukowano le liczb pozycji w ramach podtestw.
Do tworzenia skal skrconych i stosowania ich w szybkich badaniach
przesiewowych zachca fakt, e korelacje midzy kombinacjami
wybranych podtestw a Skal Pen przekraczaj warto 0.90.
Prowadzono rozlegle badania w celu ustalenia kombinacji dwu. trzech,
czterech i piciu podtestw pozwalajcych najefektywniej przewidywa
ilorazy inteligencji w Skali Sownej. Bezsownej i Penej (Matarazzo,
1972; McCusker, 1994; Saltler. 1988, 1992). W wielu z tych bada wykorzystywano dane standaryzacyjne, niektre jednak prowadzono na specjalnych populacjach, takich jak pacjenci psychiatryczni lub osoby
upoledzone umysowo.
Energia woona w opracowywanie i sprawdzanie krtkich form skal
Wechslera wydaje si nadmierna. Powstaj bowiem wtpliwoci dotyczce jakoci procedur uywanych przy skracaniu skal (Silverstein,
1990). Na przykad nie zawsze da si obroni zaoenie, e oryginalne
normy dotyczce Skali Penej maj zastosowanie do przeliczonych
wynikw skal skrconych Co wicej, gdy uywa si skal skrconych,
traci si wiele wanych informacji jakociowych, moliwych do uzyskania przy badaniu indywidualnymi testami. Tak wic stosowanie takich
skrconych wersji w innych przypadkach ni wwczas, gdy chodzi o
dokonanie szybkiego przesiewu, mija si prawdopodobnie z celem.
N o r m y 1 ocena w y n i k w .
Prby standaryzacyjne dla najnowszych
skal Wechslera dobierano ze szczegln trosk o ich reprezentatywno.
Prby normalizacyjne obejmoway dla kadej skali po ok. 2000
badanych, wrd ktrych znajdowao si tyle samo osb pci eskiej, co
mskiej, reprezentujcych poszczeglne poziomy wieku. Skad prb
dobrano tak. aby moliwie jak najwierniej odzwierciedla proporcje
charakteryzujce populacj USA (odtworzone na podstawie aktualnych
danych ze spisu ludnoci) z uwagi na takie zmienne, jak region
geograficzny miejsca zamieszkania, rasa lub narodowo, rodzaj zawodu
1 poziom wyksztacenia. W przypadku dzieci brano pod uwag zawd

290

TESTY ZDOI.NOSCI

Zadanie 2

Rysunek 8-3.
z WPPSI-R.

Dwa zadania podobne do pozycji podlesiu Uzupenianie Obrazkw

(Przedruk za zezwoleniem The Psychologlcal Corporation)

Testy indywidualne

291

rodzicw. Przy kadej kolejnej rewizji kategorie uwzgldniane przy warstwowym doborze prb nieco zmieniano tak. e prby te staway si coraz
peniejsze. Na przykad w przypadku W1SC-1II wzito pod uwag cztery
grupy etniczne (biali, czarni, ludno pochodzenia hiszpaskiego i inni),
podczas gdy przy normalizacji wczeniejszej skali W1SC-R uwzgldniono
lylko dwie (biali i nie-biali). Co wicej, przy normalizacji WISC III. w
odrnieniu od wczeniejszych skal. w sposb planowy wczono do
prby reprezentatywne grupy uczniw korzystajcych ze specjalnych
programw szkolnych, takich jak na przykad dla dzieci z trudnociami
w uczeniu si lub dla wybitnie uzdolnionych.
Popularno skal Wechslera. ktre s dzi najpowszechniej
stosowanymi indywidualnymi testami inteligencji, zaowocowaa wieloma
badaniami nad zakresem ich przydatnoci. Na przykad w ramach bada
nad ludmi starszymi, prowadzonych w Klinice Mayo. zastosowano
WAIS-R na prbie 222 Dsb w wieku od 56 do 97 lat. dostarczajc w ten
sposb danych normatywnych wykraczajcych poza najwyszy poziom
wieku uwzgldniony przy standaryzacji (Ivnik 1 in.. 1992). W innych
badaniach opracowano normy do WAIS-R oparte na prbie 130 osb w
wieku powyej 75 lat (Ryan, Paolo 1 Brungardt, 1990).
Wyniki surowe kadego z podtestw przeksztaca si na standaryzowane, wyraone na skali ze redni 10 i odchyleniem standardowym
3. Wszystkie przeliczone wyniki podtestw s wic ujte w porwnywalnych jednostkach. Wyniki podtestw nalecych do odpowiednich skal Sownej, Bezsownej i Penej - dodaje si i zamienia na dewiacyjne ilorazy inteligencji, wyraone na skali ze redni 100 i odchyleniem standardowym 15. W WISC-III uzyskuje si te cztery dodatkowe wyniki
czynnikowe,
okrelane
jako
Rozumienie
Werbalne
(Verba!
Comprehension),
Organizacja
Percepcyjna (Percepiual
Organization),
Odporno na Dystraktory (Freedorn from Distractibility) i Szybko
Przetwarzania (Processing Speed). Sposb konstrukcji tych wskanikw
zgodny jest z typowymi rezultatami analiz czynnikowych uzyskiwanymi
przez wielu niezalenych badaczy w odniesieniu do wczeniejszej
W1SC-R. Nowe. wskaniki oparte s na poczeniu dwu lub czterech
podtestw i - podobnie Jak wczeniejsze - maj redni 100 i odchylenie
standardowe 15. Kada z trzech ska Wechslera dostarcza danych
potrzebnych do oceny wynikw badanego w kadym podtecic i kadej
grupie podtestw na tle odpowiednich dla jego wieku norm.
Rzetelno.
Dla skal Wechslera, osobno dla poszczeglnych grup
wieku, obliczano wspczynniki rzetelnoci szacowanej metod
powkow: dla kadego podlesiu 7 , wynikw czynnikowych i ilorazw
Wyjtek stanowiy te podtesty. w odniesieniu do ktrych rzetelno powkowa
nie ma zastosowania, tj. Symbole Cyfr (Digit Symboli. Kodowanie (Coding),
Powtarzanie Cyfr (Digit Span) oraz dwa Inne podtesty z W1SC-1I11 WPPSI-R.
7

292

TESTY ZDOLNOCI

inteligencji. We wszystkich trzech wersjach wspczynniki rzetelnoci dla


ig w Skali Penej mieciy si w granicach 0,90-0,98. Rzetelno ilorazw
w Skali Sownej wynosia 0.86-0,97, a w Skali Bezsownej - 0.85-0.94.
Wspczynniki dla' wynikw czynnikowych w WISC-III zawieray si w
przedziale od 0,80 do 0.95. Jak mona si byo tego spodziewa, rzetelno podtestw okazaa si nisza. Wspczynniki dla podtestw ze
wszystkich trzech wersji wahay si w granicach 0.52-0.96. przy czym
wikszo przekraczaa warto 0.70. Uwzgldnianie rzetelnoci
podtestw jest szczeglnie wane wwczas, gdy ocenia si istotno
rnic midzy ich wynikami u jednej i tej samej osoby w analizie profilowej (J.H. Kramer. 1990, 1993; Sattler, 1988. 1992j. W podrcznikach
do skal Wechslera podane s rwnie, dla wszystkich rodzajw wynikw,
wartoci bdw standardowych pomiaru. Dla Skali Sownej zawieraj
si one w przedziale od 2.50 do 4,98 pkt.; dla Skali Bezsownej mieszcz
si w granicach od 3.67 do 4,97 pkt.; dla Skali Penej wszystkie s
mniejsze od 4.00. Moemy wic przyjmowa z prawdopodobiestwem
mniej wicej 2:1, e prawdziwy wynik danej osoby w Skali Penej znajduje si w granicach 4 punktw od wyniku uzyskanego w badaniu.
W kolejnych rewizjach skal Wechslera coraz gnintowniej badano
rzetelno metod powtarzania testu (czyli stao). Wspczynniki
staoci s na ogl wysze u dorosych ni u dzieci. W ponownym badaniu. przeprowadzanym po przerwie wynoszcej od 12 dni do 9 tygodni,
niezmiennie stwierdza si wzrastanie ilorazw o 2-13 punktw: ilorazy w
Skali Penej zwykle wzrastaj o 5-7 punktw. Przypuszczalne efekty
wprawy, choby niewielkie, naley wic bra pod uwag, gdy bada si
kogo ponownie po krtkim czasie od pierwszego badania.
Nowe podrczniki do WPPSI-R i WISC-III ukazuj si co jaki czas i s
wci doskonalone. Na szczegln uwag zasuguje wrprowadzenie w
nowszych wydaniach informacji o wskanikach rzetelnoci szacowanej
na podstawie zgodnoci ocen sdziw w odniesieniu do tych podtestw,
w ktrych odpowiedz: s trudne do punktowania. Zebrane dane
wskazuj na to. e podtesty te mog by oceniane z zadowalajc rzetelnoci przez osoby, klre przeszy odpowiednie przeszkolenie i maj
pewn wpraw. Inn innowacj wprowadzon w podrcznikach do
wspomnianych dwu skal jest zamieszczenie do bogs.tych danych dotyczcych inlralndywidualnego zrnicowania wynikw. Oprcz label
pokazujcych minimalne wielkoci rnic potrzebne do stwierdzenia ich
statystycznej istotnoci, w podrcznikach znajduj si dane o czstociach rnic wystpujcych w prbach standaryzacyjnych. Tego rodzaju
informacje s szczeglnie cenne przy klinicznym stosowaniu testw
(patrz rozdz. 17).
T r a f n o . W adnym zakresie
doskonalenie si
kolejnych
podrcznikw do skal Wechslera nie ujawnia si w takim stopniu jak w
przypadku danych na temat trafnoci. W roku 1981 gdy opublikowano

Testy indywidualne

293

WAIS-R. w samym podrczniku nie byo adnych danych o trafnoci


narzdzia, z wyjtkiem informacji o bliniaczych korelacjach z
wczeniejszymi skalami Wechslera. Stanowio to jeszcze mniej ni mona
byo znale w podrcznikach do WPPSI i WISC-R. gdzie przynajmniej
podano korelacje tych skal z innymi, nie-wechslerowskiml skalami
inteligencji, takimi Jak Stanfordzka Skala Bineta. Te niedostatki
starszych podrcznikw byy Jednak w pewnym stopniu kompensowane
dziki wynikom niezalenych bada nad trafnoci skal Wechslera. 8
Brak przywizywania wagi w podrcznikach Wechslera do informacji u
trafnoci po czci wynika z przewiadczenia Autora, e zadania zawarte
w jego skaiach uwzgldniaj wystarczajco szeroki zakres specyficznych
zdolnoci, by mc zapewni trafny pomiar Inteligencji oglnej (Wechsler,
1958; Zachary. 1990).
Sposb, w jaki rozumiana bya w skalach Wechslera trafno, w
zasadzie odpowiada pojciu trafnoci treciowej, cho mona te w nim
dostrzec prby identyfikacji konstruktw (trafno teoretycznaj.
Korelacje midzy skalami Wechslera a innymi globalnymi miarami
inteligencji, takimi jak wyniki Stanfordzkiej Skali Bineta, skupiaj si
wok wartoci 0.80. Rezultaty analiz czynnikowych, jakie przez lata
przeprowadzali niezaleni badacze, s w znacznym stopniu zgodne.
Prawie zawsze we wszystkich grupach wieku znajdywano czynnik wer
balny 1 czynnik organizacji percepcyjnej. Zwykle te, badajc dzieci
starsze i osoby dorose, stwierdzano dodatkowe czynniki pamici i(lub)
uwagi. Zastosowanie skal Wechslera przy podejmowaniu zawodowych i
szkolnych decyzji selekcyjnych byo do pewnego stopnia uzasadnione
danymi wykazujcymi wystpowanie rnic, o kierunku zgodnym z
oczekiwaniami, midzy rnymi grupami.
Natomiast dane na temat rnego rodzaju trafnoci pniejszych skal
Wechslera s do obfite. W podrcznikach do WPPSI-R i WISC-III na
omwienie danych dotyczcych trafnoci powicono, odpowiednio. 21 i
38 stron, podczas gdy w podrczniku do WAIS-R tematu tego dotycz
lylko dwie strony. Informacji o trafnoci teoretycznej dostarczaj interkorelacje midzy podlesiami i wyniki analiz czynnikowych. W prbach
standaryzacyjnych przecitne korelacje midzy Skal Stown a Skal
Bezsown w rnych grupach wieku wyniosy 0.74 dla WAIS-R, 0.66 dla
WISC-III i 0.59 dla WPPSI-R; dane te przemawiaj za obecnoci czynnika oglnego, ktrego istnienie potwierdzia wikszo analiz czynnikowych skal Wechslera.
Analizy czynnikowe przeprowadzane dla dziewiciu grup wieku na prbie standaryzacyjnej WAIS-R ponownie wykazay, c ukad korelacji
Patrz: Dean. 1977, 1979, 1980; Gutkin i Reynolds. 1981; G.P. Hollenbeck i
Kaufman, 1973: Karnes 1 Brown. 1980; Kaurman. 1975; Kaufman 1 Hollenbeck.
1974; Leckliler, Malarazzo 1 SUverstein, 1986; Silversteln, 1982a. 1982b: Waller
i Waldman. 1990.
8

294

TESTY ZDOLNOCI

midzy i 1 podlesiami najlepiej wyjania model trzyczynnikowy. Czynniki


te. ktre wydaj si wsplne dla rnych typw prb. lo: Rozumienie
Werbalne. Organizacja Percepcyjna oraz Pami lub Odporno na
Dystraktory (U-ckliter i in.. 1986; Waller 1 Waldman, 1990). Tego samego
typu analizy przeprowadzone na danych standaryzacyjnych WPPSI-R i
opisane w podrczniku oraz innych pracach przyniosy rozwizanie
dwuczynnikowe. zgodne z podziaem podtestw na skale - Sown i
Bezsown (Baha i Wallbrown. 1991: LoBello 1 Gulgoz. 1991: Stone.
Gridley i Gyurke. 1991). Z drugiej strony, dane zebrane przy uyciu
WISC-III. ktre od pocztku stanowiy materia analiz eksploracyjnych i
konfirmacyjnych opisanych w podrczniku, wydaj si najbardziej przystajce do mcdelu czleroczynnikowego. obejmujcego Rozumienie
Werbalne, Organizacj Percepcyjn. Odporno na Dystraktory oraz
Szybko Przetwarzania. Tc cztery czynniki uwzgldniono w standardowej procedurze oceniania wynikw WISC-IIIPodrczniki do WPPSI-R i WISC-III przedstawiaj te dane pochodzce
z wielu mniejszych bada, w ktrych korelowano te dwie skale z innymi
indywidualnymi lesiami inteligencji. W przypadku WISC-III s te przytaczane korelacje z grupowo przeprowadzanymi testami osigni oraz
ocenami szkolnymi. Ponadto sprawdzano rwnie przydatno diagnostyczn WISC-III i WPPSI-R, czyli ich uyteczno przy przewidywaniu
okrelonych kryteriw zewntrznych, prowadzc szereg bada na grupach specjalnych, takich jak dzieci wybitnie uzdolnione, upoledzone
umysowo, z trudnociami w uczeniu si i inne.

Uwagi podsumowujce dotyczce skal Wechslera


Kolejne wydania trzech skal Wechslera odzwierciedlaj coraz wyszy
poziom umiejtnoci i dowiadczenia w zakresie konstrukcji testw,
odpowiednio do czasu, w jakim powstaway. Ich gwne zalety, w porwnaniu z innymi przeprowadzanymi indywidualnie testami inteligencji,
wynikaj z wielkoci i reprezentatywnoci prb, zwaszcza jeli chodzi o
populacje dorosych i dzieci w wieku przedszkolnym, oraz z technicznej
jakoci procedur konstruowania testw. Szczeglnie godny uznania jest
sposb, w jaki zajto si rzetelnoci i trafnoci w podrczniku do
WISC-III. Popularno skal Wechslera sprawia, e wci przybywa dotyczcych ich danych empirycznych. Uytkownicy dysponuj te coraz
wiksz iloci materiaw pomocniczych, takich jak wspomagane kom
puterowo programy interpretacyjne, podrczniki do wicze dla osb
badajcych (np. Fanluzzo. Blakey i Gorsuch. 1989) i poradniki (np.
Kaufman, 1994; Nicholson i Alcorn. 1994; Whilworth i Sutlon, 1993).
Jednake niektrzy krytycy sdz, e nawet ostatnie, najbardziej
udoskonalone wersje skal Wechslera mog si wkrtce okaza przestarzae w konfrontacji ze wspczesnymi wymaganiami dotyczcymi

Testy

indywidualne

293

zwizku midzy narzdziami diagnostycznymi a strategiami oddziaywa


interwencyjnych (Shaw. Swerdlik i Laurent. 1993: Sternberg. 1993).
Z lego punktu widzenia, najwiksz saboci skal Wechslera jest brak
podbudowy teoretycznej, ktry utrudnia znalezienie spoistego gruntu dla
interpretacji wynikw. Co wicej, wydaje si. e budowa skali zakada, i
na rnych poziomach wieku okrelone podtesty. za spraw powierzchownego podobiestwa materiau i zada, mierz tego samego rodzaju
zdolnoci. W wietle tego, co wiemy dzi o dokonujcych si w toku ycia
zmianach rozwojowych w naturze inteligencji, zaoenie to moe nie
okaza si suszne (patrz rozdz. I I ) .

SKALE

KAUFMANW

Skale Kaufmanw (Kaufman i Kaufman, 1983a, 1983b, 1990. 1993) s


indywidualnie stosowanymi narzdziami klinicznymi, przeznaczonymi w
duej mierze do tych samych celw, dla ktrych stworzono i tradycyjnie
uywano takich testw, jak Stanfordzka Skala Bineta czy skale
Wechslera. Powstae w latach 80. 1 na pocztku lat 90., skale
Kaufmanw wykorzystuj najnowsze osignicia w zakresie konstruowania testw. Zwaszcza Bateria Diagnostyczna Kaufmanw dla Dzieci
(Kaufman Assessment Battery for Children - K-ABC; Kaufman i
Kaufman, 1983a, 1983b) oraz Test Inteligencji Kaufmanw dla Modziey
i Dorosych (Kaufman Adolescent and Adult Intelligence Test - KA1T;
Kaufman 1 Kaufman, 1993) s wiadectwem wysiku autorw,
zaangaowanych te w prace nad WTSC-R, by zerwa z ateoretyczn
postaw typow dla twrcw starszych skal inteligencji. Kaufmanowie
mieli na celu stworzenie narzdzi, ktre byyby oparte na aktualnie
rozwijanych teoriach inteligencji, zawierayby adekwatne rozwojowo
zadania i dostarczay informacji uytecznych w rnorodnych sytuacjach
diagnostycznych.

Bateria Diagnostyczna Kaufmanw dla Dzieci (K-ABC)


C h a r a k t e r 1 historia testu.
Prace zmierzajce do stworzenia K-ABC
zaczto od okrelenia konstruktw. ktre miay by przedmiotem pomiaru. Zgodnie z ogln tendencj panujc w psychologii poznawczej,
skoncentrowano si na procesach przetwarzania informacji. W szczeglnoci
wybrano
podejcie
przyjmujce
rozrnienie
midzy
przetwarzaniem rwnoczesnym i przetwarzaniem sekwencyjnym (J.P.
Das. 1984; Das, Kirby i Jarman, 1975, 1979; Das i Molloy. 1975;
Kaufman 1 Kaufman. 1983b, rozdz. 2: Luria, 1966): pierwsze jest
reprezentowane w tecie przez siedem podtestw, drugie - przez trzy.

296

TESTY ZDOLNOCI

Podtesty Przetwarzania Rwnoczesnego (Simuttaneous Processing)


wymagaj syntezy i organizacji materiau wzrokowo-przcstrzcnnego.
ktry moe' by ujmowany jako cao. Podtesty Przetwarzania
Sekwencyjnego (Successiue Processing) dotycz ukadw zbudowanych
na zasadzie serii czy nastpstwa czasowego, s tu zarwno zadania
wykorzystujce treci werbalne, liczbowe i wzrokowo-przestrzenne. jak i
badajce pami krtkotrwa. Niektre zadania wchodzce w skad
poczonej Skali Przetwarzania Umysowego (Mental Processing Scal) s
podobne do tych. jakie wykorzystuje si w badaniach ncuropsychologicznych (patrz rozdz. 17) i wanie z lego powodu je wybrano.
Do baterii wczona jest take Skala Osigni (Achieuement Scal).
zoona z szeciu podtestw. Podtesty te. cho dotycz umiejtnoci czytania. arytmetyki, znajomoci sw i oglnych wiadomoci, nie s przeznaczone do mierzenia wiedzy zdobywanej w szkole. Bardziej przypominaj one zadania z tradycyjnych testw uzdolnie czy inteligencji ni te
zamieszczane w typowych teslach osigni. Na przykad w tecie
Arytmetyka dziecko oglda serie obrazkw, ktre przedstawiaj rodzin
zwiedzajc zoo. i ma policzy pewne widoczne na rysunkach przedmioty lub dokona na nich prostych operacji liczbowych. Z kolei rozumienie
czytanego tekstu dziecko ujawnia wykonujc czynnoci opisane w
kadym zdaniu, ktre czyta.
K-ABC standaryzowano na oglnokrajowej prbie obejmujcej 2000
dzieci (w wieku od 2 i pl do 12 i pl lat). Badano te dodatkowe prby
zoone z dzieci biaych i czarnych, w celu opracowania norm dla grup
rnicych si ras i wyksztaceniem rodzicw; normy te mog by wykorzystywane w celu uzupenienia interpretacji. Konstruujc K-ABC,
miano rwnie na wzgldzie wymagania zwizane z badaniem rnych
grup specjalnych, takich Jak dzieci niepenosprawne i dzieci z mniejszociowych grup kulturowych czy etnicznych, a take potrzeb diagnozowania trudnoci w uczeniu si (Kamphaus, Kaufman i Harrison,
1990). Za pomoc baterii uzyskuje si cztery wskaniki globalne:
Przetwarzania Sekwencyjnego. Przetwarzania Rwnoczesnego. czny
Wskanik Przetwarzania Umysowego (poczenie dwu pierwszych) oraz
Osigni. Kady z nich jest wynikiem standaryzowanym wyraonym na
skali ze redni 100 i odchyleniem standardowym 15.
Ocena oglna. K-ABC ma wiele zalet, zarwno technicznych, jak praktycznych.9 Umoliwiajc korzystanie z kilku wskanikw, analizy profilowe i interpretacje diagnostyczne, zwaszcza takie, jak opisane w
rozdziaach 5 i 6 specjalnego podrcznika (Kaufman i Kaufman. 1983b),
pozwala na przezwycienie popularnej tendencji do etykietowania
Omwienia i oceny krytycznej szukaj zwaszcza w: T.L. Miller (1984) Patrz le
Anastasi (1984a, 1985c), Colfman (1985). Kamphaus (1990). Kllne Snyder I
Castellanos (1996) oraz Page (1985)
9

Testy

indywidualne

297

badanego dziecka przy uyciu pojedynczego wyniku liczbowego w rodzaju IQ. W rozdziale 6 wspomnianego podrcznika znale mona
wspania ilustracj procesu generowania i sprawdzania hipotez, ktry
stanowi Istot klinicznego podejcia do diagnozy. W rozdziale wstpnym
autorzy (Kaufman 1 Kaufman, 1983b. str. 20-24). dc do rozwiania
pewnych powszechnych nieporozumie, jasno stwierdzaj, e K-ABC nie
jest miar wrodzonych czy niezmiennych zdolnoci", dodajc, i
wszystkie zadania poznawcze rozumiane s Jako miary tego, czego Jednostka si nauczya". Susznie przestrzegaj, e K-ABC - podobnie jak
aden inny test - nie jest kompletn bateri testow", lecz powinna by
uzupeniana innymi narzdziami, odpowiednio do indywidualnych
potrzeb.
Z uwagi na typowe kontrowersje dotyczce relacji midzy testami
uzdolnie i testami osigni, za niefortunn decyzj mona uzna mimo ostrzee formuowanych przez Autorw - przyjcie przez nich
terminu testy osigni". Test mona miao nazwa testem osigni,
jeli jest cile zwizany ze specyficznymi, moliwymi do okrelenia treciami nauczania, przypuszczalnie przekazywanymi wczeniej badanemu.
Nie jest tak w przypadku testw osigni" z K-ABC. ktre tworzono
specjalnie si starajc o ich oderwanie od specyficznej wiedzy szkolnej.
W istocie rzeczy s one znacznie blisze testom uzdolnie ni osigni,
o czym mona wnosi na podstawie interkorelacji midzy podtestami. Nie
ma wic wikszego uzasadnienia uywana wobec nich terminologia,
ktra moe przyczynia si do nadinterpretacji, wyprowadzania
niewaciwych wnioskw i podtrzymywania powszechnych nieporozumie.
Wyrane okrelenie podstaw teoretycznych ukierunkowujcych dobr
typw zada i tworzenie poszczeglnych pozycji testowych K-ABC
stanowio podan innowacj, zgodn z zasadami konstruowania
dobrego tcslu. Tym niemniej nadal, w ponad dziesi lat od powstania
tej baterii, olwarte pozostaje pytanie, czy wybrana orientacja teoretyczna
bya najwaciwsza do celu, w jakim j wykorzystano. W szczeglnoci
kwestionowane Jest to, czy rozrnienie midzy rwnoczesnym 1 sekwencyjnym przetwarzaniem informacji istotnie stanowi dobr podstaw do
interpretowania wynikw K-ABC; twierdzi si, e grupy podtestw przeznaczone do pomiaru ych dwu typw przetwarzania mona rwnie dobrze
scharakteryzowa jako testy rozumowania werbalnego i niewerbalnego
(J.P. Das. 1984; Goctz i Hall. 1984; A R. Jensen. 1984; Keith. 1985;
Keilh i Dunbar, 1984).
Z drugiej strony, dotd przeprowadzone badania wykorzystujce
K-ABC sugeruj, e globalne wyniki tej baterii s pod wzgldem swojej
trafnoci prognostycznej 1 stopnia, w jakim mierz ogln inteligencj",
podobne do wskanikw pochodzcych z W1SC-R (Kamphaus. 1990).
Ze wzgldu na to. e mniej opiera si na umiejtnociach werbalnych.

298

TESTY ZDOLNOCI

K-ABC moe by narzdziem wybieranym przy badaniu dzieci z ograniczonymi moliwociami jzykowymi lub zaburzeniami suchu.
Omwienie zestawiajce zalety i ograniczenia tego stosunkowo nowego
narzdzia, jakim jest K-ABC. mona znale w pracy Clinical and
Research Applications oj the K-ABC (Kliniczne i badawcze zastosowania
K-ABC), (Kamphaus i Reynolds. 1987. rozdz. 8).

Test Inteligencji Kaufmanw dla Modziey i Dorosych (KAIT)


C h a r a k t e r i h i s t o r i a testu. KAIT (Kaufman i Kaufman, 1993) stworzono jako narzdzie do pomiaru inteligencji osb w wieku od 11 do 85
lat lub wicej. Stanowi on prb zintegrowania sformuowanej przez
Horna i Cattella (1966) teorii inteligencji pynnej i skrystalizowanej z
pogldami na inteligencj czowieka dorosego goszonymi przez innych
teoretykw (Golden. 1981: Luria. 1980; Piaget. 1972).
Bateria skada si zc Skali Inteligencji Skrystalizowanej (Crystallized
Scal), ktra mierzy efekty ksztacenia i wpyww kulturowych, i ze Skali
Inteligencji Pynnej (Fluid Scal), mierzcej zdolno do rozwizywania
nowych problemw. Bateria Podstawowa (Core Battery) skada si z
trzech podtestw reprezentujcych kad ze skal. Mona te stosowa
Bateri Rozszerzon (Expanded Baltery), przeznaczon do badania osb.
u ktrych podejrzewa si uszkodzenia neurologiczne, dodajc ktre
spord czterech specyficznych podtestw. W skad KAIT wchodzi te
krtki test Stanu Umysowego (Mental Status Test), przeznaczony do
oceny uwagi 1 orientacji u badanych, u ktrych wystpuj zaburzenia
poznawcze w stopniu uniemoliwiajcym przeprowadzenie penej baterii.
Ocena oglna. Jak si wydaje, pod wzgldem wasnoci psychometrycznych KAIT odpowiada standardom rwnie dobrze, jak kada z
waniejszych skal inteligencji nowej generacji. Zosta znormalizowany na
odpowiedniej prbie, a podane w podrczniku dane na temat rzetelnoci
i trafnoci s obiecujce. Bateria jest stosunkowo atwa do przeprowadzania. Podrcznik zawiera informacje pomocne przy badaniu i
obliczaniu wynikw (np. wskazujce, co robi, gdy badany udziela
odpowiedzi w innym jzyku ni angielski).
Tym jednak, co istotnie rni KAIT od innych skal inteligencji dla
dorosych, Jest staranno, z jak tworzono tesl i wyprbowywano pozycje z pierwotnej puli, obejmujcej ich ponad 2500. Zadania konstruowano lak. by zainteresowa nimi dorosych badanych. Wymagaj
one na og rozwizywania problemw w sposb typowy dla formalnego
mylenia operacyjnego w ujciu Piageta oraz planowania i oceny,
charakteryzujcych mylenie dorosych wedug Lurii (Luria, 1980) i
Goldena (1981), W wikszoci s wic nietypowe 1 ciekawe. Wiele
podtestw przypomina gry nawet swymi tytuami, jak np. Znane Twarze

Testy indywidualne

Badanemu

299

' t '

pokazuje

alf:

Badajcy: Kady z tych rysunkw ma pewno znaczenie


(wskazuje koleine znaki) Ten oznacza autobus; ten
oznacza samolot, ten oznacza (o: ten oznacza a "

B a d a n e m u pokazuje i:

Badajcy: Prosz odczyta te rysunki."


Odpowied: To samolot To samolot, a to autobus

Rysunek

8-4.

Przykad

zadania

podtestu

Uczenie

si

Rebusw ze Skali Inteligencji Kaufmanw dla Modziey i


Dorosych.
(rdo: Kaufman I Kaufman. 1993, str. 5. Copyright 1993 by
American Guirinnce Seruice. Inc. Przedruk za zezwoleniem)

(Famous Faces). Tajemnicze Kody (Mystery Codes). Podwjne Znaczenia


(Double Meanings). Inne. jak na przykad Uczenie si Rebusw (Rebus
Learning), s zadaniami nowymi dla badanego W podtecie tym osoba
badana uczy si zwizkw midzy sowami a odpowiadajcymi im
rysunkami, a nastpnie czyta" zapisane przy pomocy tych rysunkw
frazy lub zdania. Przykad pokazano na rysunku 8-4. Decydujcym
sprawdzianem dla KAIT, podobnie jak dla kadego nowego testu, bdzie
to, czy doczeka si on wystarczajcej liczby bada i zastosowa
praktycznych, by przynie bogaty i trway dorobek empiryczny.

300

TESTY ZDOLNOCI

Krtki Test Inteligencji Kaufmanw (K-BIT)


Krtki Test Inteligencji Kaufmanw (Kaufman Brief Intelligence Test K-BIT; Kaufman i Kaufman. 1990) zosta pomylany Jako narzdzie do
oceny poziomu funkcjonowania intelektualnego w szybkich badaniach
przesiewowych. Chocia przeprowadza si go indywidualnie, test Jest
prosty i moe by podawany badanemu przez osob nie bdc psychologiem. K-BIT obejmuje zakres wieku od 4 do 90 lat. Normalizowany
byl rwnoczenie z KAIT. przy wykorzystaniu 20% jego prby
standaryzacyjnej Uczcej 2000 osb.
K-BIT nie jest skrcon wersj K-ABC czy KAJT. Skada si z jednego
podtestu werbalnego, obejmujcego zoony z 45 pozycji Sownik Czynny
(Expressive Vocabulary) i zawierajce 37 pozycji Definicje (De