Vous êtes sur la page 1sur 14

StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.

pl

PROSTO O DOPASOWANIU PROSTYCH,


CZYLI ANALIZA REGRESJI LINIOWEJ W PRAKTYCE
Janusz Wtroba, StatSoft Polska Sp. z o.o.

W niemal wszystkich dziedzinach bada empirycznych mamy do czynienia ze zoonoci


zjawisk i procesw. W zwizku z tym wystpuje naturalne zainteresowanie ze strony
badaczy metodami analizy danych, ktre umoliwiaj ilociow ocen zwizkw wystpujcych pomidzy rnymi aspektami badanych zjawisk i procesw. Stosunkowo najczciej do tego celu wykorzystywane s metody regresji liniowej prostej i wielorakiej.
W opracowaniu przedstawiono krtko ide metody regresji liniowej, sposb jej doboru
oraz zagadnienie interpretacji oszacowanego modelu.
W drugiej czci zaprezentowano przykady analiz przeprowadzonych z uyciem narzdzi
dostpnych w rodowisku programu STATISTICA.

Wprowadzenie
Jednym z najczstszych powodw stosowania metod statystycznej analizy danych jest
poszukiwanie przyczyn majcych wpyw na interesujce badacza zjawiska. Przykadowo
dla ekonomisty moe by interesujce stwierdzenie, jakie czynniki ksztatuj sprzeda
wybranych produktw lub usug. Lekarz jest zainteresowany poszukiwaniem czynnikw
wpywajcych na stan kliniczny pacjentw, u ktrych zdiagnozowano pewn jednostk
chorobow. W badaniach pedagogicznych celem moe by poszukiwanie czynnikw, ktre
wpywaj na wynik egzaminu. Z kolei socjologa moe interesowa, jakie czynniki s odpowiedzialne za poparcie kandydatw w wyborach. Praktycznie w kadej dziedzinie bada
empirycznych mona bez trudu poda dalsze przykady zagadnie stawianych w podobny
sposb.
Zazwyczaj mamy do czynienia z sytuacj, w ktrej interesujce nas aspekty badanych zjawisk zale od caego szeregu czynnikw, traktowanych jako potencjalne przyczyny
(wybr takich potencjalnych przyczyn jest oczywicie atwiejszy w tych dziedzinach
bada, w ktrych istnieje dobrze ugruntowana teoria). Bardzo czsto trudno jest stwierdzi,
w jaki sposb okrelone przyczyny ksztatuj wybrane przez badacza lub analityka skutki.
Kolejnym problemem jest fakt, i brane pod uwag czynniki nie s od siebie niezalene,
lecz s nawzajem w rny sposb od siebie uzalenione. W zwizku z tym badacz
wiadomie wybiera podejcie polegajce na uproszczeniu badanych powiza.
Copyright StatSoft Polska 2011

www.statsoft.pl/czytelnia.html

31

StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl

Opisywan sytuacj mona przedstawi oglnie za pomoc zapisu:


Skutek Przyczyna(y)
Bardziej formalny sposb podejcia do rozwaanego problemu prowadzi do sformuowania
jednokierunkowej zalenoci w postaci funkcji:

S f (P)
Najprostsz postaci takiego rwnania jest funkcja liniowa, w przypadku ktrej przyjmujemy, e S jest proporcjonalne do P. Przyjcie liniowej postaci zalenoci pozwala w atwy
sposb przedstawi graficznie rozwaany problem.
Poniej na dwuwymiarowym wykresie rozrzutu zaprezentowano przykadowy obraz zalenoci midzy wielkociami S i P. Kady punkt wykresu oznacza pojedynczy obiekt (obserwacj, pomiar).

Rys. 1. Wykres ilustrujcy powizanie pomidzy wielkociami S i P.

Pooenie punktw na wykresie wskazuje na wystpowanie wyranej prawidowoci


(tendencji). Jednoczenie wida, e prawidowo ta nie moe by opisana wycznie za
pomoc zwykej funkcji liniowej.

Model regresji liniowej prostej


Jedno z moliwych rozwiza wskazanego powyej problemu polega na wprowadzeniu do
deterministycznego rwnania S = f (P) zmiennej losowej i zaoeniu, e rzeczywista
zaleno S od P ma charakter stochastyczny [6]. Zmienna losowa to tzw. skadnik
losowy, ktrego zadaniem jest odzwierciedlenie w modelu nieprzewidywanego elementu
losowoci (zwizanego np. z ludzkimi zachowaniami), wpywu wielu pominitych

32 www.statsoft.pl/czytelnia.html

Copyright StatSoft Polska 2011

StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl

w modelu zmiennych oraz bdw pomiaru wielkoci S. W ten sposb otrzymujemy


rwnanie (model), ktre moemy w oglnej postaci zapisa jako:

Y f ( X , )
Jest to model regresji liniowej prostej. W modelu tym Y oznacza zmienn zalen1 lub
objanian, X to zmienna niezalena lub objaniajca. W klasycznej analizie regresji
wprowadza si kilka zaoe [6]. Najwaniejsze z nich to:
model zakada stabilno relacji f midzy badanymi zjawiskami,
model jest liniowy wzgldem parametrw

Y 0 1 X ,
gdzie 0 i

1 to tzw. parametry strukturalne modelu,

skadnik losowy jest zmienn losow o rozkadzie normalnym N (0, 2 ).


Zaoenie stabilnoci relacji jest bardzo naturalne. Uchylenie tego zaoenia prowadzi do
modeli o parametrach zmiennych w czasie lub modeli przecznikowych. Liniowa posta
badanej funkcji umoliwia wykorzystanie stosunkowo prostych metod estymacji.
Zaoenie normalnoci rozkadu skadnika losowego pozwala przeprowadzi wnioskowanie statystyczne, poniewa odpowiednie statystyki maj wwczas podane rozkady
(np. t-Studenta, F).
Innymi sowy mona powiedzie, e ze wzgldu na zoono badanych zjawisk pojawiaj
si trudnoci w odwzorowaniu rzeczywistych mechanizmw odpowiedzialnych za ich
przebieg. Potrzebne jest zatem uproszczenie. Uproszczone odwzorowanie rzeczywistych
wspzalenoci pomidzy badanymi zjawiskami wymaga od badacza umiejtnego
wydobycia istoty mechanizmu generujcego dane i przeksztacenie go do postaci umoliwiajcej zastosowanie podejcia statystycznego. Sprowadza si to do przyjcia okrelonej
matematycznej formuy, ujmujcej powizania pomidzy zmiennymi oraz zaoe o losowych procesach, wpywajcych na wyniki pojedynczych pomiarw [3]. Warto jeszcze raz
zwrci uwag na to, e przy prbie ilociowego opisu powiza potrzebne jest rozrnienie dwch typw zalenoci: deterministycznej (funkcyjnej), ktra kadej wartoci zmiennej x przyporzdkowuje jedn i tylko jedn warto zmiennej y, oraz statystycznej (probabilistycznej), ktra nie przyporzdkowuje jednoznacznie wartoci y danym wartociom x,
ale moe by precyzyjnie opisana za pomoc metod probabilistycznych [4].

Jak dobierana jest linia regresji?


Biorc pod uwag rozmieszczeniu punktw na wykresie pokazane na rys. 1, mona
zaproponowa wiele rnych sposobw doboru prostej, ktra opisywaaby obserwowan
prawidowo. Najprostsza z tych metod mogaby polega na posueniu si zwyk linijk
1

W ksice Maddali [4] na str 96 zamieszczono zestawienie innych nazw uywanych dla zmiennych Y i X.

Copyright StatSoft Polska 2011

www.statsoft.pl/czytelnia.html

33

StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl

i dopasowaniu prostej na oko w taki sposb, aby poszczeglne obserwacje leay blisko
niej. Oczywicie potrzebne jest bardziej formalne kryterium, ale sama idea dopasowania
jest waciwie bardzo podobna. Linia regresji bdca graficznym odpowiednikiem modelu
regresji jest tak dobierana, aby wielko bdca sum kwadratw odlegoci wszystkich
punktw empirycznych od odpowiednich punktw na linii regresji bya jak najmniejsza
(rys. 2).

Rys. 2. Wykres ilustrujcy kryterium doboru linii regresji.

Opisane kryterium jest okrelane nazw: metoda najmniejszych kwadratw (MNK). Kryterium to mona formalnie zapisa jako:
n

(y

i 1

y i ) 2 min

Praktycznym efektem zastosowania tego kryterium jest moliwo oszacowania parametrw strukturalnych modelu regresji ( 0 i 1 ), ktre charakteryzuj si podanymi
wasnociami.

Od czego zacz interpretacj?


Po oszacowaniu parametrw strukturalnych otrzymuje si ich oceny w prbie i w zwizku
z tym model regresji moemy zapisa w postaci:

y b0 b1 x ,
gdzie y oznacza warto przewidywan zmiennej zalenej, a b0 i b1 to oceny parametrw
strukturalnych modelu.
34 www.statsoft.pl/czytelnia.html

Copyright StatSoft Polska 2011

StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl

Wielko b0 oznacza wsprzdn y-ow punktu przecicia dopasowanej linii regresji


z osi OY, natomiast b1 jest wspczynnikiem nachylenia linii regresji do osi OX. Pokazano to na poniszym rysunku.

Rys. 3. Interpretacja ocen parametrw strukturalnych modelu regresji liniowej.

Przy wnioskowaniu statystycznym o parametrach strukturalnych modelu sprawdza si, czy


parametry te istotnie rni si od zera. W tym celu korzysta si z rozkadu statystyki
t-Studenta. W praktyce wiksze znaczenie ma ocena istotnoci parametru 1 , ktrego ocena z prby mwi o tym, jakiego przecitnego przyrostu wartoci zmiennej zalenej moemy si spodziewa, przy zaoeniu przyrostu wartoci zmiennej niezalenej o 1 jednostk.

Jak sprawdzi, czy model dobrze pasuje do danych?


Do oceny dopasowania modelu do danych empirycznych stosowanych jest wiele rnych
statystyk diagnostycznych. Jedn z najczciej stosowanych jest wspczynnik determinacji, oznaczany przez R2. Oblicza si go ze wzoru:
n

R2

( y y )

( y y)

i 1
n
i 1

gdzie y oznacza warto przewidywan zmiennej zalenej, a y redni warto zmiennej


zalenej y.

Copyright StatSoft Polska 2011

www.statsoft.pl/czytelnia.html

35

StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl

Licznik powyszego uamka okrela zmienno wielkoci y i , a mianownik mierzy


zmienno obserwowanych wartoci yi. Wspczynnik R2 jest wic miar stopnia, w jakim
model wyjania ksztatowanie si zmiennej y. Przyjmuje on wartoci z przedziau [0; 1].
Im jego warto jest blisza 1, tym dopasowanie modelu do danych jest lepsze.
Inna miara zgodnoci modelu z danymi empirycznymi opiera si na wariancji skadnika
losowego. Punktem wyjcia s w tym przypadku tzw. reszty modelu. Reszta, ktra
odpowiada i-tej obserwacji, wyraa si wzorem:

ei yi yi , gdzie i=1, 2, ..., n


Ocena wariancji skadnika losowego, tzw. wariancja resztowa, jest obliczana wedug
wzoru:
n

Se2

e
i 1

2
i

n k 1

gdzie: n oznacza liczb obserwacji, a k liczb zmiennych objaniajcych w modelu.


Pierwiastek z wariancji resztowej, czyli odchylenie standardowe reszt Se (zwany take
bdem standardowym estymacji), jest powszechnie stosowan miar zgodnoci modelu
z danymi empirycznymi. Wielko ta wskazuje na przecitn rnic midzy zaobserwowanymi wartociami zmiennej objanianej i wartociami teoretycznymi. Jest to wielko
mianowana (miano tej wielkoci jest takie samo jak zmiennej objanianej). Na jej podstawie mona rwnie obliczy miar niemianowan, a mianowicie tzw. wspczynnik
zmiennoci losowej, ktry okrela wzr:

Se
y

Wspczynnik ten informuje o tym, jak cz redniej wartoci zmiennej objanianej


stanowi bd standardowy estymacji, i jest zazwyczaj wyraany w procentach.

A co z zaoeniami?
Poprawno wynikw analizy regresji zaley od tego, w jakim stopniu s spenione jej
najwaniejsze zaoenia. Wyczerpujcy opis oraz dyskusj zaoe klasycznej analizy
regresji, konsekwencje ich niespenienia oraz omwienie zalecanych sposobw postpowania mona znale w podrczniku Welfego [6]. W niniejszym opracowaniu zwrcimy
uwag na zaoenia dotyczce skadnika losowego (). Najwaniejsze z nich dotyczy normalnoci rozkadu. Jak to zostao ju wspomniane wczeniej, spenienie tego zaoenia
pozwala przeprowadzi wnioskowanie statystyczne, poniewa odpowiednie statystyki maj
wwczas podane rozkady (np. t-Studenta, F). W czci zawierajcej opis przykadw
analizy regresji zostanie przedstawiony sposb sprawdzania normalnoci rozkadu skadnika losowego.
36 www.statsoft.pl/czytelnia.html

Copyright StatSoft Polska 2011

StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl

Przykad analizy regresji liniowej prostej w STATISTICA


Dla zilustrowania kolejnych etapw budowy modelu regresji liniowej prostej w rodowisku
programu STATISTICA wykorzystano wyniki oceny 25 marek papierosw rnych producentw, przeprowadzanej corocznie przez Federaln Komisj Handlu w USA [5]. Ocenie
podlegay m.in. takie informacje, jak ilo tlenku wgla zawartego w dymie papierosowym
oraz zawarto nikotyny i substancji smolistych. Znana jest powszechnie szkodliwo tych
substancji dla zdrowia palaczy. Ponadto wyniki bada wskazuj na to, e zwikszenie
zawartoci nikotyny i substancji smolistych wie si ze zwikszeniem iloci tlenku wgla
w dymie papierosowym.
Dane te posuyy do wstpnej oceny powiza wystpujcych pomidzy branymi pod
uwag zmiennymi oraz budowy modelu regresji liniowej prostej. Ilo tlenku wgla w dymie papierosowym zostaa potraktowana jako zmienna zalena (objaniana), natomiast
zawarto nikotyny i substancji smolistych jako potencjalne zmienne niezalene (objaniajce). Przy okazji zosta pokazany wpyw jednej nietypowej obserwacji oraz zjawisko
wspliniowoci zmiennych niezalenych.
Przy wstpnej ocenie charakteru i siy badanych powiza warto posuy si dwuwymiarowymi wykresami rozrzutu. Zgodnie z powszechnie przyjmowan konwencj na wykresie
takim na osi OY umieszczane s wartoci zmiennej zalenej, a na osi OX wartoci zmiennej
niezalenej. Wykresy zostay przedstawione poniej.

Rys. 4. Powizanie zawartoci tlenku wgla z zawartoci nikotyny i substancji smolistych.

Pooenie punktw na wykresach wskazuje na wystpowanie wyranego powizania zawartoci nikotyny i substancji smolistych z zawartoci tlenku wgla w dymie papierosowym. Ponadto charakter powizania wskazuje na moliwo dopasowania do danych
funkcji liniowej. Jednoczenie na obu wykresach atwo zauway jedn obserwacj nietypow (odstajc, skrajn, ang. outlier) wyranie odbiegajc od pozostaych (powrcimy
do tej sprawy w dalszej czci opracowania). W kolejnym kroku analizy zostan zbudowane dwa odrbne modele dla kadej ze zmiennych niezalenych.

Copyright StatSoft Polska 2011

www.statsoft.pl/czytelnia.html

37

StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl

W trakcie budowy modelu regresji program STATISTICA udostpnia rwnie analityczne


narzdzia oceny badanych powiza. Zamieszczona poniej tabela zawiera wspczynniki
korelacji pomidzy branymi pod uwag zmiennymi.

Rys. 5. Korelacje pomidzy zmiennymi.

Otrzymane wartoci wspczynnikw korelacji liniowej Pearsona potwierdzaj wystpowanie silnych dodatnich korelacji pomidzy zawartoci tlenku wgla a zawartoci
nikotyny (r = 0,926) i substancji smolistych (r = 0,957). Na tej podstawie moemy stwierdzi, e obydwie analizowane zmienne niezalene mog by brane pod uwag jako
potencjalne predyktory przy modelowaniu badanych powiza. Wyniki w tabeli wskazuj
ponadto na wystpowanie wspliniowoci zmiennych niezalenych. Na og jest ono
spowodowane tym, e zmienne charakteryzujce badane zjawiska s ze sob mocno
powizane lub te jest to zwizane ze specyfik zbioru danych, wykorzystywanego do
estymacji parametrw modelu regresji. Welfe [2009] rozrnia dwa rodzaje wspliniowoci: dokadn i przyblion. Jednym z prostych sposobw postpowania z takimi zmiennymi jest usunicie jednej ze skorelowanych zmiennych. Omwienie rnych podej
stosowanych w przypadku stwierdzenia silnej wspliniowoci mona znale u Welfego
[2009] i Maddali [2006]. W opisywanym przykadzie zbudowano i porwnano dwa odrbne modele dla kadej ze zmiennych niezalenych.

Rys. 6. Wyniki analizy regresji.

Wyniki analizy pozwalaj stwierdzi, e model regresji uwzgldniajcy zmienn niezalen Nikotyna [mg] pozwala wyjani ponad 85% wariancji zmiennej Tlenek wgla [mg].
Przecitna rnica pomidzy rzeczywistymi wartociami zmiennej zalenej i wartociami
przewidywanymi przez model wyniosa 1,83 mg (stanowi to 14,6% redniej dla zmiennej
zalenej). Wysoka warto statystyki F (138,27) i odpowiadajcy jej poziom prawdopodobiestwa p (p<0,001) potwierdzaj statystyczn istotno modelu liniowego. Warto
statystyki t, wykorzystywana do oceny istotnoci wspczynnika regresji (1), oraz
38 www.statsoft.pl/czytelnia.html

Copyright StatSoft Polska 2011

StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl

odpowiadajcy jej poziom prawdopodobiestwa p potwierdzaj, e parametr ten istotnie


rni si od zera. Interpretujc oszacowan warto oceny tego parametru (12,4), moemy
stwierdzi, e zwikszenie zawartoci nikotyny o 1 mg powoduje zwikszenie zawartoci
tlenku wgla w dymie papierosowym o 12,4 mg. Z kolei wyraz wolny w modelu (0)
nieistotnie rni si od zera (oznacza to, e linia regresji przechodzi bardzo blisko rodka
ukadu wsprzdnych).
Drugi z otrzymanych modeli, uwzgldniajcy zmienn niezalen Subst smoliste [mg],
wyjania ponad 91% wariancji zmiennej Tlenek wgla [mg]. Tym razem przecitna rnica
pomidzy rzeczywistymi wartociami zmiennej zalenej i wartociami przewidywanymi
bya nieco nisza i wyniosa 1,4 mg (stanowi to 11,2% redniej dla zmiennej zalenej).
Wysoka warto statystyki F (253,37) i odpowiadajcy jej poziom prawdopodobiestwa
p (p<0,001) rwnie potwierdzaj statystyczn istotno modelu liniowego. Wartoci
statystyki t, wykorzystywane do oceny istotnoci wspczynnika regresji i wyrazu wolnego, oraz odpowiadajce im poziomy prawdopodobiestwa p potwierdzaj, e parametry
te istotnie rni si od zera. Ponadto otrzymana warto oceny wspczynnika regresji
(0,8) pozwala na stwierdzenie, e zwikszenie zawartoci substancji smolistych o 1 mg
powoduje zwikszenie zawartoci tlenku wgla w dymie papierosowym o 0,8 mg. Poniej
zamieszczono rwnie wykresy ilustrujce zbudowane modele.

Rys. 7. Wykresy rozrzutu z dopasowanymi liniami regresji.

Obydwa wykresy potwierdzaj bardzo dobre dopasowanie linii regresji (oznaczonych lini
cig) do rzeczywistych danych. Ponadto na wykresach zostay rwnie przedstawione
krzywe (oznaczone lini przerywan), wyznaczajce 95% przedziay ufnoci dla wartoci
oczekiwanych modelowanej zmiennej zalenej.
W trakcie wstpnej analizy danych zauwaono wystpienie jednej obserwacji nietypowej.
Zazwyczaj obserwacje takie maj wpyw na wyniki analizy. Poniej dla porwnania
zamieszczono tabele z wynikami analizy regresji przeprowadzonej po wykluczeniu
nietypowej obserwacji.

Copyright StatSoft Polska 2011

www.statsoft.pl/czytelnia.html

39

StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl

Rys. 8. Wyniki analizy regresji po usuniciu jednej nietypowej obserwacji.

Otrzymane modele wyjaniaj dodatkowo ponad 1% wariancji modelowanej zmiennej


zalenej. Do znacznym zmianom ulegy natomiast oceny wyrazw wolnych i wspczynnikw regresji. Ponadto wyranie spady wartoci bdw standardowych estymacji, co
oznacza, e modele maj lepsze wasnoci prognostyczne. Naley jednak wyranie podkreli, e usunicie kadej obserwacji nietypowej musi zawsze by odpowiednio uzasadnione wzgldami merytorycznymi [1].
W ostatniej czci przykadu sprawdzimy spenienie zaoenia dotyczcego normalnoci
rozkadu skadnika losowego. W tym celu utworzono wykres normalnoci reszt oraz
przeprowadzono test Shapiro-Wilka (rys. 9). Wyniki dotycz modelu uwzgldniajcego
zmienn niezalen Nikotyna.

Rys. 9. Wykres normalnoci reszt i wyniki testu Shapiro-Wilka.

Pooenie punktw na wykresie oraz wyniki testu analitycznego wskazuj na brak podstaw
do kwestionowania normalnoci rozkadu skadnika losowego.

40 www.statsoft.pl/czytelnia.html

Copyright StatSoft Polska 2011

StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl

Przykad analizy regresji liniowej wielorakiej


W drugim z prezentowanych przykadw do ilustracji budowy modelu regresji wielorakiej
zostanie wykorzystany zbir danych zawierajcy wyniki pomiarw procentowej zawartoci
tkanki tuszczowej (uzyskane z zastosowaniem techniki waenia pod wod) oraz pomiary
wybranych cech somatycznych (gwnie wymiary obwodw okrelonych czci ciaa)
zebrane dla 252 dorosych mczyzn [2].
Znaczenie zawartoci tkanki tuszczowej w skadzie ciaa wynika z faktu, i zbyt wysoka
ilo tkanki tuszczowej moe by przyczyn problemw zdrowotnych zwizanych z ukadem krenia, cukrzyc typu II, znacznie podnosi poziom cholesterolu (w konsekwencji
prowadzi do miadycy) i innych powanych schorze. Natomiast jeeli poziom tkanki
tuszczowej utrzymywany jest w normie, to czowiek pozostaje w dobrym zdrowiu, ma
lepsze samopoczucie, czuje si lekki i szczuplejszy.
Ze wzgldu na trudnoci z bezporednim pomiarem iloci tkanki tuszczowej opracowano
wiele porednich metod oceny stanu otuszczenia. Wszystkie te metody wykorzystuj
rnego rodzaju pomiary cech budowy ciaa lub tworzone na ich podstawie wskaniki.
Merytorycznym celem opisywanego przykadu jest budowa modelu sucego do szacowania procentowej zawartoci tkanki tuszczowej, wykorzystujcego pomiary cech budowy
ciaa otrzymywane z wykorzystaniem prostych narzdzi pomiarowych: wagi i tamy
mierniczej.
Przy budowie modelu regresji pomiar zawartoci tkanki tuszczowej przeprowadzony technik waenia pod wod zostanie potraktowany jako zmienna zalena (objaniana), a wiek,
pomiary wagi i wzrostu oraz obwody jako potencjalne zmienne niezalene (objaniajce).
W przypadku budowania modelu regresji wielorakiej pojawia si problem sposobu doboru
i liczby zmiennych objaniajcych (niezalenych), ktre maj zosta uwzgldnione
w modelu. Liczba zmiennych objaniajcych wynika ze znajomoci badanej problematyki.
Badacz nie powinien tumaczy si, e powodem nieuwzgldnienia okrelonej zmiennej
objaniajcej bya nieznajomo jej wpywu na zmienn objanian (zalen) lub
nieodpowiednia wielko prby czy te niewaciwy pomiar wartoci tej zmiennej. Wan
rzecz jest skuteczno, a model regresyjny bez zmiennych, ktre powoduj systematyczne
zmiany zmiennej zalenej Y, jest nieprawdziwy, a ponadto prowadzi do obcionych
estymatorw parametrw modelu. Istotno niektrych zmiennych ustala si metodami
statystycznymi, jednak nie mona tym zastpi analizy merytorycznej. Statystyczna analiza
zbioru zmiennych objaniajcych dotyczy zmniejszania liczby tych zmiennych. Model
uwzgldniajcy zbyteczne zmienne charakteryzuje si gorszymi wasnociami numerycznymi i jako estymatorw jest zwykle gorsza z powodu wikszych bdw i wystpowania intensywniejszych wzajemnych zalenoci wrd zmiennych objaniajcych.
Wrd metod doboru zmiennych do modelu wyrniamy: standardow, krokowe, wprowadzania lub usuwania zmiennych oraz wszystkich moliwych regresji. W niniejszym opracowaniu przedstawiono wyniki budowania modelu metod regresji krokowej wstecznej
oraz wszystkich moliwych regresji. W pierwszej z tych metod w pierwszym etapie
budowany jest model zawierajcy wszystkie dostpne zmienne niezalene. Nastpnie
Copyright StatSoft Polska 2011

www.statsoft.pl/czytelnia.html

41

StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl

w kolejnych etapach usuwane s kolejne najmniej istotne zmienne niezalene, a do


uzyskania modelu uwzgldniajcego tylko zmienne niezalene istotne.
Na samym pocztku warto przyjrze si korelacjom wszystkich zmiennych niezalenych
z modelowan zmienn zalen.

Rys. 10. Wspczynniki korelacji zmiennej zalenej ze zmiennymi niezalenymi


oraz w obrbie zmiennych niezalenych.

Jak wida, stosunkowo najmocniejsze powizanie z otuszczeniem ciaa wykazuje obwd


brzucha (r=0,825), BMI (r=0,748) oraz obwd klatki piersiowej (r=0,701). Jednoczenie
wida wyranie, e niektre ze zmiennych niezalenych s rwnie mocno powizane ze
sob (np. wspczynnik korelacji pomidzy obwodem bioder i wag wynosi 0,929).
W zwizku z tym zmienne te bd si nawzajem eliminowa w kolejnych etapach budowy
modelu.
Poniej przedstawiono kocowe wyniki ostatecznego modelu, do ktrego weszy zmienne:
Wiek, Obwd brzucha oraz Obwd nadgarstka.

Rys. 11. Wspczynniki korelacji zmiennej zalenej ze zmiennymi niezalenymi


oraz w obrbie zmiennych niezalenych.

Na podstawie otrzymanych wynikw stwierdzamy, e zbudowany model pozwala wyjani


okoo 73% zmiennoci modelowanej zmiennej zalenej. Warto statystyki F i odpowiadajcy jej poziom prawdopodobiestwa testowego p potwierdzaj istotny statystycznie
zwizek liniowy. Ponadto wartoci statystyki t wskazuj, e wyraz wolny i wspczynniki
regresji istotnie rni si od zera.
Interpretujc oszacowan warto ocen poszczeglnych parametrw, moemy stwierdzi,
e z kadym rokiem otuszczenie ciaa ronie przecitnie o 0,07% (przy niezmienionych
wartociach pozostaych zmiennych niezalenych, zasada ceteris paribus [1, 4, 6]). Z kolei
42 www.statsoft.pl/czytelnia.html

Copyright StatSoft Polska 2011

StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl

zwikszenie obwodu brzucha o jedn jednostk powoduje zwikszenie otuszczenia ciaa


o 0,72% (rwnie przy ustalonych wartociach pozostaych zmiennych). Do zaskakujco
wypada interpretacja oceny wspczynnika regresji przy zmiennej Obwd nadgarstka.
Zwikszenie jej wartoci o jedn jednostk powoduje zmniejszenie otuszczenia ciaa
o 2,2% (rwnie przy ustalonych wartociach pozostaych zmiennych).
Przy wykorzystaniu modelu do szacowania rzeczywistego otuszczenia ciaa na podstawie
wieku i prostych cech budowy ciaa (obwd brzucha i obwd nadgarstka) przecitny bd
wynosi 4 %.
Pewne ograniczenie podejcia wykorzystujcego poszukiwanie metod regresji krokowej
polega na przyjciu, e istnieje jeden najlepszy podzbir zmiennych niezalenych i poszukiwaniu metody jego identyfikacji. Czsto zachodzi sytuacja, gdy nie ma jednego
najlepszego podzbioru. W zwizku z tym niektrzy statystycy sugeruj, e mona
nastpnie sprbowa dopasowa modele metod wszystkich moliwych regresji, zawierajce podobn liczb zmiennych niezalenych jak w przypadku rozwizania metod
regresji krokowej, aby zbada, czy przypadkiem niektre inne podzbiory zmiennych nie s
lepsze. Rozumowanie to sugeruje, e po znalezieniu rozwizania metod krokow, powinien zosta zbadany najlepszy ze wszystkich moliwych podzbiorw o tej samej liczbie
efektw, w celu sprawdzenia, czy rozwizanie uzyskane metod krokow jest rzeczywicie
najlepsze.
Poniej przedstawiono zbiorcze wyniki budowy modeli o liczbie zmiennych niezalenych
od 1 do 6. Dla kadej liczby zmiennych niezalenych przedstawiono wyniki trzech najlepszych modeli, przy przyjciu jako kryterium wartoci wspczynnika determinacji R2.
Zamieszczona poniej tabela zawiera informacj o wartoci wspczynnika determinacji
dla danego modelu, liczbie uwzgldnionych zmiennych niezalenych oraz standaryzowane
wspczynniki regresji dla zmiennych, ktre weszy do modelu.

Rys. 12. Zbiorcze podsumowanie wynikw analizy regresji


metod wszystkich moliwych regresji.

Zawarte w tabeli wyniki pozwalaj na porwnanie rnych modeli o rnej liczbie


uwzgldnianych zmiennych niezalenych. W ten sposb badacz moe na przykad
Copyright StatSoft Polska 2011

www.statsoft.pl/czytelnia.html

43

StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl

w stosunkowo atwy sposb uwzgldni koszty uzyskania danych o poszczeglnych


zmiennych niezalenych. Jak wida, model zbudowany poprzednio przy pomocy metody
krokowej wstecznej znalaz si w tym zestawieniu pod pozycj 12.

Podsumowanie
W rzeczywistych badaniach czsto podejmowane jest zagadnienie oceny ilociowych
zwizkw midzy rnymi aspektami zjawisk. Celem takich analiz jest zazwyczaj ch
lepszego ich poznania (potwierdzenie lub obalenie formuowanych w teorii hipotez),
moliwo przewidywania rozwoju badanych zjawisk lub procesw, czy wreszcie wykorzystanie znajomoci ilociowych zalenoci do symulacji [1]. Dla zrealizowania tak
postawionych celw niezbdne jest odwoanie si do teorii badanego zjawiska, dostp do
wyrnionych w opisie zjawiska danych, znajomo metody umoliwiajcej odwzorowanie hipotez teoretycznych za pomoc zgromadzonych danych statystycznych oraz
wiedza potrzebna do tego, aby stwierdzi, w jakim stopniu to odwzorowanie si udao.

Literatura
1. Ekonometria i badania operacyjne. Podrcznik dla studiw licencjackich, pod red.
naukow M. Gruszczyskiego, T. Kuszewskiego i M. Podgrskiej (2009), PWN.
2. Johnson R. W. (1996), Fitting Percentage of Body Fat to Simple Body Measurements,
Journal of Statistics Education v. 4, n. 1 (www.amstat.org/publications/jse/v4n1/datasets.johnson.html).
3. Krzanowski W. J. (1998), An Introduction to Statistical Modelling, Arnold.
4. Maddala G. S. (2006), Ekonometria, PWN.
5. McIntyre L. (1994), Using Cigarette Data for An Introduction to Multiple Regression,
Journal of Statistics Education v. 2, n. 1 (www.amstat.org/publications/jse/v2n1/datasets.mcintyre.html).
6. Welfe A. (2009), Ekonometria. Metody i ich zastosowanie, PWE.

44 www.statsoft.pl/czytelnia.html

Copyright StatSoft Polska 2011

Vous aimerez peut-être aussi