Académique Documents
Professionnel Documents
Culture Documents
pl
Wprowadzenie
Jednym z najczstszych powodw stosowania metod statystycznej analizy danych jest
poszukiwanie przyczyn majcych wpyw na interesujce badacza zjawiska. Przykadowo
dla ekonomisty moe by interesujce stwierdzenie, jakie czynniki ksztatuj sprzeda
wybranych produktw lub usug. Lekarz jest zainteresowany poszukiwaniem czynnikw
wpywajcych na stan kliniczny pacjentw, u ktrych zdiagnozowano pewn jednostk
chorobow. W badaniach pedagogicznych celem moe by poszukiwanie czynnikw, ktre
wpywaj na wynik egzaminu. Z kolei socjologa moe interesowa, jakie czynniki s odpowiedzialne za poparcie kandydatw w wyborach. Praktycznie w kadej dziedzinie bada
empirycznych mona bez trudu poda dalsze przykady zagadnie stawianych w podobny
sposb.
Zazwyczaj mamy do czynienia z sytuacj, w ktrej interesujce nas aspekty badanych zjawisk zale od caego szeregu czynnikw, traktowanych jako potencjalne przyczyny
(wybr takich potencjalnych przyczyn jest oczywicie atwiejszy w tych dziedzinach
bada, w ktrych istnieje dobrze ugruntowana teoria). Bardzo czsto trudno jest stwierdzi,
w jaki sposb okrelone przyczyny ksztatuj wybrane przez badacza lub analityka skutki.
Kolejnym problemem jest fakt, i brane pod uwag czynniki nie s od siebie niezalene,
lecz s nawzajem w rny sposb od siebie uzalenione. W zwizku z tym badacz
wiadomie wybiera podejcie polegajce na uproszczeniu badanych powiza.
Copyright StatSoft Polska 2011
www.statsoft.pl/czytelnia.html
31
S f (P)
Najprostsz postaci takiego rwnania jest funkcja liniowa, w przypadku ktrej przyjmujemy, e S jest proporcjonalne do P. Przyjcie liniowej postaci zalenoci pozwala w atwy
sposb przedstawi graficznie rozwaany problem.
Poniej na dwuwymiarowym wykresie rozrzutu zaprezentowano przykadowy obraz zalenoci midzy wielkociami S i P. Kady punkt wykresu oznacza pojedynczy obiekt (obserwacj, pomiar).
32 www.statsoft.pl/czytelnia.html
Y f ( X , )
Jest to model regresji liniowej prostej. W modelu tym Y oznacza zmienn zalen1 lub
objanian, X to zmienna niezalena lub objaniajca. W klasycznej analizie regresji
wprowadza si kilka zaoe [6]. Najwaniejsze z nich to:
model zakada stabilno relacji f midzy badanymi zjawiskami,
model jest liniowy wzgldem parametrw
Y 0 1 X ,
gdzie 0 i
W ksice Maddali [4] na str 96 zamieszczono zestawienie innych nazw uywanych dla zmiennych Y i X.
www.statsoft.pl/czytelnia.html
33
i dopasowaniu prostej na oko w taki sposb, aby poszczeglne obserwacje leay blisko
niej. Oczywicie potrzebne jest bardziej formalne kryterium, ale sama idea dopasowania
jest waciwie bardzo podobna. Linia regresji bdca graficznym odpowiednikiem modelu
regresji jest tak dobierana, aby wielko bdca sum kwadratw odlegoci wszystkich
punktw empirycznych od odpowiednich punktw na linii regresji bya jak najmniejsza
(rys. 2).
Opisane kryterium jest okrelane nazw: metoda najmniejszych kwadratw (MNK). Kryterium to mona formalnie zapisa jako:
n
(y
i 1
y i ) 2 min
Praktycznym efektem zastosowania tego kryterium jest moliwo oszacowania parametrw strukturalnych modelu regresji ( 0 i 1 ), ktre charakteryzuj si podanymi
wasnociami.
y b0 b1 x ,
gdzie y oznacza warto przewidywan zmiennej zalenej, a b0 i b1 to oceny parametrw
strukturalnych modelu.
34 www.statsoft.pl/czytelnia.html
R2
( y y )
( y y)
i 1
n
i 1
www.statsoft.pl/czytelnia.html
35
Se2
e
i 1
2
i
n k 1
Se
y
A co z zaoeniami?
Poprawno wynikw analizy regresji zaley od tego, w jakim stopniu s spenione jej
najwaniejsze zaoenia. Wyczerpujcy opis oraz dyskusj zaoe klasycznej analizy
regresji, konsekwencje ich niespenienia oraz omwienie zalecanych sposobw postpowania mona znale w podrczniku Welfego [6]. W niniejszym opracowaniu zwrcimy
uwag na zaoenia dotyczce skadnika losowego (). Najwaniejsze z nich dotyczy normalnoci rozkadu. Jak to zostao ju wspomniane wczeniej, spenienie tego zaoenia
pozwala przeprowadzi wnioskowanie statystyczne, poniewa odpowiednie statystyki maj
wwczas podane rozkady (np. t-Studenta, F). W czci zawierajcej opis przykadw
analizy regresji zostanie przedstawiony sposb sprawdzania normalnoci rozkadu skadnika losowego.
36 www.statsoft.pl/czytelnia.html
Pooenie punktw na wykresach wskazuje na wystpowanie wyranego powizania zawartoci nikotyny i substancji smolistych z zawartoci tlenku wgla w dymie papierosowym. Ponadto charakter powizania wskazuje na moliwo dopasowania do danych
funkcji liniowej. Jednoczenie na obu wykresach atwo zauway jedn obserwacj nietypow (odstajc, skrajn, ang. outlier) wyranie odbiegajc od pozostaych (powrcimy
do tej sprawy w dalszej czci opracowania). W kolejnym kroku analizy zostan zbudowane dwa odrbne modele dla kadej ze zmiennych niezalenych.
www.statsoft.pl/czytelnia.html
37
Otrzymane wartoci wspczynnikw korelacji liniowej Pearsona potwierdzaj wystpowanie silnych dodatnich korelacji pomidzy zawartoci tlenku wgla a zawartoci
nikotyny (r = 0,926) i substancji smolistych (r = 0,957). Na tej podstawie moemy stwierdzi, e obydwie analizowane zmienne niezalene mog by brane pod uwag jako
potencjalne predyktory przy modelowaniu badanych powiza. Wyniki w tabeli wskazuj
ponadto na wystpowanie wspliniowoci zmiennych niezalenych. Na og jest ono
spowodowane tym, e zmienne charakteryzujce badane zjawiska s ze sob mocno
powizane lub te jest to zwizane ze specyfik zbioru danych, wykorzystywanego do
estymacji parametrw modelu regresji. Welfe [2009] rozrnia dwa rodzaje wspliniowoci: dokadn i przyblion. Jednym z prostych sposobw postpowania z takimi zmiennymi jest usunicie jednej ze skorelowanych zmiennych. Omwienie rnych podej
stosowanych w przypadku stwierdzenia silnej wspliniowoci mona znale u Welfego
[2009] i Maddali [2006]. W opisywanym przykadzie zbudowano i porwnano dwa odrbne modele dla kadej ze zmiennych niezalenych.
Wyniki analizy pozwalaj stwierdzi, e model regresji uwzgldniajcy zmienn niezalen Nikotyna [mg] pozwala wyjani ponad 85% wariancji zmiennej Tlenek wgla [mg].
Przecitna rnica pomidzy rzeczywistymi wartociami zmiennej zalenej i wartociami
przewidywanymi przez model wyniosa 1,83 mg (stanowi to 14,6% redniej dla zmiennej
zalenej). Wysoka warto statystyki F (138,27) i odpowiadajcy jej poziom prawdopodobiestwa p (p<0,001) potwierdzaj statystyczn istotno modelu liniowego. Warto
statystyki t, wykorzystywana do oceny istotnoci wspczynnika regresji (1), oraz
38 www.statsoft.pl/czytelnia.html
Obydwa wykresy potwierdzaj bardzo dobre dopasowanie linii regresji (oznaczonych lini
cig) do rzeczywistych danych. Ponadto na wykresach zostay rwnie przedstawione
krzywe (oznaczone lini przerywan), wyznaczajce 95% przedziay ufnoci dla wartoci
oczekiwanych modelowanej zmiennej zalenej.
W trakcie wstpnej analizy danych zauwaono wystpienie jednej obserwacji nietypowej.
Zazwyczaj obserwacje takie maj wpyw na wyniki analizy. Poniej dla porwnania
zamieszczono tabele z wynikami analizy regresji przeprowadzonej po wykluczeniu
nietypowej obserwacji.
www.statsoft.pl/czytelnia.html
39
Pooenie punktw na wykresie oraz wyniki testu analitycznego wskazuj na brak podstaw
do kwestionowania normalnoci rozkadu skadnika losowego.
40 www.statsoft.pl/czytelnia.html
www.statsoft.pl/czytelnia.html
41
www.statsoft.pl/czytelnia.html
43
Podsumowanie
W rzeczywistych badaniach czsto podejmowane jest zagadnienie oceny ilociowych
zwizkw midzy rnymi aspektami zjawisk. Celem takich analiz jest zazwyczaj ch
lepszego ich poznania (potwierdzenie lub obalenie formuowanych w teorii hipotez),
moliwo przewidywania rozwoju badanych zjawisk lub procesw, czy wreszcie wykorzystanie znajomoci ilociowych zalenoci do symulacji [1]. Dla zrealizowania tak
postawionych celw niezbdne jest odwoanie si do teorii badanego zjawiska, dostp do
wyrnionych w opisie zjawiska danych, znajomo metody umoliwiajcej odwzorowanie hipotez teoretycznych za pomoc zgromadzonych danych statystycznych oraz
wiedza potrzebna do tego, aby stwierdzi, w jakim stopniu to odwzorowanie si udao.
Literatura
1. Ekonometria i badania operacyjne. Podrcznik dla studiw licencjackich, pod red.
naukow M. Gruszczyskiego, T. Kuszewskiego i M. Podgrskiej (2009), PWN.
2. Johnson R. W. (1996), Fitting Percentage of Body Fat to Simple Body Measurements,
Journal of Statistics Education v. 4, n. 1 (www.amstat.org/publications/jse/v4n1/datasets.johnson.html).
3. Krzanowski W. J. (1998), An Introduction to Statistical Modelling, Arnold.
4. Maddala G. S. (2006), Ekonometria, PWN.
5. McIntyre L. (1994), Using Cigarette Data for An Introduction to Multiple Regression,
Journal of Statistics Education v. 2, n. 1 (www.amstat.org/publications/jse/v2n1/datasets.mcintyre.html).
6. Welfe A. (2009), Ekonometria. Metody i ich zastosowanie, PWE.
44 www.statsoft.pl/czytelnia.html