Académique Documents
Professionnel Documents
Culture Documents
5.
6.
7. 8. 9. 10.
11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22.
Lekka skonod lewostronna zmiennej BatAv. Zmienne podzielone przez ogln liczb pojawienia si na pace (dlatego s z przedziau (0,1)). Bardziej zrnicowane pierwsze dwie oraz ostatnia zmienna, na boxplocie widad symetri zmiennych Doubles oraz RunsScored. Nietypowe wartoci w przypadku 3 ostatnich zmiennych. Na wykresie rozrzutu widad korelacj midzy BatAv oraz RunsScored, oraz nieco sabsz korelacj z Doubles i Triples. Widad te ujemn korelacj BatAv i StrikeOuts (co zgadza si z intuicj, StrikeOuts odnosi si do uderzeo nieudanych). Macierz korelacji potwierdza przypuszczenia widad najwiksz korelacj BatAv oraz RunsScored i zauwaalna jest ujemna korelacja BatAv i StrikeOuts. Pozostae zmienne skorelowane na dod podobnym poziomie, poza par Triples i HomeRuns tam korelacji praktycznie nie ma. Test Shapiro nie daje podstaw do odrzucenia hipotezy o normalnoci rozkadu BatAv. Widzielimy du korelacj tej zmiennej z RunsScored oraz umiarkowane korelacje midzy pozostaymi zmiennymi mona zatem sprbowad objaniad BatAv pozostaymi zmiennymi. W modelu liniowym (objaniana BatAv) widad dod dobre dopasowanie (R^2 = 0,86) modelu do danych oraz istotnod wszystkich zmiennych oprcz Triples i HomeRuns. Vify stosunkowo niskie nie ma powanych problemw ze wspliniowoci. Na wykresie widad, e wariancja mniej wicej staa. Wykres Q-Q pokazuje, e reszty maj rozkad normalny, co potwierdza te test Shapiro. rednia reszt jest niemal rwna 0. W regresji krokowej nie omawiam w prezentacji metody forward (znajduje si ona w kodzie programu), poniewa wyniki nie byy interesujce. Zaczynam od regresji wstecznej. Widad jak odrzucone zostaj zmienne Triples i HomeRuns s to zmienne, ktre w standardowym modelu byy jedynymi nieistotnymi. Do tego samego modelu prowadzi metoda mieszana w oparciu o kryterium BIC (k=log(45)). Widad, e odrzucenie dwch nieistotnych zmiennych take tutaj byo jedynymi krokami. Zajmuj si wic jednym modelem, ktry zwracaj obie rozwaane metody. Widzimy, e zmienne w modelu s istotne, a dopasowanie prawie tak samo dobre jak w przypadku penego modelu. Wszystkie vify mniejsze ni 2, wic nastpia poprawa jeli chodzi o wspliniowod. rednia reszt waciwie rwna 0, ich rozkad normalny (co potwierdzaj testy i wykresy). Nowy model jest zatem zadowalajcy. W regresji grzbietowej wybieram rodkowy estymator 0,56. Porwnujc wspczynniki widzimy, e w obu modelach s one dod podobne. Analizujc znikanie zmiennych w metodzie lasso widzimy, e potwierdza si mniejsza istotnod Triples i HomeRuns w modelu. W modelach linearyzowalnych wykorzystuj par BatAv Triples (na wykresie rozrzutu bya zauwaalna nieliniowod, pozostae pary prawdopodobnie nie dayby ciekawych wynikw). W przypadku modeli bez wyrazu wolnego widad lepsze dopasowanie modelu kwadratowego (potwierdza to AIC oraz R^2). W przypadku modelu z wyrazem wolnym widad, e model kwadratowy raczej przyblia model liniowy ni jest jego poprawieniem i jego dopasowanie nie jest lepsze (AIC pogarsza si niez nacznie). Model potgowy rwnie okaza si mniej zadowalajcy ni zwyky model liniowy (znowy pogorszenie AIC). Podobnie w przypadku modelu wykadniczego tutaj wykresy s prawie nierozrnialne. AIC minimalnie gorsze od zwykego modelu liniowego.