Vous êtes sur la page 1sur 1

1. 2. 3. 4.

5.

6.

7. 8. 9. 10.

11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22.

Lekka skonod lewostronna zmiennej BatAv. Zmienne podzielone przez ogln liczb pojawienia si na pace (dlatego s z przedziau (0,1)). Bardziej zrnicowane pierwsze dwie oraz ostatnia zmienna, na boxplocie widad symetri zmiennych Doubles oraz RunsScored. Nietypowe wartoci w przypadku 3 ostatnich zmiennych. Na wykresie rozrzutu widad korelacj midzy BatAv oraz RunsScored, oraz nieco sabsz korelacj z Doubles i Triples. Widad te ujemn korelacj BatAv i StrikeOuts (co zgadza si z intuicj, StrikeOuts odnosi si do uderzeo nieudanych). Macierz korelacji potwierdza przypuszczenia widad najwiksz korelacj BatAv oraz RunsScored i zauwaalna jest ujemna korelacja BatAv i StrikeOuts. Pozostae zmienne skorelowane na dod podobnym poziomie, poza par Triples i HomeRuns tam korelacji praktycznie nie ma. Test Shapiro nie daje podstaw do odrzucenia hipotezy o normalnoci rozkadu BatAv. Widzielimy du korelacj tej zmiennej z RunsScored oraz umiarkowane korelacje midzy pozostaymi zmiennymi mona zatem sprbowad objaniad BatAv pozostaymi zmiennymi. W modelu liniowym (objaniana BatAv) widad dod dobre dopasowanie (R^2 = 0,86) modelu do danych oraz istotnod wszystkich zmiennych oprcz Triples i HomeRuns. Vify stosunkowo niskie nie ma powanych problemw ze wspliniowoci. Na wykresie widad, e wariancja mniej wicej staa. Wykres Q-Q pokazuje, e reszty maj rozkad normalny, co potwierdza te test Shapiro. rednia reszt jest niemal rwna 0. W regresji krokowej nie omawiam w prezentacji metody forward (znajduje si ona w kodzie programu), poniewa wyniki nie byy interesujce. Zaczynam od regresji wstecznej. Widad jak odrzucone zostaj zmienne Triples i HomeRuns s to zmienne, ktre w standardowym modelu byy jedynymi nieistotnymi. Do tego samego modelu prowadzi metoda mieszana w oparciu o kryterium BIC (k=log(45)). Widad, e odrzucenie dwch nieistotnych zmiennych take tutaj byo jedynymi krokami. Zajmuj si wic jednym modelem, ktry zwracaj obie rozwaane metody. Widzimy, e zmienne w modelu s istotne, a dopasowanie prawie tak samo dobre jak w przypadku penego modelu. Wszystkie vify mniejsze ni 2, wic nastpia poprawa jeli chodzi o wspliniowod. rednia reszt waciwie rwna 0, ich rozkad normalny (co potwierdzaj testy i wykresy). Nowy model jest zatem zadowalajcy. W regresji grzbietowej wybieram rodkowy estymator 0,56. Porwnujc wspczynniki widzimy, e w obu modelach s one dod podobne. Analizujc znikanie zmiennych w metodzie lasso widzimy, e potwierdza si mniejsza istotnod Triples i HomeRuns w modelu. W modelach linearyzowalnych wykorzystuj par BatAv Triples (na wykresie rozrzutu bya zauwaalna nieliniowod, pozostae pary prawdopodobnie nie dayby ciekawych wynikw). W przypadku modeli bez wyrazu wolnego widad lepsze dopasowanie modelu kwadratowego (potwierdza to AIC oraz R^2). W przypadku modelu z wyrazem wolnym widad, e model kwadratowy raczej przyblia model liniowy ni jest jego poprawieniem i jego dopasowanie nie jest lepsze (AIC pogarsza si niez nacznie). Model potgowy rwnie okaza si mniej zadowalajcy ni zwyky model liniowy (znowy pogorszenie AIC). Podobnie w przypadku modelu wykadniczego tutaj wykresy s prawie nierozrnialne. AIC minimalnie gorsze od zwykego modelu liniowego.

Vous aimerez peut-être aussi