Vous êtes sur la page 1sur 20

Statystyka- wykład I

25.02.2007
Podręczniki:
1. Amir D. Aczel, Statystyka w zarządzaniu, PWN 2000
2. Maria Pociecha, Metody statystyczne w zarządzaniu turystyką, ALBIS 2002
3. Statystyka ogólna, pod red. Michała Woźniaka, AE w Krakowie 1994

Statystyka- jest to nauka o ilościowych metodach badania prawidłowości dotyczących zjawisk masowych.
Właściwości prawidłowości występujących w otaczającej nas rzeczywistości są kształtowane i przejawiają się
tylko w procesie masowym.

Każde zjawisko jest kształtowane przez dwojakiego rodzaju przyczyny:


• Główne ( podstawowe, typowe, systematyczne)
• Uboczne ( przypadkowe)
My zajmujemy się tylko przyczynami głównymi.

Opisując liczbowo zjawiska masowe należy określić 2 składniki:


o Systematyczny- jako wyraz oddziaływania przyczyn głównych
o Przypadkowy- odzwierciedlający wpływ czynnika losowego

Zastosowanie do analizy odpowiednich metod statystycznych pozwala nam na:


 Porządkowanie i klasyfikacja danych
 Dokładniejszy opis danego zjawiska
 Badanie różnego rodzaju powiązań
 Formułowanie uogólnień
 Prognozowanie analizowanych wielkości

Opracowanie statystyczne składa się z 4 etapów:


• Formułowanie hipotezy merytorycznej
• Gromadzenie danych liczbowych i ich klasyfikacja
• Opracowania statystycznego wg wybranych metod
• Weryfikacji hipotezy merytorycznej

Zbiorowością statystyczną nazywamy zbiór obiektów ( osób, przedmiotów, zdarzeń) posiadających cechy
wspólne.
Poszczególne elementy składowe zbiorowości statystycznej noszą nazwę jednostek statystycznych.
Rozróżnia się dwa rodzaje zbiorowości statystycznych:
 Zbiorowość generalną ( populacja)
 Zbiorowość próbną ( próba, próbka)

Zbiorowość generalna tworzą wszystkie obiekty będące przedmiotem badania.


Musi być ona jednorodna i jednoznacznie określona.

Zbiorowość próbna ( próbka) jest podzbiorem zbiorowości generalnej.


Próba powinna być reprezentatywna tzn. taka aby z przyjęta dokładnością opisywała strukturę zbiorowości
generalnej.
Reprezentatywność próby zapewnia nam jej losowy wybór.
Losowo tzn. tak, że każdy element populacji ma jednakowa szansę (prawdopodobieństwo) znalezienia się w
próbie. Próba wybierana jest na drodze losowania.

Metoda reprezentacyjna- zajmuje się różnymi sposobami………………………………………..

Relacje między populacją a próbą


Populacja

Rachunek
prawdopodobieństwa

Próba

I etap: statystyka opisowa (opis próby)


II etap: statystyka matematyczna (wnioskowanie na temat populacji na podstawie próby)

Właściwości jakimi odznaczają się jednostki tworzące badana zbiorowość nazywamy cechami statystycznymi.
Cechy można podzielić na:
• Jakościowe (niemierzalne) np. płeć
• Ilościowe (mierzalne) np. przeciętny dochód , wyrażane w zł, kg, cm.

Cecha mierzalna z punktu widzenia matematycznego jest zmienną.


Wyróżnia się zmienne mierzalne:
 Skokowe (przyjmują wartości ze zbioru skończonego lub przeliczalnego)
 Ciągłe (przyjmują wartości z określonego przedziału liczb rzeczywistych)

Obiekt nr Cecha x Cecha y Cecha z


1 x1 y1 z1
2 x2 y2 z2
….. ….. ….. …..
i xi yi zi
….. ….. ….. …..
n xn yn zn
Jeżeli cecha x- zmienna jednowymiarowa
Jeżeli cecha x, y- zmienna dwuwymiarowa
Jeżeli cecha x, y, z- zmienna trójwymiarowa

Szereg statystyczny jest to uporządkowany zbiór (ciąg) wartości zmiennej.


• Szczegółowe
• Strukturalne
• Kumulacyjne
• Geograficzne
• Dynamiczne

Charakterystyki liczbowe rozkładu badanej cechy


Czym różnią się badane zbiorowości
Krzywa Gaosa
La Plaza

Inna
zmienność w
obrębie

Asymetria
prawostronna

Asymetria
lewostronna
Najczęściej do opisu struktury badanej zbiorowości wykorzystuje się:
• Miary położenia
• Miary zmienności ( rozproszenia, dyspersji)
• Miary asymetrii
• Miary spłaszczenia i koncentracji

MIARY POŁOŻENIA

Średnie klasyczne:
Średnia arytmetyczna- jest równa sumie wartości zmiennej podzielonej przez ich liczbę
n

x1 + x2 +  + xn ∑x i
x= = i =1
n n
xi- wartość zmiennej
n- liczba jednostek statystycznych badanej zbiorowości

Średnia ważona (dla szeregu rozdzielczego)


k

x1n1 + x2 n2 +  + xk nk ∑
xi ni
x= = i =1
n n
x’i- wartość zmiennej
ni- liczebność n-tej klasy
k- liczba klas

Średnia geometryczna- pierwiastek n-tego stopnia z iloczynu wartości pomiaru


n
xG = n x1 × x2 × × xn = n ∏x
i =1
i

xi- wartość zmiennej


n- ogólna liczebność
Gdy wartości zmiennej podane są w formie przyrostów (zwłaszcza w %)

Średnia harmoniczna- jest odwrotnością średniej arytmetycznej z odwrotności wartości pomiarów. Stosujemy
ją tam gdzie pomiar wyrażony jest w przeliczeniu na inne jednostki (km/h, os/km2, itp.)
n n
xH = n
= n
1
∑m
i =1
i ∑x
i =1 i

xi- wartość zmiennej


n- ogólna liczebność

Średnia kwadratowa- stosujemy ja kiedy chcemy określić przeciętne zróżnicowanie obiektów


1 n 2
K = =n ∑ xi
n i =1
Xi- wartość zmiennej
n- ogólna liczebność

Przeciętne pozycyjne oraz kwartyle

Modalna (wartość najczęstsza, typowa, dominanta) –jest to wartość zmiennej która występuje największą liczbę
razy w zbiorowości statystycznej
Przykład:
-2,2,2,2,3,4,4,4,4,5,7,7,10,12,12
Modalna wynosi 4. Oznacza to, że najczęściej w biurach podróży zatrudniane są 4 osoby.

Modalna dla szeregu rozdzielczego


ns − ns −1
M o = xs + h
(ns − ns −1 ) + (ns − ns +1 )

s- numer przedziału najliczniejszego


xs- dolna granica s-tego przedziału
ns- liczebność w przedziale modalnej
ns-1- liczebność w przedziale poprzednim
ns+1- liczebność w przedziale następnym
h- rozpiętość (interwał) przedziału

11.03.2007
Statystyka-wykład II

Przeciętne pozycyjne:
Modalna:
Dla szeregu rozdzielczego:
ns − ns −1
M o = xs + h
(ns − ns −1 ) + (ns − ns +1 )
Gdzie:
s- nr przedziału najliczniejszego
xs- dolna granica s-tego przedziału
ns- liczebność w przedziale modalnej
ns-1- liczebność w przedziale poprzednim
ns+1- liczebność w przedziale następnym
h- rozpiętość (interwał) przedziału

Modalna przedział najliczniejszy

Może się zdarzyć że przedział może mieć 2 modalne.

Mediana- (wartość środkowa)Mediana jest tą wartością cechy która dzieli szereg statystyczny na 2 równe części
ze względu na liczbę jednostek. Połowa obiektów posiada wartość cech nie większą, a pozostałe 50% nie
mniejszą od mediany.

Mediana dla nieparzystej liczby obiektów:


M e = x n +1
2
Biura podróży wg liczby zatrudnionych osób w pewnej miejscowości (dane umowne):
2,2,2,3,4,4,4,4,4,5,7,7,10,12,12,
Me= 4 osoby
Połowa spośród badanych biur podróży zatrudnia nie więcej niż 4 pracowników.

Mediana dla parzystej liczby obiektów:


1 
Me =  xn + xn 

2 2 +1 
2 
Biura podróży wg zatrudnionych osób w pewnej miejscowości (dane umowne):
2,2,2,3,4,4,4,4,4,5,7,7,10,12,12,13,13,14,14,16,
Me=6 osób
Połowa spośród badanych biur zatrudnia nie więcej niż 6 pracowników.

Mediana dla szeregu rozdzielczego:


h n e −1
M e = xe + ( − ∑ ni )
ne 2 i=1
Gdzie:
e- nr przedziału mediany
xe- dolna granica przedziału mediany
h- rozpiętość (interwał) przedziału
ne- liczebność przedziału mediany
Σ ni- suma liczebności przedziałów od pierwszego do przedziału poprzedzającego przedział mediany

Kwartyle (wartości ćwiartkowe)- podają wartości zmiennej jakiego nie przekracza określona część zbiorowości.
Kwartyl pierwszy i trzeci:
q −1
h 1
Q1 = xq + ( n − ∑ni
nq 4 i =1
q −1
h 3
Q3 = xq + ( n − ∑ni )
nq 4 i =1

Analogicznie do przedziału mediany

MIARY ZMIENNOŚCI
Dwie zbiorowości o różnym poziomie zmienności.

Na rysunku pokazano dwa diagramy częstości (1) i (2).


Dla uproszczenia miary położenia (średnia, mediana i modalna) są sobie równe i identyczne dla obu
zbiorowości.

• Mniejsze rozproszenie wokół średniej występuje w zbiorowości (1).


Diagram jest smuklejszy i wyższy.

• Większe rozproszenie wokół średniej występuje w zbiorowości (2).


Diagram jest bardziej rozłożysty i niższy.

Podstawowe miary zmienności (rozproszenia, dyspersji):


 Rozstęp
 Wariancja
 Odchylenie standardowe
 Współczynnik zmienności

Rozstęp- jest to różnica między największą a najmniejszą wartością zmiennej w danej zbiorowości. Rozstęp
określa obszar zmienności analizowanej cechy.
R = xmax − xmin

Wariancja- jest średnią arytmetyczną z kwadratów różnic poszczególnych wartości zmiennej od ich średniej
arytmetycznej.

Wariancja –szereg szczegółowy


n

∑(x i − x)
2

s2 = i =1
n
Gdzie:
xi- wartość zmiennej
x- średnia arytmetyczna
n- ogólna liczebność

Wariancja szereg rozdzielczy:


k
1
* ∑( x −x ) * ni
2
s 2
= k
"
i

∑n
n=
1
i
n=
1

Gdzie:
xi’- środek przedziału
x- średnia arytmetyczna
ni- liczebność w klasach

Odchylenie standardowe- określa, o ile średnio jednostki zbiorowości różnią się od średniej arytmetycznej.
k

∑(x − x ) ni
2
i
s= i =1
= s2
n

Współczynnik zmienności- jest względną miarą rozproszenia


s
V == * 100
x
Gdzie:
s-odchylenie standardowe
x- średnia arytmetyczna

MIARY ASYMETRII

Współczynnik asymetrii
Rozkład symetryczny- jest wtedy gdy średnia arytmetyczna jest równa medianie i modalnej.

As=0

X= Me= Mo

Współczynnik asymetrii:
x − Mo
As =
s
Gdzie:
x-średnia arytmetyczna
Mo- modalna
s- odchylenie standardowe

Asymetria prawostronna:
As>0

Mo x
Asymetria lewostronna
As<0

x Mo

SKALE POMIARU
Pomiarem nazywamy czynność przyporządkowania przedmiotom, wydarzeniom liczb zgodnie z pewnym
zbiorem reguł (relacje między liczbami np. reguły tożsamości, reguły uporządkowania, reguły addytywności-
one decydują o skali pomiaru)

Rozróżnia się następujące skale pomiaru:


a) Cechy jakościowe
 Nominalna
 Porządkowa
b) Cechy ilościowe (mierzalne)
 Interwałowa
 Ilorazowa

Skala nominalna:
- to taki zbiór kategorii jakościowych, który uniemożliwia zupełną i rozłączną klasyfikację obiektów
- np. ze względu na płeć, miejsce zamieszkania, wykonywany zawód

Skala porządkowa:
-W skali porządkowej można porównać pary jednostek (większe lub mniejsze) ponieważ mierzone jest natężenie
badanej cechy
- np. wykształcenie: podstawowe, średnie, licencjackie, wyższe

Skala interwałowa (przedziałowa, równomierna):


- występuje wtedy gdy uporządkowany zbiór wartości zmiennej składa się z liczb rzeczywistych. Zero w tej skali
jest ustalone dowolnie
- np. temperatura w skali Celsjusza, czas kalendarzowy itp.
Skala ilorazowa (stosunkowa):
-Pomiary w tej skali charakteryzują się bezwzględnym zerem oraz pozwalają na obliczenie stosunku
analizowanych wielkości czyli stwierdzenie ile razy dany obiekt jest większy lub mniejszy od innego
-np. temperatura w skali Kelvina, masa, odległość itp.

25.03.2007
Statystyka-wykład III

METODY ANALIZY WSPÓŁZALEŻNOŚCI:


a. Współczynnik korelacji
b. Funkcja regresji liniowej.

Współczynnik korelacji:

Numer obiektu Wartości zmiennej (X, Y)


1 (x1, y1)
2 (x2, y2)
… …
i (xi, yi)
… …
n (xn, yn)

Diagram korelacyjny

Wartości yi
Wartości
empiryczne

Wartości xi

Rozróżnia się 2 rodzaje zależności:


 Funkcyjną (matematyczną)- wtedy znając wartości xi można dokładnie podać wartości yi
 Stochastyczną (statystyczną)- wtedy jednej wartości zmiennej mogą odpowiadać różne wartości drugiej
zmiennej

Najprostszą miarą współzależności jest KOWARIANCJA


Kowariancja jest średnią arytmetyczną sumy iloczynów różnic między pomiarami zmiennej X i Y a jej
średnimi arytmetycznymi.
1 n
cov( X , Y ) = * ∑ ( xi − x ) * ( yi − y )
n i =1
Gdzie:
xi, yi- wartości zmiennych X i Y
x, y -średnie arytmetyczne odpowiednio X i Y
n- ogólna liczebność

Współczynnik korelacji liniowej Pearsona (dla cech mierzalnych)

cov( X , Y )
r=
sx * s y
sx, sy- odchylenia standardowe odpowiednio zmiennych

∑ ( xi − x ) * ( yi − y )
r= i =1
n n

∑ ( xi − x ) * ∑ ( yi − y )
i =1 i =1

Współczynnik korelacji liniowej Pearsona (dla cech mierzalnych):


 Jest symetryczny tzn. rx,y= ry,x
 Przyjmuje wartości z przedziału -1=<r<=1
 Znak współczynnika dodatni- zależności wprost proporcjonalna
 Znak współczynnika ujemny- zależność odwrotnie proporcjonalna
 Im wartość bezwzględna współczynnika korelacji jest:
o Bliższa 1 tym zależność korelacyjna jest silniejsza
o A im bliższa 0 tym zależność słabsza

Korelacja rang Spearmana (dla cech jakościowych):

Do badania korelacji w przypadku, gdy jedna lub obie składowe zmiennej dwuwymiarowej są cechami
jakościowymi mierzonymi w skali porządkowej stosuje się współczynnik rang Spearmana.
n
6 * ∑ d i2
R =1− i =1
n(n 2 − 1)
Gdzie:
di- różnica między rangami zmiennej X i Y
n- liczna jednostek statystycznych

Rangowanie polega na nadawaniu kolejnym obiektom numerów zgodnie z nasileniem się zmiennej. Jeżeli te
same kategorie powtarzają się to jako rangę przyporządkowujemy im średnią arytmetyczną z kolejno
przypadających dla nich numerów.
Współczynnik korelacji rang Spearmana posiada te same własności i jest identycznie interpretowany jak
współczynnik Pearsona.
Liniowa funkcja regresji:
Rozpatrujemy zależności między dwiema cechami X i Y.
 X- pełni rolę zmiennej niezależnej (objaśniającej)
 Y- jest zmienną zależną (objaśnianą)
 Zależność średnich warunkowych jednej zmiennej od zmian w wartościach drugiej zmiennej nazywamy
zależnością regresyjną

Liniowa funkcja regresji- wzór


yˆ = a0 + a1 x
a0,a1- parametry funkcji określają one położenie prostej
yi- wartości funkcji

wydatki Wartości empiryczne


Funkcja regresji

dochody

Epsilony to są różnice rzeczywiste


ε i = yi − yˆ i
Wielkość tych różnic zależy od wartości funkcji regresji.

Najczęściej dopasowuje się funkcje regresji metodą najmniejszych kwadratów (MNK)


Kryterium metody najmniejszych kwadratów jest takie wyznaczenie parametrów dla których funkcja:
n n 2

ψ (a0 , a1 ) = ∑ ε = ∑ [ yi − ( a0 + a1 x1 ) ]
i
2
osiąga minimum.
i =1 i =1
Minimum funkcji wyznacza się obliczając pierwsze pochodne względem szacowanych parametrów i porównując
je do zera.

 ∂ψ
 ∂a = 0
 0

 ∂ψ = 0
 ∂ a1
Po wykonaniu wskazanych działań i przekształceń otrzymujemy „układ równań normalnych”:

n n

 ∑ yi = n a0 + a1 ∑ xi
 i= 1 i= 1
n n n
 y x = a x + a x2
 ∑i= 1 i i 0 ∑i= 1 i 1 ∑i= 1 i
Wartości parametrów można również obliczyć z następujących wzorów:
n

∑ (x i − x ) * ( yi − y )
a1 = i =1
n
a0 = y − a1 x
∑ (x
i =1
i − x) 2

Liniowa funkcja regresji:


 Wartość a1 nosi nazwę współczynnika regresji liniowej.
 Informuje on, o ile średnio zmieni się wartość zmiennej zależnej Y, gdy zmienna niezależna X wzrośnie
o jednostkę.

Miary dobroci dopasowania funkcji regresji do danych empirycznych:


 Wariancja resztowa
 Odchylenie standardowe resztowe
 Współczynnik zmienności resztowej
 Współczynnik zbieżności
 Współczynnik determinacji

15.04.2007
Statystyka-wykład IV

Miary dobroci dopasowania funkcji regresji do danych empirycznych:

Wariancja resztowa
Wariancja resztowa sε jest średnią arytmetyczną kwadratów reszt (εi ) :
2 2

1 n 2
sε2 = * ∑εi
n i =1
Gdzie:
ε i = yi − yˆ i

Odchylenie standardowe resztowe


Do interpretacji wykorzystuje się pierwiastek z wariancji resztowej czyli odchylenie standardowe resztowe:
sε = sε2
Informuje ono o tym, o ile średnio biorąc wartości zmiennej objaśnianej Y różnią się od wartości obliczonych
ŷi .

Współczynnik zmienności resztowej


Współczynnik zmienności resztowej jest stosunkiem odchylenia standardowego resztowego od średniej
arytmetycznej:

Vε = * 100
y
Informuje on jaki procent stanowią odchylenia przypadkowe w zmienności zmiennej zależnej.

Współczynnik zbieżności
n

∑(y i − yˆ i ) 2
ϕ2 = i =1
n

∑(y
i =1
i − y) 2
Gdzie:
yi - wartości zmiennej objaśnianej ( i=1, …, n)
ŷi -wartości obliczone z funkcji regresji
y -średnia arytmetyczna
Współczynnik zbieżności wskazuje jaka część zmienności w wartościach zmiennej zależnej Y nie jest związana
ze zmiennością w wartościach zmiennej objaśniającej X.
Wartości ϕ2 zawierają się w przedziale <0,1>. Im ϕ2 jest bliższe zeru, tym oszacowana funkcja regresji jest
lepiej dopasowana do danych empirycznych.

Współczynnik determinacji
n

∑ ( yˆ i − y)2
R2 = i =1
n

∑(y
i =1
i − y)2
Współczynnik determinacji wskazuje jaka część zmienności w wartościach zmiennej zależnej Y związana jest ze
zmiennością w wartościach zmiennej objaśniającej X w sensie przyjętych funkcji regresji.
Wartości R 2 zawierają się w przedziale <0,1>. Im R 2 jest bliższe 1, tym oszacowana funkcja regresji jest
lepiej dopasowana do danych empirycznych.
Zachodzi relacja typu:
R 2 =1 −ϕ2
Istnieje związek między współczynnikiem determinacji a współczynnikiem korelacji
R2 = r 2
ELEMENTY RACHUNKU PRAWDOPODOBIEŃSTWA
Podstawowe pojęcia:
W rachunku prawdopodobieństwa określenie „prawdopodobieństwo” odnosi się do możliwych wyników
doświadczenia
Zdarzenie elementarne jest pojęciem pierwotnym, czyli takim pojęciem, którego się nie definiuje.
Możliwe wyniki jakiegoś doświadczenia nazywamy zdarzeniami elementarnymi a ich zbiór przestrzenią zdarzeń
elementarnych.

Definicja prawdopodobieństwa:
Jeżeli przestrzeń zdarzeń elementarnych E składa się z n zdarzeń elementarnych i zdarzenia jednoelementowe są
jednakowo prawdopodobne (prawdopodobieństwo to wynosi 1/n) to prawdopodobieństwo dowolnego zdarzenia
A składającego się z k zdarzeń elementarnych przestrzeni E wyraża się równością:
k
P ( A) =
n
Gdzie:
k- liczba zdarzeń sprzyjających
n- ogólna liczba zdarzeń elementarnych

Jednowymiarowe zmienne losowe


Zmienną losową nazywamy taką zmienną, która w wyniku doświadczenia przyjmuje określoną wartość (znaną
po zrealizowaniu doświadczenia) ze zbioru wszystkich możliwych wartości.
Wyróżnia się 2 rodzaje zmiennych losowych:
 Zmienne skokowe (dyskretne)
 Zmienne ciągłe
Zmiennymi losowymi skokowymi nazywamy takie zmienne losowe, które mają skończony lub przeliczalny zbiór
wartości.
Zmiennymi losowymi ciągłymi są zmienne losowe, które przybierają dowolne wartości z pewnego przedziału
liczbowego.
Zmienne losowe są więc wartościami cech jednostek statystycznych wylosowanych ze zbiorowości generalnej.
Oznacza to, że każdej wartości x może być przyporządkowane odpowiednie prawdopodobieństwo, czyli że
prawdopodobieństwo to jest funkcją x.

Zmienna losowa typu skokowego


Zmienna losowa jest typu skokowego (dyskretnego) jeżeli zbiór jej wartości
Jest skończony (Wx = { x1 , x 2 ,..., x n } )
{
Jest przeliczalny (Wx = x1 , x 2 ,... ) }
Wartościom zmiennej odpowiadają prawdopodobieństwa pi zdefiniowane następująco:
pi = P ( x = xi ) ∑pi
i =1
Funkcje określoną na zbiorze Wx przyporządkowującą wartościom xi odpowiednio wartości
prawdopodobieństwa dla których spełniony jest warunek:
pi ≥ 0 ∑p i
i =1 nazywamy funkcją rozkładu prawdopodobieństwa.

Dystrybuantą zmiennej losowej skokowej x nazywamy funkcję, która przyporządkowuje prawdopodobieństwo


tego że zmienna losowa X przyjmuje wartości mniejsze od x. Dystrybuantę zmiennej losowej X w punkcie x
oznacza się symbolem F(x). Możemy wiec zapisać: F ( x ) = P ( X < x )

Dla zmiennej skokowej: F ( x ) = ∑p


xi <x
i

Rozkład dla doświadczenia polegającego na rzucie kostką do gry:


a) Zmienna losowa X przyjmuje wartości: 1,2,3,4,5,6
1
• Z prawdopodobieństwami: P ( x = xi ) =
6
• Z prawdopodobieństwami:
x 1 2 3 4 5 6
pi 1/6 1/6 1/6 1/6 1/6 1/6
• Z prawdopodobieństwami:

Dystrybuanta dla doświadczenia polegającego na rzucie kostką do gry

x (-∞,1> (1,2> (2,3> (3,4> (4,5> (5,6> (6,+∞)


F(x) 0 1/6 2/6 3/6 4/6 5/6 1

Parametry rozkładu

Wartość oczekiwana ( nadzieja matematyczna)


Wartością oczekiwaną E(X) (nadzieją matematyczną) nazywamy sumę iloczynów wartości zmiennej i
odpowiadających im prawdopodobieństw.
n
E ( X ) = ∑ xi pi
i =1
Dla naszego rozkładu:
n
1 1 1 1 1 1
E ( X ) = ∑ xi pi = 1 * + 2 * + 3 * + 4 * + 5 * + 6 * = 3,5
i =1 6 6 6 6 6 6

Wariancja
Wariancją D 2 ( X ) nazywamy liczbę zdefiniowaną:
n
D 2 ( X ) = ∑ ( xi − E ( X )) 2 * pi
i =1
Dla naszego przykładu:
n
1 1 1
D 2 ( X ) = ∑ ( xi − E ( X )) 2 * pi = (1 − 3,5) 2 * + (2 − 3,5) 2 * + (3 − 3,5) 2 * +
i =1 6 6 6
1 1 1
(4 − 3,5) 2 * + (5 − 3,5) 2 * + (6 − 3,5) 2 * = 2,9166
6 6 6
Stąd odchylenie standardowe wynosi:
D ( X ) = 2,9166 =1,7

Na egzaminie może być:


Definicja prawdopodobieństwa
Jak dzielą się zmienne: skokowe, ciągłe
Dla zmiennej skokowej podstawowe charakterystyki to rozkład i dystrybuanta
Parametry dla określenia zmiennej (nadzieja matematyczna, wariancja)

29.04.2007
Statystyka-wykład V

1. Zmienna losowa typu ciągłego. Rozkład normalny

Wartość oczekiwana i wariancja zmiennej losowej x przekształconej następująco:


X − E ( x)
U =
D( x)
Gdzie:
E(x)- wartość oczekiwana zmiennej losowej x
D(x)- odchylenie standardowe zmiennej losowej x
Przekształcenie to nosi nazwę STANDARYZACJI.

Wartość oczekiwana i wariancja dla zmiennej standaryzowanej:


X − E ( x)
U =
D( x)
Wynosi: E(U)=0 D2(U)=1

Zmienna losowa typu ciągłego:


 Zmienną losową x przyjmującą wszystkie wartości z pewnego przedziału, dla której istnieje nieujemna
funkcja f taka, że dystrybuanta F(x) wyraża się wzorem:
x

 F ( x ) = ∫ f (t )dt dla x ∈ R
α
 Nazywamy zmienną losową typu ciągłego a funkcję f, jej gęstością.
 Zmienna losowa ciągła x podlega rozkładowi normalnemu, jeżeli jej funkcja gęstości wyraża się
następującym wzorem:

1  ( x − E ( x))2 
 f ( x) = exp − 2

D( x) 2 ∏  2 D ( x ) 
 Gdzie:
E(x)- wartość oczekiwana
D2(x)- wariancja
exp[x]- ex
e≈ 2,71828- podstawa logarytmu naturalnego
Π≈ 3,14159…
 Wartość parametrów w rozkładzie normalnym. Przyjęło się oznaczenie
E ( x) = m D 2 ( x) = σ 2 σ − sigma
 Fakt że zmienna losowa podlega rozkładowi normalnemu zapisuje się w skrócie:
X~N(m,σ)
 Przy takich oznaczeniach funkcję gęstości rozkładu normalnego zapisuje się następująco:

1  ( x − m) 2 
 f ( x) = exp − 
σ 2∏  2σ 
2

 Wykresem funkcji f(x) jest krzywa Gaussa- Laplace’a

F(x)

m-σ m m+σ x

Cechy rozkładu:
Funkcja ta :
• W całej dziedzinie przyjmuje wartości dodatnie
• W punkcie x=m osiąga maksimum
• Dla x=m-σ i x=m+σ posiada punkty przecięcia
• Wykres jest symetryczny względem prostej x=m

Dystrybuantę zmiennej w rozkładzie normalnym zapisuje się następująco:

1  ( x − m) 2 
 f ( x) =
σ 2∏
∫ exp −
 2σ 
2


 Wprowadzając standaryzację zmiennej:


 X~N(m,σ)
 Według znanej już zasady
x −m
 U =
σ
 Otrzymujemy funkcję rozkładu w postaci

1 U2 
 f ( x) = exp − 
2∏  2 
 I dystrybuantę:

1  t2 
Ui
 F (U ) = ∫ exp −  dt
2 ∏ −α  2 
Wykres funkcji gęstości f(u) zmiennej standaryzowanej:
X~N(m,σ)
 Jest symetryczny względem osi rzędnych
 Funkcja osiąga maksimum dla U=0
 Dla w=-1 i u=1 posiada punkty przecięcia
Wartości dystrybuanty zmiennej
X~N(m,σ)
Zostały tablicowane, co oznacza, że tablice podają dla każdej wartości U0 zmiennej U, wartość dystrybuanty
F(U0)
2.Weryfikacja hipotez statystycznych
Hipotezą statystyczną nazywamy sąd o zbiorowości generalnej, wyrażony bez wprowadzenia badania pełnego
(wyczerpującego).
W oparciu o wyniki otrzymane z próby podejmujemy decyzję o podjęciu lub odrzuceniu podstawionej hipotezy.
Algorytmy weryfikacji hipotez statystycznych posiadają pewne wspólne cechy:
Ho: m=mo
Ho- hipoteza zerowa
mo- wartość złożona (konkretna wartość)
• Hipoteza zerowa jest podstawową hipotezą sprawdzaną
• Zakłada się, że interesująca nas zmienna ciągła ma rozkład normalny o nieznanych parametrach
• Oprócz hipotezy zerowej należy sformułować hipotezę alternatywną
H1: m≠mo; H1: m< mo ; H1: m>mo;
• Ponieważ wnioskowanie prowadzone jest na podstawie niepełnej informacji o populacji, to podejmując
decyzję o przyjęciu lub odrzuceniu hipotezy możemy popełnić błąd:
 Istnieją 2 rodzaje błędów:
o Błąd pierwszego rodzaju
o Błąd drugiego rodzaju
Ho
Decyzja
PRAWDZIWA FAŁSZYWA
Błąd II rodzaju;
Przyjąć Decyzja poprawna prawdopodobieństwo wystąpienia
błędu= β
Błąd I rodzaju;
Odrzucić prawdopodobieństwo wystąpienia Decyzja poprawna
błędu= α

Udowodniono, że dla danej liczebności próby zmniejszenia prawdopodobieństwa α powoduje wzrost


prawdopodobieństwa β.
Prawdopodobieństwo 1- β nazywa się mocą testu. Spośród możliwych do wykorzystania testów należy wybrać
test najmocniejszy.
W praktyce wykorzystuje się najczęściej tak zwane testy istotności czyli takie, które pozwalają odrzucić hipotezę
zerową z małym ryzykiem popełnienia błędu I rodzaju.
Prawdopodobieństwo α wystąpienia błędu I rodzaju nosi nazwę poziomu istotności i ustala go osoba prowadząca
badania statystyczne. Najczęściej przyjmuje się wartości α na poziomie 0,01; 0,02; 0,05.
• Kryterium podejmowania decyzji o weryfikacji hipotezy stanowi wartość empiryczna statystyki testu
• W testach istotności, statystyką testu jest najlepszy estymator danego parametru. Statystyka ma więc
znany rozkład prawdopodobieństwa.
• Na podstawie wyników próby losowej oblicza się wartości tej statystyki Zn.
• W końcowym etapie weryfikacji podstawionej hipotezy ustala się tak zwany zbiór (obszar) krytyczny
K.
• Jest to zbiór tak ustalony, aby prawdopodobieństwo tego, że wartość statystyki Z, znajduje się na
obszarze krytycznym, gdy prawdziwa jest H0 było równe lub mniejsze od α.
P( Z n ∈ K / H 0 ) ≤ α
• Jeżeli wartość statystyki sprawdzającej Zn należy do zbioru krytycznego, to z prawdopodobieństwem α
odrzucamy sprawdzoną hipotezę H0 na korzyść hipotezy alternatywnej H1
• Natomiast w przypadku, gdy obliczona z próby statystyka Zn nie należy do zbioru krytycznego K, to
nie ma podstaw do odrzucenia H0.

13.05.2007
Statystyka-wykład VI

Cdn. Hipotezy statystyczne


Wartość krytyczną Zα wyznaczającą granice zbioru K można odczytać z tablic właściwych dla rozkładu danego
sprawdzianu Zn. Większość programów komputerowych podaje dokładną wartość prawdopodobieństwa p dla
wyliczonej z próby wartości Zn.
Zbiory krytyczne ustala się w zależności od postaci hipotezy alternatywnej:
• Jeżeli hipoteza alternatywna ma postać H1: m≠m0 to obszar krytyczny jest zbiorem dwustronnym.
H1: m≠m0

-Zα 0 Zα
• Jeżeli hipoteza alternatywna ma postać H1: m>m0 to obszar krytyczny jest zbiorem prawostronnym.
H1: m>m0


• Jeżeli hipoteza alternatywna ma postać H1: m<m0 to obszar krytyczny jest zbiorem lewostronnym
H1: m<m0

-Zα
Testy statystyczne służące do weryfikacji hipotez dotyczących parametrów rozkładu zmiennej losowej
nazywają się testami parametrycznymi
A testy wykorzystywane do weryfikacji hipotez nieparametrycznych testami nieparametrycznymi

Testy dla wartości przeciętnej


Przypadek 1.
• Zmienna losowa ma rozkład X~N(m,σ)
• Parametr m jest nieznany natomiast σ jest znane
• Weryfikujemy hipotezę o postaci H0: m=m0
• Wobec hipotez alternatywnej
 H1: m≠m0
 lub m>m0
 m<m0
• Z populacji pobieramy n elementową próbę losową,
• a następnie obliczamy na podstawie wyników z próby wartość statystyki postaci
x − m0
 U= * n
σ
• Statystyka ta ma standaryzowany rozkład normalny N(0,1)
• Aby podjąć decyzję odnośnie H0 konstruujemy odpowiednio obszar krytyczny
• Jeżeli obszar krytyczny jest:
 Dwustronny to dla poziomu istotności α spełniona jest relacja
 P ( U ≥ uα ) ≤ α
 Gdzie uα nazywane jest wartością krytyczną
• Wartość krytyczną odczytujemy z tablic dystrybuanty standaryzowanego rozkładu
normalnego
• Jeżeli z próby obliczamy wartość u statystyki U taką, że:
 u ≥uα to hipotezę H0 odrzucamy na korzyść hipotezy alternatywnej
 u < uα to nie ma podstaw do odrzucenia H0 (hipotezę zerową
przyjmujemy)

Przypadek 2.
• Jeżeli chcemy zweryfikować hipotezę
• Gdy H0: m=m0
• Parametry rozkładu populacji m i σ są nieznane
• Próba jaką dysponujemy jest mała n≤ 30
• Wykorzystuje się statystykę
x − m0
 T= * n −1
s
• Statystyka ta ma rozkład t- studenta o v=n-1 stopniach swobody
• Dwustronny obszar krytyczny
 Określa relacja P ( t ≥ tα,v ) ≤ α
 ( )
Prawostronny P t ≥ tα ,v ≤ α
 Lewostronny P ( t ≤ tα ) ≤ α
,v

• Wartość krytyczną tα,v należy odczytać z tablic wartości krytycznych rozkładu t- studenta dla zadanego
poziomu istotności α i v=n-1 stopni swobody
Przypadek 3.
• H0: m=m0
• Gdy parametry rozkładu populacji m i σ są nieznane
• Próba jaką dysponujemy jest duża (n>30)
• Wykorzystuje się statystykę
x − m0
 U= * n
s
• Gdy prawdziwa jest H0 statystyka U ma w przybliżeniu standaryzowany rozkład normalny N(0,1).
Zbiór krytyczny konstruowany jest wg tych samych zasad jak w przypadku 1.

Przykład 1.
Automat w fabryce czekolady wytwarza tabliczki o minimalnej wadze 250g
Wiadomo że rozkład wagi produkowanych tabliczek jest normalny N(m,5)
Kontrola techniczna pobrała w pewnym dniu próbę losową 16 tabliczek i otrzymała ich średnią wagę 244g. Czy
można twierdzić, że automat rozregulował się i produkuje tabliczki o mniejszej niż przewiduje norma wadze?
Na poziomie istotności α=0,05 zweryfikować odpowiednią hipotezę statystyczną.
H0: m=250
H1: m<250
Obliczamy wartość statystyki sprawdzającej (przypadek 1)
x − m0 244 − 250
U= * n= * 16 = −4,8
σ 5
Z tablic rozkładu normalnego N(0,1) odczytujemy uα=-1,64
Ponieważ wartość ta znalazła się w obszarze krytycznym, gdyż u<uα więc H0 hipotezę zerową odrzucamy na
korzyść hipotezy alternatywnej.
Z prawdopodobieństwem błędu mniejszym niż 0,05 możemy stwierdzić że waga tabliczek jest za niska.

Przykład 2.
Ustalono na podstawie analizy kosztów, że będzie opłacać się wybudowanie motelu przy trasie komunikacyjnej,
jeżeli będzie przejeżdżać tą trasą więcej niż 800 samochodów dziennie. W losowo wybrane dni roku liczono
ilość przejeżdżających samochodów i otrzymano następujące rezultaty:
792, 810, 820, 886, 910, 840, 1025, 790, 972, 830, 810, 780, 815, 954, 810, 930, 820.
Na poziomie istotności α=0,05 zweryfikować hipotezę o opłacalności podejmowanej inwestycji.
H0: m=800
H1: m>800
Z uwagi na to że próba jest mała (n=17) zastosujemy statystykę (przypadek 2). Wartości średniej arytmetycznej
oraz odchylenia standardowego (s) wyliczamy z próby. W prezentowanym przykładzie wynoszą one:
x = 858 ,5 s = 71 ,4
Obliczamy wartości statystyki testu.
858 ,5 − 800
t= * 17 −1 = 3,28
71,4
Zbiór krytyczny jest zbiorem prawostronnym. Dla 16 stopni swobody i poziomu istotności α=0,05 wartość
krytyczna t0,05;16=1,74
Statystyka testu należy do zbioru krytycznego (t>tα) zatem H0 należy odrzucić. Możemy więc przyjąć że
planowana inwestycja będzie się opłacać.

Przykład 3.
W szpitalu wylosowano niezależnie spośród pacjentów leczonych na pewną chorobę próbę 26 chorych i
otrzymano średnią ciśnienia tętniczego 135 oraz odchylenie standardowe 45. Na poziomie istotności α=0,05
(2,06) zweryfikować hipotezę, że pacjenci ci pochodzą z populacji o przeciętnym ciśnieniu 120.
H0: m=120
H1: m≠120
Próba mała (26chorych)
135 − 120 135 − 120
T = * 26 − 1 = * 5 = 1,67
45 45
Ponieważ 1,67<2,06 brak podstaw do odrzucenia hipotezy zerowej. Na poziomie istotności 0,05 przyjmujemy że
przeciętne ciśnienie chorych jest w normie, a różnica uzyskana z próby Ne jest w stosunku do przeciętnej normy
statystycznie istotna tzn da się usprawiedliwić przypadkiem.

Zadanie!!! Zastanowić się nad rozwiązaniem w domu


Badając w pewnym zakładzie przemysłowym absencję pracujących tam kobiet stwierdzono, że w wylosowanej
próbie 100 pracownic średni czas przebywania ich na zwolnieniach lekarskich wyniósł 38dni, a odchylenie
standardowe 16dni. Czy można na tej podstawie twierdzić, że przeciętny roczny czas zwolnień lekarskich jest
dłuższy niż miesiąc tj. 31dni. Przyjmując poziom istotności α=0,01 (2,33).