Curso Sas1

2
R .C .
R .R ./H o :
A cep tar
H o:
R .R ./H o :
ANLISIS DE DATOS CON SAS
GUIA DE PRCTICAS
Anlisis Univariado (n < 30)

Para mostrar el procedimiento de clculo de las estadsticas bsicas, de los intervalos de
confianza y pruebas de hiptesis, con muestras de tamao menor a 30 (n<30), se usarn
datos que se refieren al incremento de peso en libras en dos grupos de novillos Holstein: Y1
grupo control, alimentado con raciones sin vitamina A; Y2 grupo tratamiento, alimentado con
raciones con vitamina A):
Y1
175
132
218
151
200
219
234
149
187
123
248
206
179
206
Y2
142
311
337
262
302
195
253
199
236
216
211
179
249
214
Clculo de Estadsticas Bsicas

Tomando los datos del primer grupo (Y1 control):
Suma = Yi = 175 + 132 + 218 + ... + 206 + 179 + 206 = 2627
Suma_de_Cuadrados = Y2 = (175) 2 + (132) 2 + ( 218) 2 + ... + ( 206) 2 + (179) 2 + ( 206) 2 = 511807
i
( 2627) 2
( Yi ) 2
SC_Corregido = Y2
= 511807
= 18869.21429
i
n
14
Promedio = Y =
175 + 132 + 218 + ... + 206 + 179 + 206

Yi
=
= 187.642857
n
14
Yi Y
Varianza = S2 =
n 1
Desviacin_Estandar = S =
( Yi ) 2
( 2627) 2
2
511807
Y
n
14
=
=
= 1451.478022
n 1
13
S2 =
Error_Estandar_de_la_Media = Sx =
Coeficiente_de_Variacin =
S
Y
1451.478022 = 38.09826797
S
n
= 38.09826797 = 10.18219041
14
x100 = 38.09826797 x100 = 20.30360685

187.642857
Coef _Asimetra =
)3 x
Yi Y
S3
( n 1)( n 2)
(175 187.6428) 3 + (132 187.6428) 3 + .. + ( 206 187.6428) 3

( 38.098268) 3
14
(13)(12)
= 159403.3389 x0.89743589 = 0.258693284

55298.79863
Curtosis =
)4 x
Yi Y
S4
n( n + 1)
3( n 1)( n 1)
=
( n 1)( n 2)( n 3) ( n 2)( n 3)
(175 187.6428) 4 + (132 187.6428) 4 + .. + ( 206 187.6428) 4

( 38.098268) 4
( 3)(13)(13)
(14)(15)
=
(13)(12)(11)
(12)(11)
= 51067350.89 x0.122377622 3.840909090 = 0.874545301

2106788.448
Mediana = Me =
Yn/2 + Y( n/2) + 1
= 187 + 200 = 193.5
2
2
Moda = Mo = 206
.
Rango = Ymayor + Ymenor = 248 123 = 125
Cuantiles:
Para obtener cualquier cuantil, primero se debe ordenar los datos en forma ascendente; luego,
obtener p =
q
100
np = j + g para el percentil q
Donde
q
n
j
g
es el percentil (para 25% q=25; para 75% q=075; etc.)

es el nmero de datos
es la parte entera del nmero np
es la fraccin decimal del nmero np
El valor del percentil se obtiene utilizando alguna de las frmulas:

Y =
( Yj
+ Yj + 1
2
Y = Yj + 1
si g = 0
si g > 0
Donde
Yj y Yj + 1 son las observaciones j y j+1 en los datos;
j es la parte entera del nmero np
Ejemplo1: para q = 25, es decir, Primer_Cuartil = Q1
Yj
Y1
Y1
123
Y2
132
Y3
149
Y4
151
Y5
175
Y6
179
Y7
187
Y8
200
Y9
206
Y10
206
Y11
218
Y12
219
Y13
234
Y14
248
p = 25 = 0.25
100
np = (14)( 0.25) = 3.5 = j + g = 3 + 0.5
Debido a que 0.5 > 0, se usa la frmula Y = Yj + 1 = Y3 + 1 = Y4 el cual corresponde a la

observacin Y = Y4 = 151
Primer_Cuartil = Q1 = 151
Ejemplo 2: para q = 75, es decir, Tercer_Cuartil = Q3

75
q = 75 p = 100 = 0.75
p = 75 = 0.75
100
np = (14)( 0.75) = 10.5 = j + g = 10 + 0.5
Debido a que 0.5 > 0, se usa la frmula Y = Yj + 1 = Y10 + 1 = Y11 .

corresponde a la observacin Y = Y11 = 218
Tercer_Cuartil = Q3 = 218
Rango_Intercuartlico = Q3 Q1 = 218 151 = 67
El valor resultante
Intervalo de Confianza para la Mdia

Con la variable T =
( Y )
: tn 1 , que sigue una distribucin t con n-1 grados de libertad,
se construye el intervalo de confianza para la media:
CY + t S Y + t S = 1
1
2 n
2 n
El intervalo de confianza para la media del incremento de peso en novillos Holstein del grupo
control (Y1) se obtiene con:
n = 14
S
n
= 10.18219041
Y = 187.642857
t = t0.025
En la Tabla t, o usando SAS EXCEL, se busca los valores para
2
t = t0.975
1
para n-1 = 13 grados de libertad, los cuales corresponden a:
2
t = t0.025 = 2.160368240
2
t = t0.975 = 2.160368240
1
2
Reemplazando estos valores en la expresin:

C187.642857
(2.160368240)(10.18219041) 187.642857 + (2.160368240)(10.18219041)] =
[
= 1 0.05
Se obtiene el intervalo
C165.6455762
209.6401378] = 0.95
[
Intervalo de Confianza para la Varianza

Con la variable X2 =
( n 1S
) 2
2
: 2 , que sigue una distribucin ji-cuadrado con n-1 grados

n 1
de libertad, se construye el intervalo de confianza para la varianza, que est dado por la
expresin:
2
n
1S
( n 1S
) 2
(
)
C
2
= 1
2
2
2
2
El intervalo de confianza para la varianza del incremento de peso en novillos Holstein del grupo
control (Y1) se obtiene con:
n = 14
S2 = 1451.478022
2 = 2
0.025
2
En la Tabla , o usando SAS EXCEL, se busca los valores para
2
= 2
0.975 para n-1 = 13 grados de libertad, los cuales corresponden a:
1
2
2 = 2
= 5.00875
0.025
2
2
= 2
= 24.7356
0.975
1
2
(13)(1451.478022)
(13)(1451.478022)
C
2
= 1 0.05
24.7356
5.00875
se obtiene el intervalo de confianza

C762.8363285 2 3767.250169 = 0.95
Intervalo de Confianza para la Desviacin Estandar

El intervalo de confianza para la desviacin estandar se puede obtener usando la siguiente
expresin, la cual ha sido derivada de la anterior expresin para estimar el intervalo de
confianza para la varianza.
) 2
( n 1S
C

2

1
2
( n 1S
)
= 1
2
El intervalo de confianza para la desviacin estndar del incremento de peso en novillos

Holstein del grupo control (Y1) se obtiene con:
2 = 2
= 5.00875
0.025
2
2
= 2
= 24.7356
0.975
1
2
n = 14
S2 = 1451.478022
Al reemplazar estos valores en la expresin, se obtiene el intervalo de confianza

(13)( 1451.478022)
C

24.7356
(13)(1451.478022)
= 1 0.05
5.00875
C[ 27.61949182 61.37792901] = 0.95
Prueba de Hipotesis para la Mdia: t de Student

Se desea probar la hiptesis que la media del incremento de peso en las novillos Holstein que
no han recibido vitamina A (grupo control) no es diferente de 236 libras, con un nivel de
significacin = 0.05 y para tamao de muestra n = 14.
Ho : = 236
= 0.05
n = 14
Con la variable aleatoria T =
( Y )
S
: tn 1 , se construye el intervalo de probabilidad cuyos
lmites constituyen los valores crticos para el contraste de la hiptesis planteada. Si esta
hiptesis ( Ho : = 236 ) es cierta, la variable aleatoria tendr una distribucin t centrada;
de otro modo, seguir una distribucin t no centrada. As, el intervalo de probabilidad est
dado por la expresin:
S
S
P0 + t
Y 0 + t
= 1
1
2 n
2 n
= 0 = 236
Donde:
S
n
= 10.18219041
t = t0.025 = 2.160368240
2
t = t0.975 = 2.160368240
1
2
0 = 236 ,
por hiptesis
P236 + ( 2.160368240)(10.18219041) Y 236 + ( 2.160368240)(10.18219041) = 0.95

P214.002719 Y 257.9972802 = 0.95
Si al evaluar el incremento de peso de las 14 novillos Hostein alimentadas sin vitamina A, la

media de dicha muestra se encuentra entre 214.003 y 257.997 libras, se aceptar la hiptesis,
esa es la regla de decisin. Una vez establecida la regla de decisin se procede a tomar la
muestra y calcular la mdia muestral.
Al tomar la muestra de tamao n = 14, la media del incremento de peso en dicha muestra,
resulta Y = 187.642857 libras. Debido a que dicha media est fuera del intervalo de
aceptacin, cuyos lmites son 214.003 y 257.997 libras, se reachaza la hiptesis planteada.
Otra forma de contrastar la hiptesis ( Ho : = 236 ) es calculando la probabilidad
Pt
( Y 0 )
S
n
=
Pt 187.6428571 236 = P[ t 4.749188623] = ( 2)( 0.000189993) = 3.79986X10 4
10.18219041
Debido a que esta probabilidad es menor al doble del nivel de significacin elegido ( 2 =
2x0.05 = 0.010 ), se rechaza la hiptesis.
Si se deseara realizar la prueba de hiptesis con el nivel de significacin = 0.01, se deber
usar los siguientes valores de t:
t = t0.005 = 3.012282832
2
t = t0.995 = 3.012282832
1
2
El sistema SAS realiza la hiptesis Ho : = 0 a travs del procedimiento PROC

UNIVARIATE. Para el caso de incremento de peso en novillos Holstein, los pasos para realizar
esta prueba son:
Ho : = 0
= 0.05
n = 14
T =
( Y )
: tn 1
S
S
= 1
P + t
Y + t
1
2 n
2 n
Por hiptesis
0 = 0
S
S
Pt
Y t
= 1
1
2 n
2 n
= 0
Y = 187.642857
S
n
= 10.18219041
t = t0.025 = 2.160368240
2
t = t0.975 = 2.160368240
1
2
P( 2.160368240)(10.18219041) Y ( 2.160368240)(10.18219041) = 0.95
P( 21.99728078) Y ( 21.99728078) = 0.95
(187.642857 0) 14
38.09826797
= 18.42853545
P[ t > 18.42853545] = 5.31935X10 11
P[ t > 18.42853545 ] = ( 2) 5.31935x10 11 = 1.06387x10 10
10
Prueba de Hipotesis para la Mediana: Prueba del Signo

Los datos (Y1 control) deben estar ordenados de menor a mayor
Luego, marcar con (+) las observaciones con valor mayor a la mediana hipottica ( Ho : M = 0
), y marcar con (-) las observaciones con valor menor.
Y1
123
132
149
151
175
179
187
200
206
206
218
219
234
248
+
+
+
+
+
+
+
+
+
+
+
+
+
+
n+
n
14
0
Ho : M = 0
= 0.05
n+
es el nmero de observaciones con valor mayor a la mediana hipottica.
es el nmero de observaciones con valor menor a la mediana hipottica
n+ n )
(
M =
2
M =
(14 0)
2
= 7
11
min(n+,n)n
t
Prob[ M M] = 0.5( nt 1)
j =0
Prob[ M M] = 0.5(13)
min(14,0)13
0

j =0
13
Prob[ M M] = 1.220703125X104 = (1.220703125X104 )(1) = 1 .220703125X104
0
t
+
n = n + n es el nmero de observaciones con valores diferentes al valor de la
mediana hipottica.
12
Prueba de Hipotesis para la Mediana: Prueba del Signo de Wilcoxon

Al igual que en la prueba anterior, los datos (Y1 control) deben estar ordenados de menor a
mayor.
Luego expresar en valor absoluto la cada observacin menos el valor de la mediana hipottica
Yi M0
Yi M0 = 0
r
El siguiente paso es atribuir rangos ( i ) a las observaciones que quedan. Los empates se
, y descartar los valores de
promedian.
Y1
123
132
149
151
175
179
187
200
206
206
218
219
234
248
Yi M0
123
132
149
151
175
179
187
200
206
206
218
219
234
248
r+
i
1
2
3
4
5
6
7
8
9.5
9.5
11
12
13
14
105
Ho : M = 0
n ( n + 1)
S = r+ t t
i
4
r +es el rango de Yi M0
i
nt
despus de descartar valores de
es el nmero de valores Yi
Yi M0
S = 105
mayores que 0
(14)(15)
4
no iguales a
= 52.5
13
M0
Yi
iguales a
M0
y la suma es calculada para valores de
Prueba de Hipotesis para la Varianza Poblacional

Se desea probar la hiptesis que la varianza del incremento de peso en las novillos Hostein del
grupo control es 900 (libras), con un nivel de significacin = 0.05 y para tamao de muestra n
= 14.
Ho : 2 = 900
Por hiptesis
2 = 900
0
= 0.05
n = 14
) 2
2 = ( n 1S
: 2 , se construye el intervalo de probabilidad

Con la variable aleatoria
n 1
2
( n 1S
) 2
= 1
P2
2

1
2
2
2
Con algunas manipulaciones algebraicas se contruye el intervalo
2
2
0
0 = 1
P2
S2 2
( n 1)
( n 1)
1
2 = 2
0
Los lmites de dicho intervalo constituyen los valores crticos para el contraste de la hiptesis.
Si esta hiptesis es cierta, la variable aleatoria tendr una distribucin ji-cuadrado centrada, de
otro modo, la distribucin de la variable ser ji-cuadrado no centrada.
Reeemplazando valores en la ltima expresin
2 = 2
= 5.00875
0.025
2
2
= 2
= 24.7356
0.975
1
2
Se construye el intervalo de probabilidad para la varianza
( )
( )
P( 5.00875) 900 S2 ( 24.7356) 900 = 0.95
13
13
P346.7596154 S2 1712.464615 = 0.95
Si al evaluar el incremento de peso de las 14 novillos Hostein alimentadas sin vitamina A, la

varianza de dicha muestra se encuentra entre 346.76 y 1712.46 (libras), se aceptar la
hiptesis Ho. Esa es la regla de decisin. Una vez planteada la regla de decisin se procede a
tomar la muestra.
Al tomar la muestra de tamao n = 14, la varianza del incremento de peso en dicha muestra
resulta S2 = 1451.478022 (libras).
14
Debido a que dicha varianza est dentro del intervalo de aceptacin, cuyos lmites son 346.76 y
1712.46 (libras), se acepta la hiptesis planteada.
Otra forma de contrastar la hiptesis es calculando la probabilidad
( 2) P2
( n 1S
) 2
(14 1)(1451.478022)
= ( 2) P2
=
2
0
900
( 2) P2 20.96579365 = ( 2)( 0.073608) = 0.147216
Debido a que esta probabilidad es mayor al doble del nivel de significacin elegido ( 2 = 2 x
0.05 = 0.010 ), se acepta la hiptesis.
15
Prueba de Normalidad de Shapiro y Wilk

A continuacin se aplicar la prueba de normalidad de Shapiro-Wilk en los datos de incremento
de peso en novillos Holstein del grupo control, para un nivel de significacin = 0.05
Para realizar esta prueba, las Tabla A y Tabla B son necesarias y permiten realizar esta prueba
hasta para tamao de muestra n = 30.
El procedimiento PROC UNIVARIATE del SAS permite hacer esta prueba para tamaos de
muestra mayores a 30.
Ho : Los_datos_tienen_distribucin_normal
= 0.05
(n 1)
n
El primer paso es calcular k, considerando que k = 2 para n par, y k =
para n impar.
2
n
14
En el caso del ejemplo k = 2 = 2 = 7
El segundo paso es calcular W. En la Tabla A, con k=7 n=14, se busca los k coeficientes a i
(a1, a2, a3, a4, a5, a6, a7), los cuales resultan:
a1=0.5251, a2=0.3318, a3=0.2460, a4=0.1802, a5=0.1240, a6=0.0727, a7=0.0240
El tercer paso es ordenar los n = 14 datos, de menor a mayor:
123, 132, 149, 151, 175, 179, 187, 200, 206, 206, 218, 219, 234, 248
El cuarto paso es calcular el estadstico W utilizando la expresin:
W =
[ a1( Yn
Y1) + a2 ( Yn 1 Y2 ) + a3 ( Yn 2 Y3 ) + ... + ak ( Yn k + 1 Yk ) ] 2
d
Donde
d = S2 (n 1) = (1451.478022)(14 1) = 18869.21429
W =
W =
[ 0.5251( 248 123) + 0.3318( 234 132) + 0.2460( 219 149) + ... + 0.0240( 200 187) ] 2
18869.21429
[134.8934] 2
18869.21429
= 0.964334236
De la Tabla B se obtiene el valor crtico para el estadstico W, para el nivel de significacin

elegido (W0.05) y para n=14. Dicho valor crtico es 0.874.
Si el valor del estadstico W es menor al valor crtico (0.874), se puede concluir que el conjunto
de datos no muestran distribucin normal, para el nivel de significain elegido. ( = 0.05)
Debido a que el valor de W (0.964) es mayor al valor crtico (0.874), se puede concluir que el
conjunto de datos muestran distribucin normal, para el nivel de significacin = 0.05.
16
Tabla A Coeficientes ak Para la Prueba de Normalidad W de Shapiro-Wilk

k\n
1
2
3
4
5
k\n
1
2
3
4
5
6
7
8
9
10
k\n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
2
0.7071
11
0.5601
0.3315
0.2260
0.1429
0.0695
0.0000
21
0.4643
0.3185
0.2578
0.2119
0.1736
0.1399
0.1092
0.0804
0.0530
0.0263
0.0000
-
3
0.7071
0.0000
12
0.5475
0.3325
0.2347
0.1506
0.0922
0.0303
22
0.4590
0.3156
0.2571
0.2131
0.1764
0.1443
0.1150
0.0878
0.0618
0.0368
0.0122
-
4
0.6872
0.1677
13
0.5359
0.3325
0.2412
0.1707
0.1099
0.5390
0.0000
23
0.4542
0.3126
0.2563
0.2139
0.1787
0.1480
0.1201
0.0941
0.0696
0.0459
0.0228
0.0000
-
5
0.6646
0.2413
0.0000
14
0.5251
0.3318
0.2460
0.1802
0.1240
0.0727
0.0240
24
0.4493
0.3098
0.2554
0.2145
0.1007
0.1512
0.1245
0.0997
0.0764
0.0539
0.0321
0.0107
-
6
0.6431
0.2806
0.0875
15
0.5150
0.3306
0.2495
0.1876
0.1353
0.0880
0.0433
0.0000
25
0.4450
0.3069
0.2543
0.2148
0.1822
0.1539
0.1263
0.1046
0.0823
0.0610
0.0403
0.0200
0.0000
-
7
0.6233
0.3031
0.1401
0.0000
16
0.5056
0.3290
0.2521
0.1939
0.1447
0.1005
0.0593
0.0196
26
0.4407
0.3043
0.2533
0.2151
0.1836
0.1563
0.1316
0.1089
0.0876
0.0672
0.0476
0.0284
0.0094
-
8
0.6052
0.3164
0.1743
0.0561
17
0.4968
0.3273
0.2540
0.1988
0.1524
0.1109
0.0725
0.0359
27
0.4366
0.3018
0.2522
0.2152
0.1840
0.1584
0.1346
0.1128
0.0923
0.0728
0.0540
0.0358
0.0178
0.0000
-
9
0.5868
0.3244
0.1976
0.0947
0.0000
18
0.4886
0.3253
0.2553
0.2027
0.1587
0.1197
0.0837
0.0496
0.0163
28
0.4328
0.2992
0.2510
0.2151
0.1857
0.1601
0.1372
0.1162
0.0965
0.0778
0.0598
0.0424
0.0253
0.0084
-
10
0.5739
0.3291
0.2141
0.1224
0.0399
19
0.4808
0.3232
0.2561
0.2059
0.1641
0.1271
0.0932
0.0612
0.0303
0.0000
29
0.4291
0.2968
0.2499
0.2150
0.1864
0.1616
0.1395
0.1192
0.1002
0.0822
0.0650
0.0483
0.0320
0.0159
0.0000
Tomado de :Handbook for Statistical Analysis of Environmental Background Data. SWDIV and EFA WEST of Naval facilities Engineering Command, julio 1999.
17
20
0.4734
0.3211
0.2565
0.2085
0.1686
0.1334
0.1013
0.0711
0.0422
0.0140
30
0.4254
0.2944
0.2487
0.2148
0.1870
0.1630
0.1415
0.1219
0.1036
0.0862
0.0697
0.0537
0.0381
0.0227
0.0076
Tabla B. Cuantiles de la Prueba de Normalidad W de Shapiro-Wilk

n
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
W0.01
0.753
0.687
0.686
0.713
0.730
0.749
0.764
0.781
0.792
0.805
0.814
0.825
0.835
0.844
0.851
0.858
0.863
0.868
0.873
0.878
0.881
0.884
0.886
0.891
0.894
0.896
0.898
0.900
0.902
0.904
0.906
0.908
0.910
0.912
0.914
0.916
0.917
0.919
0.920
0.922
0.923
0.924
0.926
0.927
0.928
0.929
0.929
0.930
W0.02
0.756
0.707
0.715
0.743
0.760
0.778
0.791
0.806
0.817
0.828
0.837
0.846
0.855
0.863
0.869
0.874
0.879
0.886
0.884
0.892
0.895
0.898
0.901
0.904
0.906
0.908
0.910
0.912
0.914
0.915
0.917
0.919
0.920
0.922
0.924
0.925
0.927
0.928
0.929
0.930
0.932
0.933
0.934
0.935
0.936
0.937
0.937
0.938
W0.05
0.767
0.748
0.762
0.788
0.803
0.818
0.829
0.842
0.850
0.859
0.866
0.874
0.881
0.887
0.892
0.897
0.901
0.905
0.908
0.911
0.914
0.916
0.918
0.920
0.923
0.924
0.926
0.927
0.929
0.930
0.931
0.933
0.934
0.935
0.936
0.938
0.939
0.940
0.941
0.942
0.943
0.944
0.945
0.945
0.946
0.947
0.947
0.947
W0.10
0.789
0.792
0.806
0.826
0.838
0.851
0.859
0.869
0.876
0.883
0.889
0.895
0.901
0.906
0.910
0.914
0.917
0.920
0.923
0.926
0.928
0.930
0.931
0.933
0.935
0.936
0.937
0.939
0.940
0.941
0.942
0.943
0.944
0.945
0.946
0.947
0.948
0.949
0.950
0.951
0.951
0.952
0.953
0.953
0.954
0.954
0.955
0.955
W0.50
0.859
0.935
0.927
0.927
0.928
0.932
0.935
0.938
0.940
0.943
0.945
0.947
0.950
0.952
0.954
0.956
0.957
0.969
0.960
0.961
0.962
0.963
0.964
0.965
0.965
0.966
0.966
0.967
0.967
0.968
0.968
0.969
0.969
0.970
0.970
0.971
0.971
0.972
0.972
0.972
0.973
0.973
0.973
0.974
0.974
0.974
0.974
0.974
Tomado de :Handbook for Statistical Analysis of Environmental Background Data. SWDIV and EFA WEST
of Naval facilities Engineering Command, july 1999.
18
Programas SAS y Salidas

Anlisis Univariado
DATA NOVILLOS;
INPUT Y1 Y2;
CARDS;
175 142
132 311
218 337
151 262
200 302
219 195
234 253
149 199
187 236
123 216
248 211
206 179
179 249
206 214
;
PROC UNIVARIATE NORMAL CIBASIC;
VAR Y1;
RUN;
The SAS System

The UNIVARIATE Procedure
Variable: Y1
Moments
N
Mean
Std Deviation
Skewness
Uncorrected SS
Coeff Variation
14
187.642857
38.098268
-0.2586933
511807
20.3036068
Sum Weights
Sum Observations
Variance
Kurtosis
Corrected SS
Std Error Mean
14
2627
1451.47802
-0.8745453
18869.2143
10.1821904
Basic Statistical Measures

Location
Mean
Median
Mode
187.6429
193.5000
206.0000
Variability
Std Deviation
Variance
Range
Interquartile Range
38.09827
1451
125.00000
67.00000
Basic Confidence Limits Assuming Normality

Parameter
Estimate
95% Confidence Limits
19
Mean
Std Deviation
Variance
187.64286
38.09827
1451
165.64557
27.61949
762.83618
209.64014
61.37793
3767
Tests for Location: Mu0=0

Test
-Statistic-
-----p Value------
Student's t
Sign
Signed Rank
t
M
S
Pr > |t|
Pr >= |M|
Pr >= |S|
18.42854
7
52.5
<.0001
0.0001
0.0001
Tests for Normality

Test
--Statistic---
-----p Value------
Shapiro-Wilk
Kolmogorov-Smirnov
Cramer-von Mises
Anderson-Darling
W
D
W-Sq
A-Sq
Pr
Pr
Pr
Pr
0.964338
0.127163
0.035051
0.223019
<
>
>
>
W
D
W-Sq
A-Sq
Quantiles (Definition 5)
Quantile
Estimate
100% Max
99%
95%
90%
75% Q3
50% Median
25% Q1
10%
5%
1%
0% Min
248.0
248.0
248.0
234.0
218.0
193.5
151.0
132.0
123.0
123.0
123.0
Extreme Observations
----Lowest----
----Highest---
Value
Obs
Value
Obs
123
132
149
151
175
10
2
8
4
1
206
218
219
234
248
14
3
6
7
11
20
0.7933
>0.1500
>0.2500
>0.2500
Prueba de Hiptesis Acerca de la Mdia

PROC TTEST DATA=NOVILLOS H0=236;
VAR Y1;
RUN;
The SAS System
The TTEST Procedure
Statistics
Variable
Y1
Lower CL
Mean
Mean
Upper CL
Mean
Lower CL
Std Dev
Std Dev
Upper CL
Std Dev
Std Err
14
165.65
187.64
209.64
27.619
38.098
61.378
10.182
T-Tests
Variable
DF
t Value
Pr > |t|
Y1
13
-4.75
0.0004
Prueba de Hiptesis Acerca de la Varianza

PROC UNIVARIATE NORMAL CIBASIC NOPRINT;
VAR Y1;
OUTPUT OUT=RESUM VAR=VARI N=NUM;
RUN;
DATA ANEXO;
SET RESUM;
HVAR=900;
X2=(NUM-1)*VARI/HVAR;
Prob=1-(PROBCHI(X2,(NUM-1)));
PROC PRINT;
TITLE 'Varianza Calculada, Varianza Hipotetica, X2 y Pr>X2';
VAR VARI HVAR X2 Prob;
RUN;
Varianza Calculada, Varianza Hipotetica, X2 y Pr>X2

Obs
1
VARI
1451.48
HVAR
X2
900
20.9658
Prob
0.073608
En el programa SAS, la instruccin HVAR=900; es para especificar el valor de la varianza

hipottica: 02 = 900 . Si se quiere probar otra hiptesis con respecto a la varianza, por
ejemplo
H0 : 2 = 1000 ,
la instruccin correspondiente ser HVAR=1000;
21
Anlisis Univariado (n 30)

El siguiente ejemplo trata del dimetro altura de pecho (DAP, en cm) medido en 80 arboles de
tornillo en una plantacin de 11 aos.
DATA TORNILLO;
INPUT DAP @@;
CARDS;
17.9
11.4
16.8
13.6
13.3
14.2
12.3
29.3
11.9
15.5
19.0
14.2
22.7
17.0
14.0
21.0
20.3
18.0
22.0
20.2
;
11.0
19.6
22.5
18.2
20.8
16.0
13.9
17.9
16.0
25.1
14.4
18.5
13.7
16.5
27.8
18.2
16.5
21.0
22.0
19.3
18.0
15.7
25.0
19.0
15.4
10.7
19.7
15.8
20.2
16.5
14.3
18.7
14.0
19.9
18.1
19.0
13.0
16.3
12.5
15.3
10.9
19.5
21.6
14.4
21.0
14.5
17.1
16.3
13.0
17.5
14.9
17.5
15.2
18.7
21.2
13.8
11.2
17.7
17.0
17.3
PROC UNIVARIATE NORMAL CIBASIC;

VAR DAP;
RUN;
The SAS System

The UNIVARIATE Procedure
Variable: DAP
Moments
N
Mean
Std Deviation
Skewness
Uncorrected SS
Coeff Variation
80
17.26125
3.7610426
0.64252215
24953.55
21.7889353
Sum Weights
Sum Observations
Variance
Kurtosis
Corrected SS
Std Error Mean
80
1380.9
14.1454415
0.76664427
1117.48988
0.42049735
Basic Statistical Measures

Location
Mean
Median
Mode
Variability
17.26125
17.05000
16.50000
Std Deviation
Variance
Range
Interquartile Range
3.76104
14.14544
18.60000
5.20000
NOTE: The mode displayed is the smallest of 3 modes with a count of 3.

Basic Confidence Limits Assuming Normality
Parameter
Estimate
Mean
Std Deviation
Variance
17.26125
3.76104
14.14544
95% Confidence Limits

16.42427
3.25501
10.59506
18.09823
4.45485
19.84571
Tests for Location: Mu0=0

Test
-Statistic-
-----p Value------
Student's t
Sign
Signed Rank
t
M
S
Pr > |t|
Pr >= |M|
Pr >= |S|
41.04961
40
1620
Tests for Normality
22
<.0001
<.0001
<.0001
Test
--Statistic---
-----p Value------
Shapiro-Wilk
Kolmogorov-Smirnov
Cramer-von Mises
Anderson-Darling
W
D
W-Sq
A-Sq
Pr
Pr
Pr
Pr
0.969973
0.056078
0.039761
0.374107
<
>
>
>
W
D
W-Sq
A-Sq
0.0565
>0.1500
>0.2500
>0.2500
Quantiles (Definition 5)
Quantile
Estimate
100% Max
99%
95%
90%
75% Q3
50% Median
25% Q1
10%
5%
1%
0% Min
29.30
29.30
23.85
21.80
19.55
17.05
14.35
12.75
11.30
10.70
10.70
Extreme Observations
----Lowest----
----Highest---
Value
Obs
Value
Obs
10.7
10.9
11.0
11.2
11.4
45
7
3
56
2
22.7
25.0
25.1
27.8
29.3
49
21
75
36
26
Intervalos de Confianza para la Media, Varianza y Desviacin Estandar

Debido a que se trata de una muestra con n > 30, para calcular el intervalo de confianza para la
media se usa la distribucin normal estndar ( Z ), y se toma la varianza muestral como un
estimador de la varianza poblacional ( 2 = 14.1454415 ).
En la tabla de Z usando SAS EXCEL, se busca los valores de Z para las probabilidades 2
y 1 2 . Estos valores se reemplazan en la expresin:
CY + Z Y + Z = 1
1
2 n
2 n
Los valores a reemplazar son:

n = 80
Y = 17.26125
23
= 3.7610426
Z = Z0.025 = 1.95996279
2
Z = Z0.975 = 1.95996279
1
2
C17.26125 + ( 1.95996) 3.76104 17.26125 + (1.95996) 3.76104 = 0.95
8.94427
8.94427
C16.43709
18.08541] = 0.95
[
Para calcular el intervalo de confianza para la varianza del DAP se utiliza la expresin ya
conocida
2
2
)
( n 1S
)
( n 1S
2
C

= 1
2
2

2
2
Los valores a reemplazar son:

n = 80
S2 = 14.14544
2 = 2
0.025
2
En la Tabla , o usando SAS EXCEL, se busca los valores para
2
= 2
0.975 para n-1 = 79 grados de libertad, los cuales corresponden a:
1
2
2 = 2
= 56.30887318
0.025
2
2
= 2
= 105.4726862
0.975
1
2
( 79)(14.14544)
( 79)(14.14544)
C
2
= 0.95
105.4726862
56.30887318
se obtiene el intervalo de confianza

C10.59506305 2 19.84571342 = 0.95
El intervalo de confianza para la desviacin estndar se obtiene calculando la raz cuadrada de

los elementos del intervalo de confianza para la varianza
C 10.59506305
19.84571342 = 0.95
24
C[ 3.255005845 4.454852794] = 0.95
Prueba de Hiptesis Acerca de la Media

Se desea probar la hiptesis que la media del DAP en rboles tornillo de 11 aos no es
diferente de 18 cm, con un nivel de significacin = 0.05, con tamao de muestra n = 80 y
estimador de la varianza poblacional ( 2 = 14.1454415 ).
Ho : = 18
= 0.05
n = 80
Con la variable aleatoria Z =
( Y )
, se construye el intervalo de probabilidad cuyos lmites
constituyen los valores crticos para el contraste de la hiptesis planteada. As, el intervalo de
probabilidad est dado por la expresin:
= 1
P0 + Z
Y 0 + Z
1
2 n
2 n
Reemplazan los valores:
Por hiptesis
0 = 18
= 3.7610426
Z = Z0.025 = 1.95996279
2
Z = Z0.975 = 1.95996279
1
2
C18 + ( 1.95996) 3.76104 18 + (1.95996) 3.76104 = 0.95
8.94427
8.94427
C17.579503
18.420497] = 0.95
[
Si al evaluar el DAP en 80 rboles de tornillo, en una plantacin de 11 ao, la media de dicha

muestra se encuentra entre 17.579 y 18.420 cm., se aceptar la hiptesis, esa es la regla de
decisin. Una vez establecida la regla de decisin se procede a tomar la muestra y calcular la
mdia muestral.
Al tomar la muestra de tamao n = 80, la media del DAP resulta Y = 17.26125 cm. Debido a
que dicha media est fuera del intervalo de aceptacin, cuyos lmites son 17.579 y 18.420 cm,
se reachaza la hiptesis planteada.
Otra forma de contrastar la hiptesis ( Ho : = 18 ) es calculando la probabilidad
PZ
( Y 0 )
n
=
25

(17.26125 18) 80
PZ
= P[ Z 1.756848] = ( 2)( 0.0394718) = 0.0789436
3.7610426
Debido a que esta probabilidad (0.0789436) es menor al doble del nivel de significacin elegido
( 2 = 2x0.05 = 0.10 ), se rechaza la hiptesis.
PROC UNIVARIATE DATA=TORNILLO NOPRINT;

VAR DAP;
OUTPUT OUT=RESUM MEAN=MEM VAR=VARM N=N;
RUN;
DATA ANEXO;
SET RESUM;
MU0=18;
Zc=(MEM-MU0)*SQRT(N)/SQRT(VARM);
PR = 1-PROBNORM(ABS(ZC));
PROC PRINT;
TITLE 'Media Muestral, Media Hipotetica, Varianza Muestral';
TITLE2 'Tamao de muestra, Zeta Calculada (Zc) y Pr>|Zc|';
VAR MEM MU0 VARM N Zc PR;
RUN;
Media Muestral, Media Hipotetica, Varianza Muestral

Tamao de muestra, Zeta Calculada (Zc) y Pr>|Zc|
Obs
MEM
MU0
17.2613
18
VARM
14.1454
26
80
Zc
PR
-1.75685
0.039472
Pruebas de Hiptesis Acerca de Parmetros de Dos Poblaciones

Intervalos de confianza y pruebas de hiptesis sern construidos para las medias, varianzas y
desviaciones estandar de dos poblaciones.
Se usar los datos referidos al incremento de peso en libras en dos grupos de novillos Holstein
(Y1 control; Y2 con vitamina A). Se considera que ambas poblaciones son independientes. El
caso de dos poblaciones relacionadas se tocar ms adelante.
Y1
175
132
218
151
200
219
234
149
187
123
248
206
179
206
Y2
142
311
337
262
302
195
253
199
236
216
211
179
249
214
Para ambas poblaciones se obtuvieron:

n1 = 14
n2 = 14
Y1 = 187.642857
Y2 = 236.142857
S2 = 1451.47802
1
S2 = 2919.97802
2
27
Prueba de Hipotesis Acerca de Dos Varianzas

Ho : 2 = 2
1
2
= 0.05
n1 = 14
n2 = 14
S2 = 1451.47802
1
S2 = 2919.97802
2
S2 2
1 2 : F
( n1 1,n2 1)
S2 2
2 1
S2
1 : F( n1 1,n2 1)
2 = 2
S2
1
2
2
S2 2
PF 1 2 F = 1
1
S2 2
2
2
2 1
S2
PF 1 F = 1
1
S2
2
2
2
2 = 2
1
2
F
= F0.025(13,13gl) = 0.321023208
(n ,n gl)
2 1 2
F
= F0.975(13,13gl) = 3.115033564
1 (n1,n2 gl)
2
S2
P0.321023208 1 3.115033564 = 0.95
S2
2
S2
1 = 1451.47802 = 0.497085255
2919.97802
S2
2
P[F 0.497085255] = 0.110448693
28
Para realizar esta prueba es usual que la varianza poblacional con el mayor valor se identifique
con S12 y la varianza con el menor valor con S22 . Tomando en cuenta esto, la prueba llega a
ser del siguiente modo:
S2 = 2919.97802
1
S2 = 1451.47802
2
S2
1 = 2919.97802 = 2.011727343
1451.47802
S2
2
P[F 2.011727343] = 0.110448693
Sumando ambas probabilidades:

P[F 2.011727343] = 0.110448693
P[F 0.497085255] = 0.110448693
Pr > Fc = ( 2)( 0.110448693) = 0.220897386
Prueba de Hipotesis Acerca de Dos Medias: Varianzas Iguales

Ho : 1 = 2
Ho : 1 2 = 0
= 0.05
n1 = 14
n2 = 14
Y1 = 187.642857
Y2 = 236.142857
S2 = 1451.47802
1
S2 = 2919.97802
2
Y1 Y2 ( 1 2 )
: t
n1 + n2 2
1 1
2
Sp +
n1 n2
29
) 12 + ( n2 1S
) 22
2 = ( n1 1S
Sp
S2 + S2 2
1
2
El intervalo de probabilidad es:
2 1 + 1 Y Y ( ) + t
2 1
1
P( 1 2 ) + t Sp
n
1
2
1
2
Sp n + n = 1
n
1
1
2
2
2
2
2 1 + 1 Y Y t
2 1
1
Pt Sp
n
1
2
Sp n + n = 1
n
1
1
2
2
2
2
1 = 2
) 12 + ( n2 1S
) 22
(13)(1451.47802) + (13)( 2919.97802)
2 = ( n1 1S
Sp
=
= 56828.92852 = 2185.72802
n
1
+
n
1
13 + 13
26
( 1 ) ( 2 )
2 1 + 1 =
Sp
n
n2
1
( 14
( 2185.72802) 1 + 1
14
312.24686 = 17.6705082
Para n1 + n2 2 = 14 + 14 2 = 26 grados de libertad, la tabla de distribucin de t d los

siguientes valores:
t = t0.025 = 2.055530786
2
t = t0.975 = 2.055530786
1
2
Por hiptesis, ( 1
2 ) = 0
P( 2.055530786)(17.6705082) Y1 Y2 ( 2.055530786)(17.6705082) = 0.95
P 36.32227361 Y1 Y2 36.32227361 = 0.95
( Y1 Y2 )
= 187.642857 236.142857 = 48.5
t = t0.005 = 2.778724593
2
t = t0.995 = 2.778724593
1
2
Y1 Y2 ( 1 2 )
48.5
= (187.642857 236.142857) =
= 2.7446862
17.6705082
17.6705082
1 1
2
Sp +
n1 n2
P[ t 2.7446862] = 0.005417371
30
P[ t > tC ] = P[ t > 2.7446862] = ( 2)( 0.005417371) = 0.010834742

DATA NOVILLOS;
DO I=1 TO 14;
DO GRUPO=1 TO 2;
INPUT Y @@;
OUTPUT;
END;
END;
CARDS;
175 142
132 311
218 337
151 262
200 302
219 195
234 253
149 199
187 236
123 216
248 211
206 179
179 249
206 214
;
PROC TTEST DATA=NOVILLOS;
CLASS GRUPO;
VAR Y;
RUN;
The SAS System

The TTEST Procedure
Statistics
Variable
Y
Y
Y
GRUPO
Diff (1-2)
1
2
Lower CL
Mean
Mean
Upper CL
Mean
Lower CL
Std Dev
Std Dev
Upper CL
Std Dev
165.65
204.94
-84.82
187.64
236.14
-48.5
209.64
267.34
-12.18
27.619
39.174
36.818
38.098
54.037
46.752
61.378
87.056
64.07
14
14
Statistics
Variable
Y
Y
Y
GRUPO
Diff (1-2)
1
2
Std Err
Minimum
Maximum
10.182
14.442
17.671
123
142
248
337
T-Tests
31
Variable
Method
Variances
Y
Y
Pooled
Satterthwaite
Equal
Unequal
DF
t Value
Pr > |t|
26
23.4
-2.74
-2.74
0.0108
0.0114
Equality of Variances
Variable
Method
Folded F
Num DF
Den DF
F Value
Pr > F
13
13
2.01
0.2209
32
Prueba de Hipotesis Acerca de Dos Medias: Varianzas No Iguales

El siguiente ejemplo tomado de Calzada 1965 se usar para mostrar el procedimiento para
probar hiptesis acerca de dos medias con varianzas no iguales.
Con el fin de saber cual de las dos haciendas tiene las tierras con mayor porcentaje de arena,
se tomaron 20 muestras de tierra de la hacienda A y 10 muestras de la hacienda B; hechas las
determinaciones de laboratorio, se tuvieron los siguientes resultados
Hacienda Hacienda
A
B
( Y1 )
( Y2 )
35
32
40
28
37
33
37
35
34
45
37
28
40
30
37
32
35
30
42
16
42
.
40
.
39
.
36
.
43
.
36
.
43
.
38
.
41
.
38
.
770
309
Prueba de Hipotesis Acerca de Dos Varianzas

acerca de las dos medias poblacionales, se debe
saber si las varianzas de ambas poblaciones pueden ser consideradas iguales. Para esto,
se debe realizar la prueba de hipteisis
Antes de proceder a la prueba de hiptesis
Ho : 2 = 2
1
2
= 0.05
n1 = 20
n2 = 10
S2 = 7.63157895
1
33
S2 = 51.433333333
2
S2
PF 1 F = 1
1
S2
2
2
2
2 = 2
1
2
F
= F0.025(19,09) = 0.34721559
(n 1,n2 1)
2 1
F
= F0.975(19,09) = 3.683339855
1 (n1 1,n2 1)
2
S2
P0.34721559 1 3.683339855 = 0.95
S2
2
S2
1 = 7.63157895 = 0.148378074
51.4333333
S2
2
P[F 0.148378074] = 0.000247006
Pr > Fc = ( 2)( 0.000247006) = 4.94012X10 04
De acuerdo a estos resultados, no existe evidencia estadstica para suponer que las varianzas
de ambas poblaciones sean iguales.
Prueba de Hipotesis Acerca de Dos Medias

Bajo la suposicin de varianzas no iguales, se deber utilizar el estadstico t
Ho : 1 = 2
Ho : 1 2 = 0
= 0.05
Y1 = 38.5
Y2 = 30.9
Y1 Y2 = 38.5 30.9 = 7.6
S2
S2
1 + 2 = 7.63157895 + 51.433333333 = 0.381578947 + 5.14333333 = 5.524912281
n1
n2
20
10
Y1 Y2 ( 1 2 )
: t'
2
2
La variable aleatoria
tiene una distribucin aproximada t.
S
S
1 + 2
n1 n2
34
S2
S2
1 t + 2t
n1 1
n2 2
Tanto el valor crtico inferior como el superior estan dados por la expresin
S2
S2
1 + 2
n1
n2
Donde, para el valor crtico inferior, para un nivel de singificacin

t
para n1-1 grados e libertad
2
t
t2 es el valor de para n2-1 grados e libertad
2
t1 es el valor de
Igualmente, para el valor crtico superior

t
t1 es el valor de 1 para n1-1 grados e libertad

2
t2 es el valor de 1 para n2-1 grados e libertad

2
DATA HACIENDA;
DO I=1 TO 20;
DO GRUPO=1 TO 2;
INPUT PA @@;
OUTPUT;
END;
END;
CARDS;
35
32
40
28
37
33
37
35
34
45
37
28
40
30
37
32
35
30
42
16
42
.
40
.
39
.
36
.
43
.
36
.
43
.
38
.
41
.
38
.
;
PROC TTEST DATA=HACIENDA;
CLASS GRUPO;
VAR PA;
RUN;
The TTEST Procedure
Statistics
35
Variable
PA
PA
PA
GRUPO
N
1
2
Lower CL
Mean
Mean
Upper CL
Mean
Lower CL
Std Dev
Std Dev
Upper CL
Std Dev
37.207
25.77
3.9034
38.5
30.9
7.6
39.793
36.03
11.297
2.1009
4.933
3.6977
2.7625
7.1717
4.6595
4.0349
13.093
6.3017
20
10
Diff (1-2)
Statistics
Variable
PA
PA
PA
GRUPO
1
2
Diff (1-2)
Std Err
Minimum
Maximum
0.6177
2.2679
1.8046
34
16
43
45
T-Tests
Variable
Method
Variances
PA
PA
Pooled
Satterthwaite
Equal
Unequal
DF
t Value
Pr > |t|
28
10.4
4.21
3.23
0.0002
0.0086
Equality of Variances
Variable
Method
PA
Folded F
Num DF
Den DF
F Value
Pr > F
19
6.74
0.0005
36
) 12 + ( n2 1S
) 22
2 = ( n1 1S
Sp
S2 + S2 2
1
2
El intervalo de probabilidad es:
2 1 + 1 Y Y ( ) + t
2 1 + 1 = 1
P( 1 2 ) + t Sp
Sp
n
1
2
1
2
n
n2
n2
1
1
2
2
2 1 + 1 Y Y t
2 1 + 1 = 1
Pt Sp
Sp
n
n
1
2
n2
n2
1
1
2
2
1 = 2
) 12 + ( n2 1S
) 22
(13)(1451.47802) + (13)( 2919.97802)
2 = ( n1 1S
Sp
=
= 56828.92852 = 2185.72802
13 + 13
26
( n1 1) + ( n2 1)
2 1 + 1 =
Sp
n
n2
1
( 14
( 2185.72802) 1 + 1
14
312.24686 = 17.6705082
Para n1 + n2 2 = 14 + 14 2 = 26 grados de libertad, la tabla de distribucin de t d los

siguientes valores:
t = t0.025 = 2.055530786
2
t = t0.975 = 2.055530786
1
2
Por hiptesis, ( 1
2 ) = 0
P( 2.055530786)(17.6705082) Y1 Y2 ( 2.055530786)(17.6705082) = 0.95
P 36.32227361 Y1 Y2 36.32227361 = 0.95
( Y1 Y2 )
= 187.642857 236.142857 = 48.5
t = t0.005 = 2.778724593
2
t = t0.995 = 2.778724593
1
2
Y1 Y2 ( 1 2 )
48.5
= (187.642857 236.142857) =
= 2.7446862
17.6705082
17.6705082
2 1 + 1
Sp
n n
1 2
P[ t 2.7446862] = 0.005417371
37
P[ t > tC ] = P[ t > 2.7446862] = ( 2)( 0.005417371) = 0.010834742
38
Prueba de Hipotesis Acerca de Dos Medias Relacionadas: Datos pareados

Ejemplo tomado de Calzada (1970). Se trata de un experimento de racionamiento de 10 pares
de cerdos, cuyos tratamientos se representan con las letras A y B. Previamente los cerdos se
clasificaron por peso, edad, etc., lo que permiti parear individuos similares. A cada individuo
de un par, se le asign un racionamiento y al otro el otro; despus de un nmero prudencial de
semanas se pesaron los individuos, obteniendose los incrementos de peso que se muestran en
la Tabla 1.
Tabla 1. Incrementos de peso de diez pares de cerdos, un cerdo de cada par fue alimentado
con la racin A y el otro cerdo con la racin B.
Par nmero
1
2
3
4
5
6
7
8
9
10
Suma
Promdio
Varianza
Nmero de pares
Racin A
26
25
12
25
20
16
18
21
11
8
182
18.2
40.4
10
Racin B
23
22
16
29
24
15
24
25
16
14
208
20.8
26.4
10
D=A-B
3
3
-4
-4
-4
1
-6
-4
-5
-6
-26
-2.6
12.4888889
10
= 0.05
n = 10
D D
: tn 1
SD
t = t0.025 = 2.26215889
2
t = t0.975 = 2.26215889
1
2
Mdia_de_Diferencias = D = 2.6
Varianza_de_Diferencias = S2 = 12.4888889
D
S2 =
D
Desviacin_Estandar_de_Diferencias = SD =
Error_Estandar_de_Diferencias = S =
D
S2
D =
n
39
12.4888889 = 3.53396221
12.4888889
= 1.117536975
10
Flix A. Astete M.
El intervalo de confianza para la mdia:
CD + t S D + t S = 1
D
D
D
1
2
2
C( 2.6) + ( 2.26215889)(1.117536975) ( 2.6) + ( 2.26215889)(1.117536975) = 0.95
D
C 5.128046203 0.071953797 = 0.95
D
El intervalo de confianza para la varianza:

2
( n 1S
) D
2
D
: 2
n 1
2
2
n
1S
( n 1S
) D
(
)
D = 1
C
2
D
2
2
2
2
n = 10
S2 = 12.4888889
D
2 = 2
= 2.70039
0.025
2
2
= 2
= 19.0228
0.975
1
2
( 9)(12.4888889)
( 9)(12.4888889)
C
2
= 0.95
D
19.0228
2.70039
C5.90869904 2 41.62361737 = 0.95

D
El intervalo de confianza para la desviacin estandar:
2
) D
( n 1S
C
D
2
2
( n 1S
) D
= 1
2
2 = 2
= 2.70039
0.025
40
2
= 2
= 19.0228
0.975
1
2
( 9)(12.4888889)
C
D
19.0228
( 9)(12.4888889)
2.70039
= 0.95
C[ 2.43078157 D 6.451636797] = 0.95
Prueba de hiptesis de la mdia de las diferencias:

Ho : 1 2 = D
D = 0
por hiptesis
Pt S D t S = 1
D
D
1
2
D = 0
P( 2.26215889)(1.117536975) D ( 2.26215889)(1.117536975) = 0.95

P 2.528046203 D 2.528046203 = 0.95
D D
( 2.6) 0
=
= 2.326544945
SD
1.117536975
P[ t 2.326544945] = 0.0225005
P[ t > tC ] = P[ t > 2.326544945] = ( 2)( 0.0225005) = 0.045001

DATA RACION;
DO PAR=1 TO 10;
INPUT PESOP1 PESOP2 @@;
OUTPUT;
END;
CARDS;
26
23
25
22
12
16
25
29
20
24
16
15
18
24
21
25
11
16
8
14
;
PROC TTEST;
PAIRED PESOP1*PESOP2;
RUN;
41
The SAS System

The TTEST Procedure
Statistics
Difference
PESOP1 - PESOP2
Lower CL
Mean
Mean
Upper CL
Mean
Lower CL
Std Dev
Std Dev
Upper CL
Std Dev
10
-5.128
-2.6
-0.072
2.4308
3.534
6.4516
Std Err
Minimum
Maximum
1.1175
-6
Statistics
Difference
PESOP1 - PESOP2
T-Tests
Difference
PESOP1 - PESOP2
DF
9
t Value
-2.33
Pr > |t|
0.0450
DISEO COMPLETAMENTE AL AZAR (DCA,DIA)

MODELO ESTADISTICO LINEAL.
En este diseo el valor de cada unidad experimental Y ij se aplica segn el siguiente Modelo
Estadstico Lineal.
Yij = + i + ij ,
i = 1,2,...., t
j = 1,2,...., r
Donde:
Yij
= Es una observacin en la j-sima unidad experimental, sujeto al i-simo tratamiento.
= Es el efecto del i-simo tratamiento.
= Es el efecto de la media general o constante comn.
ij
= Efecto verdadero de la j-sima unidad experimental (replica), sujeta al i-simo tratamiento (error
experimental).
ESQUEMA DEL DISEO

Repeticiones
(j)
1
1
Y 11
2
Y21
Tratamientos (i)
3
....
Y 31
....
Y 12
Y22
Y 32
3
.
.
.
r
Y 13
....
....
....
Y1r
Y23
....
....
....
Y2r
Y 33
....
....
....
Y3r
Total (t)
Y1.
Y2.
Total (r )
n1.
n2.
t
Y t1
Total
Y. 1
....
Y t2
Y. 2
....
....
....
....
....
Y t3
....
....
....
Ytr
Y.3
....
....
....
Y. r
Y3.
....
Yt.
Y ..
n3.
....
nt.
n..
TABLA ANVA: Frmulas:

F. de V.
S de C
GL
42
CVE(C M)
e2 + r2
t-1
Tratamientos
t(r-1)
Error
X 2i. X..2
t r
r
rt 2
X
ij
rt-1
Total
2
ij
X 2i.
r
e2
(X )
ij
rt
EJEMPLO
Se ha ensayado cuatro variedades de cebada con 5 repeticiones y este experimento se
ha conducido en un D.I.A. A continuacin se dan los resultados expresados en
kilogramos cosechados. Efectuar el ANVA.
Obs.
1
2
3
4
5
A
730
730
730
750
750
Trat.(i=1,2,3,4)
B
C
D
740
680 710
740
690 710
740
690 710
740
690 720
750
700 730
ANVA:
Resultados
F. De V.
G.L.
Tratamientos
3
Error exptal.
16
Total
19
S.C.
8480
1040
9520
C.M.
Fc.
2826.3 43.49**
65
Programa SAS para efectuar el anlisis correspondiente.

DATA CEBADA;
DO TRAT='A', 'B','C','D';
DO REP=1 TO 5;
INPUT DATO @@;
OUTPUT;
END;
END;
CARDS;
730 730 730 750 750
740 740 740 740 750
680 690 690 690 700
710 710 720 720 730
;
PROC ANOVA;
CLASS TRAT;
MODEL DATO=TRAT;
MEANS TRAT/DUNCAN ALPHA=0.05;
RUN;
EJERCICIO
El siguiente cuadro de datos registra las alturas promedio en centmetros de 25 parcelas de alfalfa (unidad
experimental), sometidas a cuatro dosis diferentes de cido sulfrico, como mejorador de suelos en
presencia de un testigo. Analizar los datos.
Dosis de
II
III
IV
Yi.
H2SO4 (lit/ha)
0
10
20
30
40
28
30
40
41
52
27
32
42
43
50
26
32
40
42
53
28
31
43
41
52
25
30
44
40
54
134
155
209
207
261
Y..= 966
ANALISIS DE
F. De V.
Tratamientos
Error exptal.
Total
43
VARIANZA
G.L.
S.C.
4
2000.16
20
37.60
24
2037.76
C.M.
Fc.
500.04 265.98**
1.88
DISEO COMPLETAMENTE AL AZAR CON DIFERENTE NUMERO DE REPETICIONES

POR TRATAMIENTO
Diseo Completamente al Azar con diferente nmero de repeticiones por tratamiento
El modelo aditivo lineal es el siguiente:
X ij = + i + ij ,
i = 1 ,2 , . . . , t; j = 1 ,2 , . . . , ri
donde:
Xij : Es la variable de respuesta de la j-sima observacin sujeta al i-simo tratamiento.
: Media general o poblacional. i : Es el efecto del i-simo tratamiento.
ij : Es el verdadero efecto aleatorio del error muestral en la j-sima unidad experimental sujeta al isimo tratamiento
TABLA ANOVA: Frmulas
F. de V.
Trat.
G.L.
t-1
Error
Total
S. C.
C.M.
e2 + r02
X ij
X 2i
ri
ri
) X X
(r 1
r
t
ri
2
ij
2
i.
e2
t ri
X ij
r
ri
t
i
i
j
2
i
X ij
ri
i
j
Ejemplo: Considere un experimento para estudiar el efecto de la condicin de almacenamiento sobre el

contenido de humedad de madera blanca de pino. Se investigaron cinco mtodos de almacenamiento, con
varios nmeros de unidades experimentales (muestras de tablas) siendo almacenadas bajo cada condicin.
Los resultados experimentales se muestran a continuacin:
Contenido de humedad de 14 tablas de pino blanco almacenadas bajo diferentes condiciones.
Rep.
1
2
3
4
5
Condiciones de almacenamiento
1
2
3
4
5
7.3
5.4
8.1
7.9
7.1
8.3
7.4
6.4
9.5
7.6
7.1
10.0
8.4
8.3
TABLA ANVA para condiciones de almacenamiento

F. de V.
G.L.
S.C.
C.M.
Fc.
Almacn
4
10.663
2.666
3.35ns.
Err. exptal.
9
7.170
0.797
Total
13
17.833
Programa en SAS.
/*******************************************/
/* EFECTUA EL ANVA DE UN DIA CON DIFERENTE */
/* NUMERO DE REPETICIONES POR TRATAMIENTO */
/*******************************************/
DATA PINO;
TITLE 'CONTENIDO DE HUMEDAD DE MADERA BLANCA DE PINO';
INPUT ALMAC REPE HUMED;
CARDS;
1 1 7.3
1 2 8.3
1 3 7.6
1 4 8.4
1 5 8.3
2 1 5.4
2 2 7.4
2 3 7.1
3 1 8.1
44
3 2 6.4
4 1 7.9
4 2 9.5
4 3 10.0
5 1 7.1
;
PROC GLM;
CLASSES ALMAC REPE;
MODEL HUMED=ALMAC;
RUN;
PROC VARCOMP METHOD=TYPE1;
CLASSES ALMAC REPE;
MODEL HUMED=ALMAC;
RUN;
Diseo Completo al Azar con igual nmero de subunidades por unidad experimental
El modelo estadstico lineal aditivo es el siguiente:
X ijk = + i + ij + ijk
i=1, ...,t; j=1,..., r, k=1, ...,s

Donde:
Xijk = Es la variable respuesta de la k-sima muestra (subunidad) de la j-sima unidad experimental
sujeta al i-simo tratamiento.
: = La media general poblacional o constante comn.
i : = Es el verdadero efecto del i-simo tratamiento.
ij : = Es el efecto verdadero de la j-sima unidad experimental sujeta al i-simo tratamiento.
ikj : = Es el verdadero efecto aleatorio del error muestral en la k-sima subunidad, de la j-sima
unidad experimental sujeta al i-simo tratamiento.
TABLA ANVA: FORMULAS
F de V
GL
SC
Tratamientos
Unidades dentro de
tratamientos=Error
experimental
Entre subunidades
dentro de
unidades=Error de
muestreo
Total entre
subunidades
t-1
X ij
rs
trs
i
2
i.
2s + s 2e
2s + s 2e + rs 2
+ rs 2i / ( t 1)
X 2ij.
i , j,k
i , j ,k
2
ijk
2s
X 2i..
rs
X2ijk
trs-1
Modelo II
t(r-1)
tr(s-1)
Modelo I
X 2ij.
i
j sXijk
i , j ,k
trs
45
2s
+ s 2e
2s + s 2e
2s
Ejemplo: Los datos que se muestran a continuacin se refieren a producciones parciales de forraje de
maz en verde, tomadas como muestras ante la imposibilidad de medir la produccin total de cada unidad
experimental. Los tratamientos consisten en cantidades diferentes de estircol incorporado al suelo como
mejorador.
Dosis
0
ton/ha
I
24
23
21
II
19
21
24
III
18
19
22
IV
23
22
20
Yi..
Yij.
4
ton/ha
68
25
28
30
64
31
24
32
59
28
32
36
65
34
33
29
256
Yij.
6
ton/ha
83
56
65
58
87
62
60
59
96
61
60
64
96
62
60
61
362
Yij.
2
ton/ha
179 181 185 183

24 21 23 19
19 22 18 21
23 24 22 23
728
66
Yij.
67
Tabla ANVA para el forraje de maz verde
63
63
259
Y...
1605
F. de V.
Tratamientos
Error exptal.
Error de
muestreo
Total
ANALISIS DE VARIANZA
G.L.
S.C.
C.M.
3
12469.985 4156.662
12
67.916
5.660
32
47
228.000
12765.812
Programa en SAS.
DATA FORRAJE;
OPTIONS NODATE NOCENTER NONUMBER;
INPUT ESTIER PRODUC REP MAIZ @@;
CARDS;
0
1
1
24
0
1
2
23
0
1
3
0
2
1
19
0
2
2
21
0
2
3
0
3
1
18
0
3
2
19
0
3
3
0
4
1
23
0
4
2
22
0
4
3
4
1
1
25
4
1
2
28
4
1
3
4
2
1
31
4
2
2
24
4
2
3
4
3
1
28
4
3
2
32
4
3
3
4
4
1
34
4
4
2
33
4
4
3
6
1
1
56
6
1
2
65
6
1
3
6
2
1
62
6
2
2
60
6
2
3
6
3
1
61
6
3
2
60
6
3
3
6
4
1
62
6
4
2
60
6
4
3
2
1
1
24
2
1
2
19
2
1
3
2
2
1
21
2
2
2
22
2
2
3
2
3
1
23
2
3
2
18
2
3
3
2
4
1
19
2
4
2
21
2
4
3
;
PROC PRINT; RUN;
PROC GLM;
CLASS ESTIER PRODUC REP;
MODEL MAIZ = ESTIER PRODUC(ESTIER);
TEST H = ESTIER E = PRODUC(ESTIER);
LSMEANS ESTIER PRODUC(ESTIER) /PDIFF STDERR;
RUN;
CLASSES ESTIER PRODUC;
MODEL MAIZ=ESTIER PRODUC(ESTIER);
RUN;
EJEMPLO: (Evaluacin del rendimiento de papa).
46
7.125
21
24
22
20
30
32
36
29
58
59
64
61
23
24
22
23
Fc.
734.4**
0.79ns.
En un experimento donde se desea evaluar el rendimiento (en kg/parcela) de cuatro variedades

de papa. El investigador considera 3 parcelas por variedad y de cada uno de ellos elige al azar 2 plantas
tomando la informacin necesaria de ella. Los resultados se presentan a continuacin.
Planteamiento de Hiptesis:
Ho: i = 0
Ho: 1 = 2 = 3 = 4
Ha: i 0
Ha: i j
Parcela
1
2
3
Variedades de papa
1
2
3
56
55
76
57
54
76
50
53
78
50
55
74
51
56
70
54
59
72
4
75
74
73
71
69
72
TABLA DE ANALISIS DE VARIANZA

F. De V.
G.L.
S.C.
C.M.
Tratamientos
3
2232.500 744.167
Error exptal.
8
107.000
13.375
Error muestreo
12
29.000
2.417
Total
23
2368.500
47
Fc. Ftabla
55.64 7.59
2.85
4.5
Diseo Completamente al Azar con distinto nmero de unidades y subunidades

experimentales
El modelo estadstico lineal aditivo es el siguiente:
X ijk = + i + ij + ijk i=1, ...,t; j=1,..., r , k=1, ...,r

i
ij
donde: Xijk = Es la variable respuesta de la k-sima muestra (subunidad) de la j-sima unidad

experimental sujeta al i-simo tratamiento.
: = La media general poblacional o constante comn; i : = Es el verdadero efecto del i-simo
tratamiento; ij : = Es el efecto verdadero de la j-sima unidad experimental sujeta al i-simo
tratamiento; ikj : = Es el verdadero efecto aleatorio del error muestral en la k-sima subunidad, de la
j-sima unidad experimental sujeta al i-simo tratamiento.
Tabla ANVA:Frmulas:
Suma de
F de V
GL
Cuadrados
Modelo I
Modelo II
2s + c 2 2e
t-1
Tratamientos
F rI
G
JK
H
+
t
ri
ij
FF X
X
G
H
G
H
rij
Unidades dentro
de
tratamientos=Erro
r experimental
ijk
rrikij
t 1
ijk
j k
k
ri
ri
II
JK
JK TC
2
ri rij
2
i
s2 + c 2e2
+c3 2
F X I
JK
G
H
ri
jr
ij
ijk
ri
ij
Entre
subunidades
dentro de
unidades=Error
de muestreo
ri
rij
ri
FX I
JK
G
H
( ri 1)
t ri
2
ijk
rij
d i
2s + c1 2e
ijk
2s + c1 2e
rik
rij 1
Total entre
subunidades
t ri
2s
2s
t ri rij
rij 1
investigar
X2ijk TCla conversin fermentativa del azcar a cido
Ejemplo: Considere el experimento
para
i j
i j k
lctico. Se desea comparar la capacidad
de 2 microorganismos para efectuar esta conversin. Se
prepara una cantidad de sustrato y se divide en dos porciones desiguales. Cada porcin se divide en un
nmero de subporciones de 100 ml (unidades experimentales) como sigue: No.1, 4 unidades; No. 2, 3
unidades. Cada una de las unidades de 100 ml es inoculada con uno u otro de los microorganismos, 4
unidades fueron inoculadas con el microorganismo 1 y 3 unidades con el microorganismo 2. La
fermentacin procede por 24 horas y despus cada unidad experimental (100 ml) son examinados con
respecto a la cantidad de azcar residual. Luego se hace varias determinaciones en cada muestra.
Determinaciones
1
2
3
4
5
1
5.6
5.7
X11.=11.3
rij
ri
r11=2
Microorganismo No. 1
Muestra nmero
2
3
5.0
5.4
5.0
5.4
5.1
5.4
5.5
5.4
X12.=15.1
4
5.3
5.5
-
X13.=27.1
X14.=10.8
r13=2
r14=2
r12=2
Microorganismo No. 2
Muestra nmero
1
2
3
7.6
7.4
7.5
7.6
7.0
7.6
7.8
7.2
7.5
7.4
X21.=23.0
X22.=21.6
X23.=30.0
138.9
r22=2
r23=2
R=22
r21=2
X1.. = 64.3
X2..=74.6
r1=4
r2=3
Tabla ANVA para los resultados de microorganismos
48
F. de V.
Microorganismos
GL
1
5
SC
24.092
7
0.8468
CM
24.092
7
0.1694
Error
experimental
Error de muestreo
Total
15
22
0.1664
22.08
0.0111
Programa en SAS
DATA ONCE;
INPUT MICR MUES DETE Y;
CARDS;
1 1 1 5.6
1 1 2 5.7
1 2 1 5.0
1 2 2 5.0
1 2 3 5.1
1 3 1 5.4
1 3 2 5.4
1 3 3 5.4
1 3 4 5.5
1 3 5 5.4
1 4 1 5.3
1 4 2 5.5
2 1 1 7.6
2 1 2 7.6
2 1 3 7.8
2 2 1 7.4
2 2 2 7.0
2 2 3 7.2
2 3 1 7.5
2 3 2 7.6
2 3 3 7.5
2 3 4 7.4
;
PROC PRINT;
PROC NESTED;
CLASS MICR MUES;
VAR Y;
RUN;
CLASS MICR MUES;
MODEL Y=MICR MUES(MICR);
RUN;
49
Fc
142.22
15.26
BIBLIOGRAFIA
ASTETE, ALONSO. 2005. GUIA DE PRCTICAS. INEIA.
IBAEZ Q., V. y W. ZEA F. 2006. Aplicaciones con el Sistema de Anlisis Estadstico SAS. UNAPuno.
50

Curso Sas1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Curso Sas1

Transféré par

Droits d'auteur :

Formats disponibles

2

ANLISIS DE DATOS CON SAS

Anlisis Univariado (n < 30)

Clculo de Estadsticas Bsicas

175 + 132 + 218 + ... + 206 + 179 + 206

x100 = 38.09826797 x100 = 20.30360685

(175 187.6428) 3 + (132 187.6428) 3 + .. + ( 206 187.6428) 3

= 159403.3389 x0.89743589 = 0.258693284

(175 187.6428) 4 + (132 187.6428) 4 + .. + ( 206 187.6428) 4

= 51067350.89 x0.122377622 3.840909090 = 0.874545301

es el percentil (para 25% q=25; para 75% q=075; etc.)

El valor del percentil se obtiene utilizando alguna de las frmulas:

j es la parte entera del nmero np

Ejemplo1: para q = 25, es decir, Primer_Cuartil = Q1

Debido a que 0.5 > 0, se usa la frmula Y = Yj + 1 = Y3 + 1 = Y4 el cual corresponde a la

Ejemplo 2: para q = 75, es decir, Tercer_Cuartil = Q3

Debido a que 0.5 > 0, se usa la frmula Y = Yj + 1 = Y10 + 1 = Y11 .

Intervalo de Confianza para la Mdia

: tn 1 , que sigue una distribucin t con n-1 grados de libertad,

se construye el intervalo de confianza para la media:

Reemplazando estos valores en la expresin:

Intervalo de Confianza para la Varianza

: 2 , que sigue una distribucin ji-cuadrado con n-1 grados

En la Tabla , o usando SAS EXCEL, se busca los valores para

Reemplazando estos valores en la expresin:

se obtiene el intervalo de confianza

Intervalo de Confianza para la Desviacin Estandar

El intervalo de confianza para la desviacin estndar del incremento de peso en novillos

Al reemplazar estos valores en la expresin, se obtiene el intervalo de confianza

C[ 27.61949182 61.37792901] = 0.95

Prueba de Hipotesis para la Mdia: t de Student

Con la variable aleatoria T =

: tn 1 , se construye el intervalo de probabilidad cuyos

P236 + ( 2.160368240)(10.18219041) Y 236 + ( 2.160368240)(10.18219041) = 0.95

Si al evaluar el incremento de peso de las 14 novillos Hostein alimentadas sin vitamina A, la

Otra forma de contrastar la hiptesis ( Ho : = 236 ) es calculando la probabilidad

Pt 187.6428571 236 = P[ t 4.749188623] = ( 2)( 0.000189993) = 3.79986X10 4

El sistema SAS realiza la hiptesis Ho : = 0 a travs del procedimiento PROC

P[ t > 18.42853545] = 5.31935X10 11

P[ t > 18.42853545 ] = ( 2) 5.31935x10 11 = 1.06387x10 10

Prueba de Hipotesis para la Mediana: Prueba del Signo

es el nmero de observaciones con valor mayor a la mediana hipottica.

es el nmero de observaciones con valor menor a la mediana hipottica

n = n + n es el nmero de observaciones con valores diferentes al valor de la

Prueba de Hipotesis para la Mediana: Prueba del Signo de Wilcoxon

, y descartar los valores de

despus de descartar valores de

y la suma es calculada para valores de

Prueba de Hipotesis para la Varianza Poblacional

: 2 , se construye el intervalo de probabilidad

Con algunas manipulaciones algebraicas se contruye el intervalo

Se construye el intervalo de probabilidad para la varianza

P( 5.00875) 900 S2 ( 24.7356) 900 = 0.95

Si al evaluar el incremento de peso de las 14 novillos Hostein alimentadas sin vitamina A, la

( 2) P2 20.96579365 = ( 2)( 0.073608) = 0.147216

Prueba de Normalidad de Shapiro y Wilk

De la Tabla B se obtiene el valor crtico para el estadstico W, para el nivel de significacin

Tabla A Coeficientes ak Para la Prueba de Normalidad W de Shapiro-Wilk

Tabla B. Cuantiles de la Prueba de Normalidad W de Shapiro-Wilk

Programas SAS y Salidas

The SAS System

Basic Statistical Measures

Basic Confidence Limits Assuming Normality