Académique Documents
Professionnel Documents
Culture Documents
1.1 Uso: Hay una variable "dependiente" Y que responde linealmente a una variable "independiente" X ,
estando la respuesta afectada además por una perturbación aleatoria ε .
(a) E (ε j ) = 0 ∀j
(b) V (ε j ) = σ 2 = constante ∀j
(c) ρ ε jε j ' = 0 ∀j ∀j '
(d) X es de valores predeterminados, medidos antes de registrar los valores de Y , o en todo caso X es de
valores dados
∑ (Y j − Y )( X j − X ) ∑ X jY j − n X Y ∑X Y j j − nXY
rXY SY
βˆ1 = j =1
= j =1
= j =1
= y βˆ0 = Y − βˆ1 X
n n
(n − 1) S 2
SX
∑(X − X ) ∑X − nX
2 2 2 X
j
j =1 j =1
∑ εˆ 2j ∑ (Y j − Yˆ j ) 2
( n − 1) S Y2 (1 − rXY
2
)
σ 2 se estima con σˆ 2 = S ε2 = j =1
=
j =1
=
n−2 n−2 n−2
1
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
n
∑ (Y − Yˆ j ) 2
σˆ = σˆ
j
2 j =1 SCE es la estimación de
El Error Estándar o típico de Estimación es donde σˆ 2 = =
n−2 n−2
la varianza σ ; la predicción de Y es Yˆ = βˆ0 + βˆ1 X y en intervalo es Yˆ = βˆ0 + βˆ1 X ± σˆ .
2
Mide el margen de error asociado al uso del modelo como base para el pronóstico de valores de Y.
σˆ 2 σˆ 2
Error estándar de estimación de β̂1 es EE βˆ = S βˆ = = . A nivel de estimación se
1 1 n
(n − 1) S X2
∑X − nX
2 2
j
j =1
Sum of
Model Squares df Mean Square F Sig.
1 Regression SCR 1 CMR CMR/CME pa
Residual SCE n-2 CME
Total SCT n-1
a. Predictors: (Constant), X
b. Dependent Variable: Y
Propiedad
Si el error ε tiene distribución normal N(0,σ2) entonces se cumple
( βˆ1 − β1 ) σˆ 2
t= ~ t (n − 2) donde S βˆ = EE βˆ = n
S βˆ1 1 1
∑X − nX
2 2
j
j =1
2
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
( βˆ − b)
Contraste general sobre β1 H 0 : β1 = b , si H0 es cierta t = 1 ~ t ( n − 2)
S βˆ1
2.1 Uso
Es una extensión del modelo lineal simple, que se aplica cuando tenemos una variable "dependiente" Y que
responde linealmente a p variables "independientes": X1, X2, X3,...,Xp
2.2 El Modelo
Y = ß0+ ß1X1 + ß2X2 + ß3X3 + ...+ ßpXp + ε, donde ß0, ß1, ß2, ß3, ... ,ßp son "parámetros" por estimar y ε es el efecto
del azar o residuo aleatorio
3
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
n n
La estimación de σ2 es σˆ 2 = Sε2 = ∑ εˆ 2j /(n − p − 1) = ∑ (Y j − Yˆj ) 2 / ( n − p − 1)
j =1 j =1
SCR
El ajuste global de los datos al modelo R 2 = es a proporción de la variabilidad total en Y que es
SCT
"explicada" o atribuible a las diferencias en las variables independientes X1,X2, ...,Xp a través de la regresión.
El coeficiente de correlación múltiple R = rYYˆ es la correlación entre el valor real de la variable Y y el valor que
predice el modelo. Si el modelo representa bien a los datos, habrá coincidencia entre lo real y lo predicho, R debe
ser positivo y no irrelevante (según Cohen). Se considera que R = rYYˆ es la correlación entre Y y el conjunto de
v.i. {X1, X2, X3,...,Xp}. Se cumple que R = R 2 y por construcción toma valores entre 0 y 1.
Esto es, 0 ≤ R ≤ 1 donde R=1 implica relación exacta de Y con X1,X2, ... y Xp , es decir el residuo εj es cero en
todos los casos y el modelo predice exactamente. El caso R=0 corresponde al otro extremo, donde no hay ninguna
relación lineal de Y con las variables independientes y el modelo sería completamente fallido.
El primero es el de la significación conjunta de las p variables independientes, o sea del modelo como un todo.
Esto se hace contrastando la hipótesis H 0 : β 1 = β 2 = β 3 = ... = β p = 0 que equivale a decir que no hay efecto de
las variables independientes sobre Y. También equivale a H 0 : R 2 = 0 donde R 2 es poblacional.
El segundo contraste es sobre la significación de alguna(s) variable(s) independiente(s). El contraste es de la forma
H 0 : β k = 0 para la significación de la variable Xk (que se puede hacer por separado para una o varias de las Xs)
Finalmente, el tercer tipo de contraste es acerca de un valor específico para algún coeficiente ßk, ie. H 0 : β k = b
donde b es un valor predeterminado e hipotético. El contraste de nulidad de ßk puede ser visto como un caso
particular de este caso.
como "Cuadrado Medio del Error". Se denota CME y es la variabilidad promedio alrededor de la regresión o
sea la variabilidad promedio debida al azar.
4
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
n
• La cantidad SCR / p = ∑ (Yˆ
j =1
j − Y ) 2 / p es la "varianza de la regresión" y también se conoce como "Cuadrado
Medio de la Regresión", denotándose CMR. Es la variabilidad promedio por variable independiente del
modelo.
• Si el efecto de la regresión es importante, esperaríamos que CMR fuera bastante mayor que CME; esto es, si
por lo menos una de las variables explicativas Xs tiene efecto real sobre Y, entonces la varianza debida a la
regresión debiera ser mayor que la debida al azar y CMR > CME o equivalentemente, la variable
n
CMR
∑ (Yˆ
j =1
j − Y )2 / p
F= = n
debiera ser mayor que 1 (F > 1)
CME
∑ (Y j − Yˆj ) 2 /(n − p − 1)
j =1
CMR
• Si H 0 : β 1 = β 2 = β 3 = ... = β p = 0 es cierta entonces F = ~ F ( p, n − p − 1) y si F es mayor que el
CME
percentil 1 − α de la distribución F1−α ( p, n − p − 1) entonces se rechaza H 0 (
CMR
F= > F1−α ( p, n − p − 1) ⇒ se rechaza H 0 )
CME
• SPSS hace el contraste y directamente muestra la significación del estadístico F en el cuadro que llama
ANOVA
• βˆk es una estimación de β k, tiene un error de estimación que denotaremos Sβk que SPSS adjunta a la
estimación de cada β k.
• En el modelo de regresión lineal múltiple, si βˆk es la estimación de β k y Sβk es el correspondiente error
estándar, entonces se cumple
βˆk − β k
t= ~ t ( n − p − 1) donde p es el número de variables independientes o explicativas del modelo.
SβK
βˆk
• β k=0 se hace con el estadístico t =
El contraste de H0:β pues si H0 es cierta, el citado estadístico tendrá
Sβ K
distribución t de Student con (n-p-1) grados de libertad y esperamos un valor de βˆk cero o cercano a cero, o
equivalentemente esperamos que βˆk no se aleje de cero mucho más de su margen de error S β K , por tanto el
βˆk
estadístico t = debe estar alrededor de 0
Sβ K
Contraste sobre βk H 0 : βk = 0
5
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
Nota: Contraste General para β k H 0 : β k = b
La misma propiedad permite el contraste general sobre β k, o sea el contraste de H0:β k=b, donde b es un valor
βˆ k − b
hipotético y predeterminado. Se usa como estadístico de contraste a t = ~ t ( n − p − 1)
S βK
Hipótesis Nula Hipótesis Alterna Rechazar H 0 si Tipo de contraste
H1 : β k > b t > t1−α Unilateral derecho
Este contraste no figura en los programas de computadora, pero éstos dan todos los elementos para hacer los
cálculos manualmente.
Los resultados del análisis se presentan en un formato similar al del modelo lineal simple
6
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
Cuando dos modelos con diferente número de variables hay que usar el Coeficiente R2 Ajustado o Corregido,
denotado R2A y dado por:
SCE /( n − k ) 2 ( n − 1)
RA2 = 1 − = 1 − (1 − R ) donde k es el número de parámetros ßj incluidos en el
SCT /( n − 1) (n − k )
correspondiente modelo (incluyendo ß0). R2A “corrige” el crecimiento artificial de R2 debido al aumento del
número de v.i. que, aún sin efecto real, incrementan en algo el R2.
Por lo general, el modelo con el mayor R2A es preferible. Pero, esta regla sólo se usa para seleccionar las variables
independientes que se quedan en el modelo final. Para medir el poder explicativo del conjunto final de variables
independientes se sigue usando el R2.
No se usa R2 para comparar modelos porque R2 puede crecer por una razón adicional al ajuste de los datos al
modelo, y es por el mayor número de variables de un modelo con respecto a otro, sólo porque se ha incrementado
el número de variables. En la fórmula de R2A, esta última posibilidad se atenúa, y se puede demostrar que R2A
puede decrecer si se incrementa el número de variables y éstas no tienen mayor poder explicativo. Incluso R2A
puede salir negativo, en cuyo caso se lo toma como igual a cero.
Si se detecta falta de normalidad de residuos, esto puede deberse a que alguna variable explicativa
importante se ha omitido o a que la relación es no lineal. Si fuera el último caso, se puede ensayar con modelos
no lineales o con transformación de variables, como cambiar Y por su logaritmo ln(Y ) o por su raíz cuadrada
Y . Esto es más especializado y de presentarse el caso, es mejor consultar a un especialista. Pero antes de
ello, es mejor ver si la falta de normalidad es la severa, pues de no serlo, todavía el modelo de regresión
puede seguir siendo útil sin mayor cambio.
7
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
“colas pesadas” se dice), hay más probabilidad de lo usual de tener valores extremos, valores que a pesar de
ser pocos pueden causar una falsa significación en los contrastes. En cambio, si es mucho menor (distribución
con “colas ligeras”), entonces se reduce la probabilidad de detectar coeficientes significativos aunque lo sean,
es decir, se reduce la probabilidad de detectar una hipótesis de trabajo verdadera. Una regla empírica es que la
curtosis es grave si en valor absoluto el coeficiente de curtosis es mayor que 8
(2) Ajuste del modelo. En el cuadro “Resumen del modelo” o “Model Summary” donde el R2 de Nagelkerke mide
el ajuste y también en el cuadro “Tabla de clasificación” o “Classification Table” donde SPSS muestra el
porcentaje de aciertos que tiene el modelo cuando pronostica los valores de Y en la muestra. Se desea un R2
grande y un porcentaje de aciertos también grande, 65% o más para un buen ajuste.
8
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
(3) Contrastes individuales para cada X j : H 0 : β j = 0 vs H 1 donde H 1 puede ser de una cola o de dos colas.
Esto figura en el cuadro “Variables en la ecuación” o “Variables in the Equation”, donde SPSS muestra el
valor estimado de β j ,el error estándar de estimación E.E.βˆ , el cuadrado del estadístico W de Wald
j
βˆ
W= que es el equivalente al estadístico t-Student de la regresión lineal múltiple (SPSS muestra W2) y
j
E.E.βˆ
j
Cuadrático: E[Y] = α + ß1X + β 2X2, que se asimila al caso lineal haciendo Z = X2, que convierte el modelo en
E[Y] = α + ß1X + β 2Z.
p
Polinomial: E[Y] = ß0 + ß1X1 + ß2 X2 + ß3X3 +···+ ßpX que se asimila al modelo lineal múltiple haciendo Zj=
Xj, que convierte el modelo en E[Y] = ß0 + ß1Z1 + ß2 Z2 + ß3Z3 + ··· + ßpZp .
La gráfica depende fundamentalmente del signo de la mayor potencia de X (de ßp) y por supuesto, también del
"grado" (potencia) del polinomio. Si ßp>0 la gráfica se abre “hacia arriba”, si ßp<0la gráfica se abre “hacia abajo”.
Supondremos que el Nivel de Significación α es predeterminado y que de las poblaciones tomaremos muestras de
tamaños conocidos n1 y n2 , respectivamente asumiendo normalidad de datos, i.e. Yi ~ N ( µi , σ i2 ) i = 1,2 , para
simplificar el análisis.
9
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
D
El estadístico de contraste para H0 es t = , donde D = Y1 − Y2 es la diferencia "antes"-"después",
SD
n
D =Y1 −Y 2 es la media de esta diferencia y S D es su correspondiente desviación estándar. S D puede ser
calculada directamente a partir de las n diferencias D = Y1 − Y2 o con S D2 = S12 + S 22 − 2rY1Y2 S1 S 2
• En realidad esta prueba es una adaptación de la prueba sobre la media de una población, pues si
D = (Y1 − Y2 ) , entonces ya sabemos que µ D = ( µ1 − µ 2 ) y por tanto H 0 : µ1 = µ 2 equivale a H 0 : µ D = 0 .
D
• Si H 0 es verdadera, el estadístico t = tiene distribución t-Student con k=(n-1) grados de libertad.
SD
n
• La ventaja de esta prueba es que elimina otras fuentes de diferencias entre casos, ajenas al Factor bajo estudio.
La región crítica o zona de rechazo de H 0 , depende de cómo sea H 1
Hipótesis Nula Hipótesis Alterna Rechazar H 0 si Tipo de contraste
H 1 : µ1 > µ2
⇔ t > t1−α Unilateral derecho
H0 : µD > 0
H 0 : µ1 = µ 2 H1 : µ1 < µ2
⇔ ⇔ t < −t1−α Unilateral izquierdo
H 0 : µD = 0 H0 : µD < 0
H 1 : µ1 ≠ µ 2
⇔ | t |> t1−α / 2 Bilateral
H0 : µD ≠ 0
t1−α y t1−α / 2 percentiles 1 − α y 1 − α / 2 de la tabla t(k=n-1)
• La prueba también puede aplicarse cuando se miden dos atributos distintos pero comparables, en las mismas
unidades experimentales y se sabe de una correlación entre los atributos.
D − d0
La hipótesis más general H 0 : µ1 − µ2 = d0 , donde d 0 es un valor dado, se prueba con t = , que se
SD
n
compara con t1−α o t1−α / 2 según que H1 sea uni o bilateral
Hipótesis Hipótesis Rechazar H 0
Tipo de contraste
Nula Alterna si
H 0 : µD > d0 t > t1−α Unilateral derecho
H 0 : µD = d0 H 0 : µD < d0 t < −t1−α Unilateral
izquierdo
H 0 : µ D ≠ d0 | t |> t1−α / 2 Bilateral
t1−α y t1−α / 2 percentiles 1 − α y 1 − α / 2 de la tabla t(k=n-1)
• La prueba también puede aplicarse cuando se miden dos atributos distintos pero comparables, en las mismas
unidades experimentales y se sabe de una correlación entre los atributos.
10
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
3.3 Caso de Muestras Independientes
El análisis depende de si σ 12 = σ 22 o si σ 12 ≠ σ 22 . Se hace un contraste previo
11
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
3.3.2 Caso de Varianzas Heterogéneas ( σ 12 ≠ σ 22 )
La hipótesis nula es H 0 : µ1 = µ 2 y sabemos que σ 12 ≠ σ 22
• Para este caso no existe una solución o Test óptimo exacto. Hay varias propuestas pero programas
computacionales como SPSS suelen usar una metodología (Test de Welch) donde se ponderan los grados de
libertad de las varianzas muestrales
2 2
• Como las varianzas poblacionales son diferentes, no podemos combinar las varianzas muestrales S1 y S 2 en
una varianza ponderada y debemos mantenerlas separadas por lo que el estadístico de contrastes es de la forma
(Y 1 − Y 2 )
t=
S12 S 22
+
n1 n2
• El problema es que la distribución de este estadístico t no es exactamente la t de Student y hay dos valores para
los grados de libertad: ( n1 − 1) y ( n2 − 1) , de modo que se necesita una solución de compromiso
En la metodología de Welch que usa SPSS, se calcula un promedio ponderado k de los grados de
libertad ( n1 − 1) y ( n2 − 1) , usando la fórmula
2
S12 S 22
+
n1 n 2
k= 2 2
S12 S 22
n1 + n2
n1 − 1 n2 − 1
Con este valor de k (redondeado) se va a la tabla t-Student de acuerdo al nivel de significación α y el tipo de
hipótesis alterna H 1 uni o bilateral
12
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
Observaciones:
• Los test anteriores se pueden aplicar al caso más general H0:µ1-µ2=d0, donde d0 es un valor predeterminado.
Sólo cambia el numerador del estadístico t que es ahora igual a [ (Y 1 − Y 2 ) − d 0 ]
• Es recomendable tener tamaños de muestra iguales. Esta precaución es importante sobre todo en el caso de
heterogeneidad de varianzas.
• Hemos asumido normalidad de datos. Pero se ha probado que las pruebas t-Student pueden aplicarse incluso si
no hay normalidad; basta con que las distribuciones de las respuestas sean simétricas. En este caso, es de suma
importancia que n1 = n2.
El contraste puede modificarse para cubrir la hipótesis general H 0 : P1 − P2 = D0 , donde D0 es una cantidad
( p 1 − p 2 ) − D0
predeterminada. El estadístico Z cambia a Z = donde en el denominador ya no se incluye una
p1 q 1 p2 q2
+
n1 n2
proporción promedio, pues ésta no tiene sentido en este caso.
13
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
Antes
Después Sin A Con A Total
Con A a b (a+b)
Sin A c d (c+d)
Total (a+c) (b+d) n
(d − a)
• Se calcula el estadístico de contraste Z = y la Regla de Decisión depende de la forma de H 1 , según:
(d + a)
Hipótesis Nula Hipótesis Alterna Rechazar H 0 si Tipo de contraste
H 1 : P1 > P2 Z > Z1−α Unilateral derecho
H 0 : P1 = P2 H 1 : P1 < P2 Z < − Z 1−α Unilateral izquierdo
H 1 : P1 ≠ P2 | Z |> Z1−α / 2 Bilateral
Z1−α y Z1−α / 2 percentiles 1 − α y 1 − α / 2 de la tabla N ( 0,1)
Este test se usa si (a+d) > 10, en caso contrario no es fiable y hay que aplicar otra prueba, llamada Prueba
Exacta de Fisher.
Esta prueba también permite comparar proporciones de dos características cualitativas diferentes pero medidas
en los mismos sujetos.
Recordemos finalmente, la definición de la función "arcoseno": Arcsen(x)=El ángulo (medido en radianes) cuyo
seno vale x, i.e. α=Arcsen(x)⇔Sen(x)= α.
14