Académique Documents
Professionnel Documents
Culture Documents
POBLACIÓN
Pruebas de hipótesis.
Distribución muestral
INTELIGENCIA
Debido a ello se creo un modelo de probabilidad llamado curva normal o distribución
normal. Como todo modelo es una distribución teórica que difícilmente se presenta en
la realidad tal cual, pero se presentan aproximadamente a éste. La curva normal tiene la
siguiente configuración:
Media=0
Desviación estándar (s)=1
El 68.26% del área de la curva normal es cubierta entre -1s y +1s, el 95.44% del área de
la curva es cubierta entre -2s y +2s y el 99.74% se cubre con -3s y +3s.
Las principales características de la distribución normal son:
1) Es unimodal, una sola moda.
2) La asimetría es cero. La mitad de la curva es igual exactamente a la otra mitad. La
distancia entre la media y +3s es la misma que la distancia entre la media y -3s.
3) Es una función particular entre desviaciones con respecto a la media de una
distribución y la probabilidad de que éstas ocurran.
4) La base esta dada en unidades de desviación estándar (puntuaciones “z”),
destacando las puntuaciones -1s, -2s, -3s, +1s, +2s, +3s. Las distancias entre
puntuaciones “z” representan áreas bajo la curva. De hecho, las distribuciones de
puntuaciones “z” es la curva normal.
5) Es mesocúrtica (curtosis de cero).
6) La media, la mediana y la moda coinciden en el mismo punto.
Nivel de Significancia.
+
Intervalo de confianza = estadígrafo (puntuación “z” que expresa el nivel de
confianza elegido) (desviación estándar de la distribución muestral correspondiente)
Donde el estadígrafo es la estadística calculada en la muestra, puntuación “z” es 1.96
con nivel de .95 y 2.58 con un nivel de .99 y el error estándar depende del estadígrafo
en cuestión.
Hipótesis Nula
Decisión Verdadera Falsa
Error
No se rechaza Ho Dedición correcta Tipo II
Tipo A
Ocurre una decisión correcta tipo A cuando la hipótesis nula es verdadera y se decide
a favor de ella. Ocurre decisión correcta tipo B cuando la hipótesis nula es falsa y la
decisión tomada es contraria a esta hipótesis. Se comete un error tipo I cuando se
rechaza una hipótesis nula siendo ésta verdadera, es decir, cuando es cierta la hipótesis
nula pero se decide en su contra. Se comete error tipo II cuando se decide a favor de una
hipótesis nula cuando en realidad es falsa.
Seria conveniente que siempre que se tome una decisión esta resultara correcta. Sin
embargo, lo anterior es estadísticamente imposible puesto que la decisión se estará
tomando con base en información muestral. Lo mejor que puede esperarse es el control
de riesgo, o probabilidad con la que ocurre un error. La probabilidad asignada al error
tipo I se llama alfa α. La probabilidad del error tipo II se denomina beta β. Para
controlar estos errores se les asigna una probabilidad pequeña. Los valores de α que se
utilizan con mayor frecuencia son 0.01 o bien 0.05. La probabilidad asignada a cada
error dependerá de la gravedad del mismo. Cuánto más grave sea un error, con menor
frecuencia se estará dispuesto a cometerlo y, en consecuencia, se le asignará una
probabilidad más pequeña. En este informe se centrará la atención en α, la P(error de
tipo I). El nivel de preparación no permite una discusión más profunda de β, o sea la
P(error de tipoII). La siguiente tabla muestra la probabilidad con que ocurre un error:
ε = K * SE ( X ) Es el error de
σ2 es la Varianza Poblacional.
muestreo.
0.00.10.20.30.4
0.00.10.20.30.4
0.00.10.20.30.4
-4 -2 0 2 4 -4 -2 0 2 4
-4 -2 0 2 4
x <- seq(-4, 4, by = 0.1)
; SE (δ µ ) = σX2 / n1 +σY2 / n2
No se puede asumir Igualdad de Varianzas
σ X2 = σ Y2 = σ 2
Asumir Igualdad de Varianzas σ x2 ≅ S x2 y σ y ≅ S y para t(α/2) con
2 2
S 2
S 2 Estimar
Estimar σ2= [(n1–1)* x + (n2–1)* y ] /γ
Con γ = (n1–1) + (n2–1) los grados de libertad de γ =
[ SE (δ µ ) ]
4
ANÁLISIS PARÁMETRICO
Hay dos tipos de análisis que pueden realizarse: los análisis paramétricos y los no
paramétricos. Cada tipo posee sus propias características y presuposiciones que lo
sustentan y la elección del investigador sobre de qué clase de análisis efectuar depende
de estas presuposiciones. Asimismo, cabe destacar que en una misma investigación
pueden llevarse a cabo análisis paramétricos para algunas hipótesis y variables, y
análisis no paramétricos para otras.
Presupuestos o presuposiciones de la estadística paramétrica.
Regresión Lineal
Definición: Es un modelo matemático para estimar el efecto de una variable sobre otra.
Ausencia de correlación
En términos de regresión lineal implica que µy/x está linealmente relacionada con x por
la ecuación de regresión lineal poblacional.
µy = α + βx
x
donde los coeficientes de regresión α y β son parámetros que deben estimarse a través
de los datos muestrales. Si a y b representan estas estimaciones, respectivamente, se
puede entonces estimar µy/x por
ŷ de la regresión muestral o de la línea de regresión
ajustada.
yˆ = a +bx
donde los estimaciones a y b representan la intercepción y pendiente de y
respectivamente. El símbolo ŷ se utiliza aquí para distinguir entre el valor estimado
que da la línea de regresión muestral y un valor experimental real observado y para
algún valor x.
En el caso de una regresión lineal simple donde hay una sola variable de regresión
independiente x y una sola variable aleatoria dependiente y, los datos pueden
representarse por pares de observaciones {(xi, yi); i=1,2,3,…,n}. Es conveniente utilizar
los conceptos de la sección anterior para definir cada variable aleatoria yi= y/ xi, por
medio de un modelo estadístico.
Si se postula que todas las medias µy/xi caen sobre una línea recta, cada yi puede
describirse por el modelo de regresión simple:
Yi = µ y + Ei = α + βi + Ei
xi
donde el error aleatorio Ei, el error del modelo, debe tener necesariamente una media de
cero. Cada observación (xi, yi) en la muestra satisface la ecuación:
Yi = α + βi xi + εi
donde εi es el valor que asume Ei cuando Yi toma el valor yi. La ecuación anterior puede
considerarse como el modelo para una sola observación yi.
De manera similar, al utilizar la línea de regresión estimada o ajustada:
yˆ = a +bx
Cada par de observaciones satisface la relación:
Yi = α + βi xi + ei ,
donde i
e = y − yˆ i i se llama residuo y describe el error en el ajuste del modelo en
el punto i de los datos. La diferencia entre εi y ei se muestra claramente.
El método de mínimos cuadrados
( xi , y i )
yi yˆ = a + bx
εi ei
µ y = α + βx
x
xi
De aquí que se encontrarán a y b con objeto de minimizar:
n n n
∑ei2 = ∑( y i − yˆ ) = ∑( y i − a − bxi )
2 2
i =1 i =1 i =1
∂ ( SSE ) n
∂( SSE )
= −2∑ ( yi − a − bxi )
n
= −2∑( y i − a − bxi ) xi
∂a i =1 ∂b i =1
Al igualar las derivadas parciales a cero y reacomodar los términos, se obtienen las
ecuaciones siguientes (llamadas ecuaciones normales):
n n n n n
( na + b ) ∑ xi = ∑ y i a ∑ xi + b ∑ x = ∑ xi y i 2
i
i =1 i =1 i =1 i =1 i =1
Las cuales se pueden resolver simultáneamente para dar las fórmulas de cálculo de a y
b.
n
n
2 ∑y i − b∑ x i
∑ x − ∑x i
2
i a= i =1 i =1
i =1 i =1 n
Análisis de varianza unidireccional (oneway).
El análisis de la varianza es un procedimiento, creado por R. A. Fisher en 1925, para
descomponer la variabilidad de un experimento en componentes independientes que
pueden asignarse a causas distintas.
Definición: Es una prueba estadística para analizar si más o dos grupos difieren
significativamente entre sí en cuanto a sus medias y varianzas. La prueba “t” es
utilizada para dos grupos y el análisis de varianza unidireccional se usa para tres,
cuatro o más grupos. Y aunque con dos grupos, el análisis de varianza unidimensional
se puede utilizar, no es una práctica común.
Si los grupos difieren realmente entre sí sus puntuaciones variaran más de lo que
puedan variar las puntuaciones entre los integrantes de un mismo grupo, es decir lo que
se espera es homogeneidad entre grupos de la misma categoría y heterogeneidad entre
grupos diferentes categorías.
Esta misma lógica se aplica en la razón “F”, la cual nos indica si las diferencias entre
los grupos son mayores que las diferencias intragrupos (dentro de éstos). Estas
diferencias son medidas en términos de varianza. La varianza es una medida de
dispersión o variabilidad alrededor de la media y es calculada en términos de
desviaciones elevadas al cuadrado.
El problema que se estudia es el siguiente: se dispone de n elementos que se
diferencian en un factor. Por ejemplo estudiantes de distintas clases, vehículos de
distintas marcas o componentes producidos por distintas máquinas o procesos. En cada
elemento se observa una característica continua, que varía aleatoriamente de un
elemento a otro: las notas de los estudiantes; el consumo de gasolina de cada vehículo o
la duración de vida de los componentes. Se desea si hay o no relación entre el valor
medio esperado de la característica estudiada y el factor: ¿tienen todas las clases la
misma nota media a largo plazo?, ¿los componentes producidos por las diferentes
máquinas tienen la misma vida media?
Para concretar, se supone que se desea comprobar si la vida de los elementos
producidos por un grupo de I máquinas es la misma a largo plazo (no depende de la
máquina). Supongamos que la vida de los elementos producidos por una misma
máquina varía debido a muchos factores no controlables (pureza de la materia prima,
desajustes aleatorios de la máquina, temperatura de funcionamiento, habilidad del
operario, etc.), y que se ha medido la vida de n1 elementos de la máquina 1, y ni de la
máquina i, con un total de n datos para el conjunto de las máquinas:
∑ni =n
Sea yij la variable aleatoria vida del elemento j producido por la máquina i. El objeto
del estudio es: 1) comprobar si todas las máquinas son idénticas: producen elementos
con la misma vida media; 2) si las máquinas no son iguales, estimar la vida media de los
elementos producidos porcada una. Para ello se tendrá que formalizar esta situación con
un modelo matemático.
Entre ∑ ni ( y i − y .. ) 2 I-1
sˆ =
2 VE sˆR2 / sˆe2 α
grupos e
I −1
(VE)
Interna, no
explicada ∑∑ ( y ij − y i. ) 2 n-I sˆR2 =
VNE
o residual n −I
(VNE)
TOTAL ∑ ∑ (y ij − y .. ) 2 n-1 s
ˆy
2
( I − 1) sˆe2
σ 2 ( I − 1) sˆe2
F( I −1, n − I ) = = 2
( n − I ) sˆR2 sˆR
σ 2(n − I )
se obtendrá una distribución F de Fisher con I-1 y n-I grados de libertad. Cuando H0 sea
sˆ 2
falsa, y tendrá la misma distribución pero el número será, en promedio mayor, por lo
que rechazaremos H0 cuando el valor F calculado con esta expresión sea
significativamente grande con relación a la distribución F.
El procedimiento operativo de realización del test será:
1. Decidir el nivel α de significación para el test, y buscar en las tablas de F de
P ( F > Fαc ) = α
F( I −1,n − I )
sˆe2
2
> Fαc
sˆR
rechazar H0; en otro caso, aceptar.
3. Como siempre que se realiza un contraste, conviene obtener el nivel de
significación crítico del test; es decir, aquel nivel de significación que, de haber
sido escogido, hubiese llevado a rechazar H0. Como se ha comentado, conocer
este valor crítico αc, es más indicativo que decir si el test se ha aceptado o
rechazado, porque el valor crítico describe la situación de los datos dentro la
zona de aceptación o rechazo, para obtener αc en este caso, se buscará en las
F( I −1,n−I )
tablas cual es la probabilidad de que un valor al azar F de esta
sˆ 2 / sˆ 2
R . Cuanto mayor se α , más seguro se estará en
distribución se mayor que e c
la aceptación de la hipótesis H0.
Para dos grupos, este contraste es idéntico al contraste t de comparación de dos
medias, estudiado en estadística inferencial. El lector debe comprobar que el cociente
sˆe2 / sˆR2
es entonces el cuadrado del estadístico t, con n1+n2-2 grados de libertad, que se
obtuvo entonces.
Bibliografía