Vous êtes sur la page 1sur 16

ESTADÍSTICA INFERENCIAL: DE LA MUESTRA A LA

POBLACIÓN

Utilidad de la estadística inferencial.

Frecuentemente, el propósito de la investigación va más allá de las distribuciones de las


variables: se pretende generalizar los resultados obtenidos en la muestra a la población o
universo. Los datos casi siempre son recolectados de una muestra y sus resultados
estadísticos se denominan “estadígrafos”, la medida o la desviación estándar de la
distribución de una muestra son estadígrafos. A las estadísticas de la población o
universo se le conoce como “parámetros”. Los parámetros no son calculados, porque
no se recolectan datos de toda la población, pero pueden ser inferidos de los
estadígrafos, de ahí el nombre de “estadística inferencial”.

La inferencia de los parámetros se lleva a cabo mediante técnicas estadísticas


apropiadas para ello. Estas técnicas se explicaran más adelante.

La estadística inferencial puede ser utilizada dos procedimientos:


a) Probar hipótesis
b) Estimar parámetros

Pruebas de hipótesis.

Una hipótesis en un contexto de la estadística inferencial es una proposición respecto a


uno o varios parámetros, y lo que el investigador hace a través de un prueba de hipótesis
es determinar si la hipótesis es consistente con los datos obtenidos en la muestra. Si la
hipótesis es consistente con los datos, ésta es retenida como un valor aceptable del
parámetro. Si la hipótesis no es consistente con los datos, se rechaza ésta (pero los datos
no son descartados). Para comprender lo que es la prueba de hipótesis en la estadística
inferencial es necesario revisar el concepto de distribución muestral y nivel de
significancia.

Distribución muestral

Una distribución muestral consiste en un conjunto de valores sobre una estadística


calculada de todas las muestras posibles en un determinado tamaño. Las distribuciones
muestrales de medidas son -probablemente- las más conocidas. Se explica este concepto
con un ejemplo. Suponer que el universo o población son los automóviles de una ciudad
y se desea averiguar cuánto pasan diariamente “al volante”. De este universo se podría
extraer una muestra representativa. Suponer que el tamaño adecuado de muestra es de
quinientos doce automóviles (n=512). Del mismo universo se podrían extraer diferentes
muestras, cada una con 512 personas. Teóricamente, incluso podría hacerlo al azar una
vez, dos, tres, cuatro y las veces que fuera necesario hasta agotar todas las muestras
posibles de 512 automovilistas de esa ciudad (todos los sujetos serian seleccionados en
varias muestras). En cada muestra se podría obtener una media del tiempo que pasan los
automovilistas manejando. Se tendrá pues, una gran cantidad de medias, tantas como la
muestra extraída ( X 1 , X 2 , X 3 ,... X k ).Y con estas medias se podría elaborar una
distribución de medias. Habría muestras que -en promedio- pasan más tiempo “al
volante” que otras. Este concepto se representa en la figura siguiente.
DISTRIBUCIÓN MUESTRAL DE MEDIAS
Son Medias ( X ), no se trata de puntuaciones. Cada media representa una muestra.

Si se calcula la media de todas las medias de las muestras, se obtiene el valor de la


media poblacional.
Desde luego, muy rara vez se obtiene la distribución muestral (la distribución de las
medias de todas las muestras posibles).

En el ejemplo de los automovilistas, sólo una de las líneas verticales de la distribución


muestral presentada en la figura anterior es la media obtenida para la única muestra
seleccionada de 512 personas. La pregunta es ¿la media seleccionada esa cerca de la
media de la distribución muestral?, debido a que si está cerca se puede tener una
estimación precisa de la media poblacional (el parámetro poblacional es prácticamente
el de la distribución muestral). Esto se expresa en el teorema central del límite que dice:
“Si una población (no necesariamente normal) tiene de media m y de desviación
estándar σ(s), la distribución de las medias en el muestreo aleatorio realizado en esta
población tiende, al aumentar n, a una distribución normal de medida m y de desviación
σ
estándar n , donde ‘n’ es el tamaño de muestra”.
El teorema especifica que la distribución muestral tiene una media igual a la de la
población, una varianza igual a la varianza de la población dividida por el tamaño de
muestra, y se distribuye normalmente. σ es un parámetro normalmente desconocido,
pero puede ser estimado por la desviación estándar de la muestra.
El concepto de distribución normal es importante y se da una explicación a
continuación.

CONCEPTO DE CURVA O DISTRIBUCIÓN NORMAL

Una gran cantidad de los fenómenos del comportamiento humano se manifiestan de la


siguiente forma: la mayoría de las puntuaciones se concentran al centro de la
distribución y en los extremos sólo encontramos algunas puntuaciones. Por ejemplo, la
inteligencia: hay pocas personas sumamente inteligentes (genios), pero también hay
pocas personas con muy baja inteligencia (retardos mentales). La mayoría de los seres
humanos somos mediamente inteligentes. Esto podría representarse así:

INTELIGENCIA
Debido a ello se creo un modelo de probabilidad llamado curva normal o distribución
normal. Como todo modelo es una distribución teórica que difícilmente se presenta en
la realidad tal cual, pero se presentan aproximadamente a éste. La curva normal tiene la
siguiente configuración:
Media=0
Desviación estándar (s)=1

El 68.26% del área de la curva normal es cubierta entre -1s y +1s, el 95.44% del área de
la curva es cubierta entre -2s y +2s y el 99.74% se cubre con -3s y +3s.
Las principales características de la distribución normal son:
1) Es unimodal, una sola moda.
2) La asimetría es cero. La mitad de la curva es igual exactamente a la otra mitad. La
distancia entre la media y +3s es la misma que la distancia entre la media y -3s.
3) Es una función particular entre desviaciones con respecto a la media de una
distribución y la probabilidad de que éstas ocurran.
4) La base esta dada en unidades de desviación estándar (puntuaciones “z”),
destacando las puntuaciones -1s, -2s, -3s, +1s, +2s, +3s. Las distancias entre
puntuaciones “z” representan áreas bajo la curva. De hecho, las distribuciones de
puntuaciones “z” es la curva normal.
5) Es mesocúrtica (curtosis de cero).
6) La media, la mediana y la moda coinciden en el mismo punto.

Nivel de Significancia.

La probabilidad de que un evento ocurra oscila entre 0 y 1, donde 0 significa la


imposibilidad de la ocurrencia y 1 la certeza de que ocurra el fenómeno.
Aplicando el concepto de probabilidad a la distribución muestral, se puede tomar el área
de ésta como 1.00, y consecuentemente, cualquier área comprendida entre dos puntos de
la distribución corresponderá a la probabilidad de la distribución. Para probar hipótesis
inferenciales respecto la media, el investigador tiene que evaluar si la probabilidad de
que la media de la muestra esté cerca de la media de la distribución muestral es grande o
pequeña. Si es grande el investigador dudará de generalizar a la población. Si es grande,
el investigador podrá hacer generalizaciones. Es aquí donde entra el nivel de
significancia o nivel alfa (nivel α). Éste es un nivel de probabilidad de equivocarse y se
fija antes de probar hipótesis inferenciales. Para obtener este nivel de significancia el
investigador obtiene una estadística en la muestra y analiza qué porcentaje tiene de
confianza de que dicha estadística se acerque al valor de la distribución muestral (que es
el valor de la población o parámetro). Busca un alto porcentaje de confianza, una
probabilidad muy elevada para estar muy tranquilo. Porque sabe que puede haber error
de muestreo, y aunque la evidencia parece mostrar una aparente “cercanía” entre el
valor calculado en la muestra y el parámetro, esta “cercanía” puede ser no real y deberse
a errores en la selección de la muestra.
¿Y con que porcentaje tiene confianza el investigador para generalizar?, ¿para suponer
que tal carencia es real y no debida a un error de muestreo? Existen dos niveles
convenidos en ciencias sociales:
a) El nivel de significancia del .05, el cual implica que el investigador tiene el 95%
de seguridad para generalizar sin equivocarse, y sólo un 5% en contra. En
términos de probabilidad, 0.95 y .05 respectivamente, ambos suman la unidad.
b) El nivel de significancia de .01, el cual implica que el investigador tiene un 99%
en su favor para generalizar sin temor y un 1% contra (0.99 y 0.01=1.00)
A veces en nivel de significancia puede ser todavía más exigente y confiable (.001,
.00001, .00000001). Pero lo mínimo es el .05, no se acepta un nivel de .06 (94% a
favor de la generalización confiable). Porque se busca hacer ciencia, no intuición.
El nivel de significancia es un valor de certeza que fija el investigador “a priori”. De
certeza respecto a no equivocarse.

Relación de la distribución muestral y el nivel de significancia.

El nivel de significancia se expresa en término se probabilidad (.05 y .01) y la


distribución muestral también se expresa como probabilidad (el área total de ésta
como1.00). Pues bien, para ver si tenemos o no confianza al generalizar acudimos a la
distribución muestral, probabilidad apropiada para la investigación social. El nivel de
significancia se toma como un área bajo la distribución muestral, tal y como se muestra
en la siguiente figura:
Intervalo de confianza.

Se ha hablado de la distribución Muestral por lo que respecta a la prueba de hipótesis,


pero otro procedimiento de la estadística inferencial es construir un intervalo donde se
localiza un parámetro. Por ejemplo, en lugar de pretender probar una hipótesis acerca de
la media poblacional, puede buscarse obtener un intervalo donde se ubique dicha media.
Esto requiere un nivel de confianza, al igual que en la prueba de hipótesis inferenciales.
El nivel de confianza es al intervalo de confianza lo que el nivel de significancia es a la
prueba de hipótesis. Es decir, el nivel de confianza es una probabilidad definida de que
un parámetro se va a ubicar en un determinado intervalo. Los niveles de confianza
utilizados más comúnmente en la investigación social son 0.95 y 0.99. Su sentido es del
0.95, quiere decir que tenemos 95% a favor de que el parámetro se localice en el
intervalo estimado. Contra un 5% de escoger un intervalo equivocado, igualmente con
el nivel de 0.99. Estos niveles de confianza (lo mismo que los niveles de significancia)
se expresan en unidades de desviación estándar. Una vez más se acude a la distribución
muestral, concretamente a la tabla de áreas bajo la curva normal, y se selecciona la
puntuación “z” correspondiente al nivel de confianza seleccionada. Una vez hecho esto,
se aplica la siguiente fórmula:

+
Intervalo de confianza = estadígrafo (puntuación “z” que expresa el nivel de
confianza elegido) (desviación estándar de la distribución muestral correspondiente)
Donde el estadígrafo es la estadística calculada en la muestra, puntuación “z” es 1.96
con nivel de .95 y 2.58 con un nivel de .99 y el error estándar depende del estadígrafo
en cuestión.

Errores al realizar estadística inferencial (Errores tipos I y II).

Nunca podemos estar completamente seguros de nuestra estimación. Trabajando con


altos niveles de confianza o seguridad –aunque el riesgo sea mínimo- podría cometerse
un error.

Antes de continuar con la decisión durante un contraste de hipótesis, es necesario


observar los posibles casos relacionados con la veracidad de la hipótesis nula y lo
correcto de la decisión que se tome. Puede llegarse a cuatro resultados posibles como
consecuencia de que la hipótesis nula sea verdadera o falsa, y que a decisión sea “no
rechazar” o bien “rechazar”. La siguiente tabla exhibe esos cuatro resultados posibles:

Hipótesis Nula
Decisión Verdadera Falsa
Error
No se rechaza Ho Dedición correcta Tipo II
Tipo A

Error Dedición correcta


Se rechaza Ho Tipo I Tipo B

Ocurre una decisión correcta tipo A cuando la hipótesis nula es verdadera y se decide
a favor de ella. Ocurre decisión correcta tipo B cuando la hipótesis nula es falsa y la
decisión tomada es contraria a esta hipótesis. Se comete un error tipo I cuando se
rechaza una hipótesis nula siendo ésta verdadera, es decir, cuando es cierta la hipótesis
nula pero se decide en su contra. Se comete error tipo II cuando se decide a favor de una
hipótesis nula cuando en realidad es falsa.
Seria conveniente que siempre que se tome una decisión esta resultara correcta. Sin
embargo, lo anterior es estadísticamente imposible puesto que la decisión se estará
tomando con base en información muestral. Lo mejor que puede esperarse es el control
de riesgo, o probabilidad con la que ocurre un error. La probabilidad asignada al error
tipo I se llama alfa α. La probabilidad del error tipo II se denomina beta β. Para
controlar estos errores se les asigna una probabilidad pequeña. Los valores de α que se
utilizan con mayor frecuencia son 0.01 o bien 0.05. La probabilidad asignada a cada
error dependerá de la gravedad del mismo. Cuánto más grave sea un error, con menor
frecuencia se estará dispuesto a cometerlo y, en consecuencia, se le asignará una
probabilidad más pequeña. En este informe se centrará la atención en α, la P(error de
tipo I). El nivel de preparación no permite una discusión más profunda de β, o sea la
P(error de tipoII). La siguiente tabla muestra la probabilidad con que ocurre un error:

Error Error tipo I Error tipo II


Rechazo de una hipótesis verdadera I α
Falta de evidencia para rechazar una hipótesis II β
nula falsa

Ambos tipos de errores son indeseables y puede reducirse la posibilidad de que se


presenten mediante:
a) Muestras representativas probabilísticas.
b) Inspección cuidadosa de los datos.
c) Selección de las pruebas estadísticas apropiadas.
d) Mayor conocimiento de la población.

Formulario de estadística inferencial

Estimadores y Estadísticos usuales para una muestra de tamaño n


Media Aritmética Varianza Muestral Insesgada Error Standard [ςε=σ/√n]
__
1 n
1  __
2 SE ( X ) = S X / n
∑ ∑ X i − n X 
2
X = Xi S X2 =
n i =1 n −1  
Desviación Standard Varianza Máximo-Verosímil Coeficiente de Variación
S X = S X2
∧ n −1 2 __
σ2 = SX CV = 100*(SX / X )%
n

Intervalo de Confianza del 100*(1-α) % para la media poblacional μ


__   t (α / 2) para σ 2 desconoc.
X −ε ≤µ≤X +ε K = 
 
 Z (α / 2) para σ conocida
2

ε = K * SE ( X ) Es el error de
σ2 es la Varianza Poblacional.
muestreo.

▪ Los valores t de la t-Student con γ=n–1 grados de libertad y Z de la distribución


Normal.

▪ Simetría de las distribuciones Normal y t–Student: t(α) = –t(1–α) y Z(α) = –Z(1–α)


Contrastes de Hipótesis al nivel de significatividad α.
H0 Unilateral Izquierda H0 Bilateral H0 Unilateral Derecha

0.00.10.20.30.4
0.00.10.20.30.4

0.00.10.20.30.4
-4 -2 0 2 4 -4 -2 0 2 4
-4 -2 0 2 4
x <- seq(-4, 4, by = 0.1)

0 t(α) -t(α/2) 0 t(α/2) -t(α) 0


H0: μ ≤ μ0 vs. HA: μ > μ 0 H0: μ = μ 0 vs. HA: μ ≠ μ0 H0: μ ≥ μ0 vs. HA: μ > μ0
Rechazar H0 si t > t(α/2)
Se rechaza H0 si t > t(α) [*] o bien si t < –t(α/2) Se rechaza H0 si t < –t(α)
__

▪ t = ( X − µ0 ) / SE ( X ) es el estadístico de prueba, γ =n–1 son los grados de libertad


(g.l).
[*] Rechazar H0 equivale a verificar que µ0 no pertenezca al Intervalo de confianza para
μ.

Intervalo de Confianza del 100*(1-α) % para la diferencia de medias μX–μY


∧ ∧
  t (α / 2) var ianzas desconoc.
δ µ −ε ≤ µX −µ ≤δ µ +ε
 K =
Z (α / 2) var ianzas conocidas
Y
 

ε = K * SE (δµ ) δµ = X −Y

; SE (δ µ ) = σX2 / n1 +σY2 / n2
No se puede asumir Igualdad de Varianzas
σ X2 = σ Y2 = σ 2
Asumir Igualdad de Varianzas σ x2 ≅ S x2 y σ y ≅ S y para t(α/2) con
2 2

S 2
S 2 Estimar
Estimar σ2= [(n1–1)* x + (n2–1)* y ] /γ
Con γ = (n1–1) + (n2–1) los grados de libertad de γ =
[ SE (δ µ ) ]
4

t-Student para el valor t(α /2).


2 2
S X2 / n1 /(n1 − 1) + S Y2 / n 2 /(n 2 − 1) [ ] [ ]
Para ambas varianzas desconocidas si los tamaños muestrales n1 y n2 son grandes, puede
σ 2 ≅ S y2
suponerse que σ x ≅ S x y y
2 2
tomando el valor Z(α/2) de la Normal Standard (γ
=∞).

Pruebas de Hipótesis para la comparación de medias


H0: µX ≤ µY vs. HA: µX > H0: µX = µy vs. HA: µX ≠ µY H0: µX ≥ µY vs. HA: µX <
µY (Bilateral) [Percentil 1–α/2] µy
(Unilateral ↰) [Percentil 1– Rechazar Ho: si Abs(τ) > t (Unilateral ↱) [Percentil 1–
α] α]
Rechazar Ho: si τ > t Rechazar Ho: si τ < –t
Dónde t proviene de una Distribución t-Student con ν =(n1–1)+(n2–1) grados de
libertad.

ANÁLISIS PARÁMETRICO

Hay dos tipos de análisis que pueden realizarse: los análisis paramétricos y los no
paramétricos. Cada tipo posee sus propias características y presuposiciones que lo
sustentan y la elección del investigador sobre de qué clase de análisis efectuar depende
de estas presuposiciones. Asimismo, cabe destacar que en una misma investigación
pueden llevarse a cabo análisis paramétricos para algunas hipótesis y variables, y
análisis no paramétricos para otras.
Presupuestos o presuposiciones de la estadística paramétrica.

Para realizar análisis paramétricos debe partirse de los siguientes supuestos:


1) La distribución poblacional de la variable dependiente es normal: el universo tiene
una distribución normal
2) El nivel de medición de la variable dependiente es por intervalos o por razón.
3) Cuando dos o más poblaciones son estudiadas, éstas tienen una varianza
homogénea: las poblaciones en cuestión tienen una dispersión similar en sus
distribuciones.

Métodos o pruebas estadísticas paramétricas más utilizadas.

Las pruebas estadísticas paramétricas más utilizadas son:


- Coeficiente de correlación de Pearson
- Regresión lineal
- Prueba “t”
- Prueba de contrastes de la diferencia de proposiciones
- Análisis de varianza unidimensional (ANOVA Oneway)
- Análisis de varianza factorial (ANOVA)
- Análisis de covarianza (ANCOVA)
En este informe se utilizará sólo dos que a continuación se enuncian

Regresión Lineal

Definición: Es un modelo matemático para estimar el efecto de una variable sobre otra.

Hipótesis a probar: Correlaciones y causales.

Variables involucradas: Dos. Una se considera como independiente y la otra como


dependiente. Pero para poder hacerlo se debe tener un sólido sustento teórico.

Nivel de medición de las variables: Itervalos o razón.

Procedimiento e interpretación: La regresión lineal se determina en base al diagrama


de dispersión. Éste consiste en una gráfica donde se relacionan las puntuaciones de una
muestra en dos variables.
Los diagramas de dispersión son una manera de visualizar gráficamente una correlación
por ejemplo:

Correlación positiva muy fuerte: La tendencia es ascendente, altas puntuaciones en X,


altas puntuaciones en Y.
Correlación negativa considerable.

Ausencia de correlación

Así, cada punto representa un caso y es resultado de la intersección de las puntuaciones


en ambas variables.
El diagrama de dispersión puede ser resumido a una línea (producto de las medias de las
puntuaciones).

Conociendo la línea y la tendencia, podemos predecir los valores de una variable


conociendo los de la otra variable.
Existe una clara distancia entre las variables en cuanto a su papel dentro el proceso
experimental. Muy a menudo se tiene una sola variable dependiente de respuesta y, la
cual no se controla en el experimento. Esta respuesta depende de una o más variables
independientes o de regresión, como sean x1, x2,…, xk, las cuales se miden con error
despreciable y en realidad, en la generalidad de los casos se controlan en el
experimento. Así, las variables independientes no son aleatorias y por lo tanto tienen
propiedades distribucionales.
La relación fija para un conjunto de datos experimentales se caracteriza por una
ecuación de predicción que recibe el nombre de ECUACIÓN DE REGRESIÓN. En el
caso de una sola y y una sola x, la situación cambia a una regresión de y en x, para k
variables independientes, se habla en términos de una regresión de y en
x1, x2,…, xk

En términos de regresión lineal implica que µy/x está linealmente relacionada con x por
la ecuación de regresión lineal poblacional.

µy = α + βx
x
donde los coeficientes de regresión α y β son parámetros que deben estimarse a través
de los datos muestrales. Si a y b representan estas estimaciones, respectivamente, se
puede entonces estimar µy/x por
ŷ de la regresión muestral o de la línea de regresión
ajustada.

yˆ = a +bx
donde los estimaciones a y b representan la intercepción y pendiente de y
respectivamente. El símbolo ŷ se utiliza aquí para distinguir entre el valor estimado
que da la línea de regresión muestral y un valor experimental real observado y para
algún valor x.

Regresión lineal simple

En el caso de una regresión lineal simple donde hay una sola variable de regresión
independiente x y una sola variable aleatoria dependiente y, los datos pueden
representarse por pares de observaciones {(xi, yi); i=1,2,3,…,n}. Es conveniente utilizar
los conceptos de la sección anterior para definir cada variable aleatoria yi= y/ xi, por
medio de un modelo estadístico.

Si se postula que todas las medias µy/xi caen sobre una línea recta, cada yi puede
describirse por el modelo de regresión simple:

Yi = µ y + Ei = α + βi + Ei
xi
donde el error aleatorio Ei, el error del modelo, debe tener necesariamente una media de
cero. Cada observación (xi, yi) en la muestra satisface la ecuación:

Yi = α + βi xi + εi
donde εi es el valor que asume Ei cuando Yi toma el valor yi. La ecuación anterior puede
considerarse como el modelo para una sola observación yi.
De manera similar, al utilizar la línea de regresión estimada o ajustada:
yˆ = a +bx
Cada par de observaciones satisface la relación:
Yi = α + βi xi + ei ,

donde i
e = y − yˆ i i se llama residuo y describe el error en el ajuste del modelo en
el punto i de los datos. La diferencia entre εi y ei se muestra claramente.
El método de mínimos cuadrados

Se encuentran a y b, y los estimadores de α y β de tal forma que la suma de los


cuadrados de los residuos sea mínima. Con frecuencia, la suma de los cuadrados de los
residuos recibe el nombre de suma de los cuadrados de los errores alrededor de la línea
de regresión y se representa por SSE. Este procedimiento de minimización se llama
métodos de mínimos cuadrados.

( xi , y i )
yi yˆ = a + bx
εi ei
µ y = α + βx
x

xi
De aquí que se encontrarán a y b con objeto de minimizar:

n n n

∑ei2 = ∑( y i − yˆ ) = ∑( y i − a − bxi )
2 2

i =1 i =1 i =1

Diferenciando SSE con respecto a a y b, se tiene:

∂ ( SSE ) n
∂( SSE )
= −2∑ ( yi − a − bxi )
n
= −2∑( y i − a − bxi ) xi
∂a i =1 ∂b i =1

Al igualar las derivadas parciales a cero y reacomodar los términos, se obtienen las
ecuaciones siguientes (llamadas ecuaciones normales):

n n n n n
( na + b ) ∑ xi = ∑ y i a ∑ xi + b ∑ x = ∑ xi y i 2
i
i =1 i =1 i =1 i =1 i =1

Las cuales se pueden resolver simultáneamente para dar las fórmulas de cálculo de a y
b.

Estimación de los coeficientes de regresión


Dada la muestra {(xi, yi); i=1, 2,3,…, n}, los estimadores de mínimos cuadrados a y b de
los coeficientes de regresión α y β se calcula por medio de la fórmulas:
n
 n  n 
n∑x i y i −  ∑x i  ∑ y i  n n
 i =1  i =1 
b=
i =1

n
 n 
2 ∑y i − b∑ x i
∑ x −  ∑x i 
2
i a= i =1 i =1

i =1  i =1  n
Análisis de varianza unidireccional (oneway).
El análisis de la varianza es un procedimiento, creado por R. A. Fisher en 1925, para
descomponer la variabilidad de un experimento en componentes independientes que
pueden asignarse a causas distintas.

Definición: Es una prueba estadística para analizar si más o dos grupos difieren
significativamente entre sí en cuanto a sus medias y varianzas. La prueba “t” es
utilizada para dos grupos y el análisis de varianza unidireccional se usa para tres,
cuatro o más grupos. Y aunque con dos grupos, el análisis de varianza unidimensional
se puede utilizar, no es una práctica común.

Hipótesis a probar: De diferencia entre más de dos grupos. La hipótesis de


investigación propone que los grupos difieren significativamente entre sí y la hipótesis
nula propone que los grupos no difieren significativamente.

Variable involucrada: Una variable dependiente y una independiente.

Nivel de medición de las variables: La variable independiente es categórica y la


dependiente es por intervalos o razón. El que la variable independiente sea categórica
significa que se pueden formar grupos diferentes. Puede ser una variable nominal,
ordinal, por intervalos o de razón (pero en estos dos últimos casos la variable debe
reducirse a categóricas). Por ejemplo: Religión, Nivel socioeconómico (muy alto, alto,
medio, bajo, muy bajo), antigüedad en la empresa (de 0 a 1 año, más de un año a 5 años,
de más de 5 años a 10, más de 10 años a 20, etc.)

Interpretación: El análisis de varianza unidireccional produce un valor conocido como


“F” o razón “F”, que se basa en una distribución muestral, conocida como la
distribución F , que es otro miembro de la familia de distribuciones muestrales. La
razón “F” compara las variaciones en las puntuaciones debidas a dos diferentes fuetes:
variaciones entre los grupos que se comparan y variaciones entre los dos grupos.

Si los grupos difieren realmente entre sí sus puntuaciones variaran más de lo que
puedan variar las puntuaciones entre los integrantes de un mismo grupo, es decir lo que
se espera es homogeneidad entre grupos de la misma categoría y heterogeneidad entre
grupos diferentes categorías.
Esta misma lógica se aplica en la razón “F”, la cual nos indica si las diferencias entre
los grupos son mayores que las diferencias intragrupos (dentro de éstos). Estas
diferencias son medidas en términos de varianza. La varianza es una medida de
dispersión o variabilidad alrededor de la media y es calculada en términos de
desviaciones elevadas al cuadrado.
El problema que se estudia es el siguiente: se dispone de n elementos que se
diferencian en un factor. Por ejemplo estudiantes de distintas clases, vehículos de
distintas marcas o componentes producidos por distintas máquinas o procesos. En cada
elemento se observa una característica continua, que varía aleatoriamente de un
elemento a otro: las notas de los estudiantes; el consumo de gasolina de cada vehículo o
la duración de vida de los componentes. Se desea si hay o no relación entre el valor
medio esperado de la característica estudiada y el factor: ¿tienen todas las clases la
misma nota media a largo plazo?, ¿los componentes producidos por las diferentes
máquinas tienen la misma vida media?
Para concretar, se supone que se desea comprobar si la vida de los elementos
producidos por un grupo de I máquinas es la misma a largo plazo (no depende de la
máquina). Supongamos que la vida de los elementos producidos por una misma
máquina varía debido a muchos factores no controlables (pureza de la materia prima,
desajustes aleatorios de la máquina, temperatura de funcionamiento, habilidad del
operario, etc.), y que se ha medido la vida de n1 elementos de la máquina 1, y ni de la
máquina i, con un total de n datos para el conjunto de las máquinas:
∑ni =n
Sea yij la variable aleatoria vida del elemento j producido por la máquina i. El objeto
del estudio es: 1) comprobar si todas las máquinas son idénticas: producen elementos
con la misma vida media; 2) si las máquinas no son iguales, estimar la vida media de los
elementos producidos porcada una. Para ello se tendrá que formalizar esta situación con
un modelo matemático.

Tabla de ANOVA (Analisys of variance) y el contrate de la F

El contrate básico del análisis de la varianza utiliza la descomposición de la variabilidad


total en parte explicada y no explicada. La columna de varianzas de esta tabla se obtiene
siempre dividiendo cada suma de los cuadrados por sus grados de libertad
correspondientes.

Fuentes Suma de Grados Varianzas Razón “F” Significancia


de Cuadrados de de “F”
Variación Libertad

Entre ∑ ni ( y i − y .. ) 2 I-1
sˆ =
2 VE sˆR2 / sˆe2 α
grupos e
I −1
(VE)

Interna, no
explicada ∑∑ ( y ij − y i. ) 2 n-I sˆR2 =
VNE
o residual n −I
(VNE)

TOTAL ∑ ∑ (y ij − y .. ) 2 n-1 s
ˆy
2

Si H0 (µ1=µ2=...=µΙ) es cierta, las fuentes de variación de la tabla de ANOVA siguen


distribuciones 2 independientes. Por tanto dividiendo estas distribuciones por sus
grados de libertad y calculando el cociente

( I − 1) sˆe2
σ 2 ( I − 1) sˆe2
F( I −1, n − I ) = = 2
( n − I ) sˆR2 sˆR
σ 2(n − I )
se obtendrá una distribución F de Fisher con I-1 y n-I grados de libertad. Cuando H0 sea
sˆ 2
falsa, y tendrá la misma distribución pero el número será, en promedio mayor, por lo
que rechazaremos H0 cuando el valor F calculado con esta expresión sea
significativamente grande con relación a la distribución F.
El procedimiento operativo de realización del test será:
1. Decidir el nivel α de significación para el test, y buscar en las tablas de F de

Fisher I-1 y n-I un valor


Fαc tal que:

P ( F > Fαc ) = α

Tomar como región de aceptación


F ≤ Fαc y como región de rechazo
F > Fαc (ver
figura siguiente)

F( I −1,n − I )

sˆe2 , sˆR2 Fαc


2. Calcular y su cociente. Si

sˆe2
2
> Fαc
sˆR
rechazar H0; en otro caso, aceptar.
3. Como siempre que se realiza un contraste, conviene obtener el nivel de
significación crítico del test; es decir, aquel nivel de significación que, de haber
sido escogido, hubiese llevado a rechazar H0. Como se ha comentado, conocer
este valor crítico αc, es más indicativo que decir si el test se ha aceptado o
rechazado, porque el valor crítico describe la situación de los datos dentro la
zona de aceptación o rechazo, para obtener αc en este caso, se buscará en las
F( I −1,n−I )
tablas cual es la probabilidad de que un valor al azar F de esta
sˆ 2 / sˆ 2
R . Cuanto mayor se α , más seguro se estará en
distribución se mayor que e c
la aceptación de la hipótesis H0.
Para dos grupos, este contraste es idéntico al contraste t de comparación de dos
medias, estudiado en estadística inferencial. El lector debe comprobar que el cociente
sˆe2 / sˆR2
es entonces el cuadrado del estadístico t, con n1+n2-2 grados de libertad, que se
obtuvo entonces.
Bibliografía

• Metodología de la Investigación. Roberto Hernández Sampieri. Mc Graw Hill.


México 1996.

• Estadística Modelos y Métodos. Daniel Peña Sánchez de Rivera. Segunda


edición. Alianza Universidad Textos. Madrid 2000.

• Estadística Elemental. Robert Jonson. Grupo editorial Iberoamérica. México


1991.

• Archivo de Ecuaciones editadas por Msc. William Milton Carvajal Herradora


Docente del Dpto. de estadística UNAN-LEÓN.

• Información estratégica por Msc. Pablo Morales. Docente del Dpto. de


matemática educativa UNAN-Managua.

• Documentos de estadística Inferencial obtenidos en la carrera de matemática


educativa 2007 I Semestre (Asignatura impartida por Msc. Pablo Morales).

Vous aimerez peut-être aussi