Vous êtes sur la page 1sur 24

ANALISIS DE VARIANZA DE UN FACTOR (ANOVA 1 VIA)

El anlisis de la varianza de un factor (ANOVA) es una metodologa para analizar la variacin entre
muestras y la variacin al interior de las mismas mediante la determinacin de varianzas. Es llamado
de una va porque analiza un variable independiente o Factor ej: Velocidad. Como tal, es un mtodo
estadstico til para comparar dos o ms medias poblacionales. El ANOVA de un criterio nos permite
poner a prueba hiptesis tales como:
H 0 1 2 3 .... k

H 1 : Al menos dos medias poblaciona les son diferentes.

Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras independientes
son:
1
2

Ambas poblaciones son normales.


Las varianzas poblacionales son iguales, esto es,

12 22 .

El estadstico tiene una distribucin muestral resultando:


sb2
Fc 2
sw

El valor crtico para la prueba F es:


F (k 1, k (n 1))

Donde el nmero de grados de libertad para el numerador es k-1 y para el denominador es k(n-1),
siendo

el nivel de significancia.

k = nmero de muestras.
Por ejemplo:
Ejemplo: Se tienen 14 empleados seleccionados al azar que se someten a
3 diferentes cursos de entrenamiento: Programa 1, Programa 2 y Programa 3.
Como los empleados se seleccionan aleatoriamente para cada programa
el diseo se denomina DISEO COMPLETAMENTE ALEATORIZADO
Se observa el aprovechamiento de los empleados en los programas:
TRATAMIENTOS
I

r=1
r=2
r=3
r=4
r=5
Medias

c=1

c=2
Programa

c=3

Programa 1 2
Programa 3
85
80
82
72
84
80
83
81
85
80
78
90
**
82
88
80.00
81.00
85.00
Xj
Media de medias o media
total

82.14

TIPOS DE VARIACIN Y SUMAS DE CUADRADOS


1. Variacin total entre los 14 empleados, su puntuacin no fue igual con todos
VARIACIN TOTAL RESPECTO A LA MEDIA GENERAL
r

SCT
i 1

( Xij X )
j 1

SCT = (85-82.14)2 + (72-82.14)2+(83-82.14)2+.....+(88-82.14)2


SCT = 251.7
2. Variacin entre los diferentes tratamientos o Variacin entre muestras

o variacin entre

programa 1, programa 2 y programa 3


EFECTO DE LA MEDIA DE CADA TRATAMIENTO RESPECTO A LA MEDIA GENERAL
r

SCTR rj ( X j X ) 2
j 1

SCTR = 4(79.5 - 81.3333)2 + 5(81 - 81.3333)2 + 5(85 - 81.333)2


SCTR = 65.71
3. Variacin dentro de un tratamiento o muestra o programa dado que no todos los empleados
dentro de un mismo programa obtuvieron los mismos puntajes. Se denomina Variacin dentro de los
tratamientos.
VARIACIN DENTRO DEL TRATAMIENTO O VARIACIN DEL ERROR
CADA VALOR RESPECTO A LA MEDIA DE SU TRATAMIENTO
r

SCE
i 1

(X
j 1

ij

X j )2

2
En estadstica, un modelo de efectos fijos es un modelo estadstico que representa las
cantidades observadas en las variables explicativas que son tratadas como si las cantidades
fueran no-aleatorias. Esto est en contraste con el Modelo de efectos aleatorios y el Modelo
mixto en los que todas o algunas de las variables explicativas son tratadas como si se
derivaran de causas aleatorias. Tenga en cuenta que esto difiere con la definicin
bioestadstica. Los bioestadsticos se refieren a los efectos "promedio de la poblacin" y
"especficos del sujeto" como efectos "fijo" y "aleatorio" respectivamente. 1 2 3 A menudo, la
misma estructura del modelo, que suele ser una regresin lineal, puede ser tratado como
cualquiera de los tres tipos, dependiendo del punto de vista del analista, aunque puede haber
una eleccin natural en cualquier situacin dada.
En el anlisis de datos de panel, el estimador de efectos fijos (tambin conocido como el
estimador "within") se utiliza para referirse a un estimador para los coeficientes en el modelo
de regresin. Si suponemos efectos fijos, imponemos que los efectos del tiempo son
independientes para cada entidad que posiblemente est correlacionada con los regresores.
ndice
[ocultar]

1Descripcin cualitativa

2Descripcin Formal

3Igualdad de los estimadores de efectos fijos (FE) y de primeras diferencias (FD) cuando T
=2

4Pasos en el modelo de efectos fijos para los datos de muestra

5Referencias

Descripcin cualitativa[editar]
Estos modelos sirven para controlar la heterogeneidad inobservable, en particular cuando sta
es constante en el tiempo y est correlacionada con las variables independientes. Esta
constante puede ser eliminada de los datos a travs de la diferenciacin, por ejemplo,
teniendo una primera diferencia con la cual se eliminarn los componentes del modelo
invariables en el tiempo.
Hay dos supuestos comunes hechos sobre el efecto individual especfico, el supuesto de
efectos aleatorios y la asuncin de efectos fijos. La hiptesis de efectos aleatorios (hecho en
un modelo de efectos aleatorios), es que.los efectos especficos individuales no estn
correlacionados con las variables independientes. El supuesto del modelo de efectos fijos es
que el efecto especfico individual est correlacionado con las variables independientes. Si la
hiptesis de efectos aleatorios se mantiene, el modelo de efectos aleatorios es
ms eficiente que el modelo de efectos fijos. Sin embargo, si este supuesto no se cumple (es
decir, si la prueba de Durbin-Watson falla), el modelo de efectos aleatorios no es consistente.

Descripcin Formal[editar]
Considere el modelo lineal de efectos no observados para

observaciones y

periodos de

tiempo:
for
donde

and

es la variable dependiente observada para el individuo

la matriz de regresores variable en el tiempo de tamao


invariante en el tiempo y el efecto individual,
de

en el tiempo

es

es lo no observado

es el trmino de error. A diferencia

no puede ser observada por el econometrista. Los ejemplos ms comunes de

efectos invariantes en el tiempo son los

que representan la capacidad innata de los

individuos o los factores histricos e institucionales de los pases.


A diferencia del modelo de efectos aleatorios (RE, por "random effects") en el que la
observada

es independiente de

para todos

elementos fijos (FE, por Fixed effects) permite a


regresores
Dado que
elimina

, el modelo de
que se correlacione con la matriz

. La exogeneidad estricta , sin embargo, sigue siendo necesaria.


no es observable, no pueden ser directamente controlada. El modelo FE
degradando a las variables a travs de la transformacin "dentro de" ("within"):

Donde
constante,
(FE)

. Dado que

es

y por lo tanto el efecto es eliminado. El estimador de efectos fijos


se obtiene entonces de una regresin MCO de

en

Igualdad de los estimadores de efectos fijos (FE) y


de primeras diferencias (FD) cuando T = 2[editar]
Para el caso especial con un nmero de perodos igual a dos (

). El estimador

FE y el estimador FD son numricamente equivalentes. Para ver esto, establecer que


el estimador de efectos fijos es el siguiente:

puede ser re-escrito como


volvemos a escribir la lnea como:

Aunque utilicemos los trminos de anlisis de la varianza, esta prueba no hace sino

comprobar una hiptesis acerca de las medias. Tal comprobacin se realiza mediante una
descomposicin de la variabilidad total de las puntuaciones en dos componentes: varianza
experimental y varianza de error.
a) La varianza experimental es la que se debe a los efectos de la variable o variables
independientes. Esta varianza refleja las diferencias existentes entre los grupos, y son debidas
a que cada grupo presenta un nivel distinto de la variable independiente. En el caso de que
exista ms de una variable independiente (anlisis factorial de la varianza), la varianza
experimental incluye tantas partes como variables e interacciones posibles entre las variables.
Por ejemplo, en el caso en que interesaba estudiar los efectos del mtodo de lectura y la clase
social sobre el rendimiento, habra una varianza experimental debida al mtodo, otra a la clase
social y finalmente otra varianza experimental debida a la interaccin del mtodo y la clase
social.
b) La varianza de error es aquella otra cuyo origen no es posible identificar. La varianza de
error podra deberse a diferencias individuales dentro de cada muestra y no al efecto de la
variable independiente.
l anlisis de la varianza se basar en comparar la varianza experimental (variacin
intergrupos) y la varianza de error (variacin intragrupos)- Teniendo en cuenta que por azar es
posible encontrar un cierto nivel de variabilidad dentro de los grupos, si la variabilidad
intergrupos supera de forma significativa a la variabilidad observada dentro de los grupos,
podemos afirmar que los efectos de la variable independiente son importantes, y en
consecuencia, hay diferencias significativas entre ellos.

Para llevar a cabo el anlisis de la varianza se parte de la descomposicin de


la suma de cuadrados, y no de la descomposicin de la varianza. La suma de cuadrados es
tambin una medida de variabilidad, pero que cuenta con la ventaja de ser aditiva, es decir,
que el total puede descomponerse en la suma de las partes. Por este motivo, la
descomposicin de la variabilidad se hace a partir de la suma de cuadrados, y slo al final se
transforma sta en para llevar a cabo la prueba de decisin estadstica.
Veamos cmo procederamos en el clculo de las sumas de cuadrados total (SC t), la suma de
cuadrados entre grupos (SCinter) y la suma de cuadrados dentro de los grupos (SC intra).
Supongamos para ello, que en el ejemplo de los mtodos de lectura hemos obtenido los
siguientes resultados para el rendimiento de las tres muestras seleccionadas:
Tabla I: Rendimiento logrado a partir de 3 mtodos de lectura

GRUPOS
A
9
7
8
4
7
6
9
6

B
5
8
4
6
7
9
7

C
8
4
5
2
6
3
5
3

La suma de cuadrados calculada para una serie de puntuaciones se obtiene a partir de


cualquiera de las siguientes expresiones equivalentes, la segunda de las cuales facilita
considerablemente el clculo. Si utilizramos la primera de ellas, nos veramos obligados a
trabajar con nmeros decimales, lo cual implica siempre un redondeo y una consiguiente
prdida de informacin.

[D]

En el ejemplo que nos ocupa, podramos comenzar construyendo una tabla que nos permita el
clculo de lasuma de cuadrados total (ver tabla 2). Esta suma de cuadrados total representa la
variabilidad total del grupo.
Tabla 2: Tabla para el clculo de la suma de cuadrados total

Xi

A
B

9
7
8
4
7
6
9
6
5
8
4
6
7
9
7
8
4
5
2
6
3
5
3

Xi 2
81
49
64
16
49
36
81
36
25
64
16
36
49
81
49
64
16
25
4
36
9
25
9

Xi = 138
Xi2 = 920

Teniendo en cuenta estos clculos, la suma de cuadrados total ser:

[D]

[D]
Calculemos ahora la suma de cuadrados intragrupo, es decir, la variacin registrada en el
interior de cada uno de los tres grupos considerados. Para un grupo A, con n A puntuaciones,
este clculo podr realizarse a partir de las diferencias entre cada puntuacin y la media del
grupo. Utilizaremos la segunda de las expresiones para el clculo de sumas de cuadrados,
que como ya se seal, resulta ms cmoda:

[D]
Para facilitar el clculo hemos construido la tabla 3.
Tabla 3: Tabla para el clculo de la suma de cuadrados intragrupos

n
Xi
Xi2
[D]

GRUPOS
A
Xi
9
7
8
4
7
6
9
6
8
56
412
7.00

Xi
81
49
64
16
49
36
81
36

B
Xi
5
8
4
6
7
9
7
7
46
320
6.57

Xi
25
64
16
36
49
81
49

C
Xi
8
4
5
2
6
3
5
3
8
36
188
4.5

Xi2
64
16
25
4
36
9
25
9

Calcularemos la suma de cuadrados correspondiente a la variacin dentro de cada uno de los


grupos, teniendo en cuenta la expresin anterior:

SCA-intra = 412 - 562/8 = 20


SCB-intra = 320 - 462/7 = 17.71
SCC-intra = 188 - 362/8 = 26
La suma de cuadrados dentro de los grupos, que recoge la variacin intragrupo, mide el grado
en que las puntuaciones de cada muestra varan respecto a la media del grupo. Su valor ser
el resultante de sumar las tres sumas parciales de cuadrados intragrupo.
SCintra = SCA-intra + SCB-intra + SCC-intra
SCintra = 63.71
La suma de cuadrados intragrupos (SC intra) puede expresarse mediante las siguientes frmulas
equivalentes, en las que se indica la suma de todas las sumas de cuadrados parciales
correspondientes a los k grupos considerados.

4 La estadstica (la forma femenina del alemn Statistik, y


este derivado del italiano statista 'hombre de Estado')1 es una ciencia formal y una herramienta
que estudia usos y anlisis provenientes de una muestra representativa de datos, busca
explicar las correlaciones y dependencias de un fenmeno fsico o natural, de ocurrencia en
forma aleatoria o condicional.
Sin embargo, la estadstica es ms que eso, es decir, es la herramienta fundamental que
permite llevar a cabo el proceso relacionado de la estadstica con la investigacin cientfica.
Es transversal a una amplia variedad de disciplinas, desde la fsica hasta las ciencias sociales,
desde las ciencias de la saludhasta el control de calidad.
Se usa para la toma de decisiones en reas de negocios o instituciones gubernamentales.
La estadstica se divide en dos grandes reas:
1. Estadstica descriptiva: Se dedica a la descripcin, visualizacin y resumen de datos
originados a partir de los fenmenos de estudio. Los datos pueden ser resumidos
numrica o grficamente. Ejemplos bsicos de parmetros estadsticos son:
la media y la desviacin estndar. Algunos ejemplos grficos
son: histograma, pirmide poblacional, grfico circular, entre otros.
2. Estadstica inferencial: Se dedica a la generacin de los modelos, inferencias y
predicciones asociadas a los fenmenos en cuestin teniendo en cuenta
la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y

extraer inferencias acerca de la poblacin bajo estudio. Estas inferencias pueden


tomar la forma de respuestas a preguntas s/no (prueba de hiptesis), estimaciones
de unas caractersticas numricas (estimacin), pronsticos de futuras observaciones,
descripciones de asociacin (correlacin) o modelamiento de relaciones entre
variables (anlisis de regresin). Otras tcnicas de modelamiento incluyen anlisis de
varianza, series de tiempo y minera de datos.
Ambas ramas (descriptiva e inferencial) comprenden la estadstica aplicada. La estadstica
inferencial, por su parte, se divide en estadstica paramtrica y estadstica no paramtrica.
Hay tambin una disciplina llamada estadstica matemtica, la que se refiere a las bases
tericas de la materia.
La palabra estadsticas tambin se refiere al resultado de aplicar un algoritmo estadstico a
un conjunto de datos, como en estadsticas econmicas, estadsticas criminales, entre otros.
Hoy en da, la estadstica es una ciencia que se encarga de estudiar una determinada
poblacin por medio de la recoleccin, recopilacin e interpretacin de datos. Del mismo
modo, es considerada una tcnica especial apta para el estudio cuantitativo de los fenmenos
de masa o colectivo.

51 Estimacin mnimo-cuadrtica. Sea el modelo de regresin lineal simple:


Yi = 1 + 2 Xi + ui = E[Yi / Xi ] + ui i = 1, ... , N (3.1) Si representamos por
b1 y b2 los estimadores (y, tambin, las estimaciones) de los par- metros 1 y
2 del modelo, entonces podramos expresar los valores estimados de los
elementos muestrales de la variable endgena como: X b + b = Y i21i i =
1, ... , N Llamamos residuos, que representaremos por ei , a las diferencias
entre los valores observados de la variable endgena y los valores estimados:
ei = Yi - = Yi - ( b1 + b2 Xi ) = Yi - b1 - b2 Xi Yi Podemos, entonces,
escribir: Yi = 1 + 2 Xi + ui = b1 + b2 Xi + ei i = 1, ... , N Nuestro objetivo al

estimar los parmetros 1 y 2 ser obtener una estimacin tal, que la


estructura estimada b1 + b2Xi se aproxime lo ms cerca posible a la
estructura desconocida del modelo 1 + 2Xi como se indica en la figura :
Yi b1 + b2 Xi(estimada) Yi ei ui 1 + 2 Xi(desconocida) Xi Xi Los
estimadores b1 y b2 sern funciones de los valores muestrales Xi e Yi que
obtendremos por los procedimientos que nos ofrece la Inferencia Estadstica.
El primer mtodo que vamos a utilizar es el de los mnimos cuadrados. 23
Departamento de Estadstica e Investigacin Operativa II (Mtodos de
Decisin) El mtodo de los mnimos cuadrados ordinarios (M.C.O. a partir de
ahora), consiste en obtener las expresiones muestrales de los estimadores b1 y
b2 que hagan mnima la suma de los cuadrados de los residuos: e . i 2 i=1 N
Expresando dicha suma en funcin de los estimadores b1 y b2, quedar: S(b1 ,
b2) = ( ) N =1i 2 i21i N =1i 2 e i Xb - b - Y = Los estimadores M.C.O.
sern, por tanto, las soluciones del siguiente problema de optimizacin:
Mnimo S(b1, b2) = Mnimo ( , segn los posibles valores de b1 y b2. N =1i
2 Xb - b - Y i21i ) Para obtener las soluciones que hagan mnimo S(b1 , b2 )
aplicaremos la condicin necesaria o de primer orden : ( ) ( ) i i i=1 N

7
Cuando se rechaza la hiptesis nula de no diferencia de ms de dos medias
(H0: 1 = 2 = = k) en un anlisis de varianza surge la pregunta acerca de
cules pares de medias son diferentes, puesto que el rechazo de una hiptesis
nula con cuatro tratamientos (H0: 1 = 2 = 3 = 4), podra deberse a uno o
varios de los seis pares de diferencias que se pueden tener, esto
es: 1 2 o 1 3 o 1 4 o 2 3 o 2 4 o 3 4

Existen varios procedimientos para determinar cules son los pares de medias
que son diferentes. El primero de estos procedimientos, y el ms utilizado en el
pasado, es el de la Diferencia Significativa Mnima (DSM) de Fisher publicada
en 1935 en su libro The Design of Experiments. Este procedimiento es una
extensin de la prueba t de Student para el caso de comparacin de dos medias
con varianza ponderada.
Otros procedimientos ms recientemente usados para el mismo propsito son: la
prueba de Student-Neuman-Keuls, la prueba de Diferencia Significativa Honesta
de Tukey (DSH), la prueba del Rango mltiple de Duncan, la prueba de Dunnett
y la prueba de Scheff, entre otras. Vase Steel and Torrie y Federer.

Para ilustrar mejor las diferentes pruebas se tomar el siguiente ejemplo:

Ejemplo 1: Una empresa tiene cuatro plantas y sabe que la planta A satisface los
requisitos impuestos por el gobierno para el control de desechos de fabricacin,
pero quisiera determinar cul es la situacin de las otras tres. Para el efecto se
toman cinco muestras de los lquidos residuales de cada una de las plantas y se
determina la cantidad de contaminantes. Los resultados del experimento aparecen
en la siguiente tabla.
Tabla 1 Cantidad de contaminantes para cuatro plantas de una empresa.

Planta

contaminantes

ni

1.65

1.72

1.50

1.35

1.60

7.84

1.568

1.70

1.85

1.46

2.05

1.80

8.86

1.772

1.40

1.75

1.38

1.65

1.55

7.73

1.546

2.10

1.95

1.65

1.88

2.00

9.58

1.916

Total: N = 20

Antes de realizar el anlisis de varianza se debe trazar el diagrama de cajas


mltiple para determinar si existen casos extraordinarios y si se cumple el
supuesto de varianzas iguales:

Figura 1 Diagrama de caja para los datos del ejemplo 1

Los clculos se muestran en la siguiente tabla de ANDEVA.


Tabla de ANDEVA para los datos de contaminacin.

Fuente

g.l.

Suma de cuadrados

Cuadrados
medios

Fcalculada

Ftablas

Trat.

4 1=3

"Plantas
"

Error
20 4=1
6

Total

20 1=1
9

Conclusin: Puesto que Fcalc > Fteor se rechaza H0, y se concluye que hay
diferencia significativa (al 5%) entre las cantidades medias de contaminantes
para las diferentes plantas.
La salida de computadora es:
Analysis of variance

Source of variation Sum of Squares d.f. Mean square F-ratio


Sig. level

Between groups .4702550 3 .1567517 5.171 .0109

Within groups .4850400 16 .0303150

Total (corrected) .9552950 19

12
En lo expuesto en este captulo se supone que el factor tratamiento del
modelo de diseo completamente aleatorizado es de efectos fijos, esto
es, los niveles del factor son seleccionados especficamente por el
experimentador ya que el inters del experimento se centra en conocer
los efectos sobre la respuesta de estos niveles particulares. En este caso
los efectos del factor
son constantes desconocidas (parmetros).
Los modelos conteniendo nicamente efectos fijos se denominan
tambin modelos de efectos fijos.
En muchas situaciones el experimentador tiene inters en un factor
con un nmero elevado de posibles niveles y para realizar el
experimento es necesario seleccionar una muestra de ellos al azar. En
este caso el factor es de efectos aleatorios y, en el modelo matemtico
del diseo los factores son variables aleatorias idnticamente
distribuidas segn la distribucin de la poblacin de niveles. Los
modelos con factores de efectos aleatorios se denominan modelos
de efectos aleatorios. En estos modelos el inters radica en medir la

variabilidad existente en la totalidad de los efectos de la poblacin de


niveles. El objetivo es distinto del caso de efectos fijos y, por
consiguiente, la planificacin y anlisis difiere en ambos modelos.
Hay modelos de diseos de experimentos con factores fijos y factores
aleatorios que se denominan modelos mixtos.
En esta seccin se estudia el modelo de diseo completamente
aleatorizado con el factor de efectos aleatorios. Se supone que la
poblacin de niveles es infinita o lo suficientemente grande como para
ser considerada como tal, en caso contrario es necesario aplicar
correcciones para poblaciones finitas en la formulacin matemtica del
modelo.
Ejemplo 3.2.
Una marca de coches est interesada en controlar la variabilidad en
el consumo de los coches que fabrica de un determinado modelo y para
ello somete a un nmero de coches a una prueba que consiste en que
los coches hagan un recorrido predeterminado y se calcule el consumo
realizado. Las causas ms probables de esta variabilidad son dos: los
coches utilizados (no todos tienen el mismo consumo) y los conductores
que hacen la prueba.
Pueden considerarse dos situaciones:
[1] Los conductores que participan en el experimento son personal
de la empresa acostumbrado a realizar este tipo de pruebas y se cree
que su influencia es casi nula, de modo que casi con total seguridad el
problema radica en las unidades de coche fabricadas que se estn
provando. El factor tratamiento es los coches y los niveles son todos
los coches fabricados y que se podran fabricar en el futuro.
Tericamente esta poblacin de niveles es infinita y se puede suponer
que los coches elegidos entre los ltimos fabricados son una muestra
aleatoria de todas los fabricados. El efecto del coche sobre el consumo
es un efecto aleatorio y se modela mediante una variable aleatoria.

Comparando el modelo de efectos fijos y efectos aleatorios, se tiene:

Efectos Fijos

Efectos Aleatorios

Modelo

yij =

Los efectos son

I
i=1

=0

ij

yij =

ij

parmetros desconocidos

variables aleatorias

la respuesta media

en la variabilidad

Influyen en
Objetivo

estimar

Los niveles

son predeterminados

El contraste

H0 :

= 0,

estimar

se eligen al azar
H0 :

=0

En el modelo con factor aleatorio se tiene:

(3.33)

ya que por la independencia de

ij

, la Cov

= 0.

14
Para muestras de tamao diferente, el efecto de violar la suposicin de varianzas
iguales cuando se comparan dos medias puede ser sustancial. Dado que esta
misma suposicin se formula cuando se contrasta k medias, veamos como puede
detectarse la violacin de estos supuestos.
Un residuo es un estimador del error aleatorio ij. Dado que

el residuo correspondiente, denotado por eij, se define por

Los residuos no son estimados en el sentido de estimacin de parmetros, sino


como estimadores de las variables aleatorias no observables ij con base en las
medias muestrales

Si es cierta la suposicin de que los errores aleatorios tienen la misma varianza


para los k niveles de poblacin, entonces la grfica de los residuos para cada
tratamiento no revelar ninguna diferencia apreciable de los residuos alrededor
de cero.
Para normalizar la escala de magnitudes es preferible utilizar los residuos
estandarizados

Entonces, dado que los errores aleatorios se encuentran normalmente


distribuidos, un residuo estandarizado rara vez se encuentra mas all de 3.
Tambin se encuentra en la literatura estadstica procedimientos para verificar la
hiptesis de igualdad entre las k varianzas. Por ejemplo las pruebas de Bartlett y
las pruebas de Hartley.
En el anlisis de la varianza, la estadstica F tambin es ms robusta entre
varianzas desiguales siempre y cuando los tamaos de la muestra de los
tratamientos sean iguales. Esto para el caso de efectos fijos.
El resultado no se extiende para el caso de efectos aleatorios en el que la
violacin de la hiptesis de varianzas iguales generalmente tendr efectos
considerables sobre las inferencias an para muestras del mismo tamao. La
hiptesis crucial en el desarrollo del anlisis de la varianza es que los errores
aleatorios sean independientes. Si los errores son interdependientes, el tamao
real de la regin crtica puede ser, en forma sustancial, ms grande (5 6 veces)
que el tamao dictado al seleccionar la probabilidad de tipo I.

15

Concepto y construccin
La estimacin puntual presenta un gran inconveniente: an utilizando el mejor estimador de
una caracterstica poblacional o parmetro, no slo no acertaremos en la estimacin (la
posibilidad de acertar es remota), sino que desconoceremos el grado de precisin y fiabilidad
de la misma. As, cuando estimamos que el nmero medio de horas diarias ante el televisor es
2.3 a partir de la informacin que proporcionan 1000 individuos elegidos al azar, no medimos
ni la discrepancia con el verdadero valor del parmetro (precisin), ni la probabilidad de
equivocarse en menos de una cierta cantidad (fiabilidad). La nica garanta que podemos
tener acerca de la bondad de la estimacin proviene del hecho de que se ha realizado con el
estimador ms adecuado (en ese caso, la media muestral). Para evitar esta insuficiencia de la
estimacin puntual se introducen los intervalos de confianza.
Conceptos
Un ejemplo
Tamao muestral, precisin y fiabilidad

Sea una variable aleatoria X cuya distribucin depende de un parmetro


para obtener informacin sobre este parmetro tomamos una muestra
aleatoria simple de dicha variable,
confianza aleatorio a un nivel de 1-

. Un intervalo de
es un conjunto de posibles valores

del parmetro dentro del cual se encuentra el verdadero valor del mismo
con una probabilidad de 1- . Este conjunto est delimitado por dos
estadsticos: el primero de ellos, el extremo inferior del intervalo, es un
estimador por defecto del parmetro, mientras que el segundo, el extremo
superior del intervalo, es un estimador por exceso del mismo. Cuando la
muestra se concreta, el intervalo pasa de ser aleatorio a ser un intervalo en
la recta real en el que confiamos que est el verdadero valor del parmetro.

De manera ms formal, dada una muestra aleatoria simple


estadsticos,
,
parmetro

y dos

, tal que
es un intervalo de confianza aleatorio para el

a nivel 1-

si

Para una realizacin de la muestra,


numrico:

, obtenemos el intervalo de confianza

El nivel de confianza, 1- , mide la fiabilidad del intervalo de probabilidad, esto es, la


probabilidad de acertar. Habitualmente se toman valores como 0.90, 0.95 o 0.99,
correspondientes a valores de
de 0.10, 0.05 y 0.01, probabilidad de equivocarse.
Mientras consideremos la muestra como aleatoria interpretaremos el intervalo en trminos de
probabilidad. Una vez concretados los valores de la muestra y, por tanto, del intervalo,
interpretaremos ste en trminos de confianza: si pudisemos repetir la toma de datos de
forma reiterada, el
de los intervalos contendra el verdadero valor del
parmetro. La hoja adjunta ilustra este hecho a partir de 150 intervalos de confianza sobre la
media poblacional obtenidos simulando una misma distribucin normal.
La longitud del intervalo,
, mide
la precisin de la estimacin: intervalos largos proporcionan estimaciones imprecisas,
mientras que intervalos cortos proporcionan estimaciones precisas. Habitualmente la precisin
se expresa como el radio del intervalo,
, el margen de error de la estimacin.
Un intervalo de confianza puede utilizarse para tomar decisiones sobre el verdadero valor del
parmetro. As, planteada una hiptesis sobre
es uno de los valores del intervalo.

, se acepta (no se rechaza) si

Un ejemplo nos ayudar a construir un intervalo y a entender los principales conceptos.


Queremos saber acerca del nmero de horas diarias de estudio de los bachilleres espaoles,
para lo cual tomamos una muestra de tamao 1000 que arroja los resultados que se incluyen
en la tabla:
Horas de
estudio

2.4 1.6 2.9 ... 3.1 3.2 3

siendo 2.7 el nmero medio de horas diarias que dedican al estudio los 1000 bachilleres
seleccionados. La figura muestra el histograma de frecuencias de estos datos.
Vamos a construir el intervalo de confianza para la media de horas diarias de estudio de los
bachilleres, , a un nivel de confianza de 0.95, esto es, con una probabilidad de
equivocarnos de 0.05.
Para abordar el problema suponemos que X, nmero de horas de estudio diarias de un
bachiller, sigue una distribucin normal de media , desconocida, y de varianza 0.81. La
suposicin de normalidad est plenamente justificada dada la naturaleza de la variable, que se
ve influida por mltiples factores; esta suposicin se ve corroborada por la forma que presenta
el histograma anterior, que no es muy diferente a la funcin de densidad de una normal. Por
otro lado, la suposicin de varianza conocida carece de fundamento (si la media es
desconocida, con ms motivo lo ser tambin la varianza), pero esta suposicin sirve para
introducir el problema sin excesivas complicaciones formales. Por tanto,

Vous aimerez peut-être aussi