Vous êtes sur la page 1sur 164

ESTADSTICA DESCRIPTIVA

PROBABILIDAD Y PRUEBAS
DE HIPTESIS

COMPILADORES:

Domingo Flores Hernndez

Julia Ramos Miranda

Atahualpa Sosa Lpez


ESTADSTICA I

Flores Hernndez, D., J. Ramos Miranda y A. Sosa Lpez (Compliladores), 2007. Estadstica Des-
criptiva, Probabilidad y Pruebas de Hiptesis I. Universersidad Autnoma de Campeche. Facultad
de Ciencias Qumico Biologcas. ISBN xx-xxx-xxx.150 p.

Universidad Autnoma de Campeche, 2007


Facultad de Ciencias Qumico Biolgicas - Centro EPOMEX

ISBN
CONTENIDO
PRESENTACIN

1. ITRODUCCIN 1

1.1. BREVE HISTORIA DE LA ESTADSTICA 1


1.2. ESTADSTICA Y SU IMPORTANCIA EN LA INVESTIGACIN CIENTFICA 1
1.2.1 Definicin 1

2. ESTADSTICA DESCRIPTIVA 3

2.1 LA ESTADSTICA EN EL ENFOQUE METODOLGICO DE LA INVESTIGACIN 3


2.1.1 Definicin del Problema 3
2.1.2 Examen del Estado de Conocimientos del Problema 4
2.1.3 Elaboracin de un Modelo Conceptual de Explicacin o Anlisis 5
2.1.4 Determinacin de Objetivos Particulares 5
2.1.5 Selecciones a Realizar 7
2.1.6 Plan Cuasi-Experimental 26

2.2. ELECCIN DE ESTIMADORES Y ANLISIS ESTADSTICOS 29

2.3. PREPARACIN DEL TRATAMIENTO INFORMTICO DE DATOS 30

2.4. INVENTARIO DE LOS LMITES DEL MTODO 30


2.4.1. Planificacin de las Operaciones 31
2.4.2. Preprueba 31
2.4.3. Colecta de Datos 32
2.4.4. Complejo de Datos 32
2.4.5. Tratamiento Informtico y Estadstico de Datos 32
2.4.6. Interpretacin 32
2.4.7. Conclusiones 32

2.5. DISTRIBUCIN DE FRECUENCIAS (ARREGLO ORDENADO) 38


2.5.1 El Histograma 41
2.5.2. Diagramas de Barras 42
2.5.3. Ojivas o Curvas Sigmoides 42
2.5.4. Grficas de Pay 43
2.6. ESTIMADORES (ESTADGRAFOS Y PARMETROS) 43
2.6.1 Medidas de tendencia central 44
2.6.2. La Mediana 46
2.6.3. La Moda 48

2.7. MEDIDAS DE DISPERSIN 49


2.7.1. Amplitud 49
2.7.2. La Varianza y Desviacin Estndar 49
2.7.3. El Coeficiente de Variacin 50

2.8. PROBABILIDAD 51
2.8.1 Introduccin a la Probabilidad 51
2.8.2 Probabilidad de un Evento 51
2.8.3 Permutaciones 53
2.8.4. Combinaciones 55
2.8.5. Conjuntos 55
2.8.6. Clculo de Probabilidad de un Evento 57
2.8.7 Adicin de probabilidades 57
2.8.8. Multiplicacin de Probabilidades 59
2.8.9. Probabilidad Condicional 60

3. DISTRIBUCIN DE PROBABILIDADES 63

3.1. INTRODUCCIN 63
3.1.1 Ley Binomial o Distribucin Binomial 65
3.1.2. Ley de Poisson o Distribucin de Poisson 70
3.1.3. La Distribucin Normal, N(,) 74
3.1.3.1. Distribucin normal centrada y reducida 75
3.1.4. La Distribucin t-student 79
3.1.5 La Distribucin Chi-cuadrada 2
81
3.1.6 La Distribucin F de Fisher 83

3.2 LA INFERENCIA ESTADSTICA 87


3.2.1 Estimacin por Intervalo (Intervalos de Confianza) 88

3.3. TAMAO O TALLA DE MUESTRA 91

3.4. PRUEBAS DE HIPTESIS 92


3.4.1 Riesgos de Error en un Test Estadstico 92
3.4.2. Umbral de Probabilidad o Nivel de Significatividad 94
3.5 PRUEBAS DE HIPTESIS DE UNA COLA O DOS COLAS, LLAMADO
TAMBIN TEST UNILATERAL O BILATERAL 94
3.5.1. Pruebas de Hiptesis Paramtricas con una Muestra 95
3.5.2. Pruebas de Hiptesis con Dos Muestras 100

4. PRUEBAS DE NORMALIDAD 113

4.1 PRUEBA DE NORMALIDAD Q-Q (CUANTIL-CUANTIL) 113

4.2. DAGOSTINO-PEARSON K2 114

4.3. PRUEBAS DE BONDAD DE AJUSTE 115

4.3.1. TABLAS DE CONTINGENCIA 117

5. TEST NO PARAMTRICOS DE COMPARACIN DE MUESTRAS 121

5.1. COMPARACIN DE DOS MUESTRAS INDEPENDIENTES: TEST DE MEDIANAS 121

5.2. MUESTRAS INDEPENDIENTES (MANN-WHITNEY) 123

5.3. COMPARACIN DE MUESTRAS PAREADAS (TEST DE SIGNOS) 125


2.3.1. Caso de Grandes Muestras 125
5.3.2. Caso de Pequeas Muestras 126

5.4 MUESTRAS DEPENDIENTES NO PARAMTRICAS (WILCOXON), MUESTRAS PAREADAS 128

6. REGRESIN Y CORRELACIN SIMPLE 131

6.1. LA CORRELACIN 131


6.1.1. La Correlacin entre Dos Variables Cuantitativas (Pearson) 132
6.1.2. Clculo de Significatividad de r 134
6.1.3. La Regresin Lineal 135
6.1.4 Regresin Lineal Simple 135
6.1.5 Clculo de la Recta de Regresin y Funcin de X:
Mtodo de Mnimos Cuadrados (MC) 135

6.2 COEFICIENTE DE DETERMINACIN R2 137


6.3 SIGNIFICATIVIDAD DE LA REGRESIN DE Y EN X 139
6.3.1 Prueba de Significatividad de la Pendiente a 140
6.3.2 Anlisis de Varianza: Prueba de Significatividad de r 2
141
6.3.3 Intervalo de Confianza de la Pendiente
de una Recta de Regresin de y en x 143
6.3.4 Intervalo de Confianza de la Ordenada al Origen 143
6.3.5 Prueba de Hiptesis (significatividad) de b 145
6.3.6 Intervalo de Confianza para Estimaciones de i y i 145

6.4. COEFICIENTE DE CORRELACIN DE SPEARMAN 146

ANEXO
PRESENTACIN
La presente obra fue realizada con el objeto de brindar mediante explicaciones simples y con varios
ejemplos biolgicos, las herramientas necesarias para que los alumnos de la carrera de Biologa se
inserten en el campo de la estadstica. En efecto una de las principales dificultades con las que se en-
cuentran los alumnos al consultar los diferentes libros de estadstica es la gama de definiciones sobre
los conceptos y las diferentes notaciones para los mismos, esto dificulta la rpida comprensin de la
estadstica y por lo tanto su aplicacin.

Para su prctico aprovechamiento, esta obra esta diseada conforme al plan de estudios de la materia
y compila aspectos de varios compendios de estadstica aplicada a la biologa, y consultas va Internet.
La obra incluye las generalidades de la estadstica, diseos de plan experimental y la estadstica des-
criptiva para continuar con las distribuciones de probabilidad (Binomial, Poisson, t- Student, 2 y Fisher)
e insertar los conceptos de estadstica inferencial, comparacin de muestras paramtricas y no param-
tricas y finaliza con el clculos de correlacin y regresin lineal simple.

La compilacin de esta informacin ha sido en muchos casos traducida al espaol para la rpida com-
prensin de los alumnos. Esperamos que la seleccin de textos aqu presentados sea valiosa y til para
comprender y aplicar la estadstica principalmente en el rea de la Biologa.

Los Compliladores
1 INTRODUCCIN

1.1. BREVE HISTORIA Literatura sugerida:


DE LA ESTADSTICA
Scherrer B., 1984, Biostatistique. Gatan Morin Edi-
Estadstica proviene del latn Status y Sta- tor. Montreal, Paris, Casa Blanca. 850 p (Pg 1).
tisticus (relativo al Estado), refirindose a
Zar. J. H., 1999. Bostatistical Analysis. 4 edicin.
Estados Polticos. La necesidad de colectar
Prentice Hall. Estados Unidos. 663 p. (Pag. 1)
datos estadsticos sobre la poblacin y sus
condiciones materiales se remonta a la an-
tigedad. De esta manera se realizaron los
inventarios de poblacin y de productos agrcolas. Se citan frecuentemente los ejemplos del emperador
chino Yao Qui, en 2238 A.C., quien organizaba el reconocimiento de los productos agrcolas: el Faran
Amasis, quien dictaba la pena de muerte contra los que se rehusaban a declarar su nombre, profesin y
medios de subsistencia. En Grecia y la antigua Roma, se habla de censos en las fechas den nacimiento
de Cristo, navidad. Cuando el emperador Augusto ordena la reentrada de sus guerreros, cada soldado
debera regresar a su lugar de origen para ser registrado. En los siglos XIII y XIV el comercio de Venecia,
utiliz la estadstica para contabilizar el paso de los productos. Posteriormente los hermanos Elzevir, de
los Paises Bajos, publicaron a principios del Siglo XVII una enciclopedia en sesenta volmenes sobre la
economa y el comercio de los estados.

Los primeros conceptos de estadstica aparecen en Alemania en el VII siglo, creando la palabra Statis-
tik y desarrollan algunas nociones para fines acadmicos. En Inglaterra, J. Graunt, W. Petty y E. Halley
de la escuela de poltica aritmtica, se enfocaron sobre todo al aspecto matemtico de los seguros (tablas
de mortalidad) y ponen en evidencia ciertas estadsticas que van ms all de una simple descripcin de
datos. Finalmente en Francia, Colbert y Vauban, ejecutan numerosos inventarios y reconocimiento de la
poblacin y sus recursos. En la actualidad el uso de la estadstica es cotidiano y sin pensarlo siempre se
hace uso de ella. Esto nos sirve en realidad para ordenar y analizar nuestro entorno.

1.2 ESTADSTICA Y SU IMPORTANCIA EN LA INVESTIGACIN CIENTFICA

1.2.1 Definicin

La estadstica es un conjunto de teoras y mtodos cientficos que han sido desarrollados para
tratar la recoleccin, el anlisis y la descripcin de datos con el objeto de extraer conclusiones
tiles para la solucin de algn problema en particular de algn universo colectivo. Comnmente

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 1


Facultad de Ciencias Qumico Biolgicas
la estadstica apoya al investigador a inferir
Literatura sugerida:
sobre los parmetros de la poblacin a partir
Daniel.W. W. 1982, Biostadstica. Limusa. Mexico. de estadsticos muestrales.
485 p (pg. 1)
La estadstica se subdivide en dos reas
Sokal R. R. y Rohlf F. J. 2000. Biometry. 3a edicin. denominadas:
Ed. Ferman. Estados Unidos. 887 p (pg. 2).
a) Estadstica descriptiva y,
Zar. J. H., 1999. Bostatistical Analysis. 4 edicin.
Prentice Hall. Estados Unidos. 663 p. (Pag. 1).
b) Estadstica inferencial.

http://euler.ciens.ucv.ve/pregrado/estadistica/archi-
vos/guias-teo/guia1.pdf#search=estad%C3%ADstic
a%20descriptiva
La estadstica descriptiva llamada tambin
deductiva, permite obtener de un conjunto
de datos, conclusiones que no sobrepasen
la informacin que proporcionan los mismos datos; su estudio incluye las tcnicas de colecta, ordena-
miento, anlisis e interpretacin de datos. Es decir, organiza y resume observaciones que sean fciles
a comprender.

La estadstica inferencial o inductiva, es el conjunto de tcnicas utilizadas para obtener conclusiones


que rebasan los lmites de la informacin aportada por los datos; as mismo a travs del uso de dichas
tcnicas se busca obtener informacin de un universo colectivo a partir de datos tomados de l.

2 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
2 ESTADSTICA DESCRIPTIVA

2.1 LA ESTADSTICA EN EL Literatura sugerida:


ENFOQUE METODOLGICO
DE LA INVESTIGACIN Scherrer B., 1984, Biostatistique. Gatan Morin Edi-
tor. Montreal, Paris, Casa Blanca. 850 p (Pg 29-98).
Un plan de investigacin ideal, debera pro-
porcionar resultados no triviales para que
tengan alguna utilidad, no equvocos, para no dar lugar a interpretaciones diversas, y ser generaliza-
bles. Para esto, se requiere una planificacin detallada, la cual puede exigir ms tiempo y esfuerzo que
el desarrollo mismo de la investigacin. El investigador que por intuicin repentina colecta datos, puede
ahorrarse un tiempo considerable, pero corre el riesgo de obtener resultados evidentes desde el inicio
o difcilmente interpretables.

No hay una nica forma de hacer un plan de investigacin. El procedimiento aqu presentado; pro-
puesto por Scherrer (1984) es slo una gua. El nmero, la secuencia, la importancia y la naturaleza de
las etapas varan de un investigador a otro, segn su disciplina, su formacin. El proceso de la figura 1,
divide arbitrariamente las etapas para facilitar la presentacin para comprender mejor lo intrincado de
los mtodos estadsticos y el conjunto del proceso de investigacin.

2.1.1 Definicin del Problema

Toda investigacin surge de un problema: es decir de una serie de dificultades resultando de una des-
viacin de la situacin actual respecto de la deseada o esperada.

El anlisis preliminar de un problema, revela casi siempre una serie de otros problemas unidos o rela-
cionados unos con otros, los cuales en conjunto reciben el nombre de problemtica.

En esta etapa el investigador se esforzar en formular explcitamente la problemtica, con el fin de


identificar los problemas o procesos relacionados. Esta formulacin orienta en s el desarrollo de la
investigacin, ya que segn se haya formulado, se condiciona al menos parcialmente la respuesta.

As en ecologa por ejemplo, el problema de muestreo de comunidades vegetales o animales tiene dos
grandes obstculos:

1. Obtener una muestra representativa de la poblacin biolgica.

2. Elaborar un plan de muestreo y un dispositivo de colecta que proporcionen una estimacin pre-

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 3


Facultad de Ciencias Qumico Biolgicas
Determinacin de las
Determinacin de hiptesis
hiptesis de trabajo Las selecciones
de trabajo
Definicin de la
problemtica Material biolgico
Las selecciones
Elaboracin de un Enfoque
premodelo de explicacin
o de anlisis Elemento

Preparacin de aspectos prcticos Poblacin estadstica


Determinacin de objetivos
particulares
Variables
Colecta de datos
Dispositivos de medida
Preparacin de aspectos
prcticos Tratamiento informtico y Plan de muestreo
estadstico de datos
Preparacin del tratamiento
informtico de datos Plan experimental

Planificacin de operaciones Interpretacin


calendario y logstica Estimadores y anlisis
estadsticos

Pretest, estudio de Conclusiones


factibilidad, optimizacin Inventario de los
lmites del mtodo

Figura 1. Principales etapas del proceso metodolgico (tomado de Scherrer (1984), pg 30).

cisa y no sesgada de la abundancia de cada una de las especies que habitan un rea dada en un
momento determinado.

En general abordar una problemtica completa es muy complejo, esta complejidad incluye al muestreo
tambin. En la prctica es frecuentemente necesario limitarse a uno o pocos aspectos de la problem-
tica general.

2.1.2 Examen del Estado de Conocimientos del Problema

Despus de haberse concentrado en un problema especfico, es necesario hacer una revisin de la


literatura para hacer un balance de conocimiento del problema. Por ejemplo, para las lluvias cidas un
estado del conocimiento del problema se establece como sigue:

1. La Comisin Europea de pesca de aguas interiores mostr que un pH inferior a 4.5 es letal para
la mayor parte de especies de peces; adems, que valores entre 4.5 y 5.0 afectan probablemente
la reproduccin de los salmnidos.

2. Mount (1973) demostr que la produccin y la tasa de eclosin de huevos se reduce cuando el
pez Pimephales promelas (la cabeza de bola) es expuesto a un pH >5.0 en aguas relativamente
duras (200 mg/l de CaCO3).

3. Johansson et al. (1973) observaron la reduccin de la tasa de eclosin del pez Brachidanio rerio,
etc.

4 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
2.1.3 Elaboracin de un Modelo Conceptual de Explicacin o Anlisis

El modelo conceptual busca proveer una explicacin de la problemtica. Este integra elementos de lite-
ratura, tiene un carcter especulativo o hipottico, ya que generalmente varios supuestos no han sido
an verificados.

La utilidad de este modelo es de proporcionar un marco de reflexin y un camino lgico para proponer
una hiptesis de trabajo. Esta hiptesis podr ser confirmada, redefinida, o refutada para continuar con
otras rutas de investigacin en el marco de la misma problemtica. Este modelo o paradigma (Kuhn,
1970) se trata de un conjunto a priori, ms o menos concientes que constituyen el fondo de toda inves-
tigacin cientfica.

Despus de una serie de investigaciones aceptando el mismo paradigma, aparecen generalmente, un


cierto nmero de anomalas e incoherencias en la explicacin de los procesos o fenmenos. De estas
anomalas, nuevos paradigmas con nuevos a priori se desarrollan y as sucesivamente.

Ejemplo: al inicio de los aos 80, la investigacin agronmica se concentraba en dos tipos de
agricultura, una convencional y qumica, sostenida por la ciencia normal; la otra biolgica, margi-
nal. Entre los supuestos de la escuela convencional, figuran los resultados de Liebig (1840), que
preconiza una alimentacin de la planta con fertilizantes solubles directamente asimilables por la
races. Adems entre los objetivos compartidos de esta escuela, est la maximizacin del rendi-
miento agrcola (produccin por unidad de superficie). Actualmente este enfoque presenta una
anomala, el empobrecimiento o an la supresin progresiva del suelo, como es el caso del medio
oeste americano y de las praderas canadienses. En contraparte, la escuela biolgica tiene como
a priori el alimentar el suelo y no directamente la planta, claro esto en detrimento del rendimiento.

El modelo conceptual (figura 2) puede ser profundizado sobre el plan terico para construir un mo-
delo matemtico a priori. Estos pueden ser entonces modelos analticos, donde el sistema es defini-
do por ecuaciones resolubles analticamente. Modelos de simulacin, donde el sistema es demasiado
complejo para ser resuelto de manera analtica y entonces se obtiene una solucin numrica. Segn
otra clasificacin, el modelo puede ser determinista, si no tiene en cuenta las incertidumbres de los
datos; o estocstico si se hace intervenir el aspecto aleatorio (probable) de los fenmenos.

2.1.4 Determinacin de Objetivos Particulares

En la mayora de investigaciones los objetivos consisten en verificar las hiptesis de trabajo emitidas en
el modelo conceptual. En ciertas investigaciones relacionadas con el manejo de recursos del ambiente,
o al establecimiento de estimaciones determinadas, los objetivos del trabajo no contienen per se una
hiptesis de trabajo (Scherrer, 2001).

Las hiptesis y objetivos de trabajo sern operantes en la medida que posean 7 atributos principales:

1. Explcitos, que sean accesibles a todos los que intervienen en el trabajo.

2. Especficos, para dar una respuesta nica: positiva, negativa o cuantificada.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 5


Facultad de Ciencias Qumico Biolgicas
Disminucin de pH del agua Liberacin de iones H+ Ca+ K+ etc.

Otros factores

Efectos fisiolgicos Efectos ecolgicos Efectos fisiolgicos


o toxicolgicos sobre - disponibilidad de alimento o toxicolgicos sobre
el desarollo - depredacin los adultos
- otros

Inhibicin del crecimiento

Disminucin Dsiminucin Disminucin Disminucin


de la tasa de eclosin de la sobreviviencia de la tasa de la tasa
de juveniles de reproduccin de sobrevivencia
en adultos

Reduccin o extincin
de la poblacin

Figura 2. Modelo conceptual de anlisis (lluvias cidas), (tomado de Scherrer (1984), pg 35).

3. Conformes a la problemtica general del modelo para evitar dispersar esfuerzos en dominios
que no contribuyen a la elucidacin de la problemtica.

4. Colectivamente exhaustivos y coherentes, para facilitar la interpretacin del conjunto de


resultados y obtener una explicacin nica.

5. Compatibles, para que el alcance de un objetivo, no impida la realizacin del otro.

6. Realistas para permitir una adecuacin entre los recursos disponibles y las metas estableci-
das.

7. Jerarquizados para permitir obtener un orden de prioridad en su realizacin.

En el ejemplo del efecto de las lluvias cidas sobre poblaciones de peces, las preguntas buscadas
podran ser formuladas como sigue:

1. A partir de que pH los ovocitos de hembras adultas no expuestas a estrs por aguas cidas,
tienen una tasa de eclosin menor?

2. A partir de que pH los ovocitos de hembras adultas no expuestas a estrs por aguas cidas,
no eclosionan?

3. A partir de que pH los ovocitos de hembras adultas expuestas a estrs moderado por aguas
cidas, tienen una tasa de eclosin menor?

4. Etc.

6 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
2.1.5 Selecciones a Realizar

La elaboracin de un enfoque metodolgico cientfico, implica una serie de elecciones y decisiones que
tienen todas repercusiones unas sobre otras, y que se referirn en los prrafos siguientes.

2.1.5.1 Seleccin del Material Biolgico

La complejidad depende del tipo de investigacin; seleccionar al azar una muestra de organismos cul-
tivados para una serie de experimentos en laboratorio, es una cosa fcil, pero en cambio, es difcil
seleccionar organismos silvestres.

En el caso de las lluvias cidas mencionado antes, el material biolgico deber, en la medida de lo po-
sible, presentar inters econmico, ser frecuente en los lagos vulnerables a las lluvias cidas, disponible
sin dificultad mayor y barato. Adems de talla reducida para evitar el empleo de acuarios voluminosos,
capaz de vivir en acuario sin instalaciones costosas, tener huevos fcilmente recuperables, estar ms
o menos en extincin o en fuerte disminucin. En este caso la mejor opcin fue la trucha (Salvelinus
fontinalis).

2.1.5.2 Seleccin del Enfoque

Dos enfoques fundamentales estn a disposicin del investigador: el experimental y el descriptivo; Sin
embargo existe tambin el enfoque cuasi-experimental que ser tratado en la seccin 2.1.6.

a) Enfoque experimental

Es el mtodo por excelencia para identificar relaciones de causa efecto. Consiste en observar bajo con-
diciones controladas por el investigador, el efecto de la variacin de una o varias variables del fenmeno
estudiado. Para su realizacin, las unidades de muestreo seleccionadas aleatoriamente, son colocadas
en un ambiente controlado libres de toda influencia exgena, o al menos que las mantiene constantes
(variables que no son estudiadas). Por modificacin ms o menos progresiva del valor de las variables
o factores analizados, se observa la variacin de la variable estudiada.

La comparacin de resultados obtenidos sobre una muestra con tratamiento, es decir sometida a
variaciones, con los resultados de muestras aleatorias sin tratamiento o testigos, permite despejar con
una cierta seguridad las relaciones de causalidad. El mayor inconveniente de este enfoque, es que no
es fcil extrapolar los resultados de un ambiente artificial al ambiente natural, ya que el comportamiento
puede ser diferente.

b) Enfoque descriptivo

Consiste en obtener una imagen tan precisa y fiel como sea posible de un fenmeno particular. Es el
mtodo por excelencia para realizar un balance de una situacin dada, definir el estado de un sistema
o determinar las caractersticas estructurales, dinmicas u otras de una poblacin. La red de correlacio-
nes que unen las variables observadas no tienen una connotacin de causa efecto, sino ms bien de
covariacin o de correspondencia en sus fluctuaciones.

La eleccin del enfoque depende esencialmente de tres factores:

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 7


Facultad de Ciencias Qumico Biolgicas
1. De los objetivos buscados, ya que el enfoque descriptivo proporciona la imagen de una cierta
realidad, mientras que el enfoque experimental indica una relacin de causalidad.

2. Corresponde al estado de avance de conocimientos; el conocimiento de variables altamente


correlacionadas al fenmeno estudiado facilita la planificacin de la investigacin. Adems, la ve-
rificacin por el enfoque descriptivo de los resultados de laboratorio, permite su generalizacin en
condiciones naturales.

3. La eleccin depende de la factibilidad, ya que en ciertas condiciones, la aplicacin de uno de los


mtodos puede ser imposible. En este caso, se recurre a verificaciones indirectas.

Entre ambos enfoques, existe una gama de variantes que se califican de enfoques quasi experimenta-
les. Este enfoque se usa cuando hay una gran dificultad de controlar todas las variables del ambiente o
la imposibilidad de seleccionar aleatoriamente las unidades de muestreo. Se usa tambin para verificar
el efecto de un factor en condiciones enteramente naturales.

En el ejemplo bajo anlisis aqu, los dos enfoques pueden ser usados (descriptivo y experimental). El
estado de la situacin de un conjunto de lagos ms o menos afectados por la lluvia cida puede ser pro-
porcionado por el enfoque descriptivo, dando una imagen fiel de las caractersticas bio-fisico-qumicas
de los lagos y hacer resaltar las relaciones entre diversas caractersticas (estado de las poblaciones y
pH). El enfoque experimental puede ayudar a aislar el efecto del pH sobre otros factores.

El enfoque descriptivo puede ayudar tambin a determinar el efecto combinado con otros factores y
valorar si el efecto se invierte, se nulifica, se adiciona o se multiplica.

El enfoque quasi experimental, podra consistir en las caractersticas de un lago por manejos particula-
res o por la agregacin de cal (para aumentar el pH), sin poder controlar los otros factores.

Por otra parte el estudio de la estadstica necesita la comprensin de siete conceptos fundamentales:
1) el elemento, 2) la poblacin estadstica, 3) la muestra, 4) el muestro al azar, 5) la variable, 6) las cifras
significativas y 7) anlisis estadsticos (Scherrer, 1984).

1) El elemento o unidad de muestreo es una entidad concreta como un individuo, un sujeto, un


objeto o abstracta como una asociacin vegetal, un punto en el espacio y el tiempo, una relacin
conductual, entr otros.

2) La poblacin estadstica es el conjunto de elementos. Se puede definir como la totalidad de ob-


servaciones individuales sobre la cual se hacen inferencias estadsticas en un rea muestreada con
lmites espaciales y temporales claramente identificados, ms especficamente es la coleccin de
elementos que poseen al menos una caracterstica comn y exclusiva que la permite identifi-
car y distinguir de cualquier otra y de la cual se puede extraer una muestra y sobre la cual se
pueden hacer inferencias, deducciones y conclusiones estadsticas. La poblacin puede ser
finita o infinita, dependiendo del nmero de elementos que las componen; por ejemplo es infinito el
nmero de experiencias sobre el reflejo en el comportamiento, puesto que se pueden repetir un n-
mero infinito de veces en condiciones parecidas. En cambio, el estudio de las poblaciones naturales
son consideradas finitas puesto que las condiciones en las que se encuentran al momento y el lugar
no son reproducibles a voluntad a menos que se instalen las condiciones en varios aos antes (por
ejemplo una decena de aos). Bajo estas condiciones la poblacin estadstica a estudiar debe estar
bien definida a partir de la muestra para hacer inferencias a la poblacin a juicio del bilogo.

8 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
3) Muestra. Es un fragmento tomado de la poblacin para juzgar o analizar a la poblacin.
La muestra debe ser tomada de manera particular dependiendo del estudio que se quiere
analizar y debe ser representativa de la poblacin.

4) El muestreo al azar. Para que los resultados puedan ser generalizados a una poblacin esta-
dstica, la muestra debe ser representativa de esta; es decir, debe reflejar fielmente su composicin
y su complejidad. Slo el muestreo al azar asegura la representatividad de la muestra por lo que su
diseo (tipo de muestreo para obtenerla) debe ser cuidadosamente realizado.

5) Las variables. Es una caracterstica medida observada sobre cada uno de los elementos de
la muestra, o bien entidades definidas asociadas a las unidades de muestreo, ejemplo: la tempera-
tura interna en el cuerpo de una rata, su talla, peso, etc. Se habla entonces de variables propias.
Cuando se habla de un componente particular de su ambiente como el alimento disponible, la
temperatura ambiente etc, se habla entonces de variables asociadas puesto que no son medidas,
sobre el elemento propiamente dicho. Tambin entre las caractersticas se encuentran las varia-
bles cualitativas o discretas, que son aquellas que no pueden ser medidas (sexo, raza, especie,
estado civil), tambin se les llama atributos y las variables cuantitativas o continuas, que son
aquellas que pueden ser medidas como la altura, el ancho, el peso, etc, de un elemento u objeto de
estudio.

6) Las cifras significativas. Cada variable cuantitativa presenta un dispositivo de medida y su


disposicin fija las cifras significativas de un dato. Estas cifras son las cifras exactas que constituyen
un nmero sin incluir los ceros identificada por tener un punto en donde se conforma la unidad de
medida.

Las escalas numricas en las que son representadas las variables son la cardinal, ordinal y
nominal.

Las escalas nominales se utilizan para categoras de variables que se relacionan utilizando nom-
bres o nmeros nominales. La escala nominal establece una relacin de equivalencia y todos los
eventos u objetos que pertenecen a una categora tienen una caracterstica igual. El nmero de
eventos que pertenecen a cada categora se denomina frecuencia. Un ejemplo tpico de una varia-
ble expresada en una escala nominal es el sexo en una colonia de animales de la misma especie,
en donde slo existen dos posibles valores.

La escala ordinal se utiliza cuando las categoras pueden ser ordenadas con base en algn criterio
particular cuya propiedad de orden nos permite establecer relaciones tales como: mayor que, igual
a, menor que, etc. La escala ordinal exige un ordenamiento antes de dar inicio con algn tipo de
medicin.

La escala cardinal es ms refinada que la nominal y ordinal; y su mayor grado de exactitud la hace
la expresin de uso generalizado en las ciencias exactas. Al utilizar variables expresadas en la es-
cala cardinal podemos tener la siguiente subdivisin:

Escala de intervalo la cual utiliza el cero como un valor arbitrario, siendo imposible establecer ra-
zn por cociente entre las cantidades que con ellas se miden. Ejemplo: Se colocan los especimenes
A y B sobre una mesa hacindolos coincidir en su parte anterior; se le hace una incisin en la parte
media a uno de ellos y se miden ambos haciendo coincidir el cero de la regla de medicin con la
incisin. El resultado es A = 40 mm y B = 20 mm. Se establece la diferencia 40 20 y se dice que el

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 9


Facultad de Ciencias Qumico Biolgicas
espcimen A es 20 mm ms grande que el espcimen B. Sin embargo dichas medidas no permiten
establecer la razn 40 / 20 = 2, y decir que el espcimen A mide el doble que B.

La escala de razn o cocientes es aquella en donde se utiliza el cero como valor real siendo
posible establecer proporcionalidades entre las variables que son medidas con esta escala. En el
ejemplo anterior si utilizamos la longitud total de cada espcimen en lugar de hacer coincidir el cero
con la incisin, entonces con el cero real la longitud A = 90 mm y B = 70 mm establecemos la razn
por cociente 90 / 70 = 9/7, y se puede decir que la longitud B es 7/9 de A.

7. Anlisis estadsticos. Un buen estimador, es una expresin matemtica que mide a partir de
datos de la muestra un parmetro de la poblacin estadstica (p.e., media, mediana, moda, porcen-
taje, etc.)

2.1.5.3 Seleccin del elemento

En la mayora de los estudios, el elemento sobre el que se hacen las mediciones corresponde a un indi-
viduo o a una entidad biolgica claramente definida, como: un nido, un huevo, una colonia, etc.

Bajo ciertas circunstancias, la situacin es ms compleja y se debe elegir entre diversas unidades
que responden ms o menos adecuadamente a los objetivos fijados y a las restricciones encontradas,
se trata por ejemplo de unidades definidas espacio-temporalmente, que necesitan la determinacin de
la talla en trminos de superficie y del intervalo de tiempo y de la condicin natural o artificial de los
elementos.

La etapa de planificacin de muestreo es la parte ms discutida de la investigacin. No es esencial


que el elemento tenga un significado intrnseco, pero es muy importante que el par elemento-variable,
es decir la medida de una variable en un elemento lo tenga. As, en el caso de la eleccin del tamao
de una parcela de un metro cuadrado para estudiar la densidad de grandes ungulados sera completa-
mente inapropiado. De esta forma se ve que la talla del elemento es a veces importante, pero tambin
la naturaleza o condiciones en que se encuentran las unidades es importante: Por ejemplo, no es lo
mismo medir factores fisiolgicos en individuos estresados por alguna causa, que en otros en condicio-
nes normales.

Como el elemento es el objeto de seleccin para formar la muestra, debe ser accesible, numerable y
posible de colectar en una cantidad suficientemente grande. Cuando esto sucede, los errores aleatorios
de estimacin y el sesgo de ciertos estimadores son tanto ms pequeos que la talla de muestra es
grande.

2.1.5.4 Seleccin de la poblacin estadstica

Este proceso no siempre es muy claro. Las decisiones sobre la poblacin estadstica, son muchas veces
intuitivas. En algunas ocasiones esta eleccin est predeterminada por la naturaleza del mismo estudio.
As en manejo de recursos naturales, las poblaciones estadsticas, se confunden con las unidades de
manejo definidas administrativamente y no pueden ser modificadas por razones de jurisdiccin. Por
ejemplo: recursos pesqueros altamente migratorios como el atn, la sierra, etc., que atraviesan dos o
ms pases en su migracin. En biologa experimental, no es el sujeto sino el material biolgico el que
condiciona con frecuencia la poblacin estadstica, ya que las poblaciones biolgicas de animales de
laboratorio se confunden habitualmente con las poblaciones estadsticas.

10 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Para la seleccin de la poblacin estadstica hay ciertas reglas que sirven de gua al investigador para
determinarla.

1. Validez externa, se refiere a que las conclusiones son tanto ms universales mientras ms exten-
sa es la poblacin. Aqu, dos factores importantes limitan su talla en estudios descriptivos y son:

a) Las dificultades de muestreo en el medio natural y,

b) La prdida de resolucin o precisin debido a un esfuerzo de muestreo (talla de muestra) muy


dbil, en relacin con la variabilidad de la poblacin, la cual puede crecer con su extensin.

As, el estudio de las caractersticas del hbitat de una especie, se har tomando a la poblacin es-
tadstica como el rea de reparticin de la especie. Sin embargo, esta es generalmente demasiado
extensa para ser cubierta por un solo proyecto.

2. Debe tener una escala de observacin elegida. Segn los objetivos que se hayan fijado, la escala
de observacin puede variar, mientras esta sea ms grande, tambin lo ser la poblacin estads-
tica.

3. Debe ser emprica, es decir que entre ms original y compleja es la problemtica a estudiar es
importante trabajar sobre una poblacin estadstica conocida y fcil de estudiar; y recprocamente,
mientras la problemtica sea ms comn o conocida, la poblacin estadstica deber ser particular
y poco conocida, para crear informacin nueva que pueda abrir nuevas perspectivas de investiga-
cin.

4. Finalmente si es mayor la amplitud de variacin de los factores estudiados en el seno de la po-


blacin estadstica, ms ser tangible su efecto sobre el fenmeno estudiado. Por ejemplo, no se
puede evidenciar en un estudio descriptivo el efecto del pH de los lagos sobre el xito de la repro-
duccin de peces, si todos los lagos tienen aproximadamente el mismo pH (no hay variacin). Sin
embargo, encontrar esas variaciones implica extender mucho la escala tiempo y espacio, lo cual es
muy costoso y se requiere mucho personal y recursos para llevar a cabo estos estudios.

2.1.5.5 Seleccin de variables

Para alcanzar los objetivos planteados o verificar las hiptesis de trabajo establecidas, es necesario
identificar las variables dependientes que describen diferentes facetas del proceso en estudio, as
como las variables explicativas que concretan mejor los factores de los cuales se presume el efecto.
Para esto es importante considerar los 5 criterios siguientes:

1. Sea completa, una variable lo es, si permite describir todas las situaciones posibles. Esta situa-
cin es solucionada por una buena seleccin de variables tomadas de un gran nmero de otras, que
bajo circunstancias diferentes lleven al mismo resultado.

2. Pertinencia, una variable lo es, si la informacin que aporta, conduce a la solucin del problema.
Si el estudio es demasiado general, todas las variables se hacen pertinentes y el estudio se hace
irrealizable, por otro lado, si se conservan todas las variables para las cuales no hay razn funda-
mental para rechazarlas y no aquellas por las que se tiene una buena razn de conservarlas, se
corre el riesgo de fallar el objetivo de la operacin.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 11


Facultad de Ciencias Qumico Biolgicas
3. Independencia, consiste en la evaluacin al agregar otra variable en funcin de la informacin
adicional que aporta. Por ejemplo se hace intil medir el dimetro y el permetro de un nido, ya que
la informacin es redundante.

4. Validez, consiste en determinar en que medida la variable retenida corresponde al concepto


estudiado.

5. Competencia, toda investigacin se hace con recursos limitados, por lo que con este criterio se
trata de determinar si los recursos asignados a la medida de una variable, no impedir la realizacin
de otras partes importantes del estudio.

En el contexto de un estudio experimental sobre los efectos de una disminucin del pH sobre la trucha,
Menendez (1975), midi regularmente en estanques experimentales y testigos (control) las variables
ambientales siguientes: el pH, la alcalinidad, la acidez, la clorinidad, la dureza del agua, el oxgeno
disuelto y la temperatura. Estas variables son pertinentes en la medida en que su efecto sobre la din-
mica de poblaciones es probable. Son vlidas, ya que reflejan ciertas condiciones fisico-qumicas del
agua. Son incompletas, ya que no hay informacin sobre metales pesados cuyo efecto sobre la sobre-
vivencia ha sido probada. Son no redundantes (independientes), ya que todas proporcionan a priori
una informacin diferente. En cuanto a la competencia, no existe, ya que el costo de estas mediciones
es mnimo. En cuanto a variables dependientes, se midieron la viabilidad de los huevos puestos calcu-
lando la proporcin de ellos que presentan un desarrollo neural en el 12 da de incubacin. La validez
de esta variable se explica, ya que ha sido demostrado que el retraso de esta estructura tiene un efecto
sobre la sobrevivencia de los huevos o los embriones.

2.1.5.6 Seleccin de dispositivos de medida

Para cada una de las variables retenidas, un dispositivo de medida debe ser elaborado y debe poseer 4
propiedades principales: fidelidad, exactitud, sensibilidad y eficiencia.

Un dispositivo es fiel si la repeticin de medidas del mismo elemento en condiciones rigurosamente


semejantes, proporciona resultados idnticos. La falta de fidelidad introduce un error aleatorio que pue-
de reducirse repitiendo la medida y conservando la media de las medidas.

La exactitud de un dispositivo, se refiere a la ausencia de sesgos o de errores sistemticos.

La sensibilidad de un dispositivo de medida, se refiere al poder de resolucin, es decir a la ms pe-


quea diferencia de valores detectable.

El concepto de precisin, integra los tres anteriores. Indica el intervalo en el cual un valor exacto de
una medida tiene probabilidades muy altas de encontrarse (95% generalmente). La precisin es expre-
sada generalmente en valor relativo.

La precisin es con frecuencia expresada en valor relativo, pues el intervalo crece con la magnitud
medida, pero lo puede ser tambin en valor absoluto.

La falta de precisin puede provenir de una falta de exactitud o de fidelidad. Sin embargo, es intil
tener un dispositivo muy sensible si es poco fiel. En ecologa, es intil contar hasta con una precisin de
un individuo si es difcil de hacer el conteo. Hay que notar, que segn diversos autores, la precisin no
siempre integra la nocin de exactitud.

12 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
La eficacia, corresponde a la relacin de la precisin con el costo. Evidentemente, los dispositivos
eficaces son preferibles, pero generalmente existe una relacin directa entre la precisin y el costo, de
tal manera que a eficacia igual, se dispone de diversos mtodos de precisin diferente.

Se opta generalmente por un dispositivo costoso cuando la variacin de los datos de un elemento a
otro es muy dbil en relacin al error de medida. Contrariamente, se escoger un dispositivo de medida
poco preciso y poco costoso en tiempo y en dinero cuando la variacin entre elementos sea muy grande
en relacin a los errores de medida, o mientras que los costos de la seleccin de un elemento sean poco
costosos en relacin a los de la medida.

2.1.5.7 Seleccin del plan de muestreo

El muestreo es uno de los aspectos tratados con ms negligencia de la bioestadstica. Para que los
resultados sean generalizables a la poblacin estadstica, la muestra debe ser representativa de esta
ltima, es decir debe reflejar fielmente su composicin y su complejidad. Slo el muestreo aleatorio
simple asegura la representatividad.

Una muestra es aleatoria cuando cada elemento de la poblacin tiene la misma probabilidad de ser
seleccionado, esta es conocida y no nula. Entre los muestreos aleatorios ms utilizados estn: el alea-
torio simple, el sistemtico, con probabilidades desiguales, estratificado y por grados, entre otros (figura
3, tabla 1).

El muestreo aleatorio simple (MAS), consiste en seleccionar al azar y de manera independiente n


unidades y cada una de las muestra de talla n, posee la misma probabilidad de ser constituida.

Adems, el MAS asegura la independencia de los errores, es decir, la ausencia de autocorrelaciones


entre los datos de una misma variable, independencia indispensable para la validez de varios tests es-
tadsticos y principalmente los anlisis de varianza.

El muestreo con probabilidades desiguales de seleccin de las unidades, agrupa una serie de
tcnicas que consisten en tomar aleatoriamente n elementos entre N unidades caracterizadas por tener
oportunidades desiguales de salir seleccionadas, pero conocidas, diferentes de cero y de suma igual a
uno. La aplicacin ms comn de este plan, es el sorteo con probabilidades proporcionales o aproxima-
damente proporcionales a la talla de las unidades (figura 3).

As, si xi es la talla o una estimacin de la talla de la i-em unidad de muestreo, la probabilidad de se-
leccin es:

xi
; N = xi
Pi= N

Hay varios procedimientos para poner en prctica este tipo de muestreo. Aqu veremos el ejemplo
clsico utilizado por Caughley (1977). Para estimar la densidad y el nmero total de grandes mamferos
a partir de conteos areos, la regin a inventariar fue dividida en unidades de talla variable cuya forma
facilitaba la navegacin y la ubicacin de los animales y del cual la superficie no implicaba un exceso
en la duracin mxima de atencin sostenida de un observador. Sobre un mapa con los lmites de las
unidades de muestreo, n puntos eran repartidos aleatoriamente sorteando al azar sus coordenadas
geogrficas. Cada unidad conteniendo un punto perteneca a la muestra y las unidades conteniendo

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 13


Facultad de Ciencias Qumico Biolgicas
Muestreo aleatorio simple Muestreo con probabilidades Muestreo estratificado
desiguales

Muestreo de segundo grado Muestreo sistemtico Muestreo sistemtico


alternado

Figura 3. Distribucin espacial de reas de colecta o de medida, conforme a diversos planes de


muestreo. El sistemtico alternado maximiza las distancias entre estaciones y reduce las
redundancias en las informaciones colectadas en el seno de poblaciones fuertemente
autocorrelacionadas (Yomado de Scherrer (1984), p. 58).

varios puntos eran contabilizados varias veces. Este modo de seleccin constituye un muestreo con
reemplazo, con probabilidades de seleccin proporcionales a su talla.

Este plan se aplica cuando el sorteo aleatorio simple trata con sub-unidades cuyo nmero vara consi-
derablemente de un elemento a otro. Se usa tambin cuando la talla de los elementos vara considera-
blemente y que los resultados son expresados por unidad de superficie o de volumen (ejemplo cantidad
de grandes mamferos por km2)

El muestreo por grados agrupa varios planes de muestreo caracterizados por un sistema ramificado
y jerarquizado de unidades. Cada N unidades de la poblacin llamadas primarias o racimos (grupos),
se compone de Mi sub-unidades ms pequeas, llamadas unidades secundarias, las cuales a su vez
pueden contener Kij unidades terciarias y as sucesivamente.

A cada nivel, un muestreo aleatorio puede ser efectuado. Si slo hay un MAS, se denomina muestreo
de primer grado, si hay dos MAS de segundo grado, etc.

a) Muestreo de primer grado, consiste en tomar aleatoriamente n unidades primarias del total de
N de la poblacin y a medir las Mi sub-unidades, es decir todas las unidades secundarias de las n
unidades primarias seleccionadas.

b) Muestreo de segundo grado, llamado submuestreo, consiste en realizar dos muestreos alea-
torios. El primero de n elementos, se refiere a las unidades primarias. El segundo, contiene mi ele-
mentos de la Mi unidades secundarias de cada unidad seleccionada, en este no todas las unidades
secundarias son medidas, sino slo las seleccionadas.

14 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Tabla 1. Principios, ventajas e inconvenientes de diferentes estrategias de muestreo.
Tipo de muestreo Principios Ventajas Inconvenientes
Muestreo aleatorio -Todos los elementos de la - No requiere un conocimiento - El mtodo de seleccin de
simple (MAS) poblacin tienen la misma previo de la poblacin elementos es poco cmodo y
probabilidad de ser seleccio- - La muestra es representati- requiere para los elementos
nados va de la poblacin. de las poblaciones finitas, su
- Los elementos son tomados - Aparte los cocientes, sus enumeracin
independientemente estimadores son sin sesgo - No utiliza la informacin
- Los elementos pueden - Asegura la independencia de previa, es menos eficaz que
ser o no, reemplazados en los errores el muestreo estratificado o por
la poblacin despus de la regresin (Scherrer, 1982)
- La mayor parte de las prue-
seleccin. Es decir, muestreo bas de hiptesis y anlisis
con o sin reemplazo, el 2 es estadsticos son directamente
ms eficaz aplicables
La subdivisin de la poblacin
y de la muestra en varios
grupos es posible despus de
la colecta de datos.
-Tiene una gran flexibilidad de
anlisis y de tratamiento
Muestreo con probabilida- - Los elementos de la pobla- - El plan permite sobre-re- - Si la literatura sobre la
des de seleccin desigua- cin tienen una talla o una presentar los elementos ms estimacin de parmetros
les importancia desigual importantes o los de mayor calculados a partir de datos
talla, sin afectar la representa- surgidos de muestreo con
tividad de la muestra probabilidad desigual es muy
abundante, la referente a los
anlisis y pruebas estadsti-
cas es muy rara
Muestreo con probabilida- -Cada elemento de la pobla- - Si el denominador de una
des proporcionales a la talla cin tiene una probabilidad variable cociente corresponde
de los elementos de seleccin proporcional a la a la talla del elemento, el
talla o a la importancia de las muestreo con probabilidades
unidades, o a una estimacin proporcionales proporciona
de esa talla. Puede ser fijada estimaciones no sesgadas de
segn otros criterios. la media
- Los elementos son seleccio- - Si la variable estudiada est
nados aleatoriamente correlacionada con la talla
o con una estimacin de la
talla de las unidades, este
muestreo es ms eficaz que
el MAS
Muestreo por grados -La poblacin se compone de -Si los grupos o super-grupos -La colecta de los elementos
N unidades primarias (grupos son definidos geogrficamen- no es independiente y los
o super-grupos), cada una de te los costos de transporte y errores no podrn serlo,
las cuales contiene Mi unida- las molestias son reducidos slo si los elementos son
des secundarias (elementos o considerablemente. distribuidos aleatoriamente en
grupos) que a su vez pueden -No requiere la enumeracin la poblacin, lo cual es muy
contener kij unidades tercia- de todos los elementos o sub- raro. En consecuencia, las
rias (sub-elementos o elemen- elementos de la poblacin. condiciones de aplicacin de
tos) y as sucesivamente. Slo los grupos deben ser varias pruebas y el de anlisis
-a cada nivel de unidad un numerados de varianza en particular,
MAS es efectuado -Las caractersticas de los corren el riego de no ser
grupos pueden ser estimados respetadas
de la misma forma que los El anlisis y las pruebas
elementos de la poblacin estadsticas aplicables a este
-La red de grupos selecciona- plan quedan confinados a una
dos aleatoriamente puede ser literatura poco accesible, muy
reutilizada despus, an si los especializada.
elementos que componen los -Los estimadores son nume-
grupos ya no son los mismos rosos y variados
-El plan es una respuesta
afortunada al problema de
desproporciones de escala
entre la talla de la unidad
de muestreo (muy grande) y
aquella para la que el disposi-
tivo de medida es apropiado

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 15


Facultad de Ciencias Qumico Biolgicas
Tabla 1 (Continuacin). Principios, ventajas e inconvenientes
de diferentes estrategias de muestreo.
Tipo de muestreo Principios Ventajas Inconvenientes
Muestreo -La poblacin generalmente -Las caractersticas de cada -Requiere el conocimiento
estratificado heterognea es subdividida estrato pueden ser estimadas previo del tamao de cada
en sub-poblaciones ms y comparadas entre ellos estrato
homogneas -La muestra permanece repre- -Complica el tratamiento de
-En cada sub-poblacin o sentativa de la poblacin an datos reagrupados a posterio-
estrato un MAS es ejecutado si ciertos estratos se revelan ri, segn un criterio diferente
sobre-representados de la estratificacin
-El plan permite beneficiar- -Varios anlisis y pruebas de
se de ciertas situaciones hiptesis ya no son aplicables
favorables identificando cada directamente
situacin con un estrato y
modelando el esfuerzo de
muestreo en funcin de las
facilidades de cada estrato
-La estratificacin conlleva
ganancias en la precisin
-Los errores de clasificacin
de los elementos en los es-
tratos disminuyen la ganancia
en precisin, pero no generan
sesgos si el peso de los es-
tratos es correcto (vlido para
estimaciones de la poblacin)
Muestreo -Despus de haber seleccio- -El plan es fcil de preparar y -Las estimaciones pueden ser
sistemtico nado al azar el 1er elemento, de ejecutar muy sesgadas si hay una pe-
las subsecuentes selecciones -El plan facilita el anlisis y la riodicidad en la secuencia de
sistemticas de todos los representacin de la distribu- los elementos y si el intervalo
elementos entre la 1a y la cin y de la variacin espacial p se aproxima a un mltiplo
p-sima seleccin se realizan o temporal de una caracters- de la longitud de onda del
a intervalos de p tica estudiada fenmeno cclico.
-Se presta bien para el estu- -La seleccin no siendo
dio de autocorrelaciones independiente, el error
puede no serlo tampoco. Las
condiciones de aplicacin de
varios tests no son entonces
respetadas
Muestreo no -Seleccin de unidades repre- -Reduce los costos de prepa- -La variabilidad y el sesgo
aleatorio o a criterio sentativas de la poblacin son racin del muestreo sobre el no pueden ser medidos ni
juzgadas por el investigador terreno controlados
-Seleccin de un subgrupo de -No necesita ninguna informa- -La seleccin de una unidad
la poblacin, la cual a partir cin a priori depende de la percepcin del
de informacin es juzgada -La poblacin estadstica pue- observador y de la imagen
representativa, El conjunto de de ser definida a posteriori mental que tiene de la repre-
elementos del sub-grupo o -Reduce los costos de prepa- sentatividad de la poblacin.
una muestra de este ltimo es racin del muestreo En el anlisis de resultados
seleccionada no se puede distinguir si lo
-Cuando los elementos de la
-Seleccin a ciegas que se refleja es la poblacin
poblacin son raros, disemi-
o la imagen que percibi el
nados y muy seguido, poco
observador
accesibles, este plan constitu-
ye el nico enfoque tcnica y -Se requiere un conocimiento
financieramente realizable perfecto del sub-grupo y de la
poblacin sino, las hiptesis a
-Reduce el costo de prepa-
formular son muy estrictas y
racin y de ejecucin del
difciles de cumplir
muestreo
-La validez de los resultados
-Es cmodo y sin riesgo im-
depende del grado de homo-
portante en poblaciones muy
geneidad de la poblacin y del
homogneas
grado de independencia de la
seleccin

16 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Tabla 1 (Continuacin). Principios, ventajas e inconvenientes
de diferentes estrategias de muestreo.
Tipo de muestreo Principios Ventajas Inconvenientes
Muestreo no aleatorio con -Seleccin de elementos en -Permite verificar de manera -El anlisis termina por una
seleccin razonada funcin de sus caractersticas cmoda y rpida la existencia respuesta positiva o negativa
particulares a fin de maximi- o no de una tendencia lineal a la pregunta sobre la exis-
zar la variacin sobre uno o entre las variables explicadas tencia de una tendencia. Toda
varios factores seleccionados y los factores escogidos con interpretacin ms detallada
previamente y de minimizar la anterioridad se estrella a los siguientes
variacin sobre los otros -En conjuncin con los problemas:
-Seleccin de los elementos anlisis multidimensionales, La muestra no es para nada
en funcin de su posicin este mtodo proporciona representativa de la poblacin
estratgica en la poblacin resultados muy grandes, en y la estimacin de los parme-
o de ciertas de sus caracte- funcin de la inversin tros es cargada de un sesgo
rsticas, las cuales segn la -Para los fenmenos de importante.
experiencia del investigador los cuales se conocen los An con anlisis multidimen-
tienen un valor indicativo alto principales comportamientos, sionales es difcil detectar
en la comprensin del estado permite de dar un diagnstico la estructura de la muestra,
y del funcionamiento de un rpido y de hacerse una idea por consiguiente de disociar
sistema del cual se conocen de comportamientos particula- los resultados propios de la
los mecanismos mayores res de un sistema complejo muestra y de la poblacin
-La interpretacin de resul-
tados es vlida en la medida
en que el poder indicador de
los elementos seleccionados
es real
-Como el plan precedente, la
muestra no es representativa
y se hace difcil disociar el
efecto de la estructuracin
de las propiedades de la
poblacin. Muchas interpre-
taciones deben ser tomadas
con precaucin.

c) Muestreo de tercer grado y an de cuarto grado, son una extensin del principio de sub-mues-
treo. As, en el muestreo de tercer grado, n unidades de N unidades primarias son seleccionadas
de la poblacin, mi unidades son tomadas de Mi unidades secundarias que componen cada unidad
primaria seleccionada, finalmente, kij unidades terciarias son retenidas aleatoriamente de las Kij que
componen cada unidad secundaria seleccionada. Las unidades primaria, secundaria y terciaria, no
son obligatoriamente de la misma talla.

El muestreo por grados se impone cuando se est en la imposibilidad de inventariar a todos los ele-
mentos de la poblacin, para seleccionarlos aleatoriamente; pero es posible enumerarlos dentro de
grandes bloques seleccionados al azar. Tambin se aplica cuando se est en imposibilidad de medir los
elementos de toda la unidad. As, en la medida de la disponibilidad de alimento, en las reas de pas-
toreo de grandes mamferos, slo puede realizarse por sub-muestreo. Adems los estudios ecolgicos
que tratan sobre especies de talla muy diferente necesitan con frecuencia un sub-muestreo, ya que los
animales de talla pequea son generalmente muy numerosos para ser enumerados.

El muestreo por grados se impone tambin cuando los resultados son buscados en los diferentes ni-
veles de unidades. As para las estadsticas sobre la pesca deportiva, los resultados por lago (unidades
primarias), barco (unidad secundaria), por pescador (unidad terciaria) y por pescado capturado (unidad
cuaternaria), interesan al administrador del recurso (tabla 2).

El muestreo estratificado, consiste en subdividir una poblacin heterognea en sub-poblaciones o


estratos ms homogneos interiormente, exclusivos y exhaustivos.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 17


Facultad de Ciencias Qumico Biolgicas
Tabla 2 . Ejemplo de sistema ramificado de unidades (tomado de Scherrer (1984), pg 55).
Poblacin Unidades Unidades Unidades Unidades Variables
primarias secundarias terciarias cuaternarias posibles

Pescador111 Pez no. 1,2


Barco11
pescador112 Pez no. 1,2

Barco1j Pescador1j1 Pez no. 1,2


Lago 1
Pescador1 M1 1 Pez no. 1

Barco1M1 Pescador1 M1 2 Pez no. 1,2

Pescador1 M1 3 Pez no. 1,2

Especie

Barcoi1 Pescadori11 Pez no. 1 -----------


Pescadorij1 0 Pez Peso
Parque Lago i Barcoij
Pescadorij2 Pez no. 1 -----------
BarcoiMj Pescadori Mi 1 Pez no. 1,2 Talla
-----------

PescadorN11 Pez no. 1,2 Otras

BarcoN1 PescadorN12 Pez no. 1

PescadorN13 0 Pez
Lago N
PescadorNj1 Pez no. 1
BarcoNj
PescadorN MN 1 Pez no. 1

BarcoN MN PescadorN MN 2 Pez no. 1,2

Posibilidades de Peso total de la xito por grupo xito por pescador Caractersticas
resultados captura de cada de pescadores de los organismos
buscados lago capturados

La poblacin heterognea de efectivos N es dividida en k estratos de talla Nh de tal suerte que: N =


N1+N2+..+Nh+.+Nk. Una muestra independiente es despus seleccionada en cada uno de los estra-
tos de manera aleatoria.

Los criterios de estratificacin dependen del objetivo que se busca. Si se quiere optimizar la precisin
de una estimacin, el mejor criterio ser entonces la variable mejor correlacionada con la variable estu-
diada y para la cual se puede tener acceso a los elementos de toda la poblacin. Si el objetivo es efec-
tuar comparaciones entre diferentes categoras y buscar estimaciones para el conjunto de la poblacin,
el criterio ser el mismo con el que han sido formadas las categoras.

La estratificacin se impone cuando los resultados son buscados a nivel de cada sub-poblacin y de
la poblacin entera. Es indispensable cuando por diferentes razones el esfuerzo de muestreo no puede
ser constante. Finalmente, es muy eficaz para mejorar la precisin de las estimaciones sin aumentar el
esfuerzo de muestreo.

El Muestreo sistemtico, consiste en seleccionar al azar un i-simo elemento situado entre el prime-
ro y el p-simo de la poblacin y despus a seleccionar sistemticamente el (i+p)e, (i+2p)e , (i+3p)e
...(i+(n-1)p)e elemento de la poblacin. Los rangos de n unidades son as en progresin aritmtica cuya

18 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
base es un nmero aleatorio i y la razn un nmero p calculado de tal manera que la muestra se reparte
uniformemente sobre toda la poblacin.

Este plan se aplica fcilmente cuando los elementos de la poblacin son fcilmente accesibles, en
nmero conocido, dispuestos los unos enseguida de los otros o casi. El plan es muy apropiado para es-
tudiar las variaciones espaciales y temporales, ya que se presta bien a representaciones cartogrficas
o esquemticas de los resultados. Permite estudiar fenmenos de autocorrelacin ya que las unidades
seleccionadas a intervalos regulares no son seleccionadas de manera independiente, sino que con-
trariamente, no asegura la independencia de los errores; es decir, la independencia de las variaciones
no controladas de los elementos en estudio, la independencia es un requisito para ejecutar algunas
pruebas estadsticas.

Si bien el plan permite el estudio de fenmenos peridicos, proporciona una imagen deformada de
la realidad tan pronto como la razn p (intervalo entre dos elementos) se aproxima a un mltiplo de la
longitud de onda de las variaciones del carcter estudiado ( Fig. 4).

Otros planes de muestreo son tratados en algunas obras: Cochran (1977), Sukhatme y Sukhatme
(1970), Som (1973), etc., se trata esencialmente de muestreo por regresin, por cociente, entre otros.
Adems, una multitud de planes pueden ser creados a partir de una combinacin de los planes elemen-
tales. Por ejemplo, un muestreo de tercer grado con estratificacin de unidades primarias seleccionadas
con probabilidad proporcional a su talla y sin reemplazo, con unidades secundarias seleccionadas con
probabilidades iguales y sin reemplazo y unidades terciarias seleccionadas segn muestreo sistemtico
constituye un plan nada terico, sino muy prctico (Scherrer, 1982).

Otros planes muy utilizados son: Muestreo a criterio y el muestreo a seleccin razonada. El mues-
treo a criterio, se basa fundamentalmente en el criterio o conocimiento del investigador para seleccio-
nar los elementos de la muestra, agrupa para esto tres prcticas principales: muestreo de elementos
representativos o tpicos, muestreo de una sub-poblacin representativa y muestreo a ciegas. Para
el primer caso, se realiza una idea del elemento tpico (retrato hablado) y el muestreador, selecciona
elementos de la poblacin que se asemejen al elemento tpico. En ecologa, muchas estaciones de
muestreo son seleccionadas de esta manera, en funcin de la representatividad de un ambiente. Tiene

a a a
c
C b b c b
a c
r

c i em elemento
t
e b
r b

Figura 4. Muestreo sistemtico efectuado en una poblacin presentando variaciones peridicas.


Puntos a: p=k, puntos b: p=9k/16, puntos c=k/2; p: razn o paso de muestreo y k: longitud
de onda de variacin del carcter estudiado (tomado de Scherrer (1984), pg 57).

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 19


Facultad de Ciencias Qumico Biolgicas
el inconveniente de que la imagen puede cambiar segn la poca y otros factores. Para el segundo
caso, la bsqueda de un grupo representativo de la poblacin, requiere un conocimiento previo de la
poblacin y de la sub-poblacin. Los resultados a nivel de sub-poblacin sirven como indicador de la
evolucin del comportamiento de la poblacin. Se usa para minimizar los desplazamientos en zonas
poco accesibles, o demasiado vastas, o por toda razn tcnica, financiera o humana. Sin embargo, fuer-
tes hiptesis sobre la semejanza con la poblacin son determinadas y nada permite su verificacin. El
tercer caso consiste en tomar unidades a ciegas, es muy cmodo, econmico y relativamente confiable
si la poblacin es suficientemente homognea. Sin embargo, si existen ciertas heterogeneidades, no es
posible detectarlas de esta forma, y entonces, se puede incurrir en sesgos.

Muestreo a seleccin razonada, consiste en seleccionar diferentes unidades en funcin de ciertas ca-
ractersticas, permite obtener una estructura particular y buscada en el seno de la muestra. En general
se buscan dos tipos de estructuras: el primero es un gradiente de valores sobre una o varias variables,
con un mnimo de variacin sobre las otras. Por ejemplo, el comportamiento (correlacin) de la abun-
dancia de una comunidad animal o vegetal en funcin de una o varias variables, estas forman parte del
ambiente del medio donde habitan los organismos estudiados. Permite a bajo costo verificar el grado de
significatividad de la correlacin entre variables; es decir, si la tendencia al incremento o la disminucin
de una variable puede ser fruto del azar, o bien si la tendencia est ligada directa o indirectamente al
gradiente de valores de la o las variables independientes x, obtenidas por la seleccin particular de los
elementos.

Cualidades de la muestra, la representatividad es la primera cualidad. La segunda se refiere a la ta-


lla, es decir al nmero de n elementos que la compone, la cual debe ser tan grande como sea posible.
La precisin y la robustez de la mayora de pruebas estadsticas crecen en funcin de n; adems el ses-
go introducido por la mayora de los estimadores decrece cuando n se incrementa. Sin embargo, la ley
de rendimientos decrecientes impone un lmite al aumento de n, ya que la precisin crece con la raz
cuadrada de n; as la ganancia en precisin se hace rpidamente poco importante con el aumento de
unos cuantos elementos suplementarios. La tercera cualidad se refiere a la eficacia, la cual se evala
en trminos de la precisin obtenida por unidad de tiempo o dinero invertidos en el muestreo.

A veces se habla de poder de resolucin de un muestreo (Frontier, 1982). Se aplica generalmente


al muestreo sistemtico y traduce la capacidad de este para detectar las fluctuaciones prximas. Esta
capacidad depende de la razn o del paso, es decir del tramo que separa dos elementos muestreados,
el cual esta ligado al nmero de elementos n. Se parece al concepto de precisin.

2.1.5.8 Seleccin del plan experimental

El principio de un experimento consiste en remplazar el sistema complejo de relaciones causales que


se presentan en la naturaleza, por sistemas muy simplificados en los cuales un solo factor a la vez pre-
sumiblemente determinante puede variar. De manera general, el mtodo experimental puede aplicarse
tan rpido como uno pueda fijar las condiciones del sistema a modificar y en donde una sola variable
entre ellas de manera progresiva, reversible y repetitiva se pueda evaluar. Evidentemente, varios cam-
pos de la biologa no se prestan a la experimentacin. As los mecanismos de funcionamiento de los
ecosistemas forestales y lacustres son difciles de analizar, porque a esta escala no se pueden fijar las
condiciones del sistema y hacer variar a voluntad y de manera reversible y repetitiva un factor como
la temperatura o el fotoperiodo. En este caso se aplicar el enfoque quasi-experimental, o a la veri-

20 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
ficacin indirecta. La tabla 3 muestra los principales puntos comunes y divergencias de los enfoques
descriptivos, experimentales y quasi experimentales.

Algunos criterios han sido utilizados para admitir relaciones de causalidad. El mtodo de las diferen-
cias consiste en observar en varias situaciones idnticas bajo todas las relaciones a excepcin de un
factor X, las diferencias aparecen sobre el plan del fenmeno estudiado Y. Las desviaciones obser-
vadas en Y son debidas al tratamiento experimental X, si y solo si ningn otro factor vara de manera
incontrolada de una situacin a la otra.

Este mtodo es aceptado universalmente, utiliza diversos medios para asegurar la perfecta similitud
de situaciones. El primero consiste en eliminar del campo experimental los factores que pueden ser
suprimidos, es decir, cuyo valor puede ser reducido a cero. As en el ejemplo sobre el efecto de una dis-
minucin del pH sobre el xito de la reproduccin de las truchas, el cloro del agua ha sido suprimido para
redimensionar el efecto. El segundo se aplica a los factores cuyo efecto no puede ser eliminado, pero
se puede controlar el nivel de la naturaleza de sus manifestaciones. Consiste en conservar una perfecta
constancia de sus factores en cada una de las situaciones. En el ejemplo precedente, para suprimir el
efecto de los desplazamientos de los investigadores o de todo estimulo visual particular, los acuarios
debern estar rodeados de una pantalla uniforme, impidiendo todo contacto visual con el exterior. La
influencia de este factor es entonces mantenida constante. Sucede lo mismo con la radiacin luminosa
para cada acuario por tubos fluorescentes.

Para las variables propias, es decir las que caracterizan al elemento propiamente dicho, como la edad,
el sexo, la talla, el peso de las truchas, a lo inverso de la luz, de la temperatura, que caracterizan el
ambiente, toda investigacin de constancia slo se puede hacer bajo una reduccin de la generalizacin
de los resultados. Efectivamente, el control de los factores no solo limita el alcance de los resultados a
situaciones particulares, sino que, adems, si slo se usan truchas de una edad o sexo determinados,
los resultados se referirn exclusivamente a esa poblacin.

Para evitar tales restricciones que pueden afectar considerablemente la validez de los resultados,
se utiliza un tercer medio de homogeneizacin o de igualacin de las situaciones: la aleatorizacin
esto significa, introducir el efecto del azar. Consiste en distribuir aleatoriamente los elementos de
la muestra seleccionados aleatoriamente de la poblacin estadstica en diversos grupos correspon-
dientes a cada una de las situaciones. Los efectos de la multitud de factores que pueden actuar sobre
el fenmeno se encuentran as repartidos de una manera sensiblemente uniforme sobre el conjunto de
grupos. Aplicado al ejemplo anterior, la aleatorizacin se refiere por ejemplo a una asignacin aleato-
ria de truchas en los diferentes acuarios correspondientes a los diferentes niveles de pH probados. La
aleatorizacin se puede tambin aplicar a factores externos. As, para asegurar que la composicin de
la alimentacin provista a cada grupo sea idntica, los diversos componentes pueden ser mezclados
mecnicamente hasta que el conjunto sea homogneo. Esto, corresponde a una aleatorizacin me-
cnica.

Otro medio de asegurar la equivalencia o constancia de las situaciones, o el equilibrio de los grupos es
el apareamiento de grupos (matching), consiste en suprimir la independencia de las diversas sub-mues-
tras, es decir de los diversos grupos. En el apareamiento, se modifica la probabilidad de seleccionar los
elementos apareados. Finalmente, los sorteos en el seno de un mismo grupo son siempre independien-
tes, pero de un grupo a otro las relaciones de dependencia aparecen con el apareamiento. Este medio
de equilibrar, puede ir hasta la designacin del mismo elemento en dos grupos diferentes; se trata por

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 21


Facultad de Ciencias Qumico Biolgicas
Tabla 3. Comparacin de caractersticas de los enfoques descriptivo, experimental
y cuasi-experimental.

- Imagen de una situacin natural - Verificacin directa de relaciones - Verificacin directa de relaciones
Objetivos de causalidad en situaciones ms o de causalidad en situaciones natu-
- Estado estructural y dinmica de
un sistema natural menos artificiales rales o casi naturales
- Estudio comparativo
- Verificacin indirecta
de relaciones de causalidad
Enfoque

Descriptivo Experimental Cuasi-experimental


Manipulacin

-Ninguna -Ciertas variables son controladas - Variables no controladas


- Ningn tratamiento experimental -Un tratamiento es aplicado al - Un tratamiento es aplicado sobre
- Ningn control, pero grupos de menos a un grupo un grupo
referencia pueden ser estudiados -Sistema simplificado - Sistema complejo
-Sistem complejo

nica o mltiple nica Mltiple


estadstica
Poblacin

- Generalmente definida espacio- -Generalmente confundida con el - Generalmente definida espacio-


temporalmente material biolgico temporalmente
-Si nica: imagen de una situacin - Una o varias poblaciones reciben
-Si mltiple o nica estratificada: un tratamiento
estudio comparativo o verificacin - Una o varias no reciben trata-
indirecta. En este caso, la seleccin miento
de las poblaciones o de los estratos
dependen de las hiptesis de
trabajo

Aleatorio simple Aleatorio simple


Aleatorio No aleatorio
estructurado

-Restrictivo - Rpido -Como si se trata de - A veces muy restrictivo


- Proporciona una - Interpretacin y animales de laboratorio
imagen fiel generalizacin delicadas
- Mejor validez externa -Verificacin indirecta y
diagnstico rpido
Muestreo

Planes Estratega
de sondeo de muestreo

Gran eleccin Funcin de objetivos


de planes y restricciones Plan Plan
Experimentacin

Experimental Cuasi-experimental
Inexistentes
Aleatorizacin parcial o - Los elementos no son
total con o sin control de asignados aleatoriamente
heterogeneidad en los grupos control y
- Gran eleccin de planes experimentales (de ah
que se utilicen varias
poblaciones

-Estadsticas descriptivas -Anlisis de varianza, de - Anlisis de varianza, de


estadstico
Anlisis

-Estimacin de parmetros covarianza y de factorial covarianza y de factorial


(por los muestreos aleatorios) de varianza de varianza
- Pruebas estadsticas muy numerosas -Regresin -Regresin
(para las muestras) -Pruebas de comparacin -Prubas de comparacin

22 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
ejemplo, de los mismos elementos antes y despus de un tratamiento. El apareamiento puede tambin
tratar sobre los miembros de una misma camada, de una misma familia, de una misma colonia, de una
misma asociacin, etc.

Los dos primeros medios presentan la ventaja de reducir la variabilidad intra e intergrupos y de esta
manera se incrementa la sensibilidad del plan experimental. El poder de deteccin de pequeas dife-
rencias provocadas por el tratamiento es elevado; pero, contrariamente las situaciones se hacen muy
artificiales y entonces el alcance de los resultados se limita a estas condiciones.

El tercer medio presenta las ventajas e inconvenientes inversos que los precedentes. Ms se hace
uso de la aleatorizacin, ms se coloca uno en condiciones naturales; pero desafortunadamente la
variabilidad intra e intergrupo tender a enmascarar el efecto del tratamiento. Para reducir el error o
la incertidumbre que resulta en los resultados de la variable o fenmeno a estudiar, hay que aumentar
la talla de la muestra (grupos). Sin embargo, los altos costos que esto puede implicar resulta a veces
imposible incrementar la talla de muestra.

El cuarto medio reduce la variacin intergrupo natural y as, incrementa la sensibilidad del plan experi-
mental; desafortunadamente su aplicacin no puede ser generalizada.

La concepcin del plan experimental, como el de toda investigacin necesita la satisfaccin de tres
criterios: de validez general, de validez interna y de validez externa.

a) Criterio de validez general, corresponde a la capacidad del plan de responder especficamen-


te a la pregunta hecha, o de probar nicamente la hiptesis a verificar. No es raro que un plan
satisfaga los criterios de validez interna y externa, provea una respuesta clara, pero no responder
exactamente al problema o pregunta planteada. Para esto hay que proponer o modelar el problema,
de tal manera que la prueba estadstica elegida responda a la pregunta planteada.

b) Criterio de validez interna, se refiere a la capacidad del plan de prevenir la emergencia de


hiptesis rivales, que proporcionaran varias explicaciones posibles a los resultados encontrados.
Este criterio puede ser satisfecho por dos mecanismos: las tcnicas de equilibrio de grupos y el em-
pleo de grupos testigos. Estos, en oposicin a los grupos experimentales se refieren a situaciones
en las que la variable independiente (factor estudiado) tiene con frecuencia un valor nulo (cero).
Los grupos testigos juegan dos papeles: el de comparar, a fin de establecer las diferencias entre
los elementos tratados y no tratados, y el de evidenciar hiptesis rivales aislndolas y comparando
sus efectos.

c) El criterio de validez externa, se refiere a las posibilidades de generalizacin, las cuales de-
penden de tres factores: la talla de la poblacin estadstica, el grado de utilizacin de medios
de equilibrio 1 y 2 (aleatorizacin y apareamiento), y la representatividad de la muestra.

El primer plan experimental es el ms simple consiste en constituir dos grupos, uno experimental y
otro testigo o control, por aleatorizacin o eventualmente por apareamiento. El tratamiento es aplicado
al grupo experimental, las respuestas son medidas y despus comparadas (Tabla 4). En agronoma, se
tratara por ejemplo de parcelas seleccionadas al azar y divididas en dos grupos. Sobre el primer grupo,
se aplica un fertilizante determinado, pero no sobre el segundo: la productividad en los dos grupos es
medida y comparada.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 23


Facultad de Ciencias Qumico Biolgicas
El segundo plan consiste en formar cuatro grupos: tres testigos y uno experimental. Los dos primeros
grupos habitualmente son formados por aleatorizacin y los otros dos son apareados a los precedentes
por la conservacin de los mismos elementos. Dos grupos testigos son medidos antes de la aplicacin
del tratamiento, y los dos restantes lo son despus del tratamiento, despus las desviaciones obser-
vadas sobre los elementos con tratamiento son comparadas con los de los elementos sin tratamiento
(Tabla 5).

Este plan puede ser utilizado para probar la eficacia de un compuesto vitaminado suministrado a galli-
nas para mejorar su produccin de huevos. Las gallinas seran seleccionadas al azar de una poblacin
dada, luego repartidas aleatoriamente en uno de los dos grupos iniciales. Su produccin normal sera
observada durante un cierto periodo y los compuestos vitaminados seran agregados al alimento de
uno de los grupos. Despus de un cierto tiempo, las medidas de productividad se haran para los dos
grupos.

La eficacia de un tratamiento depende casi siempre sobre su valor cuantitativo o cualitativo. En la


mayora de experimentos, el factor estudiado es probado con diferentes niveles para encontrar even-
tualmente los umbrales inferior y superior, as como el nivel ptimo. Un plan as es esquematizado en
la tabla 6, se puede denominar plan con un factor, (g+1) niveles, con repeticiones, aleatorizacin
total y sin control de heterogeneidad. En efecto, hay (g+1) niveles a prueba en el factor estudiado; los
grupos tienen ms de un elemento y han sido constituidos por aleatorizacin. En cuanto a la ausencia
de control de heterogeneidad, esta ser tratada en los planes subsecuentes.

Este plan ha sido aplicado al experimento sobre los efectos de una disminucin del pH sobre la re-
produccin de truchas; sobre el xito de la eclosin de huevos y del cultivo de juveniles. En efecto, las
truchas del estanque testigo fueron expuestas a un pH de 7.0, las del grupo experimental 1 a un pH de
6.5, las del grupo 2 a un pH de 6.0, el nmero 3 a un pH de 5.5 y as sucesivamente hasta el grupo n-
mero 6 con un pH de 4.0. Los valores de pH corresponden a los valores de X y las tasas de produccin
de huevos a los de Y. Cabe notar que el valor de X de pH 7, no es nulo contrariamente a la definicin de
grupo control. Hay que notar que Y0, Y1, Y2, etc., representan conjuntos de valores, por lo que pueden
ser representados como un vector. De esta forma, el vector Yi corresponde a las medidas efectuadas
sobre los ni elementos del i-em grupo, entonces se tiene:

Yi1 Medida del primer elemento del grupo i


Yi2 Medida del segundo elemento del grupo i
Yi = ...
Yini Medida del tercer elemento del grupo i

Es el mismo caso con la variable X.

El plan factorial, se usa para poner en evidencia la accin de varios factores, ya sea aisladamente, as
como las interacciones entre ellos. Un plan de dos factores puede ser representado por una tabla de
doble entrada, donde las diferentes columnas representan los diversos niveles del primer factor y las
diferentes lneas corresponden a los diversos niveles del segundo factor (tabla 7). El nmero de celdas
experimentales o testigos se eleva a (g+1) (h+1) y, si cada celda contiene un nmero equivalente de ele-

24 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Tabla 4. Plan experimental (R aleatorizacin, A apareamiento)
Grupo Modo de formacin Tratamiento Medida Anlisis
Experimental x Ye

RoA Comparacin

Testigo Yt

Tabla 5. Plan experimental con medidas pre y post-tratamiento


(R aleatorizacin, A apareamiento).
Grupo Modo de Medida antes Tratamiento Medida despus Anlisis
formacin tratamiento tratamiento
Experimental Y1t x Y2t (Y1t Y2t )

R (eventualmente A) Comparacin

Testigo Y1nt Y2nt (Y1nt Y2nt )

Tabla 6. Plan con un factor, (g+1) niveles, con repeticiones, aleatorizacin total
y sin control de heterogeneidad.
Grupo Modo de formacin Tratamientos Medida Anlisis
de grupos
Testigo Aleatorizacin 0 y0
Experimental I x1 y1
Experimental II x2 y2 Comparacin o
regresin
... ... ...
Experimental g xg yg

Tabla 7. Plan factorial con dos factores y (g+1) (h+1) niveles.


Factor A
Factor B Nivel 0 A1 A2 ... Ag

0 Testigo A1 A2 ... Ag
B1 B1 A1 B1 A2 B1 Ag B1

B2 B2 A1 B2 A2 B2 Ag B2

Bh Bh A1 Bh A2 Bh Ag Bh

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 25


Facultad de Ciencias Qumico Biolgicas
mentos (nij), el efectivo total de la muestra se eleva a n=(g+1) (h+1) nij. Cada celda slo puede contener
un individuo, en este caso, la interaccin de factores no puede ser calculada.

De esta forma, en el ejemplo de la disminucin del pH sobre el valor de ciertos parmetros de la


dinmica de poblaciones de truchas, el plan factorial se aplicara al estudio de juveniles. En efecto, el
crecimiento y la sobrevivencia de los juveniles pueden ser afectados por el pH del ambiente y por el
grado de exposicin de los padres. Por lo que hay que estudiar los dos factores y el plan factorial se
presta para ello.

En la celda I los adultos no estaban expuestos a pH bajo, pero los huevos y los embriones estn colo-
cados en un estanque con pH=4.5; en la celda III los padres no estaban expuestos a pH=5.5 pero sus
embriones si; en la celda XI, los padres estaban expuestos a pH bajo, pero no sus alevines y as suce-
sivamente (tabla 8). Para asegurar la aleatorizacin, los adultos fueron colocados al azar en acuarios
con pH bajo o con pH normal y sus huevos fueron tambin repartidos al azar en las 6 posibilidades de
concentracin de pH.

El plan factorial se aplica tambin a varios factores, pero en ese caso, el nmero de celdas y obligato-
riamente el nmero de elementos a tratar crecen rpidamente. Un plan con 4 factores y 2x3x2x2 niveles,
necesitara 48 celdas (tabla 9). Si el plan es con rplicas (repeticiones), es decir con varios elementos
por celda, el nmero de elementos toma rpidamente dimensiones poco realizables.

Hasta aqu, no se ha tratado con ningn control de hetereogeneidad y se espera que la asignacin
de elementos al azar equilibrar las celdas. Desafortunadamente, hay factores de heterogeneidad que
predominan en la variacin de datos, como la existencia de gradientes; sern entonces necesarios ms
elementos para equilibrar las celdas. Tambin para reducir la variacin, sin por consiguiente reducir la
talla de la poblacin estadstica, seleccionando a los elementos que poseen caractersticas restrictivas,
se escoger un plan experimental con control de heterogeneidad; esto es atravs de la serie de blo-
ques completos. Se trata de un dispositivo plurifactorial de los que un factor juega un papel particular.
El efecto de bloque; un bloque est constituido por elementos de la misma naturaleza, es decir, tenien-
do un denominador comn que aumenta sus semejanzas e incrementa la homogeneidad del bloque. De
un bloque al otro las diferencias pueden ser bastante grandes.

En agronoma, un bloque puede representar una banda de terreno homogneo en la cual la fertilidad
del suelo, el drenaje y otros factores son tan homogneos como sea posible. En ecologa, se puede
tratar de una parcela o de un cuadrante en los cuales las caractersticas del grupo son muy similares.
La eficacia del dispositivo en bloques reposa sobre el hecho de que existen menos diferencias entre los
sitios de un mismo bloque que entre los sitios de diferentes bloques. Si no es el caso, la asignacin al
azar sera preferible.

2.1.6 Plan Cuasi-Experimental

Consiste en aplicar un procedimiento experimental para analizar e interpretar datos que no llenan to-
das las exigencias de este. An si las respuestas revisten cierta ambigedad, este enfoque a la vez
experimental y descriptivo, es el nico para probar directamente relaciones causa-efecto en situaciones
totalmente naturales.

Entre estos modelos, uno de los ms utilizados es aquel en el que los elementos no son repartidos
aleatoriamente en grupos experimentales y testigos. As, para estudiar el impacto de los desechos de

26 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Tabla 8. Plan factorial con dos factores y 6x2 niveles, en aleatorizacin total.
pH
Padres/huevos y alevines 4.5 5.0 5.5 6.0 6.5 7.0
Padres no expuestos I II III IV V Testigo
Padres expuestos VI VII VIII IX X XI

Tabla 9. Plan factorial con 4 factores, 2x3x2x2 niveles, aleatorizacin total. El sistema ramificado
permite de prever el conjunto de combinaciones posibles de los diferentes niveles de cada factor.
El nivel 1, siempre el control, corresponde al valor cero del factor
Combinaciones posibles A AyB A, B y C A, B, C y D
con los factores
A1 B1 C1 D1

A1 B1 C1 A1 B1 C1 D2
A1 B1
A1 B1 C2 A1 B1 C1 D1
A1 B1 C1 D2

A1 B1 C1 D1
A1 B2 C1 A1 B1 C1 D2
A1 A1 B2
A1 B2 C2 A1 B1 C1 D1
A1 B1 C1 D2

A1 B1 C1 D1
A1 B3 C1 A1 B1 C1 D2
A1 B3
A1 B3 C2 A1 B1 C1 D1
A1 B1 C1 D2

A1 B1 C1 D1
A2 B1 C1 A1 B1 C1 D2
A2 B1
A2 B1 C2 A1 B1 C1 D1
A1 B1 C1 D2

A1 B1 C1 D1
A2 B2 C1 A1 B1 C1 D2
A2 A2 B2
A2 B2 C2 A1 B1 C1 D1
A1 B1 C1 D2

A1 B1 C1 D1
A2 B3 C1 A1 B1 C1 D2
A2 B3
A2 B3 C2 A1 B1 C1 D1
A1 B1 C1 D2

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 27


Facultad de Ciencias Qumico Biolgicas
desages sobre la fauna bntica de un ro, dos porciones correspondientes a dos poblaciones estads-
ticas son elegidas de un lado y otro del desage. Las colectas sern repartidas aleatoriamente en cada
zona y son efectuadas antes y despus de la operacin del desage (figura 5). Como los elementos
tratados, es decir los sitios precisos de colecta despus del desage, pertenecen a una poblacin esta-
dstica diferente de la de los elementos no tratados situados antes del desage, siempre es posible que
la diferencia de las dos zonas detectadas o no antes de la puesta en operacin del desage, explica las
diferencias observadas despus de la puesta en operacin.

Para reducir el riesgo de que los resultados sean explicados por una hiptesis rival no deseada, un
segundo modelo cuasi-experimental consiste en colectar (muestrear) una serie temporal de datos en el
grupo control y otra serie del grupo experimental y en verificar la semejanza de las dos evoluciones.

As para estudiar el efecto de las aspersiones areas de fenitrothion sobre la avifauna forestal de la isla
de Anticosti (Canad), Scherrer y Quellet (1973) efectuaron el estudio con intervalo de tiempo regular,
con conteos de aves en los sectores tratados con el insecticida y en los sectores no tratados (tabla 10).
La aspersin ha sido realizada en medio de la serie temporal de los conteos, de suerte que los efectos
inmediatos y a corto plazo puedan ser detectados. La ventaja de este modelo reside en que puede de-
tectar mejor los pasajes de migradores tardos, los cuales pueden modificar durante un perodo corto el
nmero de pjaros y as, modificar los resultados y la interpretacin del experimento.

Zona Experimental

Zona Testigo

Antes

Corriente

Despues

Sitio de muestreo

Figura 5. Plan cuasi-experimental para verificar el impacto de una fuente de contaminacin


sobre la fauna bntica de un ro. (Tomado de Scherrer (1984), p. 83).

Tabla 10. Modelo cuasi-experimental con doble serie temporal.


Medidas pre-tratamiento Tratamiento Medidas post-tratamiento
Grupo experimental y1 y2 y3 y4 X Y5 y6 y7 y8
Grupo testigo Yt1 yt2 yt3 yt4 Yt5 yt6 yt7 yt8

28 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
2.2. ELECCIN DE ESTIMADORES Y ANLISIS ESTADSTICOS
Las diversas etapas del proceso metodolgico muestran que la planificacin de una investigacin nece-
sita una serie de decisiones cuyas implicaciones repercuten sobre el resto del proceso, esto incluye los
estimadores y los anlisis estadsticos seleccionados.

Un estimador es una expresin matemtica que mide un parmetro de la poblacin estadstica, a


partir de los datos de la muestra. Para el muestreo aleatorio simple, la expresin = ai/n es un esti-
mador de la media o . La eleccin de un estimador depende de los objetivos a alcanzar, es decir del
parmetro de la poblacin que se busca estimar (media, mediana, total, porcentaje, etc.), de la escala de
variacin y de la complejidad de las variables a estudiar (variables cualitativas, semi-cuantitativas, cuan-
titativas, simples o derivadas), del plan de muestreo utilizado muestreo aleatorio simple (MAS), estratifi-
cado, por grados, etc.). Tres propiedades los caracterizan: el sesgo, su convergencia y su eficacia.

Un estimador t de un parmetro es calificado como no sesgado, si la esperanza matemtica o el


valor esperado de t es igual a . Para una poblacin finita, la esperanza de t es obtenida tomando la
media de los valores de t, calculada sobre todas las muestras posibles de talla n que pueden ser ex-
tradas de la poblacin. Hay que sealar que si las muestras son obtenidas por un MAS, el estimador
es no sesgado.

Un estimador es calificado como convergente si, por un aumento de la talla de muestra, los valores
de t convergen hacia los de .

Un estimador es calificado de eficiente si, con esfuerzo de muestreo igual, proporciona estimaciones
ms precisas que otros.

En resumen, la obtencin de una imagen fiel de alguna realidad necesita por consecuencia de muchas
precauciones. La ms importante consistir en detectar entre las caractersticas anteriores, la que limita
la reduccin de los errores de la estimacin. Conociendo el punto dbil del plan de muestreo uno lo
corregir si es necesario por calibracin, por aumento de la talla de muestra, modificacin del dispositivo
de medida o de muestreo, etc. ( tabla 11).

La eleccin de un anlisis estadstico est ligado al plan de muestreo (ya sea, quasi experimental o
descriptivo) o experimental. Muchos anlisis de varianza y factoriales de varianza requieren una co-
lecta de datos muy particular. Sin embargo, si varios anlisis estadsticos alternativos responden a los
objetivos del estudio, la eleccin se har en funcin de 4 criterios: la pertinencia, el poder, la robustez y
la compatibilidad.

El poder de un anlisis corresponde a su capacidad de detectar pequeas diferencias o pequeos


efectos, sin por tanto aumentar la posibilidad de declarar diferentes poblaciones iguales o de califi-
car de activo un factor que no lo es.

La robustez se refiere al grado de sensibilidad del anlisis al no respeto de las condiciones de


aplicacin. En consecuencia, la validez de los resultados surgidos de un mtodo robusto ser poco
afectado por la violacin de las condiciones de aplicacin.

La compatibilidad corresponde a la posibilidad de efectuar diferentes anlisis para responder a


partir del mismo lote de datos a diferentes objetivos.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 29


Facultad de Ciencias Qumico Biolgicas
Tabla 11. Caractersticas de los dispositivos de medida, de los muestreos, de los estimadores
y de los planes de muestreo que afectan la amplitud y la naturaleza de los errores
de la estimacin.

Errores de estimacin

Errores aleatorios Errores sistemticos o sesgo, resultan en una


Afectan la amplitud de la imprecisin Sobre o sub-estimacin

Dispositivo Muestra Estimadores Dispositivo Muestra Estimadores


de medida de medida
-Fidelidad -Talla n -Eficacia -Exactitud - Representatividad -Sesgo (ausencia)
(muestreo aleatorio)
-Sensibilidad -Fraccin de -Convergencia -Convergencia
muestreo fm=n/N

-Plan de muestreo
(eficacia)

2.3. PREPARACIN DEL TRATAMIENTO INFORMTICO DE DATOS


Una vez que los datos se hacen muy numerosos o que los clculos se hacen complejos, es necesario
hacer uso de computadoras para realizar los anlisis y conocer el uso de programas estadsticos: Sta-
tistical Package for Social Science (SPSS), Biomedical Computers Programs (BMD), Statistical Anlisis
System (SAS), STATISTICA, XLSAT, entre otros.

2.4. INVENTARIO DE LOS LMITES DEL MTODO


Los lmites provienen de dos fuentes principales: las selecciones realizadas y las hiptesis subyacentes.
Tan pronto como se procede a una seleccin en la elaboracin de una metodologa, se abren ciertas po-
sibilidades, pero se cierran otras y como el conjunto del procedimiento necesita una serie de decisiones
interdependientes uno restringe progresivamente su amplitud de interpretacin segura, la cual puede
llegar a ser nula por la falta de planificacin.

En el marco del ejemplo sobre el efecto de una disminucin del pH sobre las poblaciones de truchas,
la seleccin de una especie particular en lugar de las poblaciones de salmnidos limita los resultados a
esta especie, por lo que los resultados son de difcil extrapolacin a otros salmnidos.

La otra fuente de limitacin, proviene de la dificultad de obtener ciertas propiedades deseadas, como
la exactitud y la fidelidad de un dispositivo de medida, la representatividad de una muestra, la validez
de una variable, etc., o la imposibilidad de respetar rigurosamente las condiciones de aplicacin de un
mtodo como las asociadas a la mayor parte de las pruebas estadsticas o las que aseguran el funcio-
namiento confiable de un instrumento. En estos casos hay que admitir ciertas hiptesis denominadas
subyacentes o implcitas. Estas hiptesis son las ms difciles de descubrir ya que generalmente son

30 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
enmascaradas por la lgica del razonamiento. Sobrepasar los lmites de estas hiptesis constituye la
fuente de crticas negativas a las investigaciones. Si las hiptesis subyacentes son probadas como vli-
das, entonces la interpretacin de la investigacin no tiene ambigedades. Tambin se puede proceder
a un estudio de sensibilidad que consiste en considerar diferentes escenarios y a establecer la validez
de los resultados de cada situacin. Por ejemplo, en ornitologa, la densidad de una comunidad de cier-
tos ambientes es determinada con la ayuda de cuadrantes, los que proporcionan la mejor estimacin de
abundancia para las aves cantoras en periodo de anidacin. Pero este mtodo muy laborioso es con
frecuencia reemplazado por el mtodo de los ndices puntuales de abundancia (IPA), el cual despus
de una conversin de datos, proporciona resultados de abundancia por hectrea. Desafortunadamente
este mtodo tiende a subestimar las fuertes densidades por efecto de saturacin. Si se compara la
abundancia de un medio M1 obtenido por IPA con la de otro medio M2 obtenido por cuadrantes, se re-
quiere prever 3 escenarios posibles:

- La abundancia de M1 es superior a la de M2, el resultado es vlido ya que el IPA slo puede sub-
estimar.

- La abundancia M1 es igual a la de M2 , para las densidades dbiles el resultado es vlido; para las
fuertes densidades, M1 es evidentemente ms densa; en fin, para las densidades medias y grandes,
la igualdad puede ser debida o no a una subestimacin de M1 y el resultado es no vlido.

- La abundancia de M1 es menor que la de M2, el resultado es obviamente vlido para las densi-
dades dbiles, pero para las densidades medias y grandes, la desviacin se puede explicar por la
utilizacin de dos mtodos diferentes y el resultado no es vlido.

2.4.1. Planificacin de las Operaciones

Los dispositivos de medida del muestreo o experimentales involucran siempre puntos ambiguos que
necesitan interpretacin y decisin. En general se trata de casos extremos y raros, lmites borrosos, etc.
Para evitar las variaciones en la interpretacin y la decisin y por consiguiente para prevenir incoheren-
cias en el sistema de colecta de datos, es preferible enunciar por escrito el plan detallado de operacio-
nes relacionadas con la colecta de datos y agregar toda regla de decisin en la medida en que casos
dudosos se presenten. Adems, para no omitir ninguna informacin importante, se preparan fichas para
recordar si es necesario las secuencias de las operaciones, unidades de medidas, etc. Esta actividad
deber contener un calendario de las operaciones y si es necesario, cartografiar los puntos o reas de
muestreo que permitirn evitar ciertas contradicciones y poder darse cuenta de la factibilidad del proyec-
to en trminos de adecuacin entre los objetivos planteados y los recursos disponibles.

2.4.2. Preprueba

Esta consiste en realizar sobre un pequeo nmero de elementos un estudio preliminar sujeto a las mis-
mas condiciones y al mismo plan de colecta que el estudio principal. Este estudio piloto juega un papel
cudruple: verificacin, colecta de informacin, optimizacin y entrenamiento. La verificacin permite
probar la factibilidad global del proyecto, es el desarrollo del mtodo con el fin de identificar las dificulta-
des y los puntos dbiles del plan de investigacin. La colecta de informacion es necesaria previamente,
se refiere a la posibilidad de utilizar ciertos planes de muestreo y por otra parte a la necesidad de tener
una estimacin de la varianza de la poblacin para determinar el nmero de elementos requeridos para
la obtencin de una precisin deseada. La optimizacin corresponde esencialmente a la posibilidad

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 31


Facultad de Ciencias Qumico Biolgicas
de repartir el esfuerzo de muestreo, ya sea entre los diferentes estratos (muestreo estratificado), entre
los diferentes grados de unidades (muestreo por grados), con el fin de maximizar la precisin de las
estimaciones para un costo total dado. El entrenamiento al personal involucrado en el estudio de iniciar
con el mtodo y de definir las ambigedades, de conocer las manipulaciones, etc. El pre-test sirve para
mejorar el planteamiento inicial.

2.4.3. Colecta de Datos

Esta fase necesita la previsin de una serie de tcticas para adaptarse a las circunstancias del estu-
dio.

2.4.4. Complejo de Datos

Es el conjunto de datos de resultados en bruto adquiridos durante la colecta de datos, generalmente es


presentada en forma matricial, es decir de una tabla con doble entrada donde cada lnea de resultados
corresponde a las caractersticas de un elemento y cada columna a las diferentes variaciones de cada
una de las variables.

2.4.5. Tratamiento Informtico y Estadstico de Datos

Multiplicar las diferentes tcnicas de anlisis estadstico respondiendo a la misma necesidad, o buscar
diversas maneras de combinar o de transformar los datos hasta que el resultado sea significativo o
corresponda a lo que uno est buscando, tiene ciertos riesgos, ya que en lugar de revisar el premodelo
conceptual, o de colectar informacin suplementaria, o de redisear un nuevo experimento, se observan
en todos los sentidos los datos. Este ejercicio permite casi siempre obtener un resultado significativo
en el sentido estadstico; pero la interpretacin que surge de estos, frecuentemente es errnea. Es de
notarse que mientras las muestras son ms grandes, las pruebas detectan ms fcilmente pequeas
heterogeneidades cuyo origen puede ser muy diverso incluso los artefactos metodolgicos.

2.4.6. Interpretacin

Se hace en el marco de los lmites del mtodo, en la ptica de la problemtica y del premodelo concep-
tual, en trminos de respuesta a las hiptesis de trabajo formuladas al inicio de la investigacin y en el
espritu de las pruebas y anlisis estadsticos aplicados. Si la metodologa ha sido minuciosamente pla-
nificada, el nmero de interpretaciones posibles es nico; en el caso inverso aumenta, y la investigacin
puede entonces perder inters. En una segunda fase, los resultados son confrontados a los resultados
de otros autores. Las divergencias y convergencias son interpretadas a la luz de la metodologa seguida
en los otros estudios.

2.4.7. Conclusiones

Consisten en evidenciar las respuestas seguras proporcionadas por la investigacin, a reformular si es


necesario la problemtica en funcin de esta aportacin, a revisar llegado el caso, el premodelo concep-
tual, a emitir nuevas hiptesis de trabajo si difieren de las precedentes y en fin, si es esencial, a orientar
la metodologa de otros estudios. Las conclusiones constituyen as el punto de partida de un nuevo ciclo
de procedimiento metodolgico.

32 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Ejercicio 1

Estos aos surgi una controversia entre el gobierno de Canad y la Asociacin de Proteccin de la
Naturaleza (APN) sobre la evaluacin de bebs focas de Groenlandia. La Direccin de Informacin
del Medio Ambiente de Canad, public las informaciones siguientes:

[...] ya que las focas de Groenlandia se concentran para el perodo de reproduccin, esta situacin
ha permitido hacer una evaluacin de la poblacin por conteos areos. [...] El punto focal es de loca-
lizar diferentes agrupamientos sobrevolando y fotografindolos por bandas en una direccin y altitud
conocidas. A partir de estas fotografas, se hace posible estimar la densidad de focas y obtener un
estimado del nmero total de focas para la regin. Como en todos los estudios, existen problemas. El
control del vuelo debe ser preciso, si no, la escala de las fotografas no ser uniforme. La reparticin
desigual de los animales sobre el hielo hace difcil la extrapolacin, dando por hecho que solo se
fotografa una parte. El conteo debe llevarse a cabo antes de que inicie la poca de caza y entonces,
antes de que las hembras se oculten.

[...] las tcnicas actuales de fotografa, han servido al conteo de focas de color oscuro, de mayor
edad, que se encuentran sobre el hielo; es difcil distinguir el pelaje blanco de una foca beb sobre
el hielo. Sin embargo, se ha descubierto recientemente que el pelaje blanco de un recin nacido no
absorbe las radiaciones ultravioleta del sol, mientras que la nieve sobre la que se encuentra refleja
la mayor parte de estas radiaciones. As, una fotografa con ultravioleta de un recin nacido sobre la
nieve, produce una imagen negra. Ya que los bebs nacen en un perodo de tiempo muy corto y que
se quedan casi todos sobre el hielo durante las dos o tres primeras semanas despus del nacimiento,
debera haber un cierto momento en el que se encuentran casi todos los bebs en el mismo lugar
sobre el hielo. Entonces, es tericamente posible evaluar la produccin de bebs de cualquier ao,
efectuando conteos areos y utilizando la fotografa ultravioleta. Se ha ensayado esta tcnica llena
de promesas y de acuerdo con los resultados del primer conteo, ciertos autores han afirmado que
haba 95% de oportunidades que la produccin de bebs se situara entre 54,683 y 257,602.

Preguntas

Suponiendo que los bebs focas hayan sido contados en un cierto nmero de corredores de la mis-
ma longitud y mismo ancho, repartidos aleatoriamente (muestreo aleatorio simple o sistemtico) en
la regin estudiada:

1. La unidad de muestreo corresponde a un corredor localizado aleatoriamente o a un beb foca?

2. El nmero de bebs foca contados en un corredor dado corresponde a los elementos del corredor
o a una variante?

3. Los bebs foca recubiertos de nieve no aparecen sobre la fotografa ultravioleta. La subesti-
macin que resulta corresponde a un sesgo del estimador, a un muestreo no representativo de la
poblacin estadstica (muestra no aleatoria), o a una falta de exactitud del dispositivo de medida o
conteo?

4. El nmero total de bebs focas en la regin estudiada corresponde al nmero de la poblacin


estadstica o a un parmetro de la misma poblacin?

5. Cul es la variable estudiada, es cualitativa?

6. La poblacin biolgica se confunde con la poblacin estadstica?

7. Para que la produccin total de bebs focas sea estimada con un mnimo de sesgo, hay que
mejorar el dispositivo de medida (o conteo) o aumentar la talla de la muestra?

8. Para que la produccin total de bebs focas sea estimada con un mximo de precisin (mnimo
de errores aleatorios), hay que aumentar la talla de la muestra o el nmero de variables a medir?

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 33


Facultad de Ciencias Qumico Biolgicas
Ejercicio 2

Los mecanismos que permiten la coexistencia de especies forestales arborescentes son mal conocidos.
En efecto, uno se pregunta siempre porque dos especies que comparten la dominancia en las zonas tem-
pladas no entran en competencia hasta la eliminacin de una de ellas. Varios autores sugieren que el cre-
cimiento de las plntulas de una especie es favorecida bajo la fronda de los adultos de otra especie. As,
tan pronto como una especie predomina, esta crea las condiciones favorables a los individuos jvenes de
su competidor. Para verificar esta explicacin, Cypher y Boucher (1982) estudiaron la tasa de crecimiento
de plntulas de haya americana con grandes hojas (Fagus grandifolia ehvih) bajo la fronda de adultos
de haya americana y de maple de azcar (Acer saccharum marsh), por otra parte, tambin estudiaron el
crecimiento de plntulas de maple de azcar bajo adultos de haya americana y de maple de azcar. Para
minimizar los efectos de diversos factores que pueden afectar al crecimiento, dos sitios fueron escogidos
uno a proximidad del otro en el monte San Hilario (Canad). La fronda del primer sitio est formado por
haya americana maduros y la del segundo por maple de azcar. En cada sitio, 20 plntulas de haya
americana y 20 de rable han sido seleccionadas y las tasas de crecimiento han sido medidas tomando
la distancia internodular, es decir la distancia entre cicatrices que marcan los fines de crecimiento anual
y la formacin de un botn terminal.

Preguntas

1. Definir la problemtica del estudio.

2. Cul es la hiptesis de trabajo que los autores se proponen verificar?

3. Esta hiptesis se ajusta al premodelo terico?

4. Sobre que material biolgico trabajan los investigadores?

5. Sobre qu unidad de muestreo (elemento) se trabaja?

6. Cul (es) poblacin (es) estadsticas estudian y porqu razn?

7. Qu variable cuantitativa se estudia?

8. Cul es la escala de variacin de esta variable si la unidad de medida es el centmetro?

9. La variable a medir es cualitativa, se trata de una variable controlada o de una variable aleatoria que
servir de criterio de clasificacin de los elementos de diferentes grupos?

10. Los investigadores han adoptado un enfoque experimental, cuasi-experimental o descriptivo?

34 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Ejercicio 3

En el marco del plan quinquenal de inventario areo de jabal grande de la provincia de Qubec,
Lachapelle (1980) estim la densidad de los alces dentro de la zona de caza K1. El objetivo ltimo
del plan era de evaluar el potencial cinegtico de diferentes zonas bio-fisico-administrativas de la
provincia con el fin de fijar cuotas de caza y sobretodo las fechas de apertura y cierre de la caza,
lo cual constituye el medio ms cmodo para la administracin para controlar la presin de la caza.
La zona K1 que se extiende sobre 22,600 km2 ha sido subdividida en 375 parcelas de 60 km2. Con
la ayuda de un programa de cmputo de generacin de nmeros aleatorios, 20 parcelas han sido
seleccionadas y sobrevoladas para el conteo de reas de confinamiento invernal de grandes mam-
feros en el norte de Amrica. Todas las reas ubicadas en avin han sido revisadas en helicptero
para el conteo e identificacin de la edad y el sexo de los individuos. Los resultados se muestran en
la tabla opuesta.

Preguntas

1. Cul es el objetivo ltimo del estudio?

2. Cul es el objetivo particular del estudio?

3. El objetivo particular corresponde a una hiptesis de trabajo que emana de un premodelo concep-
tual de explicacin?

4. Cul es la poblacin biolgica en estudio?

5. La poblacin biolgica se confunde con la poblacin objetivo?

6. Cul es el elemento (unidad de muestreo) que sirve para estimar la densidad de reas devasta-
das ?

7. Cul es la poblacin estadstica que se relaciona con la estimacin de la densidad de las reas
(parcelas)?

8. La poblacin estadstica se confunde con la poblacin biolgica?

9. La poblacin estadstica es finita, si as es, cual es el nmero total de elementos?

10. La muestra extrada de esta poblacin estadstica es una muestra aleatoria simple?

11. Qu variables se miden en cada elemento?

12. Cul es la escala de variacin de cada variable?

13. Si se desea estimar el porcentaje de machos en adultos o en juveniles, se puede considerar al


alce como una unidad de muestreo?

14. Si as es, cual es el plan de muestreo y llegado el caso, definir las diferentes unidades de
muestreo?

15. La poblacin estadstica ha cambiado de naturaleza?

16. Si es as, se conoce el nmero total de elementos?

17. El enfoque seguido en este estudio es experimental o descriptivo?

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 35


Facultad de Ciencias Qumico Biolgicas
Nmero de la parcela Nmero del rea Nmero de machos Nmero de hembras Nmero de alces
adultos adultas
UK 20 W 1 0 0 0

QE 05 E 1 0 1 0
PE 42 E 1 0 1 0
PE 93 E 1 3 0 0
2 1 0 0
3 0 1 0
4 0 2 0
5 0 1 0
PE 28 W1 1 1 0 0
2 1 0 0
PE 69 E 0 0 0 0
PE 86 W 0 0 0 0
PE 72 E 1 1 2 0
2 0 1 1
3 0 1 2
4 0 2 0
PE 16 E 1 0 2 0
2 0 0 0
PE 56 W 1 1 1 0
2 0 1 1
3 0 1 1
PE 85 E 1 1 1 1
2 1 0 0
3 0 1 1
PE 64 W 1 1 0 0
2 0 1 0
UJ 27 W 1 1 2 1
2 0 0 0
TK 82 W 1 0 2 2
2 1 0 0
3 0 1 0
4 0 1 0
5 1 0 0
6 4 0 0
TK 95 E 0 0 0 0
UK 06 W 1 0 2 2
UK 07 E 1 1 3 0
2 0 1 1
PD 99 W 1 1 1 2
2 0 0 0

3 0 2 0
UK 01 E 1 1 1 2
2 0 1 0
3 1 1 1
4 0 2 3
UK 00 E 1 1 1 2

36 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Ejercicio 4

Sphaerophoria philantus mg es un insecto Syrphidae que en estado larvario es un conocido pre-


dador de los pulgones. Sin embargo, su impacto es considerado como real en la medida en que los
huevos de este Syrphidae son puestos en la proximidad de colonias de pulgones.

Para verificar si la hembra de S. philantus deposita sus huevos en funcin de la presencia de pul-
gones, 30 plantas de maz han sido seleccionadas aleatoriamente en el seno de una parcela ex-
perimental. Sobre cada planta as seleccionada, los pulgones y los huevos de Syrphidae han sido
contados durante el perodo de puesta del depredador. Los resultados de estos conteos son los
siguientes:

No de planta Nmero de Nmero de No de planta Nmero de Nmero de


pulgones huevos pulgones huevos
1 25 1 16 45 2
2 10 1 17 55 2
3 75 3 18 0 0
4 250 6 19 125 4
5 10 1 20 35 1
6 50 2 21 10 0
7 100 3 22 75 3
8 85 2 23 50 2
9 0 0 24 0 0
10 0 0 25 30 1
11 65 2 26 20 1
12 30 1 27 200 5
13 5 0 28 40 1
14 400 8 29 70 3
15 35 1 30 15 1

Preguntas
1. Qu poblaciones biolgicas se estudian?
2. Cul es la poblacin estadstica, est definida?
3. Cul es el elemento?
4. El estudio es realizado siguiendo un enfoque descriptivo, experimental o cuasi-experimental?
5. La muestra es representativa de la poblacin?
6. Cul es el nmero de elementos de la muestra?
7. Si uno aumenta la talla de muestra, su representatividad se aumenta?
8. Si se aumenta la talla de la muestra, la estimacin de diferentes parmetros de la poblacin ser
ms precisa?
9. Cul es la hiptesis de trabajo?
10. Cules son las variables medidas?
11. Son las variables pertinentes?
12. Son estas variables aleatorias?
13. Qu factores podran afectar la exactitud y la fidelidad de los conteos?
14. Si se procede a un doble conteo de pulgones y de huevos, se mejora la fidelidad o la exacti-
tud?

15.Si el nmero de pulgones fuera sistemticamente subestimada, un aumento de la talla de mues-


treo podra compensar este error?

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 37


Facultad de Ciencias Qumico Biolgicas
2.5. DISTRIBUCIN
Literatura sugerida:
DE FRECUENCIAS
(ARREGLO ORDENADO) Daniel.W. W., 1982, Biostadstica, Limusa. Mxico.
485 p (pg. 15-16)
Cuando los datos estadsticos de los cuales
se dispone son numerosos, el trabajar con King, B. M., Minium E. M., 2003, Statistical Rea-
soning, 4a edicin. Estados Unidos. 550 p (pg.
ellos directamente es complicado y poco se 52-53).
puede hacer con ellos si nos se les organiza
y clasifica, es decir se les arregla de acuer-
do a algn mtodo y se plasman en una tabla de recuento. Este mtodo estadstico es conocido como
distribucin de frecuencias.

Para comprender la tcnica de distribucin de frecuencias y dominar sus aplicaciones, es preciso sa-
ber que es un intervalo de clase. Los intervalos de clase estn limitados por valores extremos que se
denominan lmite inferior (Li) y lmite superior (Ls), por ejemplo:

Intervalo de clase 22 - 25 (Clase de valores de 22 a 25)

Intervalo de clase 25 - 27 (Clase de valores de 25 a 27)

En este ejemplo 22 es el lmite inferior de la clase 22 a 25, pero un valor exactamente de 25 A qu


clase pertenece? Para evitar esta ambigedad pudiera tomarse la clase de 22-25 y 26-27, ahora no hay
ambigedad pero hemos dejado sin pertenecer a ninguna clase los valores intermedios de 25 a 26. Esto
conduce al concepto de lmites reales de clases que corresponden al punto medio del lmite superior
de una clase y el lmite inferior de la siguiente. As, los lmites de las clases anteriores seran:

21.5 25.5

25.5 27.5

Si la variable no toma ninguno de estos valores intermedios el problema est resuelto, pero si la varia-
ble tomara el valor 25.5 entonces las clases pudieran escribirse:

21.5 24.49

24.5 27.49 etc

Anchura o tamao de un intervalo de clase. Es la diferencia entre los lmites de clase.

Marca de clase, es el valor correspondiente al punto medio de un intervalo de clase y su valor es


igual a la mitad de la suma de los lmites de clase.

La organizacin de los datos en una distribucin de frecuencias permite estudiar su comportamiento,


y consiste en arreglar los datos ordenndolos en intervalos de clase e indicando el nmero de datos
comprendidos en cada clase.

En toda serie de datos estadsticos existen valores extremos y la diferencia entre ellos es utilizada para
definir el nmero de intervalos de clase.

Como determinar el nmero de clases o intervalos de clase; existen dos reglas principales. La regla
de Sturge y la regla de Yule.

38 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
K = 1 +3.32(Log10n) regla de Sturge

Donde: n= numero de elementos disponibles en la muestra

No. Clases o intervalos de clase (K) = 2.5*4n regla de Yule

Donde: n= numero de elementos disponibles en la muestra

El nmero de intervalos de clase depende de la distribucin que quiera hacerse, si son muy pocos,
se pierden detalles y si son muchos, se manifiestan irregularidades que no permiten apreciar un patrn
de comportamiento. En todo caso la mayora de analistas recomienda no menos de 5 ni ms de 15
intervalos de clase.

Las reglas generales para formar distribuciones de frecuencia son las siguientes:

1. Se obtiene la diferencia entre los valores extremos (Amplitud, R).

R= dato mayor dato menor

2. Se calcula el nmero de intervalos de clase (ecuacin anterior)

K = 1 +3.32(Log10n)

3. Se estima el tamao de cada intervalo (W) mediante:

R
W=
K

Si el resultado de la divisin no es un nmero entero, se recomienda redondear al entero superior. As


si la divisin dio 3.5 el nmero de intervalos se toma como 4.

Nueva amplitud (NR) = (W)(K)

Si la amplitud fue de 21 y el nmero de intervalos de clase que se calcul de 6.


W = 21/6 = 3.5
W=4 por lo cual,
La nueva amplitud ser 6(4) = 24

El exceso de 3 que se tiene con relacin al rango original, se distribuye entre el lmite superior y el limite
inferior; al agregar 2 al limite superior y restar 1 al inferior o viceversa. De ambas formas la diferencia
entre los valores extremos es de 24.

Para la seleccin del nmero de intervalos de clase no pueden darse reglas invariables; el nmero
se selecciona atendiendo a diversos factores tales como el rango, variabilidad de los datos e incluso
finalidad del estudio estadstico.

4. Se forman los intervalos de clase agregando (K) al lmite inferior de cada clase, principiando por
el nmero inferior de la diferencia entre los valores extremos.

5. Se fijan los lmites reales de cada clase.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 39


Facultad de Ciencias Qumico Biolgicas
6. Se determinan las frecuencias de cada clase.

Ejemplo 1: Un investigador desea determinar como varan las tallas de mojarras de una laguna
tomando una muestra de 50 organismos y anota sus tallas en mm, encontrando:

65 53 64 60 68 63 57 63 61 62
63 58 72 92 66 65 59 69 55 60
68 64 56 63 61 67 63 61 66 65
59 70 62 66 69 64 55 64 61 67
64 58 67 65 57 71 62 66 64 60

Se elabora un cuadro de distribucin de frecuencias de la siguiente manera:

1. Obtencin de las diferencias entre los valores extremos, amplitud o rango es = 72 53 = 19

2. Se obtiene K = 7 intervalos de clase (K = 1 +3.32(Log10n = 6.647).

3. Para de terminar la talla del intervalo de clase tenemos:

W= 19/7 = 2.71 3
W= 3

La nueva amplitud = 3 (7) = 21; el exceso de dos se distribuye de la siguiente manera:

53 1 = 52 y 72 + 1 = 73

4. Formamos los intervalos agregando al lmite inferior o sea 52 + 3 = 55 que ser el lmite superior
de la primera clase.

5. Encontramos los lmites reales agregando 0.5 a los lmites de cada clase, es decir:

52.5 a 55.5

6. Se cuentan las frecuencias que caen en cada intervalo, a tarves del recuento.

7. Se calcula la marca d clase, sumando los lmites superior e inferior y dividindolas entre 2, ya que
la marca de clase es el valor central de cada intervalo de clase.

8. Se calcula la frecuencia relativa, para obtener el valor relativo que representa cada frecuencia con
respecto al total,

9. Se calcula las frecuencias acumuladas y las frecuencias relativas acumuladas.

10. Toda la informacin se inserta en una tabla de recuento y frecuencia de las tallas para las 50
mojarras de la siguiente manera:

Intervalos Marcas de Recuento Frecuencia Frecuencia Frecuencia Frecuencia


de clase clase (xi) f(xi) relativa acumulada acumulada
(mm) fr(xi) fc(xi) relativa frc(xi)
52.5 55.5 54 /// 3 0.06 3 0.06
55.5 58.5 57 //// 5 0.10 8 0.16
58.5 61.5 60 //// //// 9 0.18 17 0.34
61.5 64.5 63 //// //// //// 15 0.30 32 0.64
64.5 67.5 66 //// //// / 11 0.22 43 0.86
67.5 70.5 69 //// 5 0.10 48 0.96
70.5 73.5 72 // 2 0.04 50 1.00

40 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
2.5.1 El Histograma

Es la representacin grfica de la distribucin de frecuencias, se pueden utilizar en variables cualitativas


y cuantitativas. En el caso de una variable cuantitativa, para elaborar un histograma primero se sealan
en la horizontal las marcas de clase y luego para cada marca de clase se seala una barra cuya altura
ser la frecuencia absoluta o relativa correspondiente (Figura 6). En la tabla de recuento f(xi) significa
frecuencia absoluta de clase; fr(xi) frecuencia relativa.

La frecuencia relativa es la proporcin que ocupa cada valor de frecuencia absoluta con respecto al
tamao de la muestra (n); y se obtiene dividiendo la frecuencia de cada clase por n:

f (xi)
fr (xi)=
n

La frecuencia acumulada fc(xi) es el valor acumulado de las frecuencias reales a cada marca de clase
en donde el ltimo valor de esta columna ser igual a n. De manera anloga, fcr(xi) designa la variable
acumulada relativa de cada clase. Por ejemplo: frc(63) es igual a 0.64 porque la proporcin de veces
en que x toma el valor de 63 o menos es 0.64, es decir que el 64% de las mojarras tienen una talla de
63 mm o menos:
fc(xi)
frc (x)=
n

Las frecuencias acumuladas relativas de la ltima columna se pueden obtener sumando sucesivamen-
te las frecuencias relativas.

El polgono de frecuencia es la unin a travs de lneas rectas de los puntos medios de la parte supe-
rior de cada barra del histograma (figura 6).

Histograma de frecuencias Polgono de frecuencias


16
14
12
10
F (X)

8
6
4
2
0
54 57 60 63 66 69 72
Marca de clase

Figura 6. Histograma correspondiente a los datos del ejemplo 1

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 41


Facultad de Ciencias Qumico Biolgicas
2.5.2. Diagramas de Barras

En el caso de una variable cualitativa, se utilizan los diagramas de barras y son una representacin de
la frecuencia de la variable estudiada y se expresan en frecuencias relativas; as por ejemplo se puede
dibujar en un diagrama de barras la frecuencia relativa del nmero de empleos que se registraron de los
profesionistas con doctorado en diferentes instituciones (figura 7).

Frecuencia Relativa (%) 30


25
20
15
10
5
0 Universidades

Oficinas de

independiente

Enseanza
Hospitales

Otras
Gobierno

Mdica
Prctica
Figura 7. Diagrama de barras de una variable cualitativa
(modificado de King, y, Minium (2003), pg 83)

2.5.3. Ojivas o Curvas Sigmoides

La distribucin de frecuencia relativa acumulada, permite realizar curvas de porcentaje acumulado,


llamadas ojivas o curvas sigmoides, este tipo de curvas permite describir a la variable estudiada
en funcin de la representacin de la frecuencia en trminos de porcentaje, es sobretodo comn para
describir el valor de la variable que agrupa al 50% de los datos, al 25% y al 75%, de esta manera, los
datos descritos en la tabla anterior tendran la siguiente curva (figura 8):

Ojiva de frecuencia acumulada

1.2
1
Frecuencia relativa
acumulada (%)

0.8
0.6
0.4
0.2
0
54 57 60 63
Marca de clase

Figura 8. Ojiva de distribucin de frecuencias relativas

42 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
2.5.4. Grficas de Pay

Otra representacin comn de la informacin, son las grficas de pay, se utilizan generalmente para
representar variables cualitativas con frecuencias relativas. De esta manera cualquier rea del pay, es
una fraccin de la frecuencia del nmero total de casos en la distribucin. En el caso del ejercicio del
diagrama de barras anterior, su representacin sera (figura 9):

Empleos Hospitales

Universidades
7%
11% 28% Oficinas de
Gobierno
14% Prctica
independiente
Enseanza
16% 24% Mdica
Otras

Figura 9. Representacin en pay de una variable cualitativa


(modificado de King y Minium (2003), p. 83)

2.6. ESTIMADORES Literatura sugerida:


(ESTADGRAFOS Y PARMETROS)
Scherrer B., 1984, Biostatistique. Gatan Morin
Los parmetros son las medidas estads- Editor. Montreal, Paris, Casa Blanca. 850 p. (Pg
132-135).
ticas que representan a los elementos de
una poblacin y que pueden ser la media,
Zar. J. H., 1999. Bostatistical Analysis (4 edicin).
desviacin estndar, varianza, nmero de Prentice Hall. Estados Unidos. 663 p. (Pag. 20-29).
elementos, etc. De manera anloga las me-
didas que representan a los elementos de la Daniel.W. W. 1982, Biostadstica. Limusa. Mexico.
485 p. (pg. 6-11)
muestra tienen la misma denominacin, sin
embargo se diferencian por su simbologa y
se les denomina estadgrafos:

Medida Parmetro- Poblacin Estadgrafo-Muestra

Media aritmtica x
Proporcin P p

Varianza 2 s2

Desviacin estndar S
Nmero de elementos N n

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 43


Facultad de Ciencias Qumico Biolgicas
2.6.1 Medidas de tendencia central

Al estudiar la informacin estadstica mediante los histogramas y los polgonos de frecuencia, se obser-
v el comportamiento de los datos en cuanto a la frecuencia con que se presentan los valores; siendo
algunos ms frecuentes que otros. Adems se observ una tendencia de agrupacin alrededor de los
datos ms frecuentes, haciendo que la distribucin de frecuencias y/o histograma adquiera una forma
de campana. Por lo general, la mayor densidad de frecuencia est en la parte central de las grficas, y
es de aqu donde se deriva el concepto de medidas de tendencia central, que es el nombre que recibe
la media, mediana y moda.

2.6.1.1 La media aritmtica

Suele simplemente llamarse la media o promedio, es la medida de tendencia central ms utilizada.


La media para datos no agrupados se obtiene a travs de la suma de los valores observados dividida
por el nmero total de observaciones, designndose la media de la poblacin y de la muestra por:

N n
x i
x i

i=1 x1 + x2 + ... + xn i=1 x1 + x2 + ... + xn


= = X= =
N N n n

Media poblacional Media muestral

Donde: N y n representan el nmero de elementos de la poblacin y de la muestra respectivamente, x


el valor de cada elemento, y y X la media de la poblacin.

La media ponderada o media de una distribucin de frecuencias, se calcula a partir de una distri-
bucin de frecuencias, tomndose cada marca de clase como el valor representativo de ese intervalo
de clase. Cada marca de clase es multiplicada por su respectiva frecuencia, sumndose los productos
y dicha suma se divide entonces por el nmero total de observaciones, describindose a travs de la
siguiente frmula:

N
x fr(x ) i i

i=1 x1 fr (x1) + x2 fr (x3) + ... + xn fr (xn ) media poblacional


= =
N N

n
x fr(x ) i i

i=1 x1 fr (x1) + x2 fr (x3) + ... + xn fr (xn ) media muestral


X= =
n n

44 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
As partiendo del ejercicio anterior la media calculada sera 62.94 mm

Al calcular la media aritmtica con datos agrupados, su valor se aproximar al valor obtenido con datos
no agrupados. El valor de la media no ser representativo de la poblacin si la distribucin de
frecuencias es muy irregular, demasiado asimtrica o sesgada.

Ya que la media es una medida de tendencia central, debera en todas las ocasiones indicar el centro
de una serie de observaciones. Una media aritmtica es muy sensible a la influencia de unos cuantos
nmeros grandes en un conjunto de pocas observaciones; en estos casos la media no representa el
centro de una serie de valores.

Suponga que usted coloca 1000 trampas para la captura de cierta especie en su medio silvestre. De
las trampas colocadas, 100 atraparon cada una 200 organismos y las 900 trampas restantes cero orga-
nismos, provocando que el 90% de las trampas con valores de cero minimicen por completo el peso
del 10% restante. En algunos casos tal sensibilidad de la media es a veces deseable, sin embrago en
algunos casos no es as, y es entonces cuando es necesario utilizar otras medidas de tendencia como
la mediana.

Ventajas de la media:

Fcil de calcular
La suma de los cuadrados de las desviaciones de la media es poca o igual a la suma de los
cuadrados de las desviaciones de la mediana y la moda.

Inconvenientes de la media:

Fuertemente influenciada por sus valores extremos


Representa muy mal los valores de una poblacin heterognea (distribucin polimodal o fuer-
temente asimtrica.

Existen otros dos tipos de media, la media geomtrica y la media armnica.

2.6.1.2 La media geomtrica

Se define como la raz (n) del producto de n trminos, as si los datos son x1, x2, ... , xn su media geom-
trica es:
n

n
log X i

Media_Geomtrica= n
x1
x2 x3...xn = n x = antilog
i
i=1
n
i=1

Por ejemplo la media geomtrica de 2, 4, 6, 12, 18 es:

( )
log (2) + log (4) + log(6) + log(12) + log(18)
5
(2) (4) (6) (12) (18) = antilog 5
= 6.36

La media geomtrica es til en el clculo de tasas de crecimiento: As por ejemplo, si el crecimiento


de las ventas de un negocio fue en los ltimos tres aos de 26%, 32%, 28%, hallar la media anual de
crecimiento:

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 45


Facultad de Ciencias Qumico Biolgicas
( )
log (0.26) + log (0.32) + log(0.28)
5
(1.26) (1.32) (1.28) = antilog 3 = 1.286

El crecimiento fue de 28.6%

2.6.1.3. La media armnica (H)

La media armnica de una serie de nmeros es el recproco de la media aritmtica de los recprocos
de los nmeros de la serie. Sean los nmeros x1, x2, x3,..., xn; la media armnica H se obtendr de la
relacin:

n
Media Armnica H =
1 1 1 1
+ + +....+
x1 x2 x3 xn

Por ejemplo: Calcular la media armnica de los nmeros 4, 5, y 8

3 3 23
H= = = = 5.22
1 1 1 23 120
+ + =
4 5 8 40

La media armnica es ocasionalmente utilizada cuando se trata con tasas promedio de superficie. Si
todos los datos son idnticos entonces la media armnica es la misma que la media aritmtica, as como
tambin a la media geomtrica; y si una serie es positiva pero no idntica, entonces la media armnica
< media geomtrica < media aritmtica.

2.6.2. La Mediana

Se define como el valor que divide una distribucin de datos ordenados en dos mitades, o sea la medida
que deja por arriba igual nmero de trminos que por debajo de l. En otras palabras la mediana es el
valor del trmino del punto medio de una serie de valores.

Para el clculo de la media aritmtica no importa si los datos estn o no ordenados, a diferencia de la
mediana que requiere para su clculo, que el conjunto de valores se encuentren ordenados de
menor a mayor.

La mediana para datos no agrupados est dada por:

Med = x (n +1) / 2

Donde x corresponde a la variable y n al nmero de datos

Por ejemplo: Se tiene la siguiente serie de observaciones:

46 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Datos Valor
x1 0
x2 1
x3 1
x4 2 Es decir que la mediana esta localizada en el
x5 3 sexto dato que es igual a 4.
x6 4
x7 6
x8 7
x9 8
x10 8
x11 9

Para encontrar la mediana de datos agrupados se suele utilizar el mtodo de interpolacin; que re-
quiere construir una tabla de distribucin de frecuencia acumulada. Se basa en el supuesto de que las
observaciones de cada clase estn igualmente repartidas en los intervalos, la cual se describe como
sigue:
i n
Med = LM + ( 2
- fc( xi-1 )
fr(xi )

Donde: fc( xi-1 ) es la frecuencia acumulada bajo el lmite inferior (anterior) de la clase mediana; fr(xi)
es la frecuencia de la clase mediana; LM es el lmite inferior de la clase mediana e i es el tamao del

Intervalos Marcas de Recuento Frecuencia Frecuencia Frecuencia Frecuencia


de clase clase ( xi ) f( xi ) relativa acumulada acumulada
(mm) fr( xi ) fc( xi ) relativa frc( xi )
52.5 55.5 54 /// 3 0.06 3 0.06
55.5 58.5 57 //// 5 0.10 8 0.16
58.5 61.5 60 //// //// 9 0.18 17 0.34
61.5 64.5 63 //// //// //// 15 0.30 32 0.64
64.5 67.5 66 //// //// / 11 0.22 43 0.86
67.5 70.5 69 //// 5 0.10 48 0.96
70.5 73.5 72 // 2 0.04 50 1.00

3 50
Med = 61.5 +
15
( - 17) = 63.1
2

intervalo de clase. Tomando la tabla de distribucin de frecuencias del ejemplo 1, tenemos:

Ventajas de la mediana:

Puede ser calculada para valores de caractersticas cclicas (estaciones, horas) para las que la
media tiene poco significado.

No esta influenciada por valores extremos

Inconvenientes de la mediana:

Se presta mal a clculos estadsticos o algebricos

No representa que el valor que separa la muestra en dos partes iguales sin tener en cuenta el
conjunto de datos.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 47


Facultad de Ciencias Qumico Biolgicas
2.6.3. La Moda

Puede ser definida como el valor que ocurre con mayor frecuencia en una distribucin. Para calcular el
valor de la moda en una distribucin de frecuencias, es necesario primero identificar la clase en la cual
se sita la moda, la cual corresponde a aquella que presenta la mxima frecuencia de la distribucin.

As en el ejemplo 1 de las mojarras, la clase 61.5 a 64.5 es la clase modal por tener la mayor frecuen-
cia. Una vez identificada la clase modal, el paso siguiente es identificar la moda dentro de la clase.

Al aproximar un valor modal por interpolacin, hay que tomar en cuenta que los datos, generalmente,
tienden a agregarse hacia el punto de mayor densidad. Hay una tendencia en este punto de concentra-
cin a llevar el valor modal ya sea hacia el lmite superior o hacia el lmite inferior de la clase, segn que
la clase sea la post-modal o la pre-modal, entonces para el clculo aproximado de la moda tenemos:

di
Mo = ( )i+L
di + ds

Donde: di es la diferencia absoluta entre la frecuencia de la clase modal y la clase inferior prxima; ds
es la diferencia absoluta entre la frecuencia de la clase modal y clase superior prxima; i es tamao del
intervalo de clase; y L es el lmite inferior de la clase modal. As, la posicin de la moda puede ser una
medida til de la tendencia de la variable a estudiar, sin embargo es considerada la medida de tendencia
central ms imprecisa.

En el ejemplo anterior la moda se calcula como sigue:

( (15-9)
Mo = (15-9) + (15 - 11) ) 3 + 61.5 = 63.3

Por lo que la moda es 63.3.

Ventajas de la moda:

No esta afectada por sus valores extremos

Puede ser calculada en variables cclicas

Es buen indicador de poblaciones heterogneas

Inconvenientes de la moda:

Puede variar si se modifica el intervalo de clase

48 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
2.7. MEDIDAS DE DISPERSIN Literatura sugerida:

Las medidas de dispersin nos indican la po- Scherrer B., 1984, Biostatistique. Gatan Morin
sible desviacin de los datos, respecto a la Editor. Montreal, Paris, Casa Blanca. 850 p (Pg
157-168).
medida de tendencia central la media. Las
medidas de tendencia central no describen
Zar. J. H., 1999. Biostatistical Analysis. 4 edicin.
el comportamiento de los datos con relacin Prentice Hall. Estados Unidos. 663 p. (Pag. 32-40).
a como estos se dispersan en una distribu-
cin de frecuencias alrededor de tendencia Daniel.W. W. 1982, Biostadstica, Limusa. Mexico.
485 p (pg. 11-14)
central; adems poco nos indican sobre un
determinado dato con relacin a los dems
en una distribucin. Entre las medidas de dispersin tenemos a la amplitud o rango, la desviacin es-
tndar, la varianza, el coeficiente de variacin, cuantiles y la desviacin media. En esta antologa
solo mencionaremos a los ms utilizados que son las cuatro primeras.

2.7.1. Amplitud

En toda distribucin los lmites inferior y superior determinan el recorrido de los datos, por lo cual la
amplitud que es la diferencia entre los lmites superior e inferior, de una distribucin es una media-
da de dispersin de los datos. Como se observa esta medida es la ms fcil de obtener, sin embargo es
poco utilizada debido a que no denota la presencia de valores extremos de poca frecuencia o los valores
de alto ruido. Para datos agrupados se considera a la amplitud como la diferencia entre el lmite
superior de la clase ms alta y el lmite inferior de la clase ms baja.

2.7.2. La Varianza y Desviacin Estndar

La varianza indica el promedio de la suma de las desviaciones cuadrticas, en torno al valor promedio
de la variable. La varianza de la muestra s2 es la suma de los cuadrados de las desviaciones respecto
a la media aritmtica.

Para datos no agrupados es como sigue:

n
N
( x - X) i
2
( x - )i
2
i=1
S2 = i=1
n-1 2 =
N

Muestra Poblacin

Para datos agrupados el procedimiento es mediante la siguiente ecuacin:

n
N
fx ( x - X)
i i
2
fx (x - )
i i
2
i=1
S =
2 i=1
n-1 2 =
N

Muestra Poblacin

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 49


Facultad de Ciencias Qumico Biolgicas
Como ejemplo de aplicacin podemos utilizar los datos siguientes: supngase que el valor promedio
de longitudes de juveniles de camarn de una muestra es de 9 cm, los datos de la variable (xi) se debe-
rn restar a cada valor de la media (a esto se le llama desviacin media), despus sumarlos, elevarlos al
cuadrado y dividirlos entre el numero total de elementos (n), asi el valor de la varianza calculada es:

(10-9)2 + (12-9)2 + (2-9)2 + (9-9)2 + (15-9)2 + (6-9)2 + (7-9)2 + (8-9)2 + (12-9)2 + (9-9)2
S =
2
= 11.8
10

(10)2 + (12)2 + (2)2 + (9)2 + (15)2 + (6)2 + (7)2 + (8)2 + (12)2 + (9)2
S =
2
= 11.8
10

La varianza se expresa en unidades cuadradas y no es la unidad original debido a la operacin de ele-


var al cuadrado que se ha efectuado. Por consiguiente es preciso obtener la raz cuadrada para volver
a la unidad original. La medida de dispersin que as se obtiene se llama desviacin tpica o estndar
s; la cual se expresa de la siguiente forma:


N
( x - )i
2
Para datos no agrupados (Poblacin)
i=1
= 2
N


n
( x - X)i
2 Si se trata de la muestra
i=1
S= n -1


n
fi( x - X) i
2
Para datos agrupados
i=1
S= n-1

Con el ejemplo sealado previamente de la serie con varianza igual a 11.8 cm, la desviacin estndar
se puede calcular como la raz cuadrada de la varianza cuyo resultado es de 3.43 cm.

2.7.3. El Coeficiente de Variacin

La desviacin estndar es til como medida de la variacin dentro de un conjunto dado de datos. Sin
embargo, cuando se desea comparar la dispersin de dos conjuntos de datos, comparar las desviacio-
nes estndar puede conducir a resultados ilgicos. Puede ser que las dos variables que intervienen se
midan en unidades diferentes. Por ejemplo, es posible que se desee saber, para cierta poblacin, si los
niveles de colesterol en el suero, medidos en mg por 100 ml, son ms variables que el peso del cuerpo,

50 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
medido en kilogramos. Es ms aunque se use la misma unidad de medicin, las dos medidas pueden
ser bastante diferentes. Si se compara la desviacin estndar de los pesos de los nios de primer ao
de primaria, con la desviacin de los pesos de los jvenes de primer ao de secundaria, es posible que
se encuentre que las desviaciones estndar de estos ltimos es numricamente mayor que la de los
primeros, porque los propios pesos son mayores, no porque la dispersin sea mayor. Lo que se necesita
en situaciones como esta, es una medida de variacin relativa, en lugar de una variacin absoluta. Esta
medida se encuentra en el coeficiente de variacin, el cual expresa a la desviacin estndar como un
porcentaje de la medida.

S
CV = * 100
X

Se observa que como la media y la desviacin estndar se expresan en la misma unidad de medicin,
esta unidad se cancela al calcular el coeficiente de variacin, entonces lo que se tiene es una medida
independiente de la unidad de medicin, y ahora se expresa en porcentaje.

2.8. PROBABILIDAD
Literatura sugerida:

2.8.1 Introduccin Daniel.W. W. 1982, Biostadstica. Limusa. Mexico.


a la Probabilidad 485 p (pg. 33)

Scherrer B., 1984, Biostatistique. Gatan Morin Edi-


La teora de la probabilidad proporciona la
tor. Montreal, Paris, Casa Blanca. 850 p (Pg 195).
base para la inferencia estadstica. El con-
cepto de probabilidad no es extrao para los Zar. J. H., 1999. Bostatistical Analysis (4 edicin).
profesionales que trabajan en las ciencias Prentice Hall. Estados Unidos. 663 p. (Pag. 49-62).

naturales, y con frecuencia forma parte de


http://facultad.sagrado.edu/ConceptosBasicos.
nuestra conversacin cotidiana. Por ejemplo pdf#search=%22tabla%20de%20probabilidad%20c
es comn escuchar decir a un medico que onjunta%22
un paciente tiene un 50% de probabilidad de
sobrevivir a cierta enfermedad al igual que
un agricultor, ganadero o acuacultor hablar
sobre probabilidad de sobrevivencia.

Aunque los primeros trabajos sobre probabilidad fueron realizados por Giralamo Cardano (1501-1576)
y Galileo Galilei (1564-1642), la investigacin formal de la probabilidad como una rama de las matem-
ticas surgi formalmente desde 1654 entre dos grandes matemticos franceses, Blaise Pascal (1623-
1662) y Pierre de Fermat (1601-1665). Estos dos hombres estuvieron motivados por el deseo de prede-
cir los resultados en los juegos de azar populares dentro de la nobleza francesa durante el siglo XVII.

2.8.2 Probabilidad de un Evento

El clculo de los posibles resultados de un evento, supone que este puede ocurrir de k maneras,
pero en solo una de esas maneras a la vez. Por ejemplo una moneda tiene dos lados y cuando se arroja
al suelo puede caer con guila (H) o sol (T) hacia arriba, pero solo uno de los dos lados a la vez. Otro
ejemplo es en relacin a un dado. Este tiene seis lados tambin al arrojarlo puede tomar un solo valor de

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 51


Facultad de Ciencias Qumico Biolgicas
las seis opciones que presenta. En este contexto la probabilidad va a referir a los posibles resultados
(H o T con la moneda; 1, 2, 3, 4, 5, 6, con el dado) como un evento.

Si algn fenmeno puede ocurrir en alguna de las k1 formas diferentes y tambin en alguna de la k2
formas diferentes, entonces el nmero posible de formas para que ambos eventos ocurran es k1 x k2.
Por ejemplo, si dos monedas son lanzadas, entonces existirn dos posibles resultados en una de las
dos monedas (H, T) y dos en la otra (H, T). Por lo tanto k1=2 y k2=2, donde existen (k1)(k2) = (2)(2) = 4
posibles resultados de los lanzamientos de ambas monedas: (a) Ambas sol; (b) sol y guila; (c) guila y
sol (d) Ambas guila. e.g. (H, T; T, H; H, H; T, T).

Podemos tambin considerar el lanzamiento de una moneda y un dado; donde habr dos posibles
resultados para la moneda (k1=2) y seis posibles resultados para el dado (k2 = 6); luego entonces ten-
dremos en total (2)(6) = 12 posibles resultados de los dos fenmenos juntos:

H,1; H,2; H,3; H,4; H,5; H,6; T,1; T,2; T,3; T,4; T,5; T,6

Entonces la regla mencionada arriba se extiende fcilmente para determinar el nmero de maneras
(k) en que n elementos pueden ocurrir juntos. Si un objeto de estudio puede ocurrir de k1 maneras y un
segundo objeto de estudio en k2 maneras, un tercero en k3 y as sucesivamente, a travs de n-simo
objeto de estudio y las kn formas; entonces el nmero de maneras para que todas las n cosas ocurran
juntas es:
n

(k1) (k2) (k3) ... kn o i=1


ki

Ejemplo 2. Un arreglo lineal de tres nucletidos de ADN es denominado como un triplete. Un nucle-
tido quiz contenga alguna de las cuatro bases nitrogenadas: Adenina (A), Citosina (C), Guanina (G)
y Timina (T). Cuntos diferentes tripletes son posibles?

Como el primer nucletido en el triplete puede presentar una de las cuatro bases nitrogenadas (A,
C, G, T) y el segundo nucletido tambin puede presentar una de esas cuatro bases, al igual que el
tercero; entonces los posibles resultados de un triplete sern:

(k1)(k2)(k3) = (4)(4)(4) = 43 = 64 posibles resultados

Ejemplo 3. Si una clula diploide contiene tres pares de cromosomas y solo un miembro de cada par
se encuentra en cada gameto, Cuntos gametos diferentes son posibles?

Como el primer cromosoma puede ocurrir en un gameto en una de sus dos opciones, al igual que
el segundo y el tercer cromosoma, entonces los posibles resultados se expresan de la siguiente
forma:

(k1)(k2)(k3) = (2)(2)(2) = 23 = 8 posibles resultados

Para diferenciar a cada cromosoma llamaremos al primero como Largo y su respectivo par ser L1
y L2, al siguiente como Mediano y su respectivo par M1 y M2, y al tercero como Corto C1 y C2.
Entonces los ocho posibles resultados son:

L1, M1, C1 L1, M1, C2 L1, M2, C2 L1, M2, C1

L2, M1, C1 L2, M1, C2 L2, M2, C2 L2, M2, C1

52 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
2.8.3 Permutaciones

Una permutacin es un arreglo especfico de objetos en una secuencia especfica. Un caballo (C), una
vaca (v) y una oveja (O); podran ser ordenadas linealmente dentro de sus seis formas distintas: CVO;
COV; VCO; VOC; OCV; OVC. Esta serie de resultados puede examinarse al observar que existen tres
posibles resultados para la primera posicin, y solo dos opciones para que un animal ocupe la segunda
posicin; y por ltimo solo una opcin para que solo un animal (el restante) ocupe la tercera posicin.
Por lo tanto K1=3, K2=2, K3=1, as que los posibles arreglos lineales estarn dados por: (k1 )(k2 )(k3 )=
(3)(2)(1)= 6 maneras de ordenar linealmente los tres animales. Tambin podramos decir que hay seis
permutaciones de tres objetos diferentes.

En general si hay n posiciones lineales para que sean llenados con n objetos, la primera posicin ser
ocupada por alguno de los n objetos, la segunda posicin ser ocupada por n1 objetos, la tercera po-
sicin por n2 objetos, y as sucesivamente hasta la ltima posicin, la cual ser ocupada por una sola
opcin-objeto. As el llenado de n posiciones con n objetos resulta en nPn permutaciones donde:

n
Pn = n(n-1)((n-2)(n-3) = (3)(2)(1) =6

Lo cual puede ser descrito de forma mas simple en notacin factorial (!) como sigue:

Pn = n!
n

Ejemplo 4. En cuantas secuencias pueden seis diapositivas ser mostradas a travs de un proyec-
tor?

6
P6 = 6! = (6)(5)(4)(3)(2)(1) = 720 posiciones distintas

Si uno tiene n objetos, pero con un menor nmero de posiciones para colocarlos, entonces habra un
considerable menor nmero de formas para colocar los objetos que en el caso donde hay posiciones
para todas las n. Por ejemplo hay 4P4 = 4! = 24 formas de acomodar linealmente un caballo (C), una
vaca (V), una oveja (O) y un puerco (P) en cuatro posiciones, Sin embargo solo hay doce formas de
acomodar linealmente dos de esos cuatro animales:

C, V; C, O; C, P; V, C; V, O; V, P; O, C; O, V; O, P; P, C; P, V; P, O

Por lo tanto para calcular el nmero de permutaciones lineales de n objetos tomados x a la vez:

n!
P x=
n (n - x) !

Para el ejemplo mencionado arriba tenemos:

4! 4! (4)(3)(2)(1)
4
P 2= = = = 12
(4 -2)! 2! (2)(1)

La ecuacin previa nPn = n! Es un caso particular de la ecuacin nPx = n!/(n-X)! Donde x = n; por lo
que es importante destacar que 0! = 1.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 53


Facultad de Ciencias Qumico Biolgicas
Ejemplo 5. En cuantas formas posibles puede una secuencia de cuatro diapositivas formarse de
seis diapositivas?

6! 6! (6)(5)(4)(3)(2)(1)
n
Px = 4
P 2= = = = 12
(6 -4)! 2! (2)(1)

Si alguno de los objetos son indistinguibles, por ejemplo en el caso de tener: dos caballos (C), una
vaca (V), una oveja (O) el nmero de permutaciones de los cuatro animales sera de 12:

CCVO; CCOV; CVCO; CVOC; COCV; COVC

VCCO; VCOC; VOCC; OCCV; OCVC; OVCC

Entonces si ni, representa el nmero de individuos en la categora i (en este caso el nmero de
animales en la especie i); entonces en este ejemplo n1= 2, n2= 1, n3= 1, y escribimos el nmero de
permutaciones a travs de la siguiente notacin:

n! n! 4!
n
Pn1 n2 n3 = = = =12
n1! n2! n3! n1! n2! n3! 2! 1! 1!

Si los cuatro animales fueran dos caballos (C), y dos vacas (V), entonces habra solamente seis
permutaciones.

En general, si n1 miembros de la primera categora de objetos es indistinguible, como lo es n2 de la


segunda, y como lo es n3 de la tercera, y as sucesivamente hasta nk miembros de la k-sima cate-
gora, entonces el nmero total de permutaciones diferentes es:

n! n!
n
Pn1, n2,...nk = =
n1! n2!...nk! k
n! 1
i=1

Ejemplo 6. De un total de doce plantas, seis son de una primera especie, cuatro de la segunda, y dos
de la tercera especie. Cuntas diferentes secuencias de especies son posibles?

12!
n
Pn1, n2,...nk = 12
P 6,4,2 = = 13,860
6!4!2!

A manera de resumen podemos decir que las permutaciones se consideran grupos de objetos o
elementos donde la secuencia dentro de los grupos fue lo importante. Sin embargo en otros casos,
solo los componentes de un grupo, no su arreglo dentro del grupo es lo importante. Anteriormente, se
seal que si seleccionamos dos animales de un grupo de cuatro animales, existen doce formas de
arreglarlos linealmente en grupos de dos animales. Sin embargo algunos de esos arreglos contienen
exactamente la misma clase de animales solo que en orden distinto.

54 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
2.8.4. Combinaciones

En el caso antes sealado, si los grupos de animales es lo importante para nosotros, pero no la se-
cuencia de objetos dentro de los grupos, entonces estamos hablando de combinaciones, en lugar de
permutaciones. La notacin del nmero de combinaciones de n objetos tomados X a la vez es nCX, y el
clculo es de la siguiente forma:

n
Px n!
n
C x= =
X! X! (n - X) !

As en el ejemplo en donde se seala que hay solo doce formas de acomodar linealmente dos de estos
cuatro animales (un caballo (C), una vaca (V), una oveja (O) y un puerco (P)), solo tenemos seis formas
de combinarlos: n1= 4 y n2= 2 tenemos la siguiente expresin :

4! 4! (4)(3)(2)(1) (4)(3)
4
C 2= = = = =6
2! (4 - 2) ! 2! 2! (2)(1)(2)(1) 2

Es decir, las siguientes seis combinaciones en grupos de dos de la siguiente forma:

CV; CO; CP; VO; VP; OP

Ejemplo 7. De un total de diez perros, ocho son usados en un experimento de laboratorio. Cuntas
combinaciones diferentes de ocho animales pueden ser tomadas de un total de diez?

10! 10! (10)(9)(8)(7)(6)(5)(4)(3)(2)(1) (10)(9)


10
C 8= = = = = 45
8!(10 -8)! 8!2! (8)(7)(6)(5)(4)(3)(2)(1)(2)(1) 2

Es importante hacer notar que nCn = 1 y nC1 = n; as tambin es importante sealar que hay n formas
de seleccionar n elementos a la vez, expresado como nCx = nCn-x.

2.8.5. Conjuntos

Un conjunto est definido como una coleccin de elementos. Por ejemplo, un conjunto puede ser un
grupo de cuatro animales, una coleccin de ocho aminocidos, un saln de 25 estudiantes, etc. Si un
conjunto incluye cuatro elementos H, C, S, P; y un segundo conjunto consiste de los elementos P, S, H,
C; entonces decimos que los conjuntos son iguales debido a que contienen los mismos elementos. Si
otro conjunto consiste de los elementos H y P, este se declarara como un subconjunto de H, C, S, P.

Por lo tanto la determinacin de combinaciones X elementos tomados de un total de n elementos es la


contabilizacin de las posibles subconjuntos de elementos de un conjunto de n elementos.

Si en un experimento hay un conjunto de posibles resultados; podemos referirnos a este conjunto


como el conjunto resultante o espacio de muestra. Cada elemento de un conjunto es uno de los po-
sibles resultados del experimento. Por ejemplo si un experimento consiste en lanzar dos monedas el

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 55


Facultad de Ciencias Qumico Biolgicas
conjunto resultante esta constituido por cuatro elementos: HH; HT; TH; TT, debido a que estos son todos
los posibles resultados.

Un subconjunto de un conjunto resultante es denominado un evento o realizacin de un fenmeno.


Si el conjunto resultante fuesen por ejemplo los lados de un dado: 1, 2, 3, 4, 5, 6; entonces un evento
podra ser nmeros pares (2, 4, 6) y otro evento podra ser nmeros mayores a cuatro (5, 6). En el
caso de tener dos monedas un evento podra ser Ambas monedas distintas (T, H; y H, T) y otro evento
podra ser que ambas fueran de un solo lado (T, T o H, H).

Si dos eventos en una serie resultante tienen algunos elementos en comn, entonces los dos eventos
se encuentran en la interseccin de dos eventos; que es aquel subconjunto compuesto por aquellos
elementos comunes entre las dos series resultantes.

Por ejemplo

A B A B

A B AB

Por ejemplo un evento con los nmeros pares de un dado (2, 4, 6) y el evento con nmeros mayores
a cuatro en un dado (5, 6), tienen un elemento en comn que es el 6. Por lo tanto el nmero seis es la
interseccin de los dos eventos. As para los nmeros pares de un dado (2, 4, 6) y los nmeros menores
a cinco (1, 2, 3, 4), la subserie de interseccin consiste en los elementos comunes entre ambos eventos,
o sea 2 y 4.

Si dos eventos no tienen elementos en comn se dice que estos eventos son mutuamente excluyen-
tes o exclusivos, por lo tanto los conjuntos resultantes estn desunidos. Por ejemplo, el evento con
nmeros pares de un dado con respecto al evento con nmeros impares de un dado son mutuamente
exclusivos y no hay elementos comunes para ambas series.

Los elementos de un y otro o de ambos conjuntos resultantes se denominan unin entre los dos even-
tos o conjuntos de elementos. La unin de dos eventos como los nmeros 1, 2, 3, 4, 6. de un evento y
los 5, 6 de otro comparten el elemento 6 en ambos conjuntos, a esto se le llama conjuntos no ajenos.

A B A B

A B AUB

Pero si los eventos o conjuntos contienen elementos diferentes, su unin representar la unin de
conjuntos ajenos. Por ejemplo si un evento consiste de la serie de nmeros pares (2, 4, 6) y otro de la
serie (1, 3, 5) la unin de estos conjuntos corresponder al conjunto (1,2,3,4,5,6).

56 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
A B A B

A B AUB

2.8.6. Clculo de Probabilidad de un Evento

Como se defini previamente la frecuencia relativa de un evento es la proporcin del total de observa-
ciones de resultados que un evento representa. Considera una serie resultante con dos elementos, tal
como los posibles resultados de lanzar una moneda (H, T) el sexo de una persona ( o ). Si n es el
nmero total de lanzamientos de una moneda y f es el nmero total de guilas observadas, entonces
la frecuencia relativa de guilas es observadas f/n. As si el lado guila de una moneda fue observado
52 veces de 100 lanzamientos de una moneda, la frecuencia relativa es 52/100 = 0.52 (52%). Si 275
hombres ocurren en 500 nacimientos humanos, la frecuencia relativa de hombres es f/n = 275/500 =
0.55 (55%).

La probabilidad de un evento es la verosimilitud (Relacin entre dos probabilidades) de ese


evento, expresado ya sea como la frecuencia relativa observada de un nmero grande de
datos o por el conocimiento del sistema de estudio.

Ejemplo 8. Una muestra de 852 vertebrados es tomada al azar en un determinado bosque, obtenin-
dose los siguientes resultados.

En este ejemplo las frecuencias relativas del gru-


Subseries de Nmero Frecuencia
vertebrados relativa
po de vertebrados fue calculada de una mues-
tra tomada al azar. Si consideramos el presente
Anfibios 53 0.06 ejemplo, nosotros podramos suponer que cada
Tortugas 41 0.05 animal tiene la misma oportunidad de ser cap-
turado. Sin embargo, si nosotros consideramos
Serpientes 204 0.24
la frecuencia relativa como un valor de proba-
Aves 418 0.49 bilidad, P; para el caso particular del grupo ser-
Mamferos 136 0.16 piente su probabilidad de ser capturado es de
P(Serpientes) = 0.24.
Total 852 1.00
De esta manera, una probabilidad algunas veces
puede ser predicha basndonos en el conoci-
miento del sistema.

2.8.7 Adicin de probabilidades

Si dos eventos son mutuamente excluyentes, entonces la probabilidad de que ocurra el evento A o B,
es la suma de las probabilidades de ambos eventos:
P(A o B) = P(A) + P(B)
Por ejemplo si la probabilidad de que al lanzar una moneda el resultado de que caiga sol (o sea un
solo de los dos lados) es y de que salga guila (o sea el lado contrario) es tambin , entonces la
probabilidad de que el resultado sea cualquiera de los dos lados es:

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 57


Facultad de Ciencias Qumico Biolgicas
P (guila o sol)= P(guila) + P(sol) = + = 1.0, es decir que el resultado de guila es 0.5
y de sol es tambin 0.5, entonces la probabilidad total es 1.

Para el ejemplo de los datos de grupos de vertebrados la probabilidad de capturar un reptil al azar
sera:
P(Tortuga o serpiente) = P(Tortuga) + P(serpiente) = 0.05 + 0.24 = 0.29

La regla para la adicin de probabilidades para ms de dos eventos mutuamente excluyentes, puede
ser explicada por ejemplo si consideramos lanzar un dado; en donde la probabilidad de obtener un dos
ser 1/6, de obtener un cuatro ser 1/6, y de obtener un seis ser tambin 1/6. As la probabilidad de
obtener cualquiera de estos tres resultados ser:

P(2, 4, 6) = P(2) + P(4) + P(6) = 1/6 + 1/6 +1/6 = 1/2

Es decir que la probabilidad de tener dos ser 0.16666667 y lo mismo para obtener 4 y seis, enton-
ces:

P(2, 4, 6) = P(2) + P(4) + P(6) = 0.16666667 + 0.16666667 + 0.16666667 = 0.5

Por otra parte si dos eventos no son mutuamente excluyentes, es decir, existe una interseccin entre
ambos eventos, entonces la adicin de probabilidades deber ser modificada. Por ejemplo si se lanza
un dado la probabilidad de obtener nmeros impares es:

P(nmeros pares) =P(1 3 5) = P(1) + P(2) + P(3) = 1/6 + 1/6 + 1/6 =

Y la probabilidad de obtener un nmero menor a 4 es:

P(nmero <4) = (1 2 3) = P(1) + P(2) + P(3) = 1/6 + 1/6 +1/6 =

Debido a que los dos elementos (1 y 3) se presentan en ambos eventos, el subconjunto 1, 3 es la inter-
seccin entre ambos eventos, entonces la estimacin de la probabilidad es de la manera siguiente:

P(A o B) = P(A) + P(B) P(AB)

Entonces:

P (Nmero impar o nmero <4)= P(Nmero impar) + P(nmero <4) P(Nmero impar
o nmero <4)

P([1, 3, 5] o [1, 2, 3]) P(1, 3) = [P(1) + P(3) + P(5) + P(1) + P(2) + P(3)] [P(1) + P(3)] =
(1/6 + 1/6 + 1/6) + (1/6 + 1/6 + 1/6) (1/6 + 1/6) = 4/6 = 2/3

En el caso de tener tres eventos que no son mutuamente excluyentes la situacin es ms compleja.
Como se observa en la figura existen tres interacciones de dos vas (mostradas con lneas verticales)
las cuales son A y B; A y C; B y C, as como una sola interaccin de tres vas sealada con lneas hori-
zontales (A, B, C) a este tipo de representaciones se les llama diagramas de Venn.

58 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
A
B Diagrama de Venn

Si se adicionan las probabilidades de los tres eventos A, B y C como P(A) + P(B) + P(C); se estn
adicionando las interacciones de dos vas doblemente. As que se debe sustraer P(AB), P(AC), y
P(BC). Como tambin la interaccin de tres vas es adicionada tres veces de la adicin P(A) + P(B)
+ P(C) y sustradas tres veces a restar las interacciones de dos vas; por la tanto P(ABC), debe ser
adicionada al final. Por lo tanto para tres eventos que no son mutuamente excluyentes tenemos:

P(A, B, C) = P(A) + P(B) + P(C) P(AB) - P(AC) - P(BC) + P(ABC)

2.8.8. Multiplicacin de Probabilidades

Si dos o ms eventos se intersectan, la probabilidad asociada con la interseccin es el producto de las


probabilidades de los eventos individuales, la cual puede ser denotada de la siguiente forma:

P(AB) = [P(A)] [P(B)]

P(ABC) = [P(A)] [P(B)] [P(C)]

Ejemplo 9. la probabilidad de que al lanzar una moneda se obtenga guila es , sin embargo, si
dos monedas son lanzadas la probabilidad de obtener dos guilas es:

P(Dos guilas) = [P(Agulia)] [P(Aguila)] = (1/2)(1/2) = 0.25

Esto puede ser verificado mediante la examinacin de la serie resultante:

H,H; H,T; T,H; T,T

Donde la P(H, H) es un resultado de las cuatro igualmente posibles resultados. As ahora lanzamos
tres monedas en vez de dos, la probabilidad de obtener dos guilas ser:

P(H, H, H) = [P(H)][P(H)][P(H)] = (1/2)(1/2)(1/2) = 0.125

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 59


Facultad de Ciencias Qumico Biolgicas
2.8.9. Probabilidad Condicional

En muchas ocasiones, la probabilidad de que ocurra un evento, depende de lo que ha ocurrido con otro
evento. En este caso se tiene la llamada probabilidad condicional. La probabilidad condicional de A,
dado que ha ocurrido el evento B, se escribe P(A/B); o sea es la probabilidad de que ocurra un evento
A cundo se conoce cierta informacin relacionada con la ocurrencia de otro evento B.

P(A/B) Probabilidad de que ocurra A, dado que B ha ocurrido

P(B/A) Probabilidad de que ocurra B, dado que A ha ocurrido

P(AB)
P(A/B) = es la probabilidad condicional de A
P(B)

P(BA)
P(B/A) = es la probabilidad condicional de B
P(A)

P(AB), es la probabilidad conjunta porque denota la interseccin de los eventos A y B.

P(BA), es la probabilidad conjunta porque denota la interseccin de los eventos B y A.

P(A) y P(B), se denominan probabilidades marginales.

Ejemplo 10. La tabla a continuacin, presenta el ascenso a catedrticos de los profesores de una
institucin durante 5 aos.

Tabla de acenso al rango de catedrtico

Hombres Mujeres Total A partir de esta informacin, se construye una ta-


(H) (M) bla de probabilidades conjuntas, cuyos valores de
probabilidad son calculados y aparecen al interior
Ascendido (A) 278 26 304
de la tabla.
No ascendido (A) 662 194 856
Total 940 220 1160 A este tipo de tablas se les llama tablas de proba-
bilidad conjunta o condicional y a los totales se
les llama probabilidad marginal.
Tabla de probabilidad conjunta

Cual es la probabilidad de que un profesor seleccio-


Hombres Mujeres Total nado al azar sea hombre (H) y fuera ascendido?
(H) (M)
Ascendido (A) 0.24 0.02 0.26 P(HA) = 278/1160 = 0.24
No ascendido (A) 0.57 0.17 0.74
Cual es la probabilidad de que un profesor selec-
Total 0.81 0.19 1.0
cionado al azar sea hombre (H) y no fuera ascen-
dido?

P(HA) = 662/1160 = 0.57

Cual es la probabilidad de que un profesor seleccio-


nado al azar sea mujer (M) y fuera ascendido?

P(MA) = 26/1160 = 0.02


60 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Continuacin ejemplo 10

Cual es la probabilidad de que un profesor seleccionado al azar sea mujer (M) y no fuera ascendi-
do?

P(HA) = 194/1160 = 0.17

Ahora se pueden calcular las probabilidades conjuntas

a) Probabilidad de que un profesor elegido al azar sea ascendido dado que es hombre (H)

P(A/H) = 278/940 = 0.30

Alternativamente

P(AH) = P (H)*P(A/H)

Donde:

P(AH)
P(A/H) = = 0.24/0.81 = 0.30
P(H)

b) Probabilidad de que un profesor elegido al azar sea ascendido dado que es mujer (M)

P(A/M) = 26/220 = 0.12

Alternativamente

P(AM)= P (M)*P(A/M)

P(AM)
P(A/M) = = 0.02/0.19 = 0.12
P(M)

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 61


Facultad de Ciencias Qumico Biolgicas
62 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I
Facultad de Ciencias Qumico Biolgicas
3 DISTRIBUCIN
DE PROBABILIDADES

3.1. INTRODUCCIN Literatura sugerida:

En estadstica la distribucin de probabili- http://es.wikipedia.org/wiki/Funci%C3%B3n_de_


dad F (x) es una funcin de la probabilidad densidad

que representa los resultados que se van


Scherrer B., 1984, Biostatistique. Gatan Morin
obteniendo en un experimento aleatorio (fi- Editor. Montreal, Paris, Casa Blanca. 850 p (Pg
gura 10). 221-244).

Para un nmero dado x, la probabilidad Zar. J. H., 1999. Bostatistical Analysis (4 edicin).
P(X x) es: Prentice Hall. Estados Unidos. 663 p. (Pag. 521).

F(x) = P(X x) http://personal5.iddeo.es/ztt/Tem/t21_distribu-


cion_normal.htm
A F(x) se le denomina funcin de distribu-
http://www.bioestadistica.uma.es/libro/node38.htm
cin de probabilidad de la variable X y repre-
senta la probabilidad de que la variable tome
el valor desde - hasta x.

0.9
= 0.2 = 0.2
0.8

0.7

0.6
= -2.2 = 0.5
0.5
= 0.2 = 1.0
0.4

0.3
= 0.2 = 5.0
0.2

0.1

0
-5 -4 -3 -2 -1 0 1 2 3 4 5
Figura 10. Funcin de densidad para la distribucin normal,
modificado de: http://es.wikepedia.org/wiki/Funci%C3%B3n_de_densidad

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 63


Facultad de Ciencias Qumico Biolgicas
Tambin se puede definir como la acumulada de la funcin de densidad de probabilidad, esta ltima
ms comnmente conocida como funcin de densidad

La funcin de densidad se utiliza en estadstica con el propsito de conocer como se distribuyen


las probabilidades de un evento en relacin al resultado del evento. En este caso se llama funcin de
densidad de probabilidad

Matemticamente la FDP (funcin densidad de probabilidad) es la derivada de la funcin de distribu-


cin de probabilidad.

Las propiedades de FDP (a veces visto como PDF del ingls) son:

FDP(x) 0.

La integral de FDP(x) en el rango especificado para la funcin, siempre es 1.

Algunas FDP estn declaradas en rangos de - a , como la de la distribucin normal

Para dos nmeros reales cualesquiera a y b tal que (a < b), los sucesos (X a) y (a <X b) sern
mutuamente excluyentes y su suma es el suceso (X b) por lo que tenemos entonces que:

P(X b) = P(X a) + P(a <X b)

P(a <X b) = P(X b)- P(X a)

y finalmente

P(a <X b) = F(b) - F(a)

Por lo tanto una vez conocida la funcin de distribucin F(x) para todos los valores de la variable alea-
toria x conoceremos completamente la distribucin de probabilidad de la variable.

Como la probabilidad es siempre un nmero positivo, la funcin de distribucin ser una funcin no
decreciente que cumple lo siguiente:
lim F(x) = 1
n
Es decir la probabilidad de todo el espacio muestral es 1 tal y como establece la teora de la probabi-
lidad y por otra parte:

lim F(x) = 0
n

Es decir la probabilidad del suceso nulo es cero.

Para realizar clculos es ms cmodo conocer las distribucin de probabilidad, para ver una represen-
tacin grfica de la probabilidad es ms prctico el uso de la funcin de densidad.

Existen dos tipos de distribucin de variables, las discretas y las continuas.

64 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Se denomina variable discreta a aquella que slo puede tomar unos determinados valores, el conjun-
to de valores que toma X es finito o numerable. En este caso la distribucin de probabilidad es la suma
de la funcin de densidad, por lo que tenemos entonces que:
i

F(x) = P(X xi ) = f(xi)


k=1

Tal como corresponde a la definicin de distribucin de probabilidad, esta expresin representa la


suma de todas las probabilidades desde hasta el valor xi.

Es importante sealar que muchos autores sealan que en las variables discretas no se denomina
funcin de densidad sino funcin de probabilidad, y se nota PX(x) en vez de fX(x). Dentro de las dis-
tribuciones discretas se encuentran principalmente la distribucin binomial y de poisson.

Se denomina variable continua a aquella que puede tomar cualquiera de los infinitos valores exis-
tentes dentro de un intervalo finito. En el caso de variable continua la distribucin de probabilidad es la
integral de la funcin de densidad, por lo que tenemos entonces que:

xi

F(x) = P(X xi ) = f(xi) dx


-

Dentro de las distribuciones continas, se tratarn: la distribucin normal, t-student, chi-cuadrado y


Fisher-Snedecor (F).

3.1.1 Ley Binomial o Distribucin Binomial

Es una de las distribuciones frecuentemente encontrada en estadstica aplicada (Jacob Bernoulli, 1713);
a partir de esta se pueden analizar datos cualitativos provenientes de una poblacin compuesta de 2
categoras de elementos (variables de conteo, proporciones y porcentajes). La ley binomial se define
como una distribucin discontinua que da las probabilidades de ver aparecer un evento de pro-
babilidad p respectivamente 0, 1, 2, 3,.....i., n veces a lo largo de n pruebas (sorteos o experien-
cias) idnticas e independientes. Con esta ley dos eventos pueden aparecer en cada prueba.

1) probabilidad de xito (o que ocurra) p

2) probabilidad de fracaso (o que no ocurra) q=1-p, entonces p+q =1

Esto corresponde por ejemplo a la aparicin de individuos machos o hembras, blancos o negros,
muertos o vivos que presenten una u otra caracterstica. La distribucin binomial se designa con la
letra (n,p) donde n representa los eventos y p la probabilidad de uno de los eventos. As por
ejemplo en una familia de n hijos, cual es la probabilidad de tener x varones? En este ejemplo, el efecto
del nacimiento de un nio corresponde a un evento en donde el resultado corresponde a los dos eventos
siguientes: o el hijo es un nio o es una nia. En cada evento, la probabilidad p de que nazca un nio es
igual a 0.5, y la probabilidad q de que sea una nia es tambin 0.5; si la probabilidad de tener un nio
no vara de un nacimiento a otro y si hay independencia entre cada evento, la probabilidad de tener x
nios en una familia de n hijos esta dada por una distribucin binomial.

Por otra parte si se quiere observar el comportamiento de n ratas que penetran a un laberinto en forma
de H sucesivamente. Cual es la probabilidad de que n ratas se dirijan a la parte derecha superior del

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 65


Facultad de Ciencias Qumico Biolgicas
laberinto? A cada prueba dos eventos son posibles, o penetra y toma el camino adecuado o no lo toma.
Entonces como hay 4 itinerarios posibles, la probabilidad del primer evento es p = (0.25) y la del
segundo evento es q = (0.75). Si las ratas no han sido condicionadas y si la rama inferior derecha no
contiene ningn elemento atractivo o repulsivo para afectar p o q, las probabilidades de x estarn dadas
por una distribucin binomial.

En otro ejemplo: si se toma una poblacin de hembras y machos en las proporciones de p = 0.4 y q =
0.6 respectivamente y se toma al azar una muestra de dos individuos de la poblacin. La probabilidad de
que la primera sea hembra (0.4) es p y la probabilidad de que la segunda sea hembra es tambin p. la
probabilidad de tener dos hembras en una muestra de dos es (p)(p) = p2=( 0.4)(0.4) = 0.16. Por lo tanto
la probabilidad de que una muestra consista de dos machos ser (q)(q) = q2 =(0.6)(0.6) = 0.36.

Entonces Cul sera la probabilidad de que en una muestra n = 2, se obtenga un macho y una hem-
bra respectivamente? Esto podra ocurrir con el primer elemento siendo macho y el segundo hembra
(probabilidad pq) o con el primer elemento siendo hembra y el segundo macho (probabilidad qp). La
probabilidad de cualquiera de los resultados mutuamente excluyentes, es la suma de las probabilidades
de cada resultado, as la probabilidad de tener en la muestra una macho y una hembra es pq + qp = 2
pq = (2)(0.4)(0.6) = 0.48. En este contexto es importante destacar que 0.16 + 0.36 + 0.48 = 1.00, lo cual
nos indica que nosotros solo podemos obtener tres posibles resultados asociados a tres probabilidades
con n = 2 donde p = 0.4, y q = 1 - p, donde las probabilidades en suma resultan en el 100% de la proba-
bilidad. As por ejemplo para n = 5, las distribuciones de probabilidad se muestran en la figura 11.

As tambin, las estimaciones de probabilidades binomiales pueden tambin ser calculadas para even-
tos donde p= 0.5, q= 0.5 n= 5, p=0.3 y p= 0.7 o bien p= 0.1 y q= 0.9 aqu observamos que a diferencia
de cuando tenamos p= 0.5 y q= 0.5 con una distribucin simtrica de probabilidades, al cambiar la fre-

Figura 11. Distribuciones de probabilidad binomial con n = 5


(Tomada de Zar (1999) pg. 521)

66 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
cuencia binomial de forma desigual la probabilidad se distribuye de manera asimtrica o sesgada como
se observa en la figura 11b. Se puede hablar ahora de que las probabilidades de aparicin estn dadas
por la ley de Newton (p+q).

x P(x) Trminos sucesivos del desarrollo del binomio de Newton-Distribucin de


Probabilidad de x Probabilidad: (n,p).
0
0 Cn q n
1 1
Cn q n-1 p Los coeficientes designan el nmero total de combinaciones de n objetos
2 2
C q n-2
p 2 tomados de x en x. Para determinarla solamente hay que calcular el nmero
n
3 total de combinaciones segn la siguiente frmula:
3 Cn q n-3
p3
i
i Cn q n-i pi
n-1
n-1
Cn q p n-1 n!
Cnx =
n
n Cn p n x!(n-x) !

As si n= 1, el binomio de Newton se escribe (p+q)1 y su desarrollo es X p(x)


igual a p+q, su tabla de probabilidad es: (1,p) 0 q
1 p

Si n= 2, la ley binomial se escribe (p+q)2 y su desarrollo es igual a X p(x)


p +2pq+q , y su tabla de probabilidades sera: (2,p)
2 2
0 q2
1 2pq
2 p2

Finalmente si n= 7, la distribucin de probabilidad ser: X p(x)

(7,p) 0 7!
q7 = q7
0! (7-0)!
Por tanto la probabilidad de ver aparecer x veces un even- 1 7!
q6 p = 7q7 p
to de probabilidad p en n eventos idnticos e independien-
1! (7-1)
tes se escribe:
7!
2 q5 p2 = 21q5 p2
2! (7-2)
7!
x n! q4 p3 = 35q4 p3
p(x) = Cn q n-x px = q n-x p x 3
3! (7-3)
(n-x)! x!
7!
4 q3 p4 = 35q3 p4
4! (7-4)
7!
5 q2 p5 = 21q2 p5
5! (7-5)
7!
6 q p6 = 7q p6
6! (7-6)
7!
7 p7 = p7
7! (7-7)

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 67


Facultad de Ciencias Qumico Biolgicas
Ejemplo 11. En una familia de n hijos, cual es la probabilidad de tener x nios? Si el nmero de hijos
es n=1 y si la probabilidad de tener 1 nio en 1 nacimiento es p= 0.5. La probabilidad de tener un
nio en una familia de 1 hijo es: (1,0.5)

1
P(1) = *0.50 * 0.51 = 0.5
1! 0!

Recordar que 0! = 1 y que cualquier nmero elevado a la 0 potencia es 1

Y la probabilidad de una nia es:

1
P(1) = *0.50 * 0.51 = 0.5
1! 0!

As en una familia de dos hijos, la distribucin de probabilidad es: (2, 0.5)

X p(x)

2!
0 0.52 * o.50= 0.25
0!(2-0)!
2!
1 0.5 * o.5 = 0.5
1!(2-1)!
2!
2 0.50 * o.52= 0.25
2!(2-2)!

Una vez obtenidas las probabilidades, estas pueden ser representadas en una grfica de probabi-
lidad (Fig. 12). Es necesario saber que actualmente existen tablas de probabilidad para diferentes
valores de n, x y p, lo que hace innecesario el clculo de las mismas (Tabla 1 anexa).

0.6

0.5

0.4
P(x)

0.3

0.2

0.1

0
0 1 2
n=2

Figura 12. Distribucin de probabilidad de una familia de 2 hijos (2, 0.5).

68 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
3.1.1.1 Los momentos de la distribucin binomial

La esperanza matemtica. La esperanza de una distribucin de probabildad es:


n

E (X) = P(Xi * Xi
i=1

Para la ley binomial esto corresponde a : E(x) = np, as la esperanza matemtica de x nmero de
varones en una familia de 7 hijos es:

E(X) = 7*0.5 = 3.5 nios (0.5 es la probabilidad de nios en cada evento).

Varianza. La varianza de una distribucin de probabilidad se escribe:

2 = E(x2) - 2

Si la distribucin obedece a una ley binomial esta es igual a:

2=npq y la desviacin estndar = 2

As la varianza del nmero de varones en una familia de 7 hijos es:

2 = 7*0.5*0.5= 1.75 y la desviacin estndar = 1.75 = 1.32

El coeficiente de asimetra (3). Este se calcula a partir del momento de tercer orden, en una distribu-
cin de probabilidad 3 se escribe:

E(X - )3
3 =
( E (X - )2 )3

Si la distribucin de probabilidad obedece a una distribucin binomial, el coeficiente de asimetra


ser:
q- p
3 =
npq

Como el denominador ( npq) siempre es positivo, el signo de 3 depende de p y q, entonces tres


posibilidades pueden aparecer:

Si p > q 3 < 0 asimetra izquierda

Si p = q 3 = 0 curva simtrica

Si p < q 3 > 0 asimetra derecha


0.5 - 0.5
As por ejemplo de la familia de 7 hijos, 3 = = 0.189
7 * 0.5 * 0.5
lo que indica que esta distribucin de probabilidad presenta una asimetra a la derecha.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 69


Facultad de Ciencias Qumico Biolgicas
El coeficiente de aplanamiento o curtosis (4 ). Este momento de cuarto orden se calcula para una
distribucin normal como:

E(X - )4
4 =
( E (X - )2 )4

Si la distribucin de probabilidad obedece a una distribucin binomial, el coeficiente de aplanamiento


es igual a:
1 - 6 pq
4 = 3 +
npq

1 - (6*0.5*0.5)
Tomando en cuenta el ejemplo anterior: 4 = 3 + = 2.71
(7*0.5*0.5

3.1.2. Ley de Poisson o Distribucin de Poisson

La distribucin de Poisson es una distribucin terica discontina que se deriva de la ley binomial donde
uno de los eventos tiene una probabilidad muy baja. Fue descrita en 1830 por Simeon Denis Poisson
(1781-1840) un matemtico y fsico francs (Fron, 1978), aunque Abraham de Moivre (1667-1754)
aparentemente la describi previamente en 1718 (David, 1962:1968). Esta distribucin se aplica a fe-
nmenos accidentales (de aqu que la probabilidad sea baja p<0.05). Se utiliza cuando se encuentran
eventos o individuos distribuidos al azar en el espacio y en el tiempo. As cuando se cuentan organismos
en cuadrantes o parcelas en volmenes se utiliza la ley de Poisson (Pruebas de pureza o germinacin
de semillas, cuenta de insectos, de hierbas, colonias de bacterias, distribucin espacio-temporal de
plagas).

En la distribucin de Poisson n siempre es elevado puesto que para ver aparecer un evento raro, hay
que hacer muchas pruebas.

Los trminos de la distribucin de Poisson son:

x
P(x) = e -
X!

Donde P(x) es la probabilidad de X ocurrencias en una unidad de espacio o tiempo y , es la media de


la poblacin de ocurrencias en una unidad de espacio o tiempo. As,

P(0) = e -

P(1) = e -

e - 2
P(2) =
2
e - 3
P(3) =
(3)(2)

70 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
e - 4
P(4) =
(4)(3)(2)

etc., donde P(0) es la probabilidad de que un evento no ocurra en una unidad de espacio o tiempo,
P(1) es la probabilidad de exactamente una ocurrencia en una unidad de espacio o tiempo, y as
sucesivamente. En la figura 13 se muestran diferentes distribuciones de probabilidad de Poisson
para diferentes valores promedio.

Figura. 13. Distribuciones de Poisson para diferentes valores promedio


(tomada de Zar (1999) pg. 572).

Ejemplo 12.Un administrador de un hospital que ha estudiado las admisiones diarias durante aos,
ha llegado a la conclusin que estas se distribuyen de acuerdo a una ley de Poisson. Las admisiones
de emergencia han sido en promedio 3 por da. Encontrar la probabilidad de que de 1 da a otro,
ocurran exactamente 2 admisiones de emergencia.

x x e - 32 e-3 (9) - (0.04978) 0.448


P(x) = e - = P(x)= = P(x)= = = = 0.2240
X! X! 2! 2 2

30 e-3
y si no ocurriera ninguna admisin: P(x) = = 0.049
0!
Es importante sealar que la tabla de probabilidades p(x) para se presenta en el anexo, tabla 2.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 71


Facultad de Ciencias Qumico Biolgicas
3.1.2.1 Los momentos de la distribucin de Poisson

La esperanza matemtica. Esta ley depende de un solo parmetro, la media y utiliza para su clculo,
tablas que dan directamente la distribucin de probabilidad de X para diferentes valores de:

: E(X) = np, as = np, esto es igual que la ley binomial.

La varianza. Como para la ley binomial, la varianza es 2=npq, sin embargo como p es muy prximo a
cero (recordar que el valor de p es siempre muy pequeo en una distribucin de poisson), la ecuacin
se simplifica como: 2=np(1-p)
Porque q= (1-p)

2=np(1-0)

2=np y como. = np entonces 2= .


La igualdad de la media y la varianza es una propiedad
importante de la ley de Poisson.

La desviacin estndar es: = 2

El coeficiente de asimetra(3)

1
3 =

Como no puede ser negativo, la distribucin de probabilidad es siempre simtica a la derecha.

Coeficiente de aplanamiento o curtosis (4)

1
4 = 3 +

como es siempre positivo, la distribucin es menos aplanada que la distribucin normal.

Relacin entre la ley binomial y la de Poisson. La distribucin binomial, tiende hacia la de Poisson cuan-
do p disminuye y n aumenta. En la prctica se admite que un evento es raro si su probabilidad es inferior
a 0.05. La aproximacin de la ley binomial a la de Poisson es satisfactoria si n es al menos igual a 50.

Ejemplo 13. El ave Turdus torquatus, es un pjaro que en otoo se acerca a los bosques de arbustos
de montaa entre 1500 y 2000 m de altitud. En 1968, en la estacin ornitolgica situada en los Alpes
Franceses a 1700 m de altitud, 48 aves fueron capturadas con redes japonesas durante 89 das en
la poca de arribo. La distribucin de frecuencias se presenta en la siguiente tabla:

Esto implica que ningn ave se capturo durante 56 das, veintids aves de capturaron por cada da
durante 22 das, dos das se capturaron 9 aves cada da, haciendo 18 aves en total, i ave se capturo
por da en tres das y cinco aves otro da, por lo que hay 48 aves en total.

Sabiendo que el nmero medio de aves capturadas por da es 0.539, cual es la distribucin de
probabilidad del nmero x de aves capturadas por da?.

72 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Ejemplo 13 (continuacin) Nmero de aves Nmero de das
capturadas/da en que se capturo
Como cada prueba consiste en la captura de un ave, esta Xi fi
captura se produce o no un da J dado. La probabilidad 0 56
de que esta se produzca el da J, es igual a 1/89 (p = 1/89
= 0.011), por lo tanto muy baja. El nmero de capturas es 1 22
alto puesto que son 48 aves (n = 48). Si las redes no son 2 9
desplazadas de lugar durante el ao, si las aves no se
3 1
acostumbran a las redes y no las evitan, si su comporta-
miento no es ni gregario ni territorial, los 48 eventos son 4 0
idnticos e independientes y la probabilidad de captura 5 1
se mantiene constante de un evento a otro. En estas con-
6 0
diciones la distribucin de probabilidad de x se calcula
como se observa en la tabla para una media = np = Total=89
48*(1/89) = 0.539

Ahora la varianza y la desviacin estndar se


calculan como sigue: Tabla de distribucin de probabilidad
X P(x)
2=npq (como proviene de la binomial)
0 e- = 0.583

2=48*1/89*0.988= 0.533 porque q = (1-p) 1 P(1) = e - = (0.583) (0.539) = 0.3144

2 e - 2
y entonces (1-0.1123) = 0.988 P(2) = = (0.3144)(0.539)2/2! = 0.0847
2

observar que la y la 2 son similares. 3 e - 3


P(3) = = (0.0847)(0.539)3/3! = 0.0152
(3)(2)

4 e - 4
P(4) = = (0.0152)(0.539)4/4! = 0.0021
La desviacin estndar es igual: (49(3)(2)

5 e - 5
= 2 = 0.533 = 0.738 aves/da P(5) = = (0.0021)(0.539)5/5! = 0.0002
(49(3)(2)
El coeficiente de asimetra:
1
3 = =1.362,
0.539 Distribucin de Poisson
asimetra a la derecha
acentuada 0.7
0.6
y el coeficiente de apla-
0.5
namiento:
0.4
P(x)

1
4 = 3 + = 4.855 , 0.3
0.539
0.2
0.1
la distribucin presenta
una mayor intensidad 0
que la distribucin nor- 0 1 2 3 4 5 6
mal (figura 14).
Captura (aves/da)

Figura 14. Distribucin de Poisson de 48 aves


capturadas durante 89 das.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 73


Facultad de Ciencias Qumico Biolgicas
3.1.3. La Distribucin Normal, N(,)

La distribucin normal es una distribucin continua, juega un papel muy importante tanto en la teora
como en la prctica. Histricamente su importancia fue presentada desde 1733 por Abraham de Moivre,
quien trabajaba sobre la ley binomial cuando n tiende al infinito y p no llega a 0. En 1772, Laplace la
estudia tambin en su teora de los errores, sin embargo esta ley adquiere su forma definitiva con Gauss
en 1809 y Laplace en 1812, as esta ley se conoce como ley de Laplace, Ley de Gauss o Ley de Lapla-
ce-Gauss y como ley normal.

Comnmente la distribucin de frecuencias de datos en escala de intervalo o razn se ha observado


que tiene una preponderancia de valores alrededor de la media con progresivamente un menor nmero
de observaciones hacia los extremos del intervalo de valores. Si n es grande, los polgonos de frecuen-
cias de algunos datos biolgicos son de forma de campana siendo posible de ser explicados mediante
la funcin de distribucin normal o de Gauss.

La distribucin normal proviene de la ley binomial:

n!
p(x) = =qn-x px
(n-x)!x!

con x variando entre 0 a n

En este momento es conveniente mencionar el teorema del lmite central. Sea Xi la continuacin
de una variable independiente que presenta la misma distribucin, si = E(Xi) y 2 = var(xi) y si el mues-
treo se realiza a partir de una poblacin no distribuida normalmente, este teorema indica lo siguiente
Dada una poblacin de cualquier forma funcional con una media y varianza finita 2, la distribucin
muestral de X, calculada a partir de muestras de tamao n de esta poblacin, estar distribuida aproxi-
madamente normal con una media y varianza 2/n cuando el tamao de la muestra es grande. As si
en la distribucin binomial n tiende hacia el infinito y p no esta muy prximo de 0 y 1 (si no tendera a la
distribucin de Poisson), la distribucin tiende hacia la distribucin normal. Esto sugiere el hecho de que
se puedan tomar muestras a partir de una distribucin que no es normal con la garanta de tener buenos
resultados, siempre que se tome una muestra grande. Mayores conocimientos sobre los clculos mate-
mticos de este teorema pueden ser consultados en las obras de Lebart et al. (1979).

Formalmente la funcin de densidad normal se escribe como:

1 2 /22
Z= e -(Xi - )
2

Donde Z representa la altura de la ordenada de la curva que representa la densidad de los datos y
que es funcin de la variable x. La ecuacin contiene la constantes (3.14159) y e (2.7182), as como
los parmetros estadsticos (Desviacin estndar) y (Media aritmtica). La media paramtrica y la
desviacin tpica paramtrica, determinan la forma y localizacin de la distribucin. As, para alguna des-
viacin estndar determinada (), existe un nmero infinito de curvas normales posibles dependiendo
del valor de . Una curva normal con media igual a cero y desviacin estndar igual a uno, se dice que
es una curva normal estandarizada o centrada y reducida.

74 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
3.1.3.1. Distribucin normal centrada y reducida

De acuerdo a la teora del lmite central, la distribucin de probabilidad de una distribucin normal trans-
formada de la binomial se expresa como sigue:

1 (x - ) 2

f(x) = e 22

2 2

Esta distribucin depende de dos parmetros, la media que localiza a la distribucin y la desviacin es-
tndar que mide la dispersin de valores en torno a la media. Si se trabaja con una distribucin de media
0 y desviacin estndar de 1, a este cambio de variables de le llama distribucin central normal, centra-
da y reducida. Para que la media pueda ser 0 el primer cambio de la variable consiste a remplazar x por
X de la siguiente manera: X = x- esta transformacin conduce a la curva centrada de la ecuacin:
1 X2
22
f(x) = e
2 2

Para obtener la distribucin con la desviacin estndar igual a 1, se realiza una segunda transforma-
cin que consiste a remplazar X por Z.

Z = X/

Esto conduce a la curva normal centrada y reducida de la forma:

Z2
1 2
f(Z) = e < Z <
2 2

Si se remplaza x por Z con Z = x- /, se obtiene el mismo resultado, esta ley normal centrada y redu-
cida no es mas que un caso particular de ley normal (figura 15).

Figura 15. Distribucin normal.


Tomado de, http://personal5.iddeo.es/ztt/Tem/t21_distribucion_normal.htm

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 75


Facultad de Ciencias Qumico Biolgicas
3.1.3.2. Caractersticas de la distribucin normal

a) Es simtrica respecto a su media

b) La media, mediana y moda son iguales

c) El rea total debajo de la curva por encima del eje x es una unidad cuadrtica en donde el
50% de la informacin se localiza a la derecha y el 50% a la izquierda.

d) Si se levantan lneas perpendiculares de una distancia estndar de la media, el rea en-


cerrada ser aproximadamente el 68% del rea total. Si se extienden a 2 veces la desviacin
estndar hacia cada lado de la media se encierra aproximadamente el 95% y hasta 3 veces la
desviacin del rea es de 99% (figura 16).

e) La distribucin normal queda determinada por y , por tanto hay una distribucin normal
diferente para cada valor diferente de y de esta manera los valores de trasladan a la
grfica de la distribucin sobre el eje X (figura 17), y los valores de van a determinar el apla-
namiento de la curva (figura 18).

3.1.3.3. Propiedades de la distribucin normal

a) El fenmeno depende de numerosos factores y estos factores son independientes entre


ellos.

b) Los efectos aleatorios de estos factores son acumulativos.

c) Las variaciones de estos factores son bajas y la variacin del fenmeno debido a la variacin
de cada uno de estos factores es tambin baja.

Figura 16. reas bajo la curva de la distribucin normal.


Tomado de Daniel et al (1982), (pg. 78).

76 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Figura 17. Curvas de distribucin normal para diferentes valores de .
Tomado de Daniel et al. (1982) (pg. 79).

Figura 18. Curvas de distribucin normal con diferentes valores de .


Tomado de Daniel et al. (1982) (pg. 79).

Para encontrar la probabilidad de que Z tome un valor entre 2 puntos del eje de las Z (ej. Z0 y Z1) se
debe encontrar el rea limitada entre estos puntos. Esto se obtiene de las tablas de reas bajo la curva
conocidas como tablas de Z (tabla 3, anexo)

Ejemplo 14. Dada la distribucin normal unitaria, encontrar el rea bajo la curva por encima del eje
Z entre 0 y Z = 2

P(Z 2) = 0.4772

Localizar Z = 2 en tabla, l rea = 0.4772

Esta se puede interpretar entonces como la probabilidad de que z elegida al azar de las probabilida-
des de Z tenga un valor entre 0 y 2 tambin puede interpretarse como la frecuencia relativa de la
ocurrencia de los valores de Z entre 0 y 2.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 77


Facultad de Ciencias Qumico Biolgicas
Ejemplo 15. Cul es la probabilidad de que una
Z elegida al azar tenga un valor entre 2.55 y
2.55?

P(-2.55 < Z < 2.55) = P(0.4946+0.4946) =0.9892


(a)
Las siguientes figuras 19 a-f muestran diferentes
formas de calcular las reas de la curva normal.
.unitaria.

(b)

(c)

(d)

(e)

(f)

Figura 19. Clculo de reas bajo la


curva normal unitaria, tomado de
http://personal5.iddeo.es/ztt/Tem/
t21_distribucion_normal.htm

78 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
3.1.3.4. Los momentos de la distribucin normal

1. La esperanza matemtica E(X) = si Z = X-/

por lo tanto X = Z +, como E(X) = E(z + ) = E(Z) +

entonces E(X) = 0 y

por tanto E(X) = .

2. La varianza. Var (X) = 2

3. El coeficiente de asimetra, 3 = 0

4. El coeficiente de curtosis, 4 = 3

3.1.4. La Distribucin t-student

Las desviaciones de las medias muestrales con respecto a la media poblacional presentan comnmente
una distribucin normal. Si estas desviaciones son divididas entre la desviacin estndar de la pobla-
cin, dichas desviaciones an estarn distribuidas de acuerdo con la distribucin gausiana, con = 0,
= 1.

Si por otra parte se calcula la varianza s2, de cada una de las muestras, y la desviacin de cada media,
como (xi - )/sx, donde sx significa la estimacin del error estndar de la media de la i-sima muestra;
el clculo refleja la distribucin de las desviaciones, las cuales pueden variar respecto a la distribucin
normal. La nueva distribucin presenta una forma ms ancha que su correspondiente distribucin nor-
mal, debido a que el denominador representa el error estndar de la muestra en vez del error estndar
de la poblacin, por lo tanto esta relacin podra resultar en mayores valores de varianza a partir de
la relacin (xi - )/sx. La distribucin esperada de esta relacin, se conoce como distribucin t-student,
planteada por vez primera por el estadstico ingls William Sealy Goset (1876-1937) quien utiliz el
seudnimo de Student para publicar algunos de sus notables trabajos desarrollados sobre estadstica
terica y prctica.

Como la distribucin normal, la distribucin t, es simtrica y se extiende de manera negativa y positiva


hasta infinito. La distribucin t, difiere de la distribucin normal en que presenta diferentes formas de-
pendiendo del nmero de grados de libertad. Los grados de libertad (n-1) son el divisor mediante el cual
se obtiene una estimacin insesgada de la varianza de una suma de cuadrados.

Los grados de libertad pueden variar de 1 a . Una distribucin t para grados de libertad igual a uno,
representa la mayor desviacin de la forma de una distribucin normal. Conforme los grados de libertad
se incrementan, la distribucin t se aproxima a la forma de una distribucin normal ( = 0, = 1) y al
contrastar los grficos de una distribucin t-student con 30 grados de libertad con respecto a una distri-
bucin normal, la diferencia es esencialmente indistinguible (figura 20).

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 79


Facultad de Ciencias Qumico Biolgicas
Figura 20. Curvas de frecuencias de distribuciones t (ver tabla 4 anexa) para 1 y 2 grados
de libertad, comparadas con la distribucin normal, tomado de Sokal y Rohlf (2000) (pag 145).

Con grados de libertad (gl) igual a la distribucin t es igual a la distribucin normal.

De esta forma podramos tomar a la distribucin t como un caso general de la distribucin normal
donde gl = .

As debido a que la distribucin t difiere de manera significativa de la distribucin normal cuando n=30,
es recomendable aproximar una distribucin de frecuencias a la distribucin t-Student, cuando el tama-
o de la muestra es menor a treinta datos.

La ley de t-student se utiliza en test de comparacin de parmetros como la media y en la estimacin


de parmetros de la poblacin a partir de la informacin que da la muestra. De esta manera con una
tabla de t se obtienen las probabilidades de obtener un valor de t al exterior del intervalo (-t/2 y t/2);
P|t| > t / 2) = (ver tabla 4 anexa)

As por ejemplo: si gl = 8 y = 0.05, |t/2 = 2.306|

si gl = 10 y = 0.01 |t/2= 3.170|

3.1.4.1 Momentos de la distribucin t-student

Su Mo = 0 Mo = moda

Su Me = 0 Me = mediana

E(t) = 0 si gl > 1

Var (t) = gl/gl-2 si gl > 2

80 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
3.1.5 La Distribucin Chi-cuadrada 2

La distribucin 2 al igual que la t-student y la normal, son fundamentales en estadstica inferencial,


especficamente la distribucin 2 en conexin con los lmites de confianza y distribucin de varianzas.

La distribucin 2 es una funcin de densidad de probabilidad en la cual los valores van de cero hasta
infinito. As como la distribucin normal o t, la funcin aproxima el eje 2 asintticamente hacia el lado
derecho de la curva y no hacia ambos lados.

Al igual que la distribucin t, no hay nicamente una sola distribucin 2, sino una distribucin 2 para
cada nmero de grados de libertad.

Por lo tanto, la distribucin 2 es una funcin de los grados de libertad como se muestra en la figura 21.
Como se observa la distribucin 2 tiende a la simetra a medida que los grados de libertad aumentan.

La distribucin 2 puede ser generada a partir de una poblacin con desviaciones estndar normales
con base en valores normalizados o estandarizados ((xi - )/); con repetidas muestras de tamao n, y
estandarizadas con la expresin previamente sealada.
n
Las cantidades Zi2, calculadas para cada muestra estarn distribuidas como una distribucin 2 con
n
n grados de libertad. Con los datos normalizados podemos escribir Zi2 como:

n
n
(xi - )2
Zi = i=1

Despus de muestreos repetidos o sucesivos y la estimacin de estadsticos, se puede obtener una


distribucin de frecuencias para esos estadsticos y calcular sus distribuciones estndar como en el
caso de una distribucin de frecuencia de la media. En algunos casos esos estadsticos estarn distri-
buidos normalmente como en el caso de las medias. En otros casos los estadsticos estarn distribuidos
normalmente slo si las muestras provienen de una poblacin normal o de muestras lo suficientemente
grandes.

Figura 21. Curvas de frecuencias de distribuciones de 2 para 1, 2, 3 y 6 grados de libertad.


Tomado de Sokal y Rohlf (2000) (Pag. 153).

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 81


Facultad de Ciencias Qumico Biolgicas
En la figura 22 se muestra una distribucin de frecuencias de las varianzas de 1400 muestras de 6
datos referentes a las longitudes de ala de moscas.

Es importante destacar que la distribucin se encuentra fuertemente sesgada hacia la derecha, lo cual
es una caracterstica de la distribucin de varianzas obtenidas a partir de muestras pequeas.

En la figura 22, tambin se muestran las frecuencias absolutas esperadas de una distribucin 2, con 4
grados de libertad, la cual coincide bien con la distribucin de frecuencias de las varianzas observadas
directamente de los datos. Como se mencion anteriormente, existen tablas 2 (ver tabla 5 anexa) para
diferentes funciones de reparticin de acuerdo a los grados de libertad, aqu los valores de 2 correspon-
den a las probabilidades = P(2 > 2), por ejemplo el valor de 2 con 12 gl 2(12) a un nivel de 0.5 =
21.03.

Aplicaciones de 2:

a) en test de comparacin de proporciones

b) en test de independencia de 2 caracteres cualitativos

c) en test de comparacin de medias experimentales

d) intervalos de confianza de una varianza

e) en test de comparacin de una varianza experimental

f) en test no paramtricos.

Figura 22. Histogramas de varianzas y valores esperados de la distribucin 2


con 4 grados de libertad, tomado de Sokal y Rohlf (2000) (Pag. 136).

82 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
3.1.5.1 Momentos de la distribucin 2

1. Mo = gl-2 (moda) si gl> 2

2. E(2) = gl (esperanza matemtica)

3. Var (2) = 2gl (varianza)

3.1.6 La Distribucin F de Fisher

Definicin: si 21 y 22 son una pareja de variables aleatorias independientes que siguen respectivamente
la ley 2 con gl1 y gl2 , entonces:

12 / gl1
F=
22 / gl2

La funcin f(F) depende de gl1 y gl2, por lo tanto existen tantas curvas de densidad de probabilidad que
valores de gl1 y gl2. As para identificar cada una de las funciones se utilizan las tablas de F.

= P(F(gl1, gl2) > F (gl1, gl2))

Para describir la distribucin F, se podra plantear un ejemplo donde se supone realizar un muestreo
al azar de una poblacin normalmente distribuida. El procedimiento de muestreo consiste en tomar una
primera muestra n1 y calcular su varianza s12, seguida de una segunda muestra n2 con varianza s22. Las
muestras n1 y n2 posiblemente sean del mismo tamao o no.

As por ejemplo, si se dividen las varianzas de ambas muestras, mediante la relacin, Fs = s12/ s22; el
cociente estar muy cerca a la unidad, porque las varianzas son estimadas de la misma poblacin.

Si se toman muestras repetidas de tamaos n1 y n2, y se calculan las relaciones Fs de sus varianzas el
promedio de estas relaciones se aproximar a ((n2 1)/(n2 3)), la cual es cercana a 1.0 cuando n2 es
grande. Esta distribucin se conoce como distribucin F, en honor a Ronald Aylmer Fisher.

Las relaciones entre varianzas muestrales (s12/ s22) son estadsticos de las muestras que posiblemente
sigan una distribucin F, dependiendo si las muestras siguen una distribucin normal.

La figura 23 muestra diferentes distribuciones F representativas. Para valores bajos de grados de


libertad la forma de la distribucin F se aproxima a una L, sin embargo a medida que se incrementan
los grados de libertad se forma un sesgo ms pronunciado hacia la derecha.

Los valores en una tabla F,gl1,gl2 (tabla 6 anexa), incluyen los valores de , la cual es la proporcin de
rea bajo la curva del lado derecho, con gl1 (numerador) y gl2 (denominador) de la relacin entre va-
rianzas respectivamente. La tabla de las proporciones de la distribucin F, se encuentra ordenada con
gl1 que corresponde a la varianza superior (numerador) entre las dos muestras, dispuesta a lo largo del
margen superior de la tabla y los gl2 que corresponde a la varianza menor (denominador), cuyos valores
se encuentran a lo largo del margen lateral de la tabla de la distribucin F.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 83


Facultad de Ciencias Qumico Biolgicas
Tres distribuciones F representativas

Figura 23. Curvas de distribucin de F para diferentes grados de libertad.


Tomado de Sokal y Rohlf (2000) (pag. 186).

Dado que en la pruebas de hiptesis usualmente se toma inters en valores bajos de , el extremo
derecho de la curva es especialmente enfatizado en las tablas F.

As por ejemplo una distribucin F con gl1= 6, gl2= 28 es de 2.45 a = 0.05; esto indica que 0.05 del
rea bajo la curva se presenta hacia el lado derecho de F = 2.45 (figura 24).

Dado a que es comn utilizar solo el lado de la derecha de una distribucin F, cuando se plantea una
prueba de hiptesis de dos extremos es necesario obtener valores de alfa > 0.5 (lo cual corresponde al
lado izquierdo de la distribucin F) por lo tanto es necesario aplicar la siguiente relacin:

Figura 24. Distribucin F con gl1 = 6, gl2 = 28; F = 2.45 a = 0.05.


Tomado de Sokal y Rohlf (2000) (Pag. 187).

84 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
1
F , gl1, gl2 =
F 1-, gl2, gl1

Es importante destacar con base en la expresin de arriba que si F0.05,5,24 = 2.64, y deseamos obtener
F0.95,5,24; debemos encontrar el recproco de F0.05,24,5 = 4.56.

3.1.6.1 Momentos de la distribucin F

a) la esperanza matemtica
gl2
E(F)= si gl2 > 2
gl2 -2

b) varianza
2gl22(gl1 + gl2 - 2)
Var(F)= si gl2 > 4
gl1(gl2 - 2)2 (gl2 - 4)

Aplicaciones de F:

La variable aleatoria F se utiliza para comparar 2 varianzas experimentales y sirve en test de


anlisis de varianza y covarianza. La covarianza es una generalizacin del concepto de varian-
za en un espacio de dos dimensiones (figura 25).

Figura 25. Interpretacin geomtrica de SXY,


tomado de http://www.bioestadistica.uma.es/libro/node38.htm

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 85


Facultad de Ciencias Qumico Biolgicas
N

(Xi - X) Yi - Y
i=1
Sxy = para poblaciones; y
N

(xi - x) yi - y
i=1
Sxy = para muestra
N -1

[ ]
As se deduce la varianza cuando x = y Sx2 SXY
S= SyxSy2

De este modo:

Si hay mayora de puntos en el tercer y primer cuadrante, ocurrir que SXY 0, lo que se puede
interpretar como que la variable Y tiende a aumentar cuando lo hace X;

Si la mayora de puntos estn repartidos entre el segundo y cuarto cuadrante entonces SXY 0,
es decir, las observaciones Y tienen tendencia a disminuir cuando las de X aumentan;

Si los puntos se reparten con igual intensidad alrededor de (x, y), entonces se tendr que:
SXY = 0.

Cuando los puntos se reparten de modo ms o menos homogneo entre los cuadrantes primero y
tercero, y segundo y cuarto, se tiene que SXY 0 (figura 26). Eso no quiere decir de ningn modo que
no pueda existir ninguna relacin entre las dos variables, ya que sta puede existir como se aprecia en
la figura 26 (derecha).

Para concluir, en la covarianza se tiene que:

Figura 26. Reparticin homognea de los puntos cuando SXY 0.


Tomado de http://www.bioestadistica.uma.es/libro/node38.htm

86 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Si SXY > 0, las dos variables crecen o decrecen a la vez (nube de puntos creciente).

Si SXY < 0 cuando una variable crece, la otra tiene tendencia a decrecer (nube de puntos
decreciente).

Si los puntos se reparten con igual intensidad alrededor de (x, y), SXY = 0, (no hay relacin
lineal).

3.2 LA INFERENCIA Literatura sugerida:


ESTADSTICA
Daniel.W. W., 1982. Biostadstica. Limusa. Mexico.
La inferencia estadstica de acuerdo a Da- 485 p (pg. 1, 140, 142)
niel, 1982 es el procedimiento por el que se
llega a inferencias respecto a una poblacin, Scherrer B., 1984. Biostatistique. Gatan Morin
Editor. Montreal, Paris, Casa Blanca. 850 p (Pg
con base en los resultados que se obtienen 337-343).
a partir de una muestra extrada de esa po-
blacin. La inferencia estadstica incluye dos Zar. J. H., 1999. Bostatistical Analysis (4 edicin).
reas generales: la estimacin y las prue- Prentice Hall. Estados Unidos. 663 p. (Pag. 91-92,
122-131).
bas de hiptesis.
http://www.itcomitan.edu.mx/tutoriales/estadistica/
La estimacin conlleva a calcular, basado
contenido/unidad_4.html
en los datos de una muestra, alguna esta-
dstica que puede ser vista como una apro-
ximacin del parmetro correspondiente a la poblacin, de la cual se extrajo la muestra. De esta manera
se habla de estimacin puntual, en el caso de por ejemplo, el valor promedio de la caracterstica
(variable) que se este midiendo y de estimacin de intervalo al conjunto de dos nmeros entre los
cuales se pretende que se encuentre la cantidad desconocida. Al dar una estimacin de intervalo suele
proporcionarse una medida de la confianza que se tiene de la estimacin. La regla o frmula que indica
como calcular el valor de la estimacin se le conoce como estimador as por ejemplo:

n
xi
i=1
X= n

Es un estimador de la media poblacional y el valor nico que resulta de la evaluacin de esta frmula
se llama estimacin del parmetro .

Las pruebas de hiptesis se basan en decisiones estadsticas. En la prctica el investigador debe de


tomar ciertas decisiones sobre la poblacin a partir de la informacin proporcionada por una o muchas
muestras. As por ejemplo el decidir sobre las hiptesis de si un nuevo medicamento es efectivamente
eficaz para curar una enfermedad, o si la densidad de una especie animal es igual de alta en dos medios
de cultivo, o si la concentracin de DDT en el tejido adiposo no aumenta con la edad de los sujetos, tales
decisiones se llaman decisiones estadsticas. Ms adelante se hablar ms a fondo sobre estas hip-
tesis y a continuacin se sealarn las estimaciones por intervalo o intervalos de confianza, se explica
como calcularlos y como se utilizan las pruebas de hiptesis:

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 87


Facultad de Ciencias Qumico Biolgicas
3.2.1 Estimacin por Intervalo (Intervalos de Confianza)

Las estimaciones dadas por una muestra, no son interpretables que acompaadas de indicadores cuan-
tificables, fijando un grado de confianza que se les pueda otorgar. Un intervalo de confianza indica la
prescisin de una estimacin, puesto que para un riesgo de dado, el intervalo es ms grande que la
prescisin es menor. La estimacin por intervalo se realiza cuando algn parmetro de la poblacin se
encuentra ubicado dentro de un lmite inferior y un lmite superior segn el nivel de confiabilidad a consi-
derar, donde la poblacin que se analiza se distribuye de acuerdo a una distribucin normal. El resultado
final est expresado en trminos de la probabilidad de que un parmetro determinado se ubique dentro
de cierto intervalo de valores, bajo un grado de confianza definido.

Para llevar a cabo la estimacin por intervalo de algn parmetro de la poblacin es necesario partir
de los estadsticos o estimadores, apoyados de las proporciones de distribucin continuas, tomadas de
las tablas correspondientes (t-student, 2 y Z).

3.2.1.1 Estimacin por intervalo para la media poblacional

La estimacin por intervalo con = 0.05, para la media se basa en la siguiente expresin:

P(X- t/2 Sx < < X + t/2 Sx) = 1 - para n < 30

P(X- Z/2 Sx < < X + Z/2 Sx) = 1- para n > 30

El error tipo ser para ambas estimaciones:

Sx
Sx = para t y v = n-1
n-1

Sx
Sx = para Z
n

Si se tiene conocimiento de la poblacin total la ecuacin del error tipo se modifica en:

Sx
Sx = N-n
N donde, N es de la poblacin y n de la muestra
n

Donde la primera expresin es utilizada para muestras donde n 30, y la segunda expresin cuando
n > 30, con base en la distribucin t-student y la distribucin normal, para la bsqueda de los valores
crticos, t/2,V y z/2), respectivamente. La expresin, Sx, indica el error estndar asociado a la muestra.
(notar que en la expresin t/2,v , la v indica grados de libertad)

La cantidad referida ( X t/2 Sx), o (X- z/2 Sx), es llamada limite de confianza inferior (abreviado
como L1); y la sealada (X+ t/2 Sx), o ( X + z/2 Sx), es llamado limite de confianza superior (abreviado
como L2).

88 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Por definicin los coeficientes de confiabilidad al 95% o = 0.05, al 99% o = 0.01 y al 99.9%
=0.001son:

P( X- 1.96 Sx < < X + 1.96 Sx) = 0.95 = 0.05

P(X - 2.57 Sx< < X+ 2.57 Sx) = 0.99 = 0.01

P(X - 3.3 Sx < < X + 3.3 Sx) = 0.99 = 0.001

Ejemplo 16. Supongamos que necesitamos determinar la estimacin por intervalo para la media, ,
de una poblacin que sigue una distribucin normal con desviacin estndar, Sx = 5.1, en una prue-
ba donde se quiere conocer el promedio de oxgeno disuelto que se tiene en un sistema acucola,
con base en un nivel de confianza de 95%, a partir de una muestra n= 100, con un promedio de 4.2
mg/l.

Para la solucin del problema, utilizamos la distribucin normal debido a que n > 30, obteniendo el
estadstico terico, Z0.05(2)= 1.96;

5.1
un error estndar, Sx = = 0.51
100

por lo tanto el limite inferior sera, L 1 = 4.2-[1.96(0.51)] = 3.2,

y el lmite superior sera, L2 = 4.2+[1.96(0.51)] = 5.2.

El resultado se expresa de la siguiente forma:

P(3.2 5.2) = 0.95

Esto indica que hay un 95% de posibilidades de que la media del oxgeno disuelto sea superior a
3.22 mg/l e inferior a 5.22 mg/l.

3.2.1.2. Estimacin por intervalo para la varianza poblacional

Los intervalos de confianza pueden tambin ser determinados para otros parmetros de la poblacin,
con el propsito de expresar una mayor precisin en las estimaciones de esos parmetros.

La distribucin muestral de la media es una distribucin simtrica, la cual se aproxima a una distri-
bucin normal a medida que el valor de n se incrementa. Pero la distribucin muestral de la varianza
no es simtrica y ni la distribucin normal o la distribucin t pueden ser empleados para determinar los
limites de confianza alrededor de la varianza poblacional o para probar hiptesis acerca de la varianza
poblacional, 2. Entonces se debe emplear la distribucin 2 para definir los intervalos de confianza
correspondientes a la varianza de la poblacin.

Si se desean conocer los dos valores de 2 que incluye 1 - de la curva de chi-cuadrada, debemos
de encontrar la porcin de la curva entre 2(1-/2), v y 2(/2), v (Para un 95% de intervalo de confianza, esto
sera entre (20.975, y 20.025, ). Dichos intervalos de confianza se calculan a travs de la siguiente expre-
sin:

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 89


Facultad de Ciencias Qumico Biolgicas
(n -1) s2x (n -1) s2x
P( 2 = 0.95
/2
2
/2
2

0.025 0.975

(n -1) s2x (n -1) s2x


P( 2 = 0.99
/2
2
/2
2

0.005 0.995

S2X es la varianza muestral y corresponde a los estadsticos tericos basados en las proporcio-
nes de la distribucin de 2.

Ejemplo 17. En una investigacin se pretende analizar la variabilidad del tiempo de reaccin de cier-
to medicamento aplicado a una especie de peces, donde la poblacin sigue una distribucin normal
con un 5% de error, tomndose una muestra de n = 20 con una varianza muestral sx2 = 72.25 hr2.
Cual ser la estimacin por intervalo para la varianza poblacional.

Para la solucin del problema expuesto arriba, como se mencion previamente, utilizamos la distri-
bucin chi-cuadrada, obteniendo los estadsticos tericos, 20.975,19 (buscado en tabla, para el limite
inferior, L1) y 20.025,19 (buscado en tabla, para el limite superior, L2); y la varianza muestral, sx2 =
75.25, por lo tanto el limite inferior, L1 = [19(72.25)]/32.85 = 41.78, as mismo el lmite superior, L2 =
[19(72.25)]/8.91 = 154.07.

El resultado se expresa de la siguiente forma:

P(41.78 2 154.08) = 0.95

Esto indica que hay un 95% de posibilidades de que la media de la variabilidad de tiempo de reaccin
sea superior a 41.78 hr2 e inferior a 154.08 hr2

3.2.1.3. Estimacin por intervalo para la desviacin estndar

Para calcular los intervalos de confianza de la desviacin estndar, simplemente se saca la raz cuadra-
da de los intervalos de la varianza


(n - 1) S2x (n - 1) S2x
P 2 2 21- /2(0.975) = 0.95
/2(0.25)


(n - 1) S2x (n - 1) S2x
P 2/2(0.005)
2
21- /2(0.995) = 0.95

90 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
3.3. TAMAO O TALLA DE MUESTRA
La pregunta de que tan grande tomar la muestra, surge inmediatamente en la planificacin de cualquier
investigacin o experimento. Esta es una cuestin importante y no debe tomarse a la ligera. Tomar una
muestra ms grande de lo necesario para alcanzar los resultados deseados, es un desperdicio de los
recursos, mientras que muestras pequeas a menudo conducen a resultados sin uso prctico. Enton-
ces, como se puede proceder acerca de la determinacin del tamao de la muestra que se necesita en
una situacin dada?.

La talla de muestra n se calcula como:

z22 s tn-1 S
n = d2 o x E= tn-1 * n = x* E
=n

Donde Z es el valor del coeficiente de confianza, 2 es la varianza y d2 que es el intervalo de confianza


multiplicado por el error estndar elevado al cuadrado.

Ejemplo 18. Una neurloga del departamento de salud pblica, deseando conducir una investiga-
cin entre una poblacin de muchachas adolescentes, con el fin de determinar su ingestin diaria
promedio de protenas, est buscando consejo de un bioestadsitico, relativo al tamao de la muestra
que debe tomar.

Que procedimiento sigue el estadstico para dar asistencia a la nutriloga? Antes de que el estads-
tico pueda ayudar a la nutriloga, esta debe dar tres detalles de informacin: el ancho deseado del
intervalo de confianza, el nivel de confianza deseado y la magnitud de la varianza de la poblacin.
Supongamos que a la neurloga le gustara que su estimacin estuviera dentro de 5 unidades aproxi-
madamente de la verdadera en cualquier direccin (intervalo de confianza). Supongamos tambin
que se decide por un coeficiente de confianza de 0.95 (Z) y que, de su experiencia pasada, la nutri-
loga siente que la desviacin estndar de la poblacin es probablemente de alrededor de 20 gramos.
Ahora el estadstico tiene la informacin necesaria para calcular el tamao de muestra: z = 1.96, 2
es 20 y d2 = 5. Supongamos que la poblacin de inters es grande, de modo que el estadstico puede
ignorar la correccin de poblacin finita y usar la ecuacin anterior. El estadstico recomienda a la
neurloga que su tamao de muestra debe ser de 61 personas

(1.962)(202)
n= 52 = 61.44

Cuando el muestreo es sin reemplazo a partir de una poblacin finita, se requiere la correccin por
poblacin finita:

(Nz2)(2)
n = d2 (N-1)+ z22

Es importante mencionar que para poblaciones pequeas, se sustituye Z por el valor de t-student al
nivel de confianza deseado.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 91


Facultad de Ciencias Qumico Biolgicas
3.4. PRUEBAS DE HIPTESIS
Uno de los principales propsitos del anlisis estadstico es hacer inferencias acerca de la poblacin
mediante la comparacin de una o ms muestras de la poblacin, para esto hay que formularse hip-
tesis estadsticas. La primera hiptesis se denomina hiptesis nula (Fisher, 1935) abreviada H0 (Pear-
son, 1947) esta supone un efecto dado: por ejemplo, podramos tratar de probar la hiptesis de H0: El
poder aglutinante del suero es el mismo en los cirrticos que en los sujetos normales, o bien, H0:
La densidad del pjaro es la misma en los bosques tropicales que el los bosques de conferas.
Esta hiptesis expresa el concepto de no diferencia. Estas hiptesis difieren de la hiptesis alternati-
va o contraria (H1 o HA) y supone lo contrario de H0. Por ejemplo, H1: El poder aglutinante del suero
en los cirrticos difiere de los sujetos normales. H1: La densidad del pjaro es diferente en los
bosques tropicales que el los bosques de conferas.

Una vez definidas las hiptesis estadsticas, estas deben ser sometidas a una prueba de verdad, es
decir definir si los resultados obtenidos por la muestra son conforme a los resultados supuestos, de esta
manera definir si las diferencias registradas entre las observaciones y las hiptesis provienen del azar.

3.4.1 Riesgos de Error en un Test Estadstico

Cada test estadstico comporta dos riesgos de error. a) Los riesgos de error en un test estadstico
Si se rechaza una hiptesis que debera ser aceptada, Hiptesis H0 es verdad H1 es verdad
se comete un error tipo , tambin llamado de prime- H0 aceptada Buena decisin Error

ra especie (Tipo I), y por el contrario b) Si se acepta H0 rechazada Error Buena decisin

una hiptesis que debera ser rechazada se comete un


error de tipo o de segunda especie (Tipo II). En el ejemplo de los cirrticos, representa el riesgo
de declarar diferente la media del poder aglutinante del suero de los cirrticos y los sujetos normales,
mientras que son idnticas a nivel de poblaciones, y es el riesgo de declarar idnticas las medias de
ambos grupos mientras que son diferentes.

El clculo del riesgo de error, depende de la manera como ha sido construido el test estadstico; as por
ejemplo en el caso de formular un test para dimorfismo sexual en camarones a partir de la longitud total,
se tiene una muestra de 121 individuos de los cuales se determin el sexo por observacin del tlico.
La longitud total media de 65 machos es 61.16 mm y la desviacin estndar de 1.11 mm. Si se admite
que la distribucin de la variable es normal, y que la media de la muestra es una buena estimacin de la
media poblacional, se puede decir que:

P(X X + Z Sx) = 0.05

P(X 61.16 + 1.64* 1.11) = 0.05 1.64 corresponde al valor de Z para un test
unilateral donde = 0.05.
P(X 62.98) = 0.05

Hiptesis establecidas:

H0: el camarn extrado aleatoriamente de la poblacin que posee una longitud total Xi es un macho

H1: el camarn extrado aleatoriamente de la poblacin que posee una longitud total Xi es un hembra

92 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Las reglas de decisin pueden establecerse de la siguiente manera:

Si Xi es superior al valor crtico 62.98 mm la hiptesis es rechazada y el camarn es conside-


rado como una hembra

Si Xi es inferior a 62.98 mm la hiptesis principal es aceptada y el camarn es un macho (figura


27).

H (61,16, 1, 11)
= 1,11
= 0,05

61,16 62,98 x en mm

Figura 27. Distribucin de la longitud de camarn (mm) y nivel de significativdad.


Modificado se Scherrer (1984) (pg, 370)

Con esta regla, el riesgo de tomar a una hembra por un macho es = 0.05, en cuanto al riesgo de
tomar un macho por una hembra, este puede ser calculado a partir de las caractersticas de la poblacin
de machos inmaduros.

Si se considera que la longitud media de los camarones hembras, calculada sobre 56 individuos es
63.74 mm con una desviacin estndar de 1.20 mm y se admite que la distribucin de la variable obede-
ce a una distribucin normal, es posible calcular la probabilidad de tener un macho con longitud inferior
a 62.98 mm, nivel = 0.05 (figura 28)

P(X < 62.98) =

62.98 - 63.74
P(Z > )=
1.2
P(X < - 0.716) =

Ahora se lee 0.716 en la tabla de reas bajo la curva de Z, para este valor Z = 0.7611 para obtener
se resta 1 al valor obtenido (puesto que el rea total bajo la curva vale 1) con lo que = 0.239 es decir
que la probabilidad de tomar a una hembra por un macho es 23.9%.

Para que un test estadstico sea eficaz, debe de estar construido de manera que los errores en la
decisicin sean mnimos. Lo que no es simple, puesto que para una muestra de un tamao dado, la dis-
minucin de un tipo de error, es normalmente acompaada por el incremento del otro tipo. En la prctica,
un tipo de error puede ser ms importante que otro, el investigador tiene que definir el nivel de error que
arriesga, con el fin de limitar el error ms importante.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 93


Facultad de Ciencias Qumico Biolgicas
Figura 28. Distribucin de la longitud de camarn (mm) y nivel de significatividad y error .
Tomado se Scherrer (1984) (Pg, 371)

3.4.2. Umbral de Probabilidad o Nivel de Significatividad

Cuando se prueba una hiptesis se arriesga un error hasta un cierto nivel, a este se le llama umbral
de probabilidad o nivel de significatividad. Se reconoce como significativo al nivel de probabilidad igual
al 0.05, muy significativo en nivel 0.01 y altamente significativo el nivel 0.001. As si por ejemplo si se
escoge el nivel de 0.05 entonces se dice que hay 5 oportunidades sobre 100 de rechazar una hiptesis
H0 cuando esta debe ser aceptada.

3.5 PRUEBAS DE HIPTESIS DE UNA COLA O DOS COLAS, LLAMADO


TAMBIN TEST UNILATERAL O BILATERAL

Antes de aplicar todo test estadstico hay que definir el problema propuesto, as segn las hiptesis for-
muladas, se habla de un test bilateral o unilateral. El test bilateral se utiliza cuando se tiene que definir
entre dos estimaciones, o entre una estimacin y un valor dado sin tener en cuenta el signo o sentido de
la diferencia, es decir slo se utiliza si la H0 (hiptesis nula) seala la igualdad. El test unilateral se aplica
cuando se necesita saber si una estimacin H1 (hiptesis alternativa) es superior o inferior a otra.

Las determinaciones de las zonas de aceptacin o de rechazo en un test unilateral y bilateral se mues-
tran en la figura 29:

94 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
H1 : 1 < 2 unilateral

H1
H0
Regin de
rechazo

Regin de aceptacin

Parmetro = x

H1 : 1 > 2 unilateral

H1
H0
Regin de
rechazo

Regin de aceptacin

Parmetro = x

H1 : 1 2 bilateral
H0
H1 H1
Regin de Regin de
rechazo rechazo
/2 /2
Regin de aceptacin

Parmetro = x

Figura 29. Regiones de aceptacin y rechazo de la hiptesis nula para test unilateral y bilateral.
Tomado de http://www.itcomitan.edu.mx/tutoriales/estadistica/contenido/unidad_4.html

3.5.1. Pruebas de Hiptesis Paramtricas con una Muestra

Dentro de las pruebas de hiptesis podemos distinguir dos grupos principales, aquellas que trabajan
con datos presentados en escala cardinal, donde las muestras siguen una distribucin normal, y las
varianzas son homogneas; denominadas pruebas estadsticas paramtricas, ya que utilizan los pa-
rmetros para hacer las inferencias estadsticas. Por otro lado tenemos las pruebas estadsticas no
paramtricas que comnmente se basan en suma de rangos para establecer diferencias entre dos o
ms muestras. Asimismo las pruebas de hiptesis no paramtricas son utilizadas ms como pruebas
alternativas debido a su bajo poder estadstico.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 95


Facultad de Ciencias Qumico Biolgicas
En general para plantear una prueba de hiptesis, esta deber estar basada en algn parmetro de
la poblacin (varianza, media, proporcin, etc.) y de acuerdo a la muestra o nmero de pruebas que se
pretende comparar.

En la figura 30 se muestra la utilizacin del test de Z para comparar una media de una muestra obser-
vada a una media hipottica o histrica de una poblacin.

H0 : x = M

Media observada muestra

x-M Media hipottica


Z calculado = t calculado =
error estndar s/n Tamao de muestra

Desviacin standard muestra

BILATERAL UNILATERAL

/2 /2

HA : M x IZQUIERDO DERECHO

H1 : M < x H1 : M > x
(slo si la media muestral slo si la media muestral
t crtica = t 0.05 (2), n -1 < media hipottica) > media hipottica)

z crtica = z 0.05 (2) = 1.96

t crtica = - t 0.05 (1), n -1 t crtica = - t 0.05 (1), n -1


z crtica = - z 0.05 (1) z crtica = - z 0.05 (1)

- 1.64 + 1.64

DECISIN

si t calculado o Z calculado si t calculado o Z calculado si t calculado o Z calculado


se encuentra entre es mayor que es menor que
t 0.05 (2) n-1 o Z = 1.96 respectivamente - t 0.05 (2) n-1 o Z = - 1.64 t 0.05 (2), n-1 o Z = 1.64

NO RECHAZAR H0 NO RECHAZAR H0 NO RECHAZAR H0

Figura 30. Prueba de hiptesis paramtrica de una muestra


(media obervada vs hipottica o hstrica) H0: = x

96 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Ejemplo 19. Se compara la media muestral (10.43 mg/m3), con respecto a una media poblacional hi-
pottica (10.0 mg/m3), de 31 datos correspondientes a concentraciones de monxido de carbono en
aire, con un error estandard de 0.24 mg/m3; no encontrndose diferencias significativas entre dichas
medias (p > 0.05), es decir a un nivel de significatividad de 0.05.

El primer procedimiento es plantear las hiptesis, que podran enunciarse como sigue:

H0: La concentracin media de monxido de carbono en aire tomada de una muestra de datos, es
igual a la reportada en los registros ?.

H1: La concentracin media de monxido de carbono en aire tomada de una muestra de datos, es
diferente a la reportada en los registros ?.

Se plantean las hiptesis estadsticas

H0: = X

H1: X

X-
Test a utilizar: Z =
2

10.43 mg/ m3 - 10.00 mg / m3


Aplicacin del test: Z = = 1.79 mg/m3
0.24 mg / m3

Se busca 1.79 en la tabla de valores de Z a un nivel de significatividad de = 0.05

Entonces como: P (X 10.43 mg /m3) = P (Z) 1.79 = 0.0367

El valor para una cola de la distribucin corresponder entonces 0.0367, como son dos colas en la
ditribucin Z = 0.0367+0.0367 = 0.0734

Como Z() a un nivel de significatividad de 0.05 es 1.96, se compara este valor al valor obtenido
anteriormente. Como P(Z() > Z.

- Z/2 Z/2

-1.96 -1.79 0 +1.79 1.96

Aceptacin
Rechazo Rechazo

Conclusin: Como 0.0734 > 0.05 se acepta la H0, por lo que el promedio de la concentracin de mo-
nxido de carbono obtenido en la muestra es igual a la media de la poblacin registrada.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 97


Facultad de Ciencias Qumico Biolgicas
Ejemplo 20. Se compara una muestra de veinticinco datos de temperaturas corporales de cangrejos
intersticiales, con respecto a la temperatura ambiente promedio (24.3C) a un nivel de error del 5%.
Los datos son los siguientes:

25.8, 24.6, 26.1, 22.9, 25.1, 27.3, 24.0, 24.5, 23.9, 26.2, 24.3, 24.6, 23.3, 25.5, 28.1, 24.8, 23.5, 26.3,
25.4, 25.5, 23.9, 27.0, 24.8, 22.9, 25.4.

El primer procedimiento es plantear las hiptesis, que podran enunciarse como sigue: la media es
de 25.03C

H0: La temperatura corporal promedio de la muestra de camarn es igual a la temperatura ambiente


promedio?.

H1: La temperatura corporal promedio de la muestra de camarn es diferente a la temperatura am-


biente promedio?.

Se plantean las hiptesis estadsticas

H0: =24.3 C

H1: 24.3 C

n = 25

X= 25.03 C

S2 = 1.80 C

Sx = 1.8025 C = 0.27C

Sn x
2

Sx = = 0.27C error estndard

Test a utilizar: t= X-
Sx
25.03C - 24.3 C
Aplicacin del test: t = 0.27 C = 2.704C

Se busca en la tabla de valores de t el 2.704 a un nivel de significatividad de = 0.05 y a 24 gl


(grados de libertad n-1 es decir 25-1). El valor obtenido es 2.064.

- Z/2 Z/2

-2.70 -2.06 0 +2.06 2.70

Aceptacin
Rechazo Rechazo

Conclusin: Como t() a un nivel de significatividad de 0.05 es 2.064 y este es menor que 2.704 cal-
culado, se rechaza H1 y se acepta H1 por lo que la muestra de la temperatura media de los cangrejos
que provienen de la zona intersticial es diferente a la del medio ambiente.

98 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
3.5.1.1 Prueba de hiptesis de una muestra para la varianza poblacional

As como se puede comparar una media muestral a una media poblacional terica, el proceso es idn-
tico para la varianza (figura 31).

H0 : 2 = valor hipottico

grados de libertad

gls2 varianza muestral


C2 calculada = 2
varianza hipottica o histrica

DE DOS EXTREMOS UN EXTREMO

/2 /2

H1 : 2 x H1 : 2 < x H1 : 2 > x

Si la varianza muestral Si la varianza muestral


< varianza hipottica > varianza hipottica
x2 crtica = C2 0.05 (2) C2 crtica = C2 0.05 (1) C2 crtica = C2 0.05 (1)
C2 0.02, gl
= C2 0.05, gl = C2 0.95, gl
C 1-0.05 gl = C2 0.975, gl

DECISIN

si C2 calculada si C2 calculada si C2 calculada


se encuentra entre es mayor que es menor que
C2 0.025, gl y C2 0.975, gl C2 0.05, gl C2 0.95, gl

NO RECHAZAR H0 NO RECHAZAR H0 NO RECHAZAR H0

Figura 31. Prueba de hipotsis paramtrica para una muestra


(varianza observada vs Varianza hipottica o histrica

Ejemplo 21. Se quiere saber si la varianza obtenida del tiempo de disolucin de un alimento artificial
en agua (2.6898 seg2) es significativamente mayor a 1.5 seg2. datos obtenidos de una muestra de 7
lecturas del tiempo de disolucin del alimento artificial en agua.

H0: La varianza obtenida del tiempo de disolucin de un alimento artificial en agua es igual a 1.5
seg2.

H1: La varianza obtenida del tiempo de disolucin de un alimento artificial en agua es mayor que 1.5
seg2.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 99


Facultad de Ciencias Qumico Biolgicas
Ejemplo 21 (Continuacin)

H0: sx2 = 1.5 seg2

H1: sx2 > 1.5 seg2

(gl) (s2x )
Test a utilizar: 2 = donde: gl son los grados de libertad
2x

(7) (2.6898) 18.8288 sec2


Aplicacin del test: 2 = =
= 12.553
1.5 1.5 sec2

Ahora se busca el valor de 2 de la tabla a un nivel de significatividad de 0.05 y para 7 grados de


libertad que es 14.067

C2/2

14.067
0 12.55
Rechazo
Aceptacin

Conclusin: como 12.553 < 14.067, no se rechaza H0 a un nivel de significatividad de 0.05 por lo que
la varianza obtenida del tiempo de disolucin en el alimento artificial en agua no es significativamente
mayor a 1.5 seg2.

3.5.2. Pruebas de Hiptesis con Dos Muestras

Dentro de los procedimientos estadsticos ms comnmente empelados est la comparacin de dos


muestras para inferir si existen diferencias entre dos poblaciones. Como en el caso de una sola mues-
tra las pruebas de hiptesis para dos muestras pueden ser utilizadas para comparar dos medias, dos
varianzas, dos proporciones, etc.

Al igual que para los casos de una sola muestra; las pruebas de hiptesis para dos muestras donde se
hacen inferencias acerca de la poblacin son denominados mtodos paramtricos.

Por otra parte de acuerdo con la naturaleza de las muestras en trminos de estrecha interdependen-
cia podemos distinguir entre muestras dependientes y muestras independientes; las primeras son
reconocidas en algunas instancias cuando cada observacin de la primera muestra esta de alguna
manera correlacionada con una o ms observaciones de la segunda muestra, o en su caso, cuando
los elementos de la segunda muestra son el resultado final de los elementos de la primera muestra

100 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
despus de un tratamiento determinado. De manera contraria las muestras independientes nicamente
comparten la variable, sin embargo estas podran o no estar correlacionadas, o en su caso ser tomadas
bajo condiciones distintas.

3.5.2.1. Pruebas paramtricas para muestras independientes

3.5.2.1.1. Comparacin entre dos varianzas muestrales

Este anlisis lo que busca a saber es si las varianzas y por supuesto sus desviaciones de dos mues-
tras (test F) o varias muestras (test Barlett), no ser tratado en este libro), son las estimaciones de una
misma varianza 2 o de una misma . Para realizar este test se supone la normalidad de la distribucin.
Este test consiste a someter a una prueba de verdad la hiptesis principal de igualdad de varianzas
(figura 32).

Si la hiptesis alternativa propuesta es 21 < 22, la resolucin del test y las reglas de decisin son
iguales, pero hay que cambiar el numerador y el denominador de la relacin F y los nmeros de gl del
valor crtico de F de la primera muestra y los nmeros de gl del valor crtico de F de la segunda
muestra.

H0 : 2 = 2
1 1

12 varianza mayor
F calculada = 2
1 varianza menor

DE DOS EXTREMOS EXTREMO DERECHO

/2 /2

H1 : 21 22 H1 : 2mayor> 2menor

F 0.025, gl (num.), gl (den.) = F crtica = F 0.05 (1), gl (num.), gl (den.)


1
F crtica = F 0.05(2)
F 0.975, gl (den.), gl(num.)
F 0.975, gl (num.), gl(den.)

si F calculada si F calculada
se encuentra entre es menor que
F 0.025, gl(n), gl(d) y F 0.975, gl (n), gl (d) F 0.05 (1), gl(n), gl(d)

NO RECHAZAR H0 NO RECHAZAR H0

Figura 32. Prueba de hiptesis para dos muestras


(Varianza muestra 1 vs varianza muestra 2)

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 101


Facultad de Ciencias Qumico Biolgicas
12 Sx12
As F calculada = equivale a decir F calculada = de las muestras comparadas.
22 Sx22

Los grados de libertad tambin tendrn que ser cambiados de orden para poder ser ledos en las tablas
de F.

Ejemplo 22. En un estudio se hicieron determinaciones de Hospitalizados No hospitalizados


amilasa en el plasma de una poblacin de personas hospi-
n1= 22 n2=15
talizadas, y otro de personas no hospitalizadas, la mayor va-
rianza se present en las primeras personas; los resultados S21= 1600 S22= 1225
son los siguientes:

Condiciones de aplicacin: los datos provienen de muestras independientes, distribuidas normal-


mente.

H0: La varianza en la determinacin de amilasa en el plasma de una poblacin de personas hospita-


lizadas es igual al de las personas no hospitalizadas.

H1: La varianza en la determinacin de amilasa en el plasma de una poblacin de personas hospita-


lizadas es mayor al de las personas no hospitalizadas.

H0: 21 = 22

H1: 21 > 22

2
Sx1
Test a utilizar: F= 2
Sx2

1600
Aplicacin del Test: F= = 1.31
1225

f (F)

F (21, 14)

1.31 2.39
rechazo
Aceptacin

Ahora se busca el valor de F de la tabla a un nivel de significatividad de 0.05 y para 21 ( 22-1) y


14 grados de libertad (15-1), el valor obtenido es 2.39, por lo tanto como F calculado es menor a
F(2.39) se acepta la H0 , por lo que la determinacin de la amilasa en el plasma de las personas
hospitalizadas no es significativamente mayor que el de las personas no hospitalizadas.

102 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
3.5.2.1.2. Comparacin entre dos medias muestrales independientes, bajo el supuesto de
homogeneidad de varianzas (grandes muestras independientes n>30 y pequeas muestras
independientes n< 30)

Grandes muestras. Si X1, X2,Xn son variables aleatorias, independientes y normales, su suma o
diferencia siguen una distribucin normal, donde la esperanza matemtica es la suma o la diferencia de
las esperanzas matemticas.

Z=X1 + X2 ++Xn o Z=X1 -X2 --Xn

E(Z)=E(X1)+E(X2)++E(Xn)

E(Z)=E(X1)-E(X2)--E(Xn)

Por lo tanto la varianza es igual a la suma de las varianzas de las variables de origen.

2= 2 (X1)+ 2 (X2)++ 2 (Xn)

Si se considera entonces que: dos poblaciones de origen, tienen medias idnticas, se podran compa-
rar mediante la siguiente frmula:

X1 - X2
Zc =


2 2
Sx1 Sx2
+
n1 n2

La H0 se somete a una prueba de verdad despus de poner formular H1, la cual se puede formular de
tres formas:

a) H1 : 1 2 (test bilateral)
Si H0 es verdad, el valor de Z calculado tiene una probabilidad 1- de situarse en el inter-
valo siguiente: P(-Z/2< Zc <+Z/2)= 1-
Hay dos reglas de decisin:
- Si Zc se encuentra entre los 2 valores crticos -Z /2 y +Z /2 H0 es aceptada y se corre un
riesgo del cual no se conoce el nivel.
- Si Zc se encuentra al exterior del intervalo mencionado, H0 es rechazada y H1 aceptada al
nivel de significatividad , del cual se conoce el nivel.

b) H1 : 1 > 2 (test unilateral)


Si H0 es verdad, el valor de Z calculado tiene una probabilidad 1- de situarse en el intervalo
siguiente: P(-Z> Zc)= 1-
Hay dos reglas de desicin:
- Si Zc es inferior al valor crtico Z, H0 es aceptada y se corre un riesgo del cual no se cono-
ce el nivel.
- Si Zc es superior al valor crtico Z, H0 es rechazada y H1 aceptada y se corre un riesgo de
error .

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 103


Facultad de Ciencias Qumico Biolgicas
c) H1 : 1 < 2 (test unilateral)
Si H0 es verdad, el valor de Z calculado tiene una probabilidad 1- de situarse en el interva-
lo siguiente: P(-Z > Zc)= 1 -
Hay dos reglas de decisin:
- Si Zc es superior al valor crtico -Z, H0 es aceptada y se corre un riesgo del cual no se
conoce el nivel.
- Si Zc es inferior al valor crtico -Z, H0 es rechazada y H1 aceptada y se corre un riesgo de
error .

La figura 33, muestra la prueba de hiptesis paramtrica para dos muestras independientes, supo-
niendo homogeneidad de varianzas, se muestra el test a utilizar para grandes muestras y pequeas
muestras.

H0 : X2 = X2

x1 - x2
Zc = (cuando n > 30)

2 2
Sx1 + S x
1

Z calculada = t calculada
x1 - x2 (cuando n < 30)
tc=


spd
1 1
n1 + n2
gl = n1 + n2 -2

spd (n1 -1) S2x + (n2 - 1) S2x


1
n1 + n2 - 2
2

DE DOS COLAS UNA COLA

IZQUIERDO DERECHO

/2 /2
=

H1 : X1 X2 H1 : X1 < X2 H1 : X1 > X2
(solo si la (solo si la
media muestral 1 < media muestral 2) media muestral 1 > media muestral 2)

t crtica = t 0.05 (2) gl1 gl2 t crtica = t 0.05 (1) gl1 + gl2 t crtica = t
0.05 (1) gl1 + gl2
Z crtica = Z 0.05 (2) = 1.96 Z crtica = - Z 0.05 (1) = - 1.64 Z crtica = Z 0.05 (1) = 1.64

DECISIN

NO RECHAZAR H0 NO RECHAZAR H0 NO RECHAZAR H0

si t calculada o Z calculada si t calculada o Z calculada si t calculado o Z calculado


se encuentra entre es mayor que es menor que
t 0.05 (2),gl o Z = 1.96 - t 0.05 (2),gl o Z = - 1.64 t 0.05 (2),gl o Z = 1.64

Figura 33. Prueba de hiptesis paramtrica para dos muetras independientes,


suponiendo igualdad de varianzas (media muestra 1 vs media muestra 2)

104 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Ejemplo 23. Se estudia el dimorfismo sexual del pjaro Hembras Machos
(Bonasa umbrella) a travs de muestras obtenidas por
n1 = 50 n2 = 67
caza. Los datos fueron obtenidos al azar en Canad. Se
obtienen dos muestras, la primera compuesta por ma- X1 = 158.86 mm X2 = 134.46 mm
chos juveniles y la segunda por hembras juveniles, se S2x1= 37.18 mm S2x2 = 25.92 mm
tiene como variable la longitud de la cola como medida
Sx1 = 6.09 mm Sx1 = 5.09 mm
para definir el dimorfismo sexual. Los resultados fueron
los siguientes:

La pregunta impuesta en este ejemplo es saber si las medias de estas 2 muestras tomadas indepen-
dientemente difieren una de otra de manera altamente significativa ( < 0.01)?.

Condiciones de aplicacin: los datos provienen de muestras independientes, distribuidas normal-


mente.

Planteamiento de hiptesis:

H0: La media de la longitud de la cola de las aves machos es igual a la de las aves hembras.

H1: La media de la longitud de la cola de las aves machos es diferente a la de las aves hembras.

H 0: 1 = 2

H 1: 1 2
X1 -X2
Test estadstico: Zc =

SxN + SxN
2 2
1 2

1 2

158.86 mm - 134.66 mm
Zc = = 22.9

37.18 mm
50
+
25.92 mm
67

Decisin estadstica: como Zc es superior a 2.57, que es el valor de a 0.01, se rechaza H0 y se


acepta H1.

- Z/2 Z/2

-22.9 -2.57 0 +2.57 22.9

Aceptacin
Rechazo Rechazo

Interpretacin: La longitud de de la cola de los pjaros machos juveniles y hembras de Bonasa


umbrellus es diferente del de las hembras juveniles; por lo tanto hay dimorfismo sexual en esta ave.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 105


Facultad de Ciencias Qumico Biolgicas
Pequeas muestras. En este caso, se utiliza el test de t, en donde:

X1 -X2
tc = para gl = n1+n2-2
Spd 1
n1
+
1
n2

Spd corresponde a la media ponderada de las varianzas de 2 muestras, esta media es una estimacin
muy precisa de la varianza 2 y se expresa:
(n1 - 1) S2x1 + (n2 -1)S2 x2
S2 pd =
n1 + n2 - 2

Para obtener Spd se tendra que sacar la raz cuadrada del resultado. Para aplicar este test, las 2
poblaciones deben tener la misma varianza, si esta condicin no se cumple se puede aplicar el test
siempre y cuando los valores de n1 y n2 no sean muy diferentes. Para definir la aceptacin o rechazo de
la H0 consultar la tabla respectiva. Tambin se puede utilizar la ecuacin descrita en la siguiente figura,
en cualquiera de los casos el resultado es el mismo.

Ejemplo 24. Se quiere probar si existen diferencias significativas Grupo A Grupo B


en los tiempos (minutos) de saturacin en sangre de dos tipos de Tiempo (min) Tiempo (min)
medicamentos suministrados a dos grupos de organismos (Un 8.8 9.9
medicamento por grupo).
8.4 9.0
Condiciones de aplicacin: los datos provienen de muestras in- 7.9 11.1
dependientes, con datos < a 30. 8.7 9.6
9.1 8.7
Planteamiento de hiptesis:
9.6 10.4
H0: Los tiempos de saturacin en sangre de dos tipos de medica- 9.5
mentos suministrados en el grupo A y B son iguales.

H1: Los tiempos de saturacin en sangre de dos tipos de medicamentos suministrados en el grupo
A y B son diferentes.

H 0: 1 = 2

H 1: 1 2

X1 -X2
Test estadstico: tc = para gl = n1+n2-2
Spd 1
n1
+
1
n2

(n1 - 1) S2x1 + (n2 -1)S2 x2


s2pd=
n1 + n2 - 2

(8.75 min - 9.74 min)


Calculo del test: S2pd= = 0.5193
6+7-2

106 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Ejemplo 24 (Continuacin)

Para poder calcular el test de t, ahora hay que obtener Spd, por lo que se hace necesario calcular la
raz cuadrada de S2pd.

(8.75 min - 9.74 min)


tc = = 2.475
0.7206 1
6
+
1
7

- t/2 t/2

- 2.47 - 2.20 0 +2.20 2.47

Aceptacin
Rechazo Rechazo

Decisin estadstica: como tc es superior a t/2 para 11 grados de libertad (2.201), se rechaza H0 y se
acepta H1, por tanto los tiempos de saturacin en sangre de dos tipos de medicamentos suministra-
dos en el grupo A y B son diferentes.

3.5.2.1.3 Comparacin entre dos medias muestrales independiente, bajo el supuesto


de varianzas diferentes (pequeas muestras independientes n<30).

En este caso se utiliza el test de t, llamado test crtico modificado (figura 34), en donde:

X1 -X2
tcm =

Snx Sx22
2
1
+
1
n2

En este caso, los grados de libertad se calculan de la siguiente manera:

[( ) ( )]
2
S2 S2x2
x1
n1 + n2
gl =
( ) ( )
2 2
S x1
2 S2x2
n1 n2
+
n1 - 1 n2 - 1

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 107


Facultad de Ciencias Qumico Biolgicas
H0 : X2 = X2

x1 - x2 Medios
Z calculada = t calculada =


2
S x1 S2 Variables
x1
+
n1 n2 Tamao de muestras
(n 30) (n < 30)

DOS COLAS UNA COLA

IZQUIERDO DERECHO

/2 /2

H1 : X1 X2 H1 : X1 < X2 H1 : X1 > X2

(solo si la X1 < X2) (solo si la X1 > X2)

2 2
S2
( S x1

n1
+
x1

n2
)
grados de libertad = gl =
2 2 2

( ) ( )
2
S x1 S x2
n1 n2
+
n1 -1 n2 -1

t crtica = t 0.05 (2),gl t crtica = - t 0.05 (1),gl t crtica = t 0.05 (1),gl

Z crtica = Z 0.05 (2) = 1.96 Z crtica = - Z 0.05 (1) = - 1.64 Z crtica = Z 0.05 (1) = 1.64

DECISIN

NO RECHAZAR H0 NO RECHAZAR H0 NO RECHAZAR H0

si t calculada o Z calculada si t calculada o Z calculada si t calculado o Z calculado


se encuentra entre es mayor que es menor que
t 0.05 (2),gl o Z = 1.96 - t 0.05 (1),gl o Z = - 1.64 t 0.05 (1),gl o Z = 1.64

Figura 34. Prueba de hiptesis paramtrica para dos pequeas muestras independientes,
suponiendo desigualdad de varianzas (media muestra 1 vs media muestra 2).

108 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Ejemplo 25. En un estudio inmunolgico, Elie y Lamoreaux (1974) Testigos Tratados
desgarraron la piel de dos lotes de ratones. El primer lote de 10
n1=10 N2=10
ratones no recibi ningn tratamiento. El segundo lote de 10 rato-
nes, ha sido tratado por un antgeno de transplante incubado en X1=9.42 das X2=13.36 das
suero normal. La sobrevivencia de ratones fue medida en das y Sx1=0.49 Sx1=1.63
los resultados de esta experiencia son los siguientes:

Se plantea la pregunta de saber si la sobrevivencia de los ratones se prolonga con el tratamiento.

Condiciones de aplicacin: los datos provienen de muestras independientes, con datos < a 30, va-
rianza diferente por lo que siguen la ley de t-student.

Planteamiento de hiptesis:

H0: La sobrevivencia promedio de los ratones tratados es igual a la de los ratones no tratados.

H1: La sobrevivencia promedio de los ratones tratados es mayor que la de los ratones no tratados

H0: x1 = x2

H1: x1 < x2
X1 - X2
Test estadstico: tcm=


S2x1 S2x2
+
n1 n2

[( ) ( )]
2
Calculo de grados de libertad: S2 x1 S2x2
n1 + n2
gl=

( ) ( )
2 2
S x12 S2x2
n1 n2

n1 - 1 +
n2 - 1

9.42 - 13.36
Clculo del test: tcm=


0.24 2.65
+
10 10

[( ) ( )]
2
0.24 2.65
10 + 10
gl= = 10.66

( ) ( )
2 2
0.24 2.65
10 10
+ 9
9

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 109


Facultad de Ciencias Qumico Biolgicas
Ejemplo 24 (Continuacin)

- t

- 7.33 - 3.10 0
Aceptacin
Rechazo
Decisin estadstica: como tcm es inferior al valor crtico de t para 11 grados de libertad (-7.33<-
3.10), se rechaza H0 a un nivel de significatividad de 0.05, por lo que la sobrevivencia de ratones es
prolongada con el tratamiento a los antgenos que fueron encubados en un suero normal.

3.5.2.4. Comparacin de medias de 2 muestras apareadas

Se basa en el anlisis de las diferencias observadas a nivel de cada par de elementos: di=xi1-xi2. La
muestra de n diferencias di, tiene una media d y una varianza de Sd2. Si n es suficientemente grande, la
variable Md, es igual a M1- M2 y corresponde a los valores tomados por d a nivel de diferentes muestras
posibles de talla n, obedecen a una ley normal de media Md= Md = E(M1)-E(M2) = 1-2;
d
y la desviacin estndar Md =
n
Por lo tanto la variable centrada obedecer tambin a una distribucin normal.

Md - d ; sin embargo, se utiliza normalmente la variable tMd,que obedece a la ley


Zmd =
md de t-Student con n= 1 gl (figura 35).
f(Md)

Md - d Me
tmd =
Sd

Se somete entonces la comparacin de medias a una prueba de hiptesis de igualdad de medias. H0:
1=2 o d= 1- 2=0; la variable tmd es:

110 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
d
tmd =
Sd

d
y para 2 muestras apareadas es: td = ; d = diferencia media.
Sd

Sd n

Error tipo= Sd =
n
; Sd =
(di - d)2
n -1

H1: 1 2 Prueba bilateral: la H0 se rechaza cuando el valor calculado: ( |td | t/2 )

H1: 1 > 2 Prueba bilateral: la H0 se acepta cuando el valor calculado: ( td < +t )

H1: 1 < 2 Prueba bilateral: la H0 se acepta cuando el valor calculado: ( td > - t ) gl =n-1

H0 : -d = 0

d promedio de las diferencias


Z calculada = t calculada =

Sd error estandar = 2
S Varianza de la diferencia

n tamao de las muestras


( n 30) ( n < 30) (igual muestra 1 que muestra 2)

BILATERAL UNILATERAL UNILATERAL

H1 : -d > 0
H1 : -d 0 H1 : -d < 0

t crtica = t 0.05 (2), gl t crtica = - t 0.05 (1),gl t crtica = t 0.05 (1),gl

Z crtica = Z 0.05 (2) = 1.96 Z crtica = - Z 0.05 (1) = - 1.64 Z crtica = Z 0.05 (1) = 1.64

DECISIN

NO RECHAZAR H0 NO RECHAZAR H0 NO RECHAZAR H0

si t o Z calculada si t o Z calculada es mayor que si t o Z calculada es menor que


se encuentra entre - Z 0.05(1)= -1.64 o t crtico= t 0.05 (1), gl Z 0.05(1) = 1.64 t 0.05(1),gl
Z 0.05 (2)= 1.96 o t 0.05(2), gl

Figura 35. Prueba de hiptesis paramtrica para dos muestras dependientes

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 111


Facultad de Ciencias Qumico Biolgicas
Ejemplo 26. En un estudio morfo- Conejos Longitud Longitud Diferencia
mtrico se quiso probar si existan patas patas (d1 - d2)
diferencias significativas entre las delanteras traseras (di -d)2
longitudes de las extremidades (cm) (cm)
delanteras con respecto a las d1 d2
traseras en venados, midindose 1 142 138 4 0.49
10 organismos y considerando un 2 140 136 4 0.49
5% de error.
3 144 147 -3 39.69

Los resultados de las medidas se 4 144 139 5 2.89


presentan en la tabla: 5 142 143 -1 18.49
6 146 141 5 2.89
H0: La longitud de las extremida-
7 149 143 6 7.29
des delanteras y traseras no pre-
sentan diferencia 8 150 145 5 2.89
9 142 136 6 7.29
H1: La longitud de las extremida- 10 148 146 2 1.69
des delanteras con respecto a las
traseras es diferente

H0: d1 = d2

H1: d1 d2

Condiciones de aplicacin. La informacin proviene de la misma muestra de venados por lo que son
muestras apareadas o dependientes, se aplica un test de td.

d
Test a aplicar: td = donde es la diferencia media entre d1 y d2.
Sd

Aplicacin del test: d = 3.3 cm


Sd2 = 9.34444 cm2

Sd = 0.97 cm

d 3.3
t= = = 3.402
Sd 0.97

Decisin estadstica: como t a un nivel 0.05 y 9 grados de libertad (10-1) es igual a 2.262 y es inferior
a 3.402, se rechaza la H0, y se acepta H1, por lo que existe una diferencia significativa entre la longitud
de las patas delanteras y traseras de la muestra de 10 venados.

112 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
4 PRUEBAS DE NORMALIDAD

En algunas ocasiones es necesario probar la


Literatura sugerida:
hiptesis de que una muestra viene de una
poblacin que sigue una distribucin normal. Sokal R. y F. J. Rholf. 2000. Biometry (Tercera edi-
cin) Ed. Freeman. (Pag. 118-125, 697-708)
La importancia de saber si una muestra vie-
ne de una poblacin distribuida de acuerdo a
Zar. J. H., 1999. Bostatistical Analysis (4 edicin)
una distribucin normal, radica bsicamente Prentice Hall. Estados Unidos. 663 p. (Pag. 462-
en que algunos mtodos de inferencia para- 469).

mtricos (basadas en el anlisis de los pa-


Scherrer B. 1984. Boestatistique. Gaetan Morin edi-
rmetros de la poblacin) como por ejemplo teur. (Pag. 466-479)
las pruebas t-Student y de anlisis de va-
rianza suponen que las muestras provienen de una distribucin normal, por lo tanto si no se demuestra
la normalidad de una muestra, es necesario emplear mtodos alternativos no paramtricos que no se
basen en el supuesto antes mencionado; y de esta forma evitar incurrir en errores de inferencia.

4.1 PRUEBA DE NORMALIDAD Q-Q (CUANTIL-CUANTIL)


La prueba de normalidad cuantil-cuantil, es un mtodo grfico que se basa en la distribucin de frecuen-
cias (para datos agrupados) donde la frecuencia acumulada representa las proporciones de la distri-
bucin normal, las cuales son transformadas a una escala de desviaciones estndar (z), denominadas
equivalentes de la distribucin normal (EDNs).

113Para el caso de los datos no agrupados, estos se ordenan de forma ascendente, en donde el orden nu-
mrico asignado es transformado a proporciones de la distribucin normal, seguidamente a los EDNs.

Con estos EDNs se elabora una grfica de dispersin donde los limites superiores de cada marca de
ANTIL) 113
clase o los datos no agrupados, se disponen a lo largo del eje de las abcisas y los EDNs, a lo largo del
eje de las ordenadas.

Como se observa en la figura 36 basada en la tabla de distribucin de frecuencias del ejercicio 1, los
puntos deben ajustarse a una lnea recta, de no ocurrir lo anterior, podramos decir que nuestros datos
no se ajustan a la distribucin normal.

Dichos grficos de dispersin se conocen como grficos cuantil-cuantil o Q-Q, o como grficos de
cuantiles normales. Los grficos Q-Q, dan mejores resultados para muestras mayores a 50 datos. En
algunos casos, cuando se tiene muestras menores a 50 una diferencia importante en un solo dato con
respecto a los dems, generara una desviacin sustancial con respecto a la lnea recta.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 113


Facultad de Ciencias Qumico Biolgicas
Equivalentes de la distribucin normal
1.7

0.7

-0.3

-1.3

-2.3
55 65 75
Limite superior del intervalo declase

Figura 36. Dispersin de los limites superiores de cada intervalo de clase


con los equivalentes de la distribucin normal (EDNs) o grfico cuantil-cuantil.

4.2. DAGOSTINO-PEARSON K2
En una revisin completa de algunos mtodos disponibles DAgostino (1986) concluy que el proce-
dimiento ms aceptable para probar la hiptesis acerca de la normalidad de una sere de datos es el
descrito por DAgostino y Pearson (1973). La hiptesis nula de la normalidad de la poblacin es probada
a partir del siguiente clculo:

K2 = Z2g1 + Z2g2

Donde: Z 2g1 y Z 2g2 son estadsticos correspondientes a la simetra (g1) y curtosis (g2) respectivamente.
La significancia de K2 es determinada mediante su aproximacin a la distribucin chi-cuadrada, 2, con
dos grados de libertad (En el caso particular de esta prueba lo grados de libertad se mantendrn cons-
tantes. De acuerdo con DAgostino esta prueba trabaja bien con muestras con n 20.

La hiptesis nula H0: La poblacin muestreada se encuentra normalmente distribuida; H1: La poblacin
muestreada no se encuentra normalmente distribuida) es rechazada si el estadstico calculado, K2, es
mayor al estadstico crtico, 2 = 5.99 ( = 0.05, gl = 2); lo cual sugiere asimetra, lepto o platicurtosis o
todas al mismo tiempo; e indica que la muestra no viene de una distribucin normal.

Para ver el clculo preciso de esta prueba, un ejemplo se detalla en Zar (1999) para quienes quieren
conocer de una manera ms amplia su utilizacin.

El procedimiento puede ser descrito a travs de cuatro pasos principales: (1) Clculo de la simetra, g1,
y curtosis, g2; (2) Normalizacin de la simetra, Zg1; (3) Normalizacin de la curtosis, Zg2; (4) Prueba
de hiptesis para probar normalidad, estimacin del estadstico muestral, K2, aproximado a la distribu-
cin normal.

Es importante resaltar que este mtodo ha cado en desuso y en esta obra slo se muestra como debe
de ser utilizado en caso de que el usuario tenga duda sobre los datos que analiza. Su subutilizacin se

114 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
debe a tres causas: la primera es que resulta bastante complicado y consume mucho tiempo, la segun-
da es que se han encontrado mtodos grficos ms fciles que dan una idea aproximada de la forma
de la distribucin de frecuencias, y la tercera es que en los ltimos aos se ha dado menos nfasis a la
forma de las distribuciones y se ha utilizado el supuesto de que grandes muestras, mayores a 30 datos
n mayor a 30 siguen una distribucin normal, lo que no sucede con muestras menores a 30 datos.

4.3. PRUEBAS DE BONDAD DE AJUSTE


Esta prueba se utiliza para determinar si una muestra de valores observados, de alguna manera alea-
toria es compatible o no con la hiptesis de que se extrajo de una poblacin de valores que est distri-
buida normalmente. Consiste en colocar los valores en categoras o intervalos de clase y observar la
frecuencia de ocurrencia de los valores en cada categora. Entonces se aplica la prueba de distribucin
normal con el fin de determinar las frecuencias que podran esperarse para cada categora, si la muestra
hubiera provenido de una distribucin normal.

Si la diferencia entre lo que se observ y lo que se espera (dado que el muestreo fue de una distri-
bucin normal) es demasiado grande como para ser atribuida al azar, se concluye que la muestra no
provino de una distribucin normal. Si la diferencia es de tal magnitud que pudo haber intervenido el
azar, se concluye que la muestra pudo haber provenido de una distribucin normal.

Las pruebas de bondad de ajuste se basan en la distribucin 2 propuesta por Karl Pearson (1935),
con base en una muestra de tamao n (comnmente variables cualitativas) de un muestreo aleatorio,
los pasos a seguir son los siguientes:

Planteamiento de las hiptesis Categora 1 (k) Categora 2 (k) ...Categora k

Frecuencia O1 O2 ...Oi
H0: La distribucin de frecuencias entre observada
categoras es homognea. Frecuencia (O1+O2)/k=E1 (O1+O2)/k=E2 ...(O1+O2)/k=Ei
esperada
H1: La distribucin de frecuencias entre *k = nmero de categoras
categoras es heterognea.

Establecer estadstico terico (valor crtico)


2,v = 0.05,
2
k -1=2-1=1

Establecer estadstico muestral (valor calculado)


k
(Oi - Ei )2
2calculado = Ei
i=1

Conclusin

Si el estadstico muestral es mayor que el estadstico terico rechazar la hiptesis nula.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 115


Facultad de Ciencias Qumico Biolgicas
Ejemplo 27. Supngase que un investigador que realiza un estudio Tasa de No. de
de hospitales en los Estados Unidos, rene datos sobre una muestra ocupacin hospitales
de 250 hospitales la cual le permiti calcular la tasa de ocupacin
< 40 16
(proporcin) de los pacientes internados. Los resultados son los si-
guientes: 40.0 a 49.9 18
50.0 a 59.9 22
Pregunta: Proporcionan estos datos evidencia suficiente que indique 60.0 a 69.9 51
que la muestra no provino de una poblacin normalmente distribui-
70.0 a 79.9 62
da?.
80.0 a 89.9 55
Planteamiento de las hiptesis. 90.0 a 99.9 22
100 > 4
H0: Las datos se extrajeron de una poblacin normalmente distribui-
da

H1: Los datos no provienen de una poblacin normalmente distribuida

Como el supuesto es la normalidad se deben conocer la media, varianza y desviacin estndar de


la muestra. Para este ejercicio, la media = 70.1, la varianza = 325.372 y la desviacin estndar =
18.0381. Posteriormente se procede a obtener el valor de Z de cada intervalo (utilizando el limite
inferior):
40.0 - 70.1 50.0 - 70.1
Z= = 1.67, Z= =1.11, etc
18.0381 18.0381

Tasa de Frecuencia Proporcin Clculo de No. de No. de hospi-


ocupacin X- relativa de la curva frecuencias hospitales. tales. Frecuen-
(Intervalos Z= esperada normal, relativas espe- Frecuencia cia esperada
x
de clase) valores de Z radas obervada
< 40 0.475 0.475 16 (250*4.75)/99.2=11.97

40.0 a 49.9 -1.67 0.0860 0.0475 (0.0475-0.1335)=0.056 18 (250*8.60)/99.2=21.67

50.0 a 59.9 -1.11 0.1542 0.1335 (0.1335-0.2877)=0.1542 22 (250*15.42)/99.2=38.86

60.0 a 69.9 -0.56 0.2083 0.2877 (0.2877-0.4960)=0.2083 51 (250*20.83)/99.2=52.49

70.0 a 79.9 -0.01 0.2048 0.4960 (0.4960-0.2912)=0.2048 62 (250*20.48)/99.2=51.61

80.0 a 89.9 0.55 0.1555 0.2912 (0.2912-0.1357)=0.1555 55 (250*15.55)/99.2=38.19

90.0 a 99.9 1.10 0.0872 0.1357 (0.1357-0.0485)=0.0872 22 (250*8.72)/99.2=21.98

100 > 1.66 0.0485 0.0485 0.0485 4 (250*4.85)99.2=12.22

Total 0.992 250

La frecuencia relativa esperada se obtiene buscando el valor obtenido de Z en las tablas de reas
bajo la curva de distribucin normal (Z) y el valor para cada intervalo de clase, corresponde a la
diferencia de el valor de Z del ltimo intervalo y el prximo inmediato. Finalmente se calculan las
frecuencias esperadas para cada intervalo y se aplica el test.

k
(Oi - Ei )2
2calculado = Ei
i=1

(16-11.97)2 (18-21.67)2 (22-38.86)2 (51-52.49)2 (62-51.61)2 (55-38.19)2 (22-21.98)2 (4-12.22)2


2calculado = + + + + + + + = 23.34
11.97 21.67 38.86 52.49 51.61 38.19 21.98 12.22

Como 2(0.05,1) = 6.63 es menor que 23.34, se rechaza la hiptesis nula y se admite entonces que los
datos no se distribuyen normalmente.

116 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Ejemplo 28. En una investi- Alcuota1 Alcuota2 Alcuota3 Alcuota4 Total
gacin se plante que exis-
te la misma probabilidad de Frecuencia 36 40 18 6 100
observada
tener el mismo nmero de
elementos por recuento de Frecuencia 25 25 25 25 100
fitoplancton, segn un 5% de esperada
error. Se tomaron 4 alcuotas
de 1 ml, con un total de 100
clulas. Encontrndose la
siguiente distribucin de fre-
cuencias:

H0: La distribucin de frecuencias entre categoras es homognea.

H1: La distribucin de frecuencias entre categoras es heterognea.

El estadstico terico es igual a 2 0.05, k-1=4-1=3= 7.81

y el estadstico muestral:

(36-25)2 (40-25)2 (18-25)2 (6-25)2


2calculado = + + + = 30.24
25 25 25 25

Por lo tanto, como el valor calculado es mayor que el valor crtico, se rechaza la hiptesis nula. Por
lo que la probabilidad de tener el mismo nmero de elementos por recuento del fitoplancton no es
aceptada y se admite que el nmero de elementos es diferente.

4.3.1. Tablas de Contingencia

En algunos casos los datos se colectan simultneamente para dos variables, y por lo tanto podra ser
deseable probar la hiptesis de que las frecuencias de ocurrencia en varias categoras de una variable
son independientes de la segunda variable. El arreglo en el que pueden estar dispuestos los datos se
denomina tabla de contingencia.

Un anlisis estadstico a travs de tablas de contingencia se basa en datos experimentales donde se


tienen dos factores interrelacionados. A la tabla de contingencia tambin se le conoce como mtodo de
bloques y su procedimiento emplea la distribucin de 2. La tabla de contingencia esta conformada por
un nmero de renglones, R correspondientes al factor 1, y por un nmero de columnas, C, correspon-
dientes al factor 2.

La hiptesis nula en una tabla de contingencia es probar que las variaciones de las frecuencias obser-
vadas en las filas son independientes de las frecuencias observadas en la columnas. De esta manera el
procedimiento a seguir es el siguiente:

Planteamiento de las hiptesis.

H0: La distribucin de las frecuencias entre niveles es independiente de los factores.

H1: La distribucin de las frecuencias entre niveles no es independiente de los factores.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 117


Facultad de Ciencias Qumico Biolgicas
Establecer estadstico terico Factor1 Factor2 ...Factork Factores
(valor crtico). Nivel, 1 O1,1 O2,1 ...Oi,1 Oki,1
Nivel, 2 O1,2 O2,2 ... Oi,2 Oki,2
2,gl= 20.05, (k-1)(f-1)
Nivel, f O1,j O2,j ... Oi,j Oki,j
Nivel O1,i Of2,i Ofi,j TOTAL=N

Establecer estadstico muestral


(valor calculado).

Oki,j (Ofi,j) f k (Oi,j - Ei,j )2


calculado
2
= j=1
E i,j = i=1 E i,j
N

Conclusin.

Si el estadstico muestral es mayor que el estadstico terico rechazar la hiptesis nula. Por tanto la
distribucin de frecuencias entre los niveles no es dependiente de los factores.

118 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Ejemplo 29. En la Isla de Grues en el Tabla de contingencia
estuario de Saint-Laurent, dos muestras
Cazadores Cazadores Total
de cazadores que se dedicaban a la cap-
proveedores club
tura de gansos blancos fueron obtenidas
de manera independiente. La primera Cazadores 26 16 41
con xito
muestra estaba constituida con cazado-
res que pertenecan a un club de caza y cazadore 57(68.67%) 20(57.14%) 77
la segunda de cazadores al servicio de con las
manos
proveedores de caza y pesca. El perfil
vacias
de los dos grupos de cazadores es consi-
derablemente diferente, sin embargo las Total 83 35 118
condiciones de caza son las mismas. En
1974, 57.14 % de 35 cazadores de primer
grupo y 68.67% de 83 cazadores del se-
gundo grupo regresaron con las manos
vacas (cero caza).

Pregunta: el porcentaje de cazadores que regresaron con las manos vacas del primer grupo es
significativamente diferente del segundo grupo?.

H0: Las proporciones de los cazadores de ambos grupos son idnticas

H1: : Las proporciones de los cazadores de ambos grupos son diferentes

H0: P1= P2

H1: P1 P2
2,gl= 20.05, (k-1)(f-1)
Establecer estadstico terico (valor crtico).

2,gl= 0.05,
2
(2-1)(1-1)
=1 , el valor en la tabla de 2, es 3.84

Establecer estadstico muestral


(valor calculado) y calcular las Cazadores Cazadores club Total
frecuencias esperadas. proveedores
Cazadores 41*83 41*35 41
Oki,j (Ofi,j) con xito
118
= 28.83
118
= 12.16
E i,j =
N cazadore 77*83 41*35 77
con las = 54.16 = 22.83
manos 118 118
f k (Oi,j - Ei,j )2 vacias
calculado
2
= j=1
i=1 E i,j Total 83 35 118

= (26-28.83) + (57-54.16) + (15-12.16) + (20-22.83) = 1.44


2 2 2 2
calculado
2

28.83 54.16 12.16 22.83

Conclusin

El valor de 2calculado , es inferior al valor lmite 2, es 3.84, la hiptesis H0 es aceptada por lo que el
porcentaje de cazadores pertenecientes al club que regresaron con las manos vacas no es diferente
del porcentaje de cazadores proveedores de caza y pesca.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 119


Facultad de Ciencias Qumico Biolgicas
120 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I
Facultad de Ciencias Qumico Biolgicas
5 DE
TEST NO PARAMTRICOS
COMPARACIN DE MUESTRAS

Cuando las condiciones de normalidad no


Literatura sugerida:
son respetadas o que los datos son de natu-
raleza semicuantitativa (escala de variacin Zar. J. H., 1999. Bostatistical Analysis (4 edicin)
Prentice Hall. Estados Unidos. 663 p. (Pag. 146-
ordinal) se utilizan los test no paramtricos.
155).
Estos test no se basan en los parmetros de
las distribuciones y por consiguiente tampo-
co en las muestras de estos. Por tanto no estn sujetos a las leyes de distribucin de los elementos de
la poblacin. Se utilizan sobre todo en muestras pequeas. Algunos de los test no paramtricos para
muestras independientes son:

Test de medianas, test de Wilcoxon-Mann-Whitney y el test de Kolmogorov-Smirnov

y para muestras pareadas se utiliza:

Test de signos y test de Wilcoxon apareado.

5.1. COMPARACIN DE DOS MUESTRAS INDEPENDIENTES:


TEST DE MEDIANAS
Desarrollado por Moo (1950) y Westenberg (1948) verifica la hiptesis de igualdad de medianas de 2
poblaciones. Supone que la forma de la distribucin es similar a las 2 poblaciones comparadas.

Si la hiptesis es verdad:

H0: Me1 = Me2 = Me

H1: Me1 Me2 Me

La mejor estimacin de la Me es la que se obtiene calculando la Me de la muestra si agrupamos las 2


muestras de origen:

Me(1+2) por tanto debe ser igual al 50% de los elementos de la muestra de la variable hacia arriba y
hacia abajo. Se construye entonces una tabla de contingencia utilizando frecuencias observadas y esto
se calcula utilizando la ley 2 a 1 gl.
4(f1f4 - f2f3)2
2
=
me
nn1n2

f1, f2, f3 y f4 = frecuencias observadas

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 121


Facultad de Ciencias Qumico Biolgicas
Reglas de decisin: Posicin de Muestra 1 Muestra 2 Total
elementos
Si el valor observado 2 es inferior al valor No. de elementos f1 f2 n/2
X>Me(1+2)
crtico, la hiptesis principal es aceptada, si
No. de elementos f3 f4 n/2
no es rechazada y la hiptesis alternativa es X<Me(1+2)
aceptada. Total n1 n2 n=n1+n2

La clasificacin de los elementos est en


funcin de su muestra de origen y de su va-
lor en relacin a la mediana como se mues-
tra en la siguiente tabla:

Ejemplo 30. Se grab el canto Difusin del canto


emitido por un pjaro en su te- Rapidez de respuesta/ Ave x Subespecie Total
rritorio (slo machos, pues son muestra
territoriales), si se reproduce el
Rpida 17 2 19
sonido, se observa una respues-
ta inmediata de los machos con el Media 3 6 9
objeto de proteger su territorio. Un Lenta 3 8 11
investigador quiere corroborar si Sin respuesta 1 11 12
la respuesta del ave es la misma
con el canto de un ave originaria Negeativa (alejamiento) 0 5 5
de norte Amrica y que se supo- Total 24 32 56
ne es una subespecie de esta. Se
tienen las siguientes muestras:

Pregunta: La difusin del canto de la subespecie provoca reacciones rpidas en el ave x?

Condiciones: Datos semicuantitativos clasificados sobre escala ordinal, por lo tanto es vlido trabajar
con el test de medianas.

Planteamiento de las hiptesis

H0: La difusin del canto de la subespecie no provoca ninguna reaccin en al ave

H1: La difusin del canto de la subespecie provoca reacciones diferentes en al ave

H0: Me1 = Me2

H1: Me1 Me2


4(f1f4 - f2f3)2
Establecimiento del test : 2me = nn1n2

Como la variable es el sonido, se tienen entonces 5 escalas diferentes. La mediana sera 2.5, que
correspondera entre la respuesta media y lenta, se llena la tabla de contingencia, se suman todos
los valores que estn por encima de la Me para la muestra 1 para obtener f1 y f3. Para la subespecie;
los valores para obtener f2 y f4 se obtienen sumando los valores que estn por debajo de la mediana
incluyendo el valor de la mediana; es decir:

17+3=20 y corresponde a f1

3+1= 4 y corresponde a f3

122 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Ejemplo 30. Continuacin Ave Subespecie Total
x>me f1=20 f2=8 28
6+2= 8 y corresponde a f2
X<Me f3=4 f4=24 28
8+11+5= y corresponde a f4 Total 24 32 56

4(20*24 - 8*4)2
2Me = =18.66
56*24*32
Conclusin

El valor calculado de 2Me es > al valor crtico 20.01= 6.63, las medianas son diferentes y por tanto la
respuesta del ave muestra no es la misma que la de la subespecie.

5.2. MUESTRAS INDEPENDIENTES


(MANN-WHITNEY)
Busca verificar si los elementos de dos grupos clasificados por orden creciente sobre una misma es-
cala ordinal, ocupan posiciones o rangos equivalentes, que nos permita ver si hay similitud entre las
distribuciones. Este test se basa en la variable U de Mann-Whitney, consiste en primer lugar en clasifi-
car los elementos de dos muestras por orden creciente o decreciente, despus en calcular U y U que
corresponden al nmero de veces que un elemento del 2 grupo antecede a un elemento del 1er grupo
y viceversa.

Caso de pequeas muestras: n1 y n2 < 20

Slo se aplica cuando hay muestras que tienen entre 9 y 20 elementos.

n1( n1+1 )
U = n1n2 + - R1
2

n2( n2+1 )
U = n1n2 + - R2
2

U = n1n2 - U

U = n1n2 - U

La siguiente tabla muestra la manera de utilizar el test de acuerdo al orden o ranqueo de los datos; y
la tabla 7 anexa presenta los valores de U.

H0= Grupo 1 Grupo 2 H0 = Grupo 1 Grupo 2


H1= Grupo 1 < Grupo 2 H1 = Grupo 1 > Grupo 2
Ranqueo del valor ms U U
bajo al ms alto
Ranqueo del valor ms U U
alto al ms bajo

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 123


Facultad de Ciencias Qumico Biolgicas
Ejemplo 31. Probar si hay defe- Hombres talla Mujeres talla Orden Orden
rencia entre la talla de estudian- (cm) (cm) hombres mujeres
tes hombres y mujeres de una ranqueo ranqueo
manera significativa (= 0.05). 193 175 1 7
188 173 2 8
Planteamiento de las hiptesis.
185 168 3 10
H0: La talla de estudiantes hom- 183 165 4 11
bres es igual a la de las mujeres 180 163 5 12
178 6
H1: La talla de estudiantes hom-
bres es diferente a la de las mu- 170 9
jeres n1=7 n2=5 R1=30 R2=48

Establecer el estadstico mues-


tral
n1( n1+1 )
U = n1n2 + - R1
2
Resolucin del test
(7)(8)
U = (7)(5) + 30 = 33
2

U = (7)(5) - 33= 2

Establecer el estadstico terico

U0.05, (5,7)= 30

Conclusin

Como 33 es mayor a 30, se rechaza la H0 y por tanto se admite que la talla de los estudiantes hom-
bres es mayor que la de las mujeres.

Ejemplo 32. Se quiere Colegio particular Escuela pblica Colegio Escuela pblica
probar la eficiencia de No. palabras/ No. palabras/ particular rango
dos mtodos de ense- minuto minuto rango
anza, comparndose 44 32 9 3.5
los resultados del nmero
48 40 12 7
de palabras por minuto
que escriben a mqui- 36 44 6 9
na los estudiantes de un 32 44 3.5 9
colegio particular con los
51 34 13 5
de la escuela pblica.
Los resultados son los 45 30 11 2
siguientes: 54 26 14 1
56
Como el rango u orden
se realiz del valor ms n1=8 n2=7 R1=83.5 R2 = 36.5
bajo al ms alto, y como
los valores de n1 son
mayores a los de n2, se
utilizar U como test es-
tadstico.

124 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Ejemplo 32. Continucin

Planteamiento de las hiptesis.

H0: Los estudiantes del colegio particular escriben el mismo nmero de palabras por minuto en m-
quina de escribir que los de la escuela pblica

H1: Los estudiantes del colegio particular escriben mayor nmero de palabras por minuto en mquina
de escribir que los de la escuela pblica

Establecer el estadstico terico

U0.05, (7,8)= 43

Establecer el estadstico muestral

n1( n1+1 )
U = n1n2 + - R2
2

(7)(8)
U = (7)(8) + -36.5 = 47.5
2

Conclusin

Como 47.5 es mayor a 43, se rechaza la H0 y por tanto se admite que el nmero de palabras por
minuto que escriben en mquina los estudiantes de escuela particular es mayor que las que escriben
los estudiantes de la escuela pblica.

5.3. COMPARACIN DE MUESTRAS PAREADAS (TEST DE SIGNOS)

El test no paramtrico de comparacin de medias de dos muestras pareadas se basa en el anlisis de


muestras cuantitativas existentes entre cada par de datos. El test no paramtrico se distingue por el
hecho de que no toma en cuenta ms que el signo de las diferencias. Admitiendo que las muestras
provienen de la misma poblacin (hiptesis principal) las diferencias (d) tienen entonces la misma pro-
babilidad de ser positivas que negativas, de donde s H0 es verdad:

P (d > 0) = P (d < 0) = 0.5

En esta hiptesis, la probabilidad de que Yi diferencias sean positivas entre n diferencias con valor
mayor a cero, se da por la ley binomial del parmetros n y p = 0.5

2.3.1. Caso de Grandes Muestras

Si el nmero de parejas de datos presentan una diferencia mayor a cero, igual o superior a 30, la ley
binomial tiende hacia la normal de parmetros = np = 0.5 n y = npq = 0.25n. En esta caso y admi-
tiendo que la hiptesis principal de igualdad de poblaciones de origen es verdad la variable auxiliar:

Y - 0.5n
Zs =
0.5n

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 125


Facultad de Ciencias Qumico Biolgicas
Obedece a una ley normal centrada y reducida y representa el nmero de diferencias positivas y n el
nmero de diferencias mayores a 0. Segn la formulacin de la hiptesis alternativa se efectuar enton-
ces un test unilateral o bilateral.

Si H1 declara que la primera poblacin es ms grande que la segunda, esto corresponder:

H1 : P(d > 0) > 0.5

H0 ser aceptada si Zs.obs es inferior a Z

Si H1 declara que la primera poblacin es ms pequea que la segunda, esto correspondera:

H1 : P(d < 0) < 0.5

H0 ser aceptada si Zs.obs es superior a -Z

Finalmente si H1 declara que las dos poblaciones de origen son diferentes, esto correspondera:

H1 : P(d > 0) 0.5

H0 ser aceptado si Zs.obs es inferior a Z/2

5.3.2. Caso de Pequeas Muestras

Si el nmero de pares de datos presentan una diferencia mayor a 0 e inferior a 30, la aproximacin
normal no es vlida. Se tiene entonces que utilizar la distribucin exacta de Y utilizando la tabla de pro-
babilidades elementales de P(Yi) para P =0.5 y n < 30, Para deducir los valores crticos de Y, se tiene que
partir de un extremo de la distribucin y agregar los valores de P(Yi) hasta que se llegue a los valores
de o /2 deseados a los que corresponden los valores crticos Y buscados. En cada caso hay que
/2
satisfacer las expresiones siguientes:

P (Y Y) = si la hiptesis alternativa corresponde a: H1: P(d > 0) > 0.5

P (Y Y) = si H1 se escribe: P(d > 0) < 0.5

P(Y Y/2) = /2 y P(Y Ys/2) = /2 si H1 se escribe: P(d > 0) 0.5.

Las reglas de decisin dependen de la formulacin de la hiptesis alternativa. As la hiptesis principal


ser aceptada si:

Yobs < Yo para H1: P(d > 0) < 0.5

Yobs > Yo para H1: P(d > 0) < 0.5

Yi > Yobs <> Ys/2 para H1: P(d > 0) 0.5


/2

126 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Ejemplo 33. Refirindose al e- Rapidez de respuesta de la subespecie norteamericana cuando
jemplo del test de medianas, se se emite el canto
quiere saber si un individuo dado de la subespecie
de la subespecie de aves de Nor- Subespecie Subespecie Nmero
teamrica, reacciona diferente a Norteamericana europea de aves
la difusin del canto de su propia (T.t. hiemalis) (T.t. troglodytes)
subespecie y de la otra subes- Rpido Rpido 2
pecie. Para cada individuo de la
Rpido Medio 3
subespecie norte americana, se
difunde primero el canto de su Rpido Lento 3
propia subespecie, despus la de Rpido Ninguna 1
la otra subespecie y si se nota al-
Rpido Negativo 1
guna reaccin cuando se emiten
estos sonidos, los resultados son Medio Medio 2
semicuantitativos y se presentan Medio Lento 3
en la siguiente tabla:
Medio Ninguna 4
Medio Negativa 2
Pregunta: El ave de Norteamri-
ca reacciona ms cuando se emi- Lento Lento 1
te el canto del ave europea? Lento Ninguna 3
Lento Negativa 1
Eleccin del test: las dos mues-
tras son pareadas puesto que los Ninguna Ninguna 3
cantos de las aves son difundidos Ninguna Negativa 1
a los mismos individuos; por otra Ninguna Lento 1
parte, los datos son colectados
sobre una escala de variacin Lento Medio 1
ordinal. Es por tanto necesario
aplicar un test no paramtrico
para muestras pareadas, el test
de signos es uno de los mtodos
posibles.

Condiciones de aplicacin: Ninguna condicin de aplicacin es requerida, sin embargo se tiene que
aplicar un test para pequeas muestras puesto que el nmero de diferencias son nulas e inferior a
30.

Planteamiento de hiptesis

H0: La reaccin al canto es parecida en ambas subespecies

H1: la reaccin al canto de la subespecie norteamericana es ms rpida

H0 : P( d > 0) = 0.5

H1: P( d > 0) > 0.5 (test unilateral)

Test estadstico: el test estadstico para pequeas muestras consiste en calcular el nmero Yobs de
aves que tengan una reaccin ms rpida (d > 0) cuando se reparte su propio canto.

Si H0 es verdad, el nmero Y de elementos con d > 0 obedece a una ley binomial de parmetros
P=0.5 y n = 24. El nmero n es igual a 24 puesto que de los 32 pares de datos, 8 tienen una diferencia
negativa, que corresponde a reacciones idnticas de las dos difusiones del canto.

Reglas de decisin: Para encontrar el valor crtico Y, hay que satisfacer la expresin:

P(Y Y) =

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 127


Facultad de Ciencias Qumico Biolgicas
Ejemplo 33. Continuacin

Al nivel de significatividad de 5%, la expresin se escribe:

P(Y Y0.05) = 0.05

Segn la tabla correspondiente a la distribucin binomial (Tabla 1), para n = 24 y p = 0.05;

Los valores de probabilidad se observan en la siguiente Valores de Valores


tabla: probabilidad Acumulados
de la tabla
Como el valor acumulado de la probabilidad para n = 24 y de distribucin
binomial
x= 16 es 0.077 y este es mayor a 0.05, el valor crtico es
por tanto 17, puesto que P(Y 17) = 0.033. P(24)= 0.000 P(Y = 24)= 0.000
P(23)= 0.000 P(Y 23)= 0.000
Por tanto si Yobs es superior o igual a 17, la hiptesis alter- P(21)= 0.000 P(Y 21)= 0.000
nativa es aceptada con un riesgo de error igual a 0.033.
P(20)= 0.001 P(Y 20)= 0.001

Aplicacin del test: Se tienen que contar las aves norte- P(19)= 0.003 P(Y 19)= 0.004
americanas que tengan una reaccin ms viva a la di- P(18)= 0.008 P(Y 18)= 0.012
fusin de su propio canto que el canto del ave europea
P(17)= 0.021 P(Y 17)= 0.033
(d>0) : Yobs = 22.
P(16)= 0.044 P(Y 26)= 0.077
Decisin estadstica: La hiptesis alternativa es aceptada
puesto que Yobs > Y 0.05.

Como P( Y 21) = 0.000, (22-1 = 21) la hiptesis alternativa ser aceptada al nivel 0.05 ya que
0.033 es mayor que 0.000.

Interpretacin: la reaccin del ave al canto de la especie subamericana es ms rpida que el canto
de su propia especie.

5.4 MUESTRAS DEPENDIENTES NO PARAMTRICAS (WILCOXON),


MUESTRAS PAREADAS
Este test involucra el clculo de las diferencias de las muestras pareadas, entonces toma en cuanta el
rango de las diferencias absolutas desde el valor ms bajo al ms alto y fija el signo de cada diferencia
de valores del rango. Entonces la suma de los valores del rango con el signo positivo llamada T+ y la
suma de los valores del rango con el signo negativo, llamados T- son obtenidas y se someten a la prueba
de valores de la tabla de T. Se rechaza H0 si T+ o T- es menor o igual al valor crtico T(2), n, de la tabla
de T (tabla 8 anexa).

128 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Ejemplo 34. En un estudio morfo- Venados Longitud Longitud Diferencia Rango Rango
mtrico se quiso probar si existan patas patas (d1 - d2) d1 d2
diferencias significativas entre las delanteras traseras
longitudes de las extremidades (cm) d1 (cm) d2
delanteras con respecto a las 1 142 138 4 4.5 4.5
traseras en venados, midindose
2 140 136 4 4.5 4.5
10 organismos y considerando un
5% de error. Se aplic un prueba 3 144 147 -3 3 -3
de Wilcoxon por rangos para defi- 4 144 139 5 7 7
nir si existan diferencias significa- 5 142 143 -1 1 -1
tivas entre ambas extremidades.
6 146 141 5 7 7

Los resultados se presentan en 7 149 143 6 9.5 9.5


la tabla: 8 150 145 5 7 7
9 142 136 6 9.5 9.5
10 148 146 2 2 2

Planteamiento de las hiptesis

H0: La longitud de las extremidades delanteras y traseras de los venados no presentan diferencia

H1: La longitud de las extremidades delanteras con respecto a las traseras de los venados es dife-
rente

Establecer el estadstico terico: T0.05, (2),10= 8

Establecer el estadstico muestral: T+ = 4.5+4.5+7+7+9.5+7+9.5+2 = 51

T- = 3+1 =4

Conclusin

Como T- es menor a T0.05, (2),10, se rechaza la H0 y por tanto se admite que la longitud de las patas
traseras de la muestra de venados es diferente a la longitud de las patas delanteras.

Entonces una vez T+ o T-, una u otra pueden obtenerse con las siguientes ecuaciones:

n(n+1) y n(n+1)
T- = - T+ T+= - T-
2 2
En el ejemplo anterior sera:
10(10+1) 10(10+1)
T- = - 51=4 T+= - 4=51
2 2
Cuando se trabaja solamente con una cola de la distribucin, los valores crticos T+ o T- se debern
realizar como sigue de acuerdo a las hiptesis:

H0: Las medidas de la poblacin 1 a las medidas en la poblacin 2

H1: medidas de la poblacin 1 > a las medidas en la poblacin 2

Entonces H0 es rechazada si T- T(1),n. para la hiptesis opuesta:

H0: Las medidas de la poblacin 1 a las medidas en la poblacin 2

H1: medidas de la poblacin 1 < a las medidas en la poblacin 2

Entonces H0 es rechazada si T+ T(1),n.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 129


Facultad de Ciencias Qumico Biolgicas
130 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I
Facultad de Ciencias Qumico Biolgicas
6 Y
REGRESIN
CORRELACIN SIMPLE

Al analizar los datos para las ciencias, con


Literatura sugerida:
frecuencia resulta que es conveniente saber
la relacin entre 2 variables. Por ejemplo, Scherrer B. 1984. Boestatistique. Gatan Morin
editeur. 583-603 p.
la relacin entre la presin de la sangre y
la edad, o la estatura y el peso, o entre la
concentracin de un medicamento inyectado y la rapidez de los latidos del corazn. El consumo de un
nutriente y su ganancia en peso; la intensidad de un estmulo y el tiempo de reaccin o hasta el ingreso
total familiar y los gastos mdicos. La naturaleza y la intensidad de las relaciones entre variables como
estas pueden examinarse por medio del anlisis de regresin y correlacin.

La regresin es til para averiguar la forma probable de la relacin entre 2 variables y el objetivo es
predecir o estimar el valor de una variable correspondiente a un valor dado de otra variable. El anlisis
de correlacin se refiere a la medicin de la intensidad de la relacin entre las variables. Cuando se
calculan medidas de correlacin a partir de un conjunto de datos, el inters se centra en el grado de
correlacin entre las variables.

6.1. LA CORRELACIN
El concepto fue utilizado por primera vez en 1888 por el Sir Francis Galton.

Esta nocin mide el grado de unin que hay entre varias variables, segn la naturaleza y el nmero
de variables implicadas se le asigna un nombre.

La unin entre dos variables cuantitativas distribuidas normalmente, se denomina correlacin


lineal simple.

La unin entre una variable dependiente y varias variables cuantitativas independientes, se


denomina correlacin mltiple.

La unin entre dos conjuntos de variables cuantitativas, se denomina correlacin cannica.

La relacin entre dos variables semicuantitativas, se denomina correlacin de rango.

La relacin entre dos variables cualitativas, se denomina asociacin; y se trata adems de


variables cualitativas binarias, se denomina coeficiente de correlacin de punto.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 131


Facultad de Ciencias Qumico Biolgicas
6.1.1. La Correlacin entre Dos Variables Cuantitativas (Pearson)

La correlacin de Pearson es una medida de unin lineal existente entre dos variables cuantitativas
aleatorias.
xy
Esta dada por la siguiente expresin: x,y =
x y

Donde: xy es la covarianza entre x e y.

(x - )(y - )
x y
i=1
xy =
N

x y y corresponden a las desviaciones estndar, estos trminos se refieren a la poblacin estads-


tica.

Para una muestra aleatoria simple de talla n, el estimador de x,y es:

Sx,y (x - x)(y - y)
rxy = =
Sx,Sy ((x - x)2 (y - y)2)1/2

Donde Sx,y es la covarianza estimada:


n

(x - x)(y - y) n(xy - (x)(y)


i=1
rxy = = Sxy =
n-1 n(n - 1)

(x)2
2
x2 - n
Sx = = varianza de x; S2x = desviacin estndar de x
(n - 1)

La correlacin lineal es la covarianza de dos variables centradas y reducidas.

Las correlaciones pueden ser integradas en una tabla de doble entrada:

x y
x rx,x =1 rx,y
y rx,y rx,x =1

Esta tabla presenta las siguientes propiedades (figura 37):

Tiene solo 1 en la diagonal, ya que por definicin la varianza de una variable centrada y reduci-
da es 1; adems de tener simetra respecto a la diagonal puesto que, rx,y = rx,y

Vara entre -1 y +1, si r= -1 +1 todos los puntos estn situados en una lnea; si la nube de
puntos no muestra ninguna tendencia.

Y la ltima propiedad, es referente al signo. Si es (+) indica que la variable dependiente aumen-
ta al mismo tiempo que la independiente. Si el signo es (-) significa que una variable aumenta
cuando la otra disminuye.

132 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
y r=1 y r ~- 0,8 y r -~ 0,6

Relacin positiva Fuerte relacin Relacin positiva


perfecta positiva de intensidad media
x x x
y r -~ 0 y r ~- 0,7 y r = -1

Fuerte relacin Relacin negativa


Relacin nula negativa perfecta
x x x

Figura 37. Coeficientes de correlacin relacionados a diferentes nubes de dispersin;


tomado de Scherrer (1984) (p. 585)

El coeficiente de correlacin de Pearson, mide la intensidad de la unin y la eficacia de ajuste de los


datos a un modelo lineal o linealizado; sin embargo, no indica necesariamente una dependencia
directa de las variables o una relacin causa-efecto.

Ejemplo 34. En un estudio de la capacidad reproductiva del insecto A del pino. Se busca determi-
nar la intensidad de la relacin entre la longitud del nido con el nmero de ovocitos.

El nmero de ovocitos por nido (y) y la longitud del nido (x) son dos variables aleatorias cuantitativas.
Entonces su relacin se mide por r de Pearson.

Sx,y (x - x)(y - y)
Sxy= 5.51 rxy = =
Sx,Sy ((x - x)2 (y - y)2)1/2

(x - x)(y - y) n(xy - (x)(y)


S2x = 0.3039 rxy = i=1
= Sxy =
n-1 n(n - 1)

5.51
S2x = 344.13 r= = 0.544
0.3039 344.13

La relacin que une estas variables es dbil. En otras palabras hay una fuerte dispersin de puntos.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 133


Facultad de Ciencias Qumico Biolgicas
6.1.2. Clculo de Significatividad de r

Tomando como ejemplo el ejercicio anterior, se quiere probar si la correlacin entre la longitud del nido y
el nmero de ovocitos es altamente significativa. Para probar la significatividad de r, se utiliza la prueba
de t con n-2 grados de libertad.

Condiciones de aplicacin del test:

* Variables aleatorias cuantitativas,

* con distribucin normal.

* Para que tr sea vlido, x e y deben tener una distribucin binormal.

H0; =0
rn-2
H1: >0 Prueba: tr =
1 - r2

0.54469-2
r= 0.544 tr = = 5.24
1-0.5442
n= 69; =0.01

Como n = 69 y no hay un valor preciso en la tabla y para test unilateral, el valor crtico se obtiene inter-
polando los valores de gl= 65 y gl=70, entonces:

t0.01(1),65= 2.381= ca Ca = Valor crtico de a

t0.01(1),70= 2.386= cb Cb= Valor crtico de b

Se tiene entonces que gl a< gl b;

Ahora se estima la proporcin utilizando n-2 gl; as se tiene: EQ

gl - a 67 - 65 2
p= = = = 0.4
b-a 70 - 65 5

Se calcula el valor crtico: cgl=67=ca+p(ca-cb)=2.381+0.4*0.005=2.383

t 0.01(1),67= 2.383
Decisin estadstica:

tr=5.24 > t= 2.383 se rechaza H0 , al 99% de confiabilidad, lo que indica que el nmero de ovoci-
tos aumenta de manera muy significativa con la talla del nido.

134 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
6.1.3. La Regresin Lineal

La regresin lineal tiene un triple objetivo

Permite resumir o sintetizar la relacin existente entre una variable aleatoria dependiente y y
una o varias variables aleatorias (modelo II) o controladas (modelo I) xi llamadas variables expli-
cativas (independientes).

Describe la forma de relacin que une a las variables. Puede ser una relacin lineal; puede ser
una asociacin de 2, 3 n grado, entonces se habla de una regresin polinomial, que pueden
ser funciones hiperblicas, logsticas u otras.

Predecir; los valores de yi en funcin de xi. Es decir, estimar con un mnimo de error el valor
desconocido de y de un elemento a partir de los resultados obtenidos de las variables predictivas
xi .

Cuando la estimacin se realiza sobre varias variables descriptivas cuantitativas se trata de regresin
mltiple. Si se agregan varias variables cualitativas, se trata de regresin mltiple con variables
mudas.

Si slo hay dos variables cuantitativas se trata de regresin simple.

6.1.4 Regresin Lineal Simple

Es una funcin de primer grado que une las variables x e y: y=ax + b

Se aplica a los modelos I y II, Corresponde a la recta que atraviesa de la mejor manera la nube de
puntos cuando se relacionan dos variables.

6.1.5 Clculo de la Recta de Regresin y Funcin de X:


Mtodo de Mnimos Cuadrados (MC)

Consiste en escoger una pendiente (a) y una ordenada al origen (b) de la recta que minimiza la suma
de los cuadrados de los errores (SCE).

Error = Separacin entre el valor observado yi y el valor predicho por la recta yi, es el ei residuo
(figura 38).

El principio de los mnimos cuadrados es minimizar los errores:


n n
ei2 = ( yi - i )2
i=1 i=1

En clculo diferencial se vi que el mnimo de una funcin se encuentra igualando a cero su primera
derivada.
n n n
Como: i = axi + b entonces: e2 = ( yi - i )2 = ( yi - (axi + b))2
i=1 i=1 i=1

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 135


Facultad de Ciencias Qumico Biolgicas
y

yi Residuo
ei
yi

xi x

Figura 38. Grfica de los residuos de una recta de regresin de y en x;


tomado de Scherrer (1984) (pg, 626)

Se calculan las derivadas parciales en funcin de a y b y se seleccionan los parmetros o valores que
satisfacen simultneamente la anulacin de las dos derivadas parciales.

Las dos ecuaciones con 2 incgnitas se llaman ecuaciones normales:


n
s
Sea: S= ei2; = -2(yi - b - axi) = 0
b

s n
= -2xi (yi - b - axi) = 0
a

Del desarrollo se obtiene:


Sxy
b= y - ax ; a= 2
Sx

Ejemplo 35. Se quiere obtener el modelo de regresin n=45 x=3.44 aos


lineal de la concentracin de DDt, DDE, DDD contra la
x=155 Sx= 1.235
edad de algunos peces:
x = 601
2
S2x=1.525

nxy - (x)(y)
Sxy= ; Modelo I
n(n-1)
y=20.09 Sy= 0.276
y2= 12.33 -y=0.446g/gao
45x83.32-155x20.09
Sxy= 45(44) =0.321 xy=83.325 S2x=0.076

Sxy 0.321 Sxy 0.321


r= S S = = 0.94 ; a= = 1.525 = 0.210g/g ao
x y 1.235 x 0.276 S2x

136 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Ejemplo 35. Continuacin

b= y - ax = 0.446 - 0.210 x 3.44 = -0.278/g; y= 0.210x + (-0.278) o bien

y= -0.278 + 0.210x

Ejemplo 36. Obtener el modelo de regresin lineal entre Longitud del nido No. ovocitos
el nmero de huevos por la longitud del nido (Modelo II,
x= 8.74 mm y= 59.96 ovocitos
porque las dos son aleatorias):
S2x= 0.3039 mm2 S2y=344.13 ovocitos2
Sxy= 5.51 r= 0.539
Sxy 5.51
a= 2 = = 18.13 ovocitos/mm
S x 0.3039

b= y - ax = 59.96 - 18.13 x 8.74= -98.5 ovocitos

y= 18.13x -98.50

6.2 COEFICIENTE DE DETERMINACIN R2

Mide la proporcin de la variacin de y explicada por la variacin de x Para la regresin lineal sim-
ple:
R2=r2

La variacin puede ser dividida como sigue:

Dispersin total de y = dispersin debido a los errores + dispersin debida a la regresin

(yi - y)2 = ( yi - i )2 + (i - y)2

CET = SCE + SCER

Entonces: La dispersin de y en relacin a la media, es igual a la dispersin respecto al valor predicho


(calculado) ms la dispersin del valor predicho respecto a la media. La figura 39 y 40 muestra la des-
composicin de la dispersin total de y en sus dos componentes. 1) dispersin debido a los errores, 2)
dispersin debido a la regresin, 3) dispercin total. 3=2+1.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 137


Facultad de Ciencias Qumico Biolgicas
1: Desviacin debida a los errores
y 2: Desviacin debida a la regresin
3: Desviacin total
yi

3 1
^
yi
2
yi

xi xi sx

Figura 39. Dispersin total y sus componentes; tomado de Scherrer (1984) (p. 636)

y Dispersin total y Dispersin debida y Dispersin debida


(SCET) a los errores a la regresin
(SCEE) (SCER)

x x x

Figura 40. Descomposicin de la dispersin total en sus dos componentes: SCET=SCE+SCER;


tomado de Scherrer (1984) (p. 637)

SCER
r2 = = Dispersin explicada por regresin/dispersin total
SCET

Sxy
2

r2 = =r2
S2x Sy2

Si todos los puntos estn alineados, ei son nulos (SCE=0);

SCET=SCER ; r2=1

138 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Ejemplo 37. Capacidad de reproduccin. retomando el ejemplo anterior se tiene:

r = 0.539 ; r2= 0.29

As, 29% de la variacin de ovocitos se explica por la variacin del nido como la relacin biunvoca,
pues se trata de un modelo II, 29% de la variacin de la longitud del nido es explicada por la variacin
del nmero de ovocitos.

Los valores utilizados son:

x= 8.74 mm; y= 59.96 ovocitos

2
s x=0.3039 mm2; S2y= 344.13 ovocitos2

Sxy= 5.51 ; r= 0.539

Sxy 5.51
a= = = 18.13 ovocitos/mm;
S2x 0.3039
b= y + ax = 59.96 - 18.13 * 8.74= 98.50 ovocitos;

La ecuacin se escribe: y=18.13*x-98.50

6.3 SIGNIFICATIVIDAD DE LA REGRESIN DE Y EN X

Esta consiste en verificar o probar si R2 o a son significativamente diferentes de cero.

Se basa en el principio de anlisis de varianza o el de la distribucin de muestreo de la pendiente. Para


ambos casos se tiene que:

H0: =0; o H0: 2=0;

H1: y 2 son diferentes de cero

Para verificar si a=0, se supone que: Y es una variable aleatoria y X un factor controlado (modelo I). Y
est unido a Xi por la expresin:

Yi= Xi + + i; con i = 1,2,3,,n

El error i, para la poblacin es denominado ei para la muestra, es una variable aleatoria cuya esperan-
za matemtica es cero y cuya varianza es 2.

E(i )= 0; Var (i )=2

Yi tiene dos componentes: uno cierto dado por X + i; otro aleatorio i.

En resumen las varianzas de Yi y de i, son constantes para cualquier valor de X.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 139


Facultad de Ciencias Qumico Biolgicas
6.3.1 Prueba de Significatividad de la Pendiente a

a
Prueba por t de tac= Student: ; tac calculado
var(a)
2
Entonces: Se SCE
var(a)= = 2
(n - 1) S 2
x
(n - 2)(N - 1) S x

a
tac =

S2 e
(n -1) S2x

Ejemplo 38. Retomando los valores del ejemplo anterior de reproduccin, adems de la tabla ori-
ginal.

Prueba de hiptesis:

Pregunta: La regresin de y en x es significativa?

Condiciones: Dos condiciones: la normalidad y la equivarianza de las distribuciones de la variable y


o de los errores ei que corresponden a los diferentes valores de x. Un estudio los residuos permitir
comprobarlo.

Hiptesis: H0: a = 0; H1: a 0 prueba bilateral.

Prueba estadstica: a
tac =

S2e
(n -1) S2x

Reglas de decisin. Para = 0.05 y gl= n-2 (69-2=67) grados de libertad. Es de notar que n-2 se debe
a que hay 2 parmetros a estimar (a y b). El valor crtico de t/2,0.05. En consecuencia, H0 es rechazada
si |tac|>t/2,0.05.

(yi - )2 SCE 16602


Clculo: S2e = = = 67 = 247.8
n-2 n-2

S2x = 0.3039

18.13 18.13
tac= = = 5.24
67

247.83
0.3039*68

Decisin estadstica. tac=5.24 >t/2,0.05. Entonces H0 se rechaza al nivel de =0.05.

Conclusin biolgica. El nmero de ovocitos por nido est unido positivamente a la longitud del
nido.

140 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
6.3.2 Anlisis de Varianza: Prueba de Significatividad de r2

Este enfoque consiste en separar la varianza total de y en sus dos componentes: la varianza explicada
por la regresin y en consecuencia por la variable x, y la varianza debida a una multitud de factores no
estudiadas en el modelo de regresin, que se denomina varianza residual o debida a los errores.

Anlisis de varianza para verificar la significatividad de a y r2


Fuente Suma de cuadrados Grados Varianza
de variacin de las desviaciones SCE de libertad

SCET= ( yi - yi)2 n-1 S2y


Total
(yi)2
SCET = y2i -
n

SCER= (i - y)2

Explicada SCER=a2 (xi -x)2


1 S2yR=SCER
por la regresin
SCER= r2(yi - y)2

SCER= r2 * SCET

SCE
Residual o debida SCER= (yi - )2 n -2 S2 e =
n -2
a los errores
SCE= SCET - SCER

Hiptesis:

H0: 2=0;

H1: 2 son diferentes de cero

Prueba estadstica:

S2yR SCER r2SCER r2 (n -2) a2


Fc = = = = Fc= = Fc =
S2e SCE SCE 1 - r2 var(a)
(n -2) n -2

r2(n -2)
Es de notar que esta expresin es igual al cuadrado de tr= 1- r2 ;

de esta forma este anlisis se puede llevar a cabo por un anlisis de varianza (prueba de F), o por una
prueba de tr. Generalmente se prefiere el de F que es unilateral.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 141


Facultad de Ciencias Qumico Biolgicas
Ejemplo 39. Sobre la capacidad reproductiva nmero de ovocitos en funcin de la talla del nido.

Hiptesis:

H0: 2=0;

H 1: 2 0
S2yR SCER
Prueba:
Fc = = SCE
S2e
(n -2)

Reglas de decisin. Contrariamente al test de significatividad de la pendiente, el anlisis de varianza


es siempre unilateral: cuando la pendiente es positiva, se verifica si a o r son ms grandes que cero;
si es negativa, se verifica si son ms pequeos que cero. Para gl1=1, y gl2= n - 2= 67 y = 0.05, se
tiene: F0.05, 1,67= 3.96 a 4.00 4.00. Si Fc F0.05,1,67, se rechaza H0.

Clculo:
S2yR
SCER 6792.5
Fc= = = =270.4
S2e SCE 247.8
(n -2)

Anlisis de varianza para verificar la significatividad


Fuente Suma de cuadrados Grados Varianza
de variacin de las desviaciones SCE de libertad

SCET= ( yi - yi)2
Total (yi)2 n-1=68 S2y=344.13
SCET = y2i - n

SCER= (i - y)2

Explicada SCER=a2 (xi -x)2


1 S2yR=SCER=6792.5
por la regresin
SCER= r2(yi - y)2

SCER= r2 * SCET

SCE
Residual o debida SCER= (yi - )2 n -2=67 S2e= = 247.8
a los errores n -2

SCE= SCET - SCER= 16608

Decisin estadstica: Se rechaza H0.

Conclusin: El nmero de ovocitos por nido, est significativamente relacionado con la talla del
nido.

142 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
6.3.3 Intervalo de Confianza de la Pendiente
de una Recta de Regresin de y en x

Est dado por: Pr[a - t /2,n-2 var(a) < < a+t /2,n-2 var(a) ] = 1 -

S2 e
Donde : var(a)= (n -1)S2
x

Ejemplo 40. Del ejemplo de capacidad reproductora, buscar el intervalo de confianza de la


pendiente.

S2e (yi - i)2 SCE 16602


var(a)= ; S2e= = = = 247.79
(n - 1) S2
x
n-2 n-2 67

S x= 0.3039
2

247.79
var(a)= = 11.97
68 * 0.3039

t/2,67= 2.0; S2= 11.97 = 3.46; a= 18.13

Pr [18.13 - 2 * 3.46 < < 18.13 + 2 * 3.46]= - 1

Pr [11.21< <25.05]= 0.95

6.3.4 Intervalo de Confianza de la Ordenada al Origen

Est dado por: Pr [b - t/2,n - 2 var(b) < < b+t/2,n - 2var(b)]= 1 -

S2ex2i
Donde: var(b) =
n(xi - x)2

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 143


Facultad de Ciencias Qumico Biolgicas
Ejemplo 41. Retomando el ejemplo de la capacidad reproductora.

x2i= 5302.75
S2e x2i 247.8 * 5302.75
(xi - x)2 = 74.0375 var(b)=
n(xi - x)2
=
69 * 20.813
= 914982

x= 8.75 S2e Valores observados de talla nido (mm) y de nmero


de ovocitos
Sb= 914.982= 30.249 No. Talla No. No. Talla No.
de nido ovocitos de nido ovocitos
nodos mm nidos mm

(yi - i)2 SCEE 16602


n X Y n X Y
S2e= = = =247.79 1 8.5 60 36 9 78
n-2 n-2 67
2 8 27 37 8.5 66
3 9.2 72 38 9 71

Pr[-98.5 - (2*30.249)<<-98.5+(2*30.249)]= 1 - 4 7.7 41 39 9.2 67


5 8.5 66 40 8.8 85
6 8 46 41 7.8 48
7 9.1 57 42 8.7 49
Pr[-158.998< < - 38.002]= 0.95
8 9 99 43 9 39
9 9.3 85 44 9.3 76
10 8.4 48 45 8.5 82
11 9.5 86 46 9.8 48
12 8.2 47 47 9.4 73
13 9.5 93 48 8.9 68
14 8.9 45 49 7.9 29
15 8.5 55 50 8.2 28
16 9.1 79 51 8.8 47
17 8.5 61 52 8 46
18 8.5 77 53 9 55
19 8.5 77 54 8.5 47
20 8.9 43 55 8.9 85
21 8.5 56 56 8.7 72
22 7.4 25 57 8.8 67
23 10 556 58 8.8 60
24 9.5 89 59 8.6 53
25 7.8 37 60 8.4 60
26 8.8 51 61 9.4 32
27 9.5 889 62 8.8 69
28 8.8 42 63 9.5 98
29 9 33 64 9 58
30 9.4 65 65 8 43
31 7.8 42 66 8.5 64
32 8.6 57 67 8.6 70
33 7.8 48 68 9.1 33
34 9.1 85 69 8.8 57
35 9.7 77

144 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
6.3.5 Prueba de Hiptesis (significatividad) de b

Ejemplo 42. Sobre la capacidad reproductiva.


b S2ex2i
Prueba a efectuar:tbc= ; donde: var(b) =
var(b) n(xi - x)2

Hiptesis. H0: b=0; H1= b 0 prueba bilateral

Reglas de decisin. Para un nivel de =0.05, t/2,v=n-2=2.0; entonces H0 ser rechazada si:

|tbc| t/2,v=n - 2

Clculo

x2i= 5302.75
S2ex2i 247.8 * 5302.75
(xi - x)2 = 74.0375 var(b)= = = 914.982
n(xi - x)2 69 * 20.813

x= 8.75 S2e= 247.79 Sb= 914.982= 30.249

b -98.5
tbc= = = -3.256; entonces, |-3.256| > t0.05/2,67= 2.0,
var(b) 30.249

por lo que se rechaza H0. Esto se comprueba adems por los intervalos de confianza calculados
anteriormente, en los cuales el valor de b=0 est excluido de dichos intervalos.

6.3.6 Intervalo de Confianza para Estimaciones de i y i

Como a partir de Xi, se puede deducir con la ayuda del modelo de regresin, el valor estimado i que le
corresponde (i), el objetivo de esta seccin es de calcular a travs del modelo de regresin el intervalo
de confianza del valor estimado i que corresponde a un valor xi ; sucede tambin que se tenga que
calcular el intervalo de confianza para la media de estimaciones i , para el valor xi . De esta manera
el intervalo de confianza de la prediccin de i est dado por:

Pr[i - t/2,n-2var(i) < yi < i + t/2,n-2var(i)]= 1 -

1 (xi + x)2
Donde: var(i ) = S 2
e
[ n
+
(xi - x)2 ]
As la figura 41, muestra los intervalos de confianza de para el ejemplo sobre la talla del nido y el
nmero de ovocitos. Se puede constatar que esta varianza es mnima cuando xi = x. Por otra parte,
se hace cada vez ms grande en la medida en que xi se aleja de la media x; por lo tanto, los lmites de
confianza se alejan de la recta de regresin cuando xi se aleja de x.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 145


Facultad de Ciencias Qumico Biolgicas
Capacidad reproductiva
150

Nmero de ovocitos
100 NO = 18.141TN - 98.731
2
R = 0.29

50

0
5 6 7 8 9 10 11
Talla de nido (mm)
Figura 41. Representacin de los lmites de confianza de i.

Finalmente el Intervalo de confianza de la prediccin i est dado por:

Pr[i - t/2,n-2var(i) < yi < i + t/2,n-2var(i)]= 1

En este caso, la media i es estimada a partir de m elementos que tienen el mismo valor xi.

[ 1n + (x(x+ x)- x) ]
2
i
Donde: var(i) = S2e 2
i

6.4. COEFICIENTE DE Literatura sugerida:

CORRELACIN DE SPEAR- http://es.wikipedia.org/wiki/Coeficiente_de_


MAN correlaci%C3%B3n_de_Spearman

Esta prueba estadstica permite medir la co- http://www.fortunecity.com/campus/lawns/380/es-


rrelacin o asociacin de dos variables y es tadistica/coeficientecsrs.htm

aplicable cuando las mediciones se realizan


en una escala ordinal, aprovechando la cla-
sificacin por rangos. El Coeficiente de correlacin de Spearman (rho), es una prueba no paramtrica
que mide la asociacin entre dos variables discretas. Para calcular , los datos son ordenados y reem-
plazados por su respectivo orden.

El estadstico viene dado por la expresin:

6 D2
=1-
N(N2 - 1)

146 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
donde D es la diferencia entre los correspondientes valores de x - y. N es el nmero de parejas.

Se tiene que considerar la existencia de datos idnticos a la hora de ordenarlos, aunque si estos son
pocos, se puede ignorar tal circunstancia.

Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximacin a la distribu-


cin de t de Student.

t=
(1 - 2) / (n - 2)

El coeficiente de correlacin de Spearman se rige por las reglas de la correlacin simple de Pearson,
y las mediciones de este ndice corresponden de + 1 a - 1, pasando por el cero, donde este ltimo signi-
fica no correlacin entre las variables estudiadas, mientras que los dos primeros denotan la correlacin
mxima.

La ecuacin utilizada en este procedimiento, cuando en el ordenamiento de los rangos de las observa-
ciones no hay datos empatados o ligados, es la siguiente:

6 d2
rs= 1 -
N3 - N

Donde:

rs = coeficiente de correlacin de Spearman.

d2 = diferencias existentes entre los rangos de las dos variables, elevadas al cuadrado.

N = tamao de la muestra expresada en parejas de rangos de las variables.

Pasos.

1. Clasificar en rangos cada medicin de las observaciones.

2. Obtener las diferencias de las parejas de rangos de las variables estudiadas y elevadas al
cuadrado.

3. Efectuar la sumatoria de todas las diferencias al cuadrado.

4. Aplicar la ecuacin.

5. Calcular los grados de libertad (gl). gl = nmero de parejas - 1. Solo se utilizar cuando la
muestra sea mayor a 10.

6. Comparar el valor r calculado con respecto a los valores crticos de la tabla de valores crticos
de coeficiente de correlacin por rangos de Sperman en funcin de probabilidad (Tabla 8 anexa).

7. Decidir si se acepta o rechaza la hiptesis.

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 147


Facultad de Ciencias Qumico Biolgicas
Ejemplo 43. Un investigador est interesado en conocer si el desarrollo mental de un nio esta aso-
ciado a la educacin formal de su madre. De esta manera, obtiene la calificacin de desarrollo mental
en la escala de Gesell de ocho nios elegidos aleatoriamente y se informa del grado de escolaridad
de las madres.

Eleccin de la prueba estadstica

Se desea medir asociacin o correlacin. Las calificaciones de la educacin formal de las madres
estn dadas en una medicin cualitativa, pero tienen una escala ordinal, por lo cual es posible orde-
narlas en rangos.

Planteamiento de la hiptesis Desarrollo mental de algunos nios


y escolaridad de las madres.
Hiptesis alternativa (H1). El desarrollo mental Escolaridad Calificacin
de los hijos es una variable dependiente de la de la madre (X) del desarrollo mental
educacin formal de la madre; por lo tanto, existe de los nios (Y)
una correlacin significativa. Primero de secundaria 90
Primero de primaria 87
Hiptesis nula (H0). La asociacin entre las va-
riables de educacin formal de la madre y el de- Profesionista 89
sarrollo mental de los hijos no es significativa, ni Sexto de primaria 80
hay correlacin.
tercero de primaria 85
Analfabeta 84
Nivel de significacin. Para todo valor de proba-
bilidad igual o menor que 0.05, se acepta H1 y se Preparatoria 91
rechaza H0.

Zona de rechazo. Para todo valor de probabilidad Educacin de algunas madres y calificacin
mayor que 0.05, se acepta Ho y se rechaza H1. de desarrollo mental de los hijos.
Rango de Rango d d2
Aplicacin de la prueba estadstica. Las obser- la eduacin del desarrollo
vaciones de cada variable se deben ordenar en materna mental del
rangos, as como obtener las diferencias entre nio
los rangos, efectuar la sumatoria y elevar sta al 5 7 -2 4
cuadrado. 2 5 -3 9
8 6 2 4
Calculo de rs de Spearman.
4 2 2 4
1 - 6d2 1 - 6 x 26 1 - 156 6 4 2 4
r s= = = = 0.69
N -N
3
8 -8
3
504 3 3 0 0
1 1 0 0
Clculo de los grados de libertad (gl). 7 8 -1 1
N= 8 d =26
2

gl = numero de parejas - 1 = 8 - 1 = 7

El valor rs calculado se compara con los valores crticos de rs del coeficiente de correlacin por rangos
de Spearman.

El valor crtico de rs con 7 grados de libertad, para una probabilidad de 0.05 del nivel de significati-
vidad es 0.714, o sea, mayor que el calculado. Por lo tanto, ste tiene una probabilidad mayor que
0.05.

Decisin. Como el valor de probabilidad de rs de 0.69 es mayor que 0.05, se acepta H0 y se rechaza
H 1.

148 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Ejemplo 43. Continuacin

Interpretacin. El coeficiente de correlacin de Spearman de 0.69 es menor que los valores crticos
de la tabla, pues a stos corresponde la probabilidad de obtener esa magnitud, al nivel de confianza
de 0.05 y 0.01, para 0.714 y 0.893. Esto significa que para aceptar H1, se requiere tener un valor igual
o ms lato que 0.714. Por lo tanto se acepta H0 y se rechaza H1, aun cuando, como se observa en la
figura 42, existe una asociacin relativa entre la educacin formal de la madre y el desarrollo mental
de sus hijos; sin embargo, sta no es significativa.

Correlacin de rangos
Figura 42. Asociacin relativa entre la educacin formal de la madre
y el desarrollo mental de sus hijos tomado de:
http://www.fortunecity.com/campus/lawns/380/estadistica/coeficientecsrs.htm

Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 149


Facultad de Ciencias Qumico Biolgicas
Para tener una mayor aproximacin matemtica de los interesados por los temas tratados en esta obra,
se sugiere consultar cualquiera de los libros y pginas web indicadas en la literatura sugerida a conti-
nuacin:

Lieteratura consultada:

Bonnier G y Tedin O. 1996. Bioestadstica. Ed. Acribia. 223 p

Daniel W. W. 1982. Bioestadstica. Limusa. 485 p.

King, B. M., Minium E. M., 2003, Statistical reasoning, 52-53.

Reyes Castaeda P. 1990. Estadstica aplicada. Ed. Trillas. 216 p

Scherrer B. 1984. Boestatistique. Gaetan Morin editeur. 850 p

Sokal R. y F. J. Rholf. 2000. Biometry. Tercera edicin. Ed. Freeman. 887 p

Zar J. H. 1999, Bioestatistical anlisis. 4 edicin. Pretince Hay. 663 p.

Sitios web:

http://euler.ciens.ucv.ve/pregrado/estadistica/archivos/guias-teo/guia1.pdf#search=estad%C3
%ADstica%20descriptiva

http://facultad.sagrado.edu/ConceptosBasicos.pdf#search=%22tabla%20de%20probabilidad%
20conjunta%22

http://es.wikipedia.org/wiki/Funci%B3n_de_densidad

http://personal5.iddeo.es/ztt/Tem/t21_distribucion_normal.htm

http://www.bioestadistica.uma.es/libro/node38.htm

http://www.itcomitan.edu.mx/tutoriales/estadistica/contenido/unidad_4.html

150 UNIVERSIDAD AUTNOMA DE CAMPECHE Estadstica I


Facultad de Ciencias Qumico Biolgicas
Estadstica I UNIVERSIDAD AUTNOMA DE CAMPECHE 151
Facultad de Ciencias Qumico Biolgicas
ESTADSTICA I

Se realiz en el Departamento de Difusin y Publicaciones


del Centro EPOMEX-Universidad Autnoma de Campeche
Composicin, diseo y proceso editorial a cargo de Jorge Gutirrez Lara

Diciembre 2007

Vous aimerez peut-être aussi