Vous êtes sur la page 1sur 149

Instituto de Ciencia Animal

MÉTODOS ESTADÍSTICOS ALTERNATIVOS DE


ANÁLISIS CON VARIABLES DISCRETAS Y
CATEGÓRICAS EN INVESTIGACIONES
AGROPECUARIAS
Magaly Herrera Villafranca (Autor); Caridad Walkiria
Guerra Bustillo (Director)
PÁGINA LEGAL

Herrera Villafranca, Magaly (Autor)


Métodos estadísticos alternativos de análisis con variables discretas y categóricas
en investigaciones agropecuarias / Magaly Herrera Villafranca (Autor); Caridad
Walkiria Guerra Bustillo (Director). – La Habana : Editorial Universitaria, 2015. --
ISBN 959-16-2713-1.
1. Herrera Villafranca, Magaly (Autor)
2. Guerra Bustillo, Caridad Walkiria (Director)
3. Instituto de Ciencia Animal
4. Ciencias Veterinarias

Digitalización: Editorial Universitaria, torri@mes.edu.cu

(c) Todos los derechos reservados: Instituto de Ciencia Animal, 2015.

Editorial Universitaria
Calle 23 entre F y G, No. 564.
El Vedado, Ciudad de La Habana, CP 10400,
Cuba
Instituto de Ciencia Animal
Departamento de Biomatemática

Métodos Estadísticos alternativos de análisis con variables


discretas y categóricas en investigaciones agropecuarias

Tesis en opción al grado científico de Doctor en Ciencias Veterinarias

Autora: Lic. Magaly Herrera Villafranca

Mayabeque
2013
Instituto de Ciencia Animal
Departamento de Biomatemática

Métodos Estadísticos alternativos de análisis con variables


discretas y categóricas en investigaciones agropecuarias

Tesis en opción al grado científico de Doctor en Ciencias Veterinarias

Autora: Lic. Magaly Herrera Villafranca

Tutoras: Dra. C. Caridad Walkiria Guerra Bustillo


Dra. C. Verena Torres Cárdenas

Mayabeque
2013
Pensamiento
Nunca antes en la historia de la Ciencia y la Estadística ha existido una mayor
necesidad para que haya interacción y colaboración entre científicos y
estadísticos.

D.E. Johnson, 2000


Agradecimientos
Mis más sinceros agradecimientos a todas las personas que de una forma u otra me han
ayudado y apoyado para la culminación de este trabajo:

 Dra. C. Caridad Walkiria Guerra Bustillo, por su ayuda incondicional, por sus
sabios consejos, y estar siempre a mi lado, me demostró que con estudio y
constancia se puede llegar.

 Dra. C. Verena Torres Cárdenas por la confianza que depositó en mí y colaborar


en mi formación.

 Dr. C. José A. Bravo Iglesias por sus observaciones tan oportunas, y siempre
dispuesto a dar un consejo para mejorar el trabajo.

 Mi amiga Lic. Lourdes Rodríguez Shade que, aunque siempre está peleando, me
apoyó durante el trabajo de investigación.

 Mí siempre amigo Lic. Fermín Raúl Cobo Cuña que me ha soportado durante todo
este tiempo, y por su apoyo en el trabajo de tesis con sus observaciones
oportunas.

 MSc. Profesora consultante Josefina de Calzadilla, por su ayuda y sus buenas


observaciones.

 Dr. C. Alberto Caballero por su ayuda en la orientación de esta investigación,


desde el principio me aportó buenos consejos.

 Yolaine Medina Mesa, siempre con su atención esmerada y su ayuda


incondicional.

 Dr. C. Luis Mateo Fraga Benítez por su ayuda y siempre dispuesto a aclarar
cualquier duda.

 Muchachitas las técnicas Aida Carmelita Noda Amorós y Lucía Rosario García
Sarduy, las cuales me animaron y me ayudaron en el procesamiento de la
información.

 Lic. Sarai Gómez Camacho por su ayuda.

 Yaisel Rodríguez González y Lyhen Sánchez Suárez.

 Muchachitas del Departamento de Genética.


 Lic. Nidia E. Fernández Ontivero por su colaboración y ayuda incondicional.

 Los compañeros del Departamento de Matemática de La Universidad Agraria de


La Habana los que me apoyaron en el trabajo y me dieron muchos consejos.

 Dr. C. Yasser Vásquez Alfonso, por su apoyo durante el trabajo de investigación y


su ayuda en la búsqueda de información referente al tema.

 A mis compañeros del departamento de Monogástricos, especialmente a Lazarita.

 Especial agradecimiento a Edis Dalia Arbelo Forte por su apoyo incondicional.

 A Erludys Columbie Hernández, por su inestimable apoyo en el servicio de


mensajería.

 Mis amigas y amigo de la biblioteca del ICA, Yeter Caraballo Rodríguez por su
ayuda incondicional en el procesamiento de la información, a Dianelis Mesa
Travieso por su apoyo, Daniela Rodríguez Carballoza, Ibrain A. Díaz Machado,
Yoandra Figueroa Puentes y Dayami Roque Chao por su ayuda en la búsqueda y
ubicación de la información bibliotecaria.

A todos muchas gracias


Dedicatoria

A mi madre querida

A mi padre

A mis hermanos

A mis abuelos (E.P.D)

A mis amigos

A la Revolución
SÍNTESIS

Con el objetivo de evaluar la efectividad de Métodos Estadísticos alternativos de

análisis con variables discretas y categóricas, se aplicó una encuesta estadística

bibliométrica sobre el empleo de Métodos Estadísticos no paramétricos y una

encuesta a investigadores para verificar el conocimiento sobre Métodos

Estadísticos alternativos para evitar el uso inadecuado de la transformación de

datos, en investigaciones agropecuarias y afines. Se analizan 100 variables

correspondientes a los Modelos de Análisis de Varianza simple y doble, de efectos

fijos. Las transformaciones de datos aplicadas fueron: X; X  0,375 ; arcoseno

( p ) y Log X. Se verificó el cumplimiento de los supuestos teóricos del Análisis de

Varianza, con y sin transformación de datos. Los resultados evidenciaron que el

empleo de la trasformación de datos solo fue efectiva en el 13% de los casos

analizados. Los Modelos de Análisis de Varianza (ANAVA) paramétrico y no

paramétricos presentaron resultados similares. Se aplicó el Análisis de

Componentes Principales Categórico (CATPCA) para realizar un análisis integral

de indicadores estadísticos, sobresalen por sus altas correlaciones negativas, la

potencia y la probabilidad de error tipo I en el ANAVA paramétrico (con y sin

transformación) y el no paramétrico. En un análisis comparativo del Modelo Lineal

General (MLG) y el Modelo Lineal Generalizado (MLGnz) se obtuvo que las

probabilidades de error tipo I en ambos modelos son similares, por lo que se

sugiere el MLGnz como una alternativa de análisis, pues la variable respuesta no

requiere del cumplimiento de los supuestos del ANAVA paramétrico. Finalmente

se elaboró una propuesta de acciones metodológicas relacionadas con la

aplicación del Modelo de Análisis de Varianza.


ÍNDICE
ÍNDICE
Pág.
INTRODUCCIÓN 1
CAPÍTULO I. REVISIÓN BIBLIOGRÁFICA 8

1.1 Métodos Estadísticos paramétricos y no paramétricos 8

1.2 Consecuencias del incumplimiento de los supuestos teóricos


básicos del Modelo Análisis de Varianza paramétrico 10

1.3 Potencia de una dócima, tamaño de muestra, probabilidades


de errores (tipo I y II) y tamaño de efectos 12

1.4 Transformación de datos. Origen e incidencia en las


investigaciones agropecuarias 18

1.5 Modelo Lineal Generalizado 21

1.5.1 Origen y desarrollo 21

1.6 Otros Métodos Estadísticos para el análisis con variables


discretas y categóricas 26

CAPÍTULO II. LA ENCUESTA ESTADÍSTICA EN LA


CAPTACIÓN DE INFORMACIÓN Y SU USO 32

2.1 Introducción 32

2.2 Materiales y métodos 32

2.2.1 Encuesta estadística bibliométrica 32

2.2.2 Encuesta estadística a los investigadores 33

2.2.3 Organización, procesamiento y análisis estadístico de la


información 34

2.3 Resultados y discusión 36

2.3.1 Encuesta estadística bibliométrica 36

2.3.2 Encuesta estadística a los investigadores 44

2.3.3 Diagnóstico a partir de la encuesta estadística a los


investigadores: Matriz DAFO 47
2.3.4 Consideraciones parciales 49

CAPÍTULO III. MODELOS DE ANÁLISIS DE VARIANZA


PARAMÉTRICO Y NO PARAMÉTRICO. USO DE
TRANSFORMACIÓN DE DATOS 50

3.1 Introducción 50

3.2 Materiales y métodos 51

3.2.1 Características principales de las investigaciones 51

3.2.1.1 Experimentos con Diseño Completamente Aleatorizado 51

3.2.1.2 Experimentos con Diseño de Bloques al Azar 59

3.2.2 Procesamiento y análisis estadístico de la información 63

3.3 Resultados y discusión 66

3.3.1 Modelos de Análisis de Varianza simple y doble 66

3.3.1.1 Cumplimiento de supuestos y transformación de datos 66

3.3.1.2 Probabilidad de error tipo I y potencia de la dócima F 69

3.3.2 Consideraciones parciales 72

3.3.3 Análisis de Componentes Principales Categórico. Aplicación


a indicadores de los Modelos de Análisis de Varianza 73

3.3.4 Consideraciones parciales. 83

CAPÍTULO IV. El MODELO LINEAL GENERALIZADO.


APLICACIÓN A DIFERENTES DISTRIBUCIONES. 84

4.1 Introducción 84

4.2 Materiales y métodos 84

4.2.1 Características principales de las investigaciones 84

4.2.2 Modelo Lineal Generalizado 85

4.2.2.1 Procesamiento y análisis estadístico de la información 86


4.3 Resultados y discusión 87

4.3.1 Modelo Lineal General y Modelo Lineal Generalizado.


Probabilidad de error tipo I 87

4.3.2 Análisis de Componentes Principales Categórico, para el


análisis de indicadores estadísticos del Modelo Lineal
General y del Modelo Lineal Generalizado 88

4.3.3 Análisis comparativo del Modelo Lineal General y el Modelo


Lineal Generalizado y acciones metodológicas relacionadas
con estos modelos 91

4.3.4 Consideraciones parciales 95

4.3.5 Propuesta de acciones metodológicas para investigaciones


relacionadas con la aplicación del Modelo de Análisis de
Varianza 96

CONCLUSIONES 99

RECOMENDACIONES 100

REFERENCIAS BIBLIOGRÁFICAS

ANEXOS
ÍNDICE DE ABREVIATURAS

ANAVA: Análisis de Varianza.

ARE: Eficiencia Asintótica Relativa.

CATPCA: Análisis de Componentes Principales Categórico.

CATREG: Regresión Categórica.

Cumpl S/T: Cumplimiento de los supuestos sin transformación.

Cumpl C/T: Cumplimiento de los supuestos con transformación.

C/T: Con transformación.

DCA: Diseño Completamente Aleatorizado.

DBA: Diseño de Bloques al Azar.

DDGS: Granos de destilería soluble.

Devia MLGnz: Devianza del Modelo Lineal Generalizado.

Distcod: Distribución con código.

Matriz DAFO: Matriz de Fortalezas, Debilidades, Oportunidades y Amenazas.

MLG: Modelo Lineal General.

MLGnz: Modelo Lineal Generalizado.

No. tto: Número de tratamiento.

PerrorIF: Probabilidad de error tipo I de la dócima F de Fisher.

PerrorI  2 : Probabilidad de error tipo I de la dócima  2 .

Potencia C/T: Potencia con transformación.


Potencia S/T: Potencia sin transformación.

S/T: Sin transformación.

SCerror MLG: Suma de cuadrado del error del Modelo Lineal General.

TM: Tamaño de muestra.

TMutil: Tamaño de muestra utilizado.

Tto: Tratamiento.

Valorp NP: Valor de la probabilidad de error tipo I no paramétrico.

Valorp S/T: Valor de la probabilidad de error tipo I sin transformación.

Valorp C/T: Valor de probabilidad de error tipo I con transformación.


ÍNDICE DE TABLAS

Tabla 1.1. Escalas de medidas e indicadores numéricos en los procedimientos


estadísticos paramétricos y no paramétricos.

Tabla 1.2. Relación entre el tamaño de muestra y cumplimiento de los supuestos


teóricos en procedimientos paramétricos y no paramétricos.

Tabla 1.3. Modelos más empleados según la metodología del Modelo Lineal
Generalizado.

Tabla 1.4. Comparación entre el Modelo Lineal General y el Modelo Lineal


Generalizado.

Tabla 1.5. Funciones de enlace más empleadas en el Modelo Lineal


Generalizado.

Tabla 1.6. Métodos Estadísticos relacionados con variables cualitativas.

Tabla 2.1. Encuestados por departamento.

Tabla 2.2. Interpretación de los valores del Stress (S).

Tabla 2.3. Bondad de ajuste de la configuración de los datos para los Métodos
Estadísticos no paramétricos.

Tabla 2.4. Bondad de ajuste de las temáticas por revistas donde se aplica los
Métodos Estadísticos no paramétricos.

Tabla 2.5. Transformaciones de datos más empleadas, según la encuesta


aplicada a los investigadores.

Tabla 2.6. Aspectos más frecuentes en las respuestas los investigadores.

Tabla 2.7. Bondad de ajuste de los resultados a los investigadores.

Tabla 2.8. Resultados de los pesos de las variables por cada dimensión.
Tabla 2.9. Resultados de la Matriz DAFO.

Tabla 3.1. Resumen del cumplimiento de los supuestos teóricos del ANAVA.

Tabla 3.2. Frecuencia de coincidencias en la toma de decisión.

Tabla 3.3. Resultados de la dócima de McNemar para los valores de probabilidad


de error tipo I.

Tabla 3.4. Resultados de la dócima de McNemar para las potencias de la dócima


F de Fisher.

Tabla 3.5. Resultados del coeficiente Alfa de Cronbach para los indicadores de los
Diseños Completamente Aleatorizado y Bloques al Azar.

Tabla 3.6. Resultados de los pesos de los indicadores por cada dimensión para
los Diseños Completamente Aleatorizado y Bloques al Azar.

Tabla 3.7. Resultados del coeficiente Alfa de Cronbach para los experimentos con
arreglos factorial de los tratamientos.

Tabla 3.8. Resultados de los pesos de los indicadores por cada dimensión para
los experimentos con arreglo factorial de los tratamientos.

Tabla 3.9. Estimaciones de los coeficientes de regresión en el CATREG para


potencias sin transformación.

Tabla 3.10. Importancia de los indicadores en CATREG para potencias sin


transformación.

Tabla 3.11. Estimaciones de los coeficientes de regresión en el CATREG para


potencias con transformación.

Tabla 3.12. Importancia de los indicadores en CATREG para potencias con


transformación.

Tabla 4.1. Distribuciones y funciones de enlace.


Tabla 4.2. Frecuencia de los rangos de probabilidad de error tipo I de las dócimas
F de Fisher y  2 .

Tabla 4.3. Resultados del coeficiente Alfa de Cronbach para el Modelo Lineal
General y Modelo Lineal Generalizado.

Tabla 4.4. Resultados de los pesos de los indicadores por cada dimensión para el
Modelo Lineal General y el Modelo Lineal Generalizado.

Tabla 4.5. Resultados de los criterios de bondad de ajuste al aplicar el Modelo


Lineal Generalizado.

Tabla 4.6. Resultados de los valores de probabilidad de error tipo I para el Modelo
Lineal General y el Modelo Lineal Generalizado.
ÍNDICE DE FIGURAS

Figura 2.1. Revistas relacionadas con la aplicación de los Métodos Estadísticos


no paramétricos.

Figura 2.2. Métodos Estadísticos no paramétricos más usados en estudios


agropecuarios y biológicos.

Figura 2.3. Revistas por temáticas con aplicación de los Métodos Estadísticos no
paramétricos.
.
Figura 2.4. Temáticas por revistas que emplean Métodos Estadísticos no
paramétricos para el análisis de sus investigaciones.

Figura 2.5. Necesidad de aplicar la transformación de datos.

Figura 3.1. Biplot de los indicadores analizados.

Figura 3.2. Biplot de los indicadores para los experimentos con arreglo factorial de
los tratamientos.

Figura 4.1. Biplot de los indicadores estadísticos de los Modelos Lineal General y
Lineal Generalizado.

Figura 4.2. Propuesta de acciones metodológicas para investigaciones con la


aplicación del Modelo de Análisis de Varianza.
ÍNDICE DE ANEXOS

Anexo 1. Verificación de los supuestos teóricos básicos y consecuencias de su


incumplimiento en el Análisis de Varianza.

Anexo 2. Encuesta aplicada a los investigadores.

Anexo 3. Matriz de correlaciones de las variables transformadas por dimensión


para los Diseños Completamente Aleatorizado y Bloques al Azar.

Anexo 4. Matriz de correlaciones de las variables transformadas para los diseños


con arreglos factorial de los tratamientos.

Anexo 5. Matriz de correlaciones de las variables transformadas de los Modelos


Lineal General y Lineal Generalizado.
INTRODUCCIÓN
INTRODUCCIÓN

La Estadística es una de las ramas de la Matemática de mayor universalidad, ya

que en su devenir histórico muchos de sus métodos se han desarrollado para

resolver situaciones específicas en diferentes esferas del conocimiento y la

ciencia.

Méndez (1993) señala que la Estadística se ha convertido en una forma de pensar

y una herramienta muy poderosa en muchas áreas de la actividad humana, como

son: la investigación científica, los procesos productivos y de servicios, en las

acciones y decisiones de gobiernos de países, estados e instituciones, entre otras.

Los Métodos Estadísticos como elementos de apoyo en la investigación agrícola

son fundamentales, puesto que cuantifican y cualifican objetivamente los

resultados de la investigación, estos métodos y procedimientos varían según la

naturaleza y estructura del resultado experimental. Así, si las Ciencias Biológicas

proponen o innovan procedimientos y técnicas que describan la variabilidad de

poblaciones agronómicas, entonces es necesario proveer de herramientas

estadísticas a las nuevas propuestas experimentales (Martínez, 1995).

Di Rienzo et al. (2005) señalan que la enseñanza de la Estadística en las Ciencias

Agropecuarias no es un tributo a la modernidad, sino una larga tradición que se

origina en los trabajos de Fisher que, a comienzos del siglo XX, sentaron las

bases de la Estadística aplicada a la experimentación agrícola.

1
El Análisis de Varianza paramétrico es el Método Estadístico más difundido en el

análisis de datos, desarrollado por Fisher en la década de los años 20 del pasado

siglo, siendo necesario para su empleo el cumplimiento de los supuestos teóricos

básicos, en los que se enmarcan: que los errores experimentales deben ser

normalmente distribuidos; con homogeneidad de varianza e independientes, así

como la aditividad del modelo. Sin embargo cuando algunos de estos supuestos

teóricos fallan, suelen emplearse otros métodos de análisis, como el uso de

transformación de datos y Métodos Estadísticos no paramétricos, entre otros.

Los Métodos Estadísticos no paramétricos presentaron un acelerado desarrollo en

la década de los años 50, en estudios relacionados con las Ciencias Sociales, de

la Conducta, Médicas y Biológicas. Sin embargo en la literatura consultada se

aprecia que estos métodos han sido poco aplicados en las investigaciones

desarrolladas en el campo de las Ciencias Agropecuarias, siendo estos una

alternativa ante el incumplimiento de los supuestos teóricos básicos de algunos

Métodos Estadísticos paramétricos, como es el caso del Análisis de Varianza.

De Calzadilla (1999) y De Calzadilla et al. (2002) al aplicar procedimientos de la

Estadística no paramétrica en investigaciones agropecuarias, en las condiciones

de Cuba, hacen referencia a la poca aplicación de estos métodos en esta área de

la ciencia y detectaron poca efectividad en el uso de la transformación de datos.

Por otra parte, Cristo (2001), al investigar el comportamiento de dócimas no

paramétricas respecto a sus homólogas paramétricas en distribuciones no

2
normales y su eficiencia, recomendó que con muestras pequeñas e

incumplimiento de los supuestos del Análisis de Varianza, lo más conveniente es

el empleo de Métodos Estadísticos no paramétricos.

Con posterioridad, Vásquez (2011) realizó una contribución al tratamiento

estadístico de datos con distribución Binomial en el Modelo de Análisis de

Varianza, en un diseño de Bloques al Azar y Cabrera (2012) evaluó sin éxito el

comportamiento de diferentes transformaciones de datos en una investigación

relacionada con plagas agrícolas, por lo que fue más conveniente la aplicación del

Análisis de Varianza no paramétrica.

Ojeda (2004) señala que la Modelación Estadística se puede considerar como un

área de estudio y especialización, en la que convergen los aspectos teóricos,

metodológicos y computacionales de los Modelos Estadísticos. Este autor indica

que, sin temor a equívoco, es posible asegurar que el detonante de la Modelación

Estadística en datos discretos, lo constituye el trabajo de Nelder y Wedderburn

(1972), que presenta, a partir de los Modelos Lineales Generalizados, un marco

teórico general para el estudio de los Modelos Estadísticos.

El Modelo Lineal Generalizado ha sido muy utilizado en diversas áreas de la

investigación, con el objetivo de dar respuesta al incumplimiento de los supuestos

teóricos del Análisis de Varianza, y al igual que los Métodos Estadísticos no

paramétricos, han sido una alternativa de análisis, principalmente cuando las

variables son de tipo discretas y categóricas, lo cual corroboran Ojeda (2004) y

3
Fox (2007). En las Ciencias Agropecuarias en Cuba se han encontrado pocas

aplicaciones de estos modelos y se considera que pueden ser una alternativa

viable para el análisis.

Las investigaciones realizadas resultan antecedentes necesarios de gran valor

científico, para identificar determinadas situaciones en cuanto al uso de la

transformación de datos y de los Métodos Estadísticos no paramétricos, pero se

considera que con el estado actual de la ciencia, se hace necesario profundizar en

nuevas acciones, que generen un núcleo de orientaciones científicas y

metodológicas, que guíen la aplicación de estos procedimientos en la actividad

científico-investigativa, para evitar el:

 Uso inadecuado de la transformación de datos.

 Empleo de la trasformación de datos sin que se resuelva el cumplimiento de

los supuestos teóricos básicos del Análisis de Varianza.

 No empleo de Métodos Estadísticos alternativos, ante el incumplimiento de

los supuestos teóricos básicos del Análisis de Varianza.

Por lo que se identifica como Problema de investigación: ¿Cómo evitar el uso

inadecuado de la transformación de datos en variables discretas y categóricas en

el Modelo de Análisis de Varianza de efectos fijos, en investigaciones

agropecuarias?

4
Objeto de estudio: La transformación de datos considerando variables discretas y

categóricas en el Modelo de Análisis de Varianza de efectos fijos, en

investigaciones agropecuarias.

Hipótesis

Si se emplean Métodos Estadísticos alternativos de análisis con variables

discretas y categóricas, se evitaría un uso inadecuado de la transformación de

datos en los Modelos de Análisis de Varianza de efectos fijos.

Objetivo general

Evaluar la efectividad de Métodos Estadísticos alternativos para evitar el uso

inadecuado de la transformación de datos con variables discretas y categóricas en

los Modelos de Análisis de Varianza de efectos fijos, en investigaciones

agropecuarias.

Objetivos específicos

1. Diagnosticar el estado actual del uso de la transformación de datos y de

Métodos Estadísticos no paramétricos en investigaciones agropecuarias en

Cuba.

2. Evaluar el comportamiento de la transformación de datos en el

cumplimiento de los supuestos teóricos básicos con variables discretas y

5
categóricas en los Modelos de Análisis de Varianza simple y doble de

efectos fijos.

3. Establecer criterios de valor teórico-práctico, a partir de un análisis integral

de indicadores estadísticos de los Modelos de Análisis de Varianza

paramétricos y no paramétricos y del Modelo Lineal Generalizado.

4. Proponer acciones metodológicas para investigaciones relacionadas con la

aplicación del Modelo de Análisis de Varianza.

Novedad científica

La novedad científica radica en que por primera vez en las condiciones de la

Ciencia Agropecuaria en Cuba, se establecen Métodos Estadísticos alternativos

para evitar el uso inadecuado de la transformación de datos, con variables

discretas y categóricas, en los Modelos de Análisis de Varianza de efectos fijos.

Aporte social

La capacitación a técnicos y usuarios de los Métodos Estadísticos, mediante

cursos, talleres, conferencias y seminarios, entre otras modalidades, sobre el uso

adecuado de la transformación de datos, los Modelos de Análisis de Varianza

paramétricos y no paramétricos, y el Modelo Lineal Generalizado, con variables

discretas y categóricas en la investigación científica.

6
Aporte práctico

Se proponen acciones metodológicas para el tratamiento y el análisis de la

información experimental con variables discretas y categóricas, en los aspectos

relacionados con el uso de la transformación de datos y alternativas de análisis

basadas en los Modelos de Análisis de Varianza paramétricos y no paramétricos,

y el Modelo Lineal Generalizado.

7
CAPÍTULO I
REVISIÓN BIBLIOGRÁFICA
CAPÍTULO I. REVISIÓN BIBLIOGRÁFICA

1.1. Métodos Estadísticos paramétricos y no paramétricos

En la docimasia de hipótesis, los Métodos Estadísticos paramétricos son los que

se utilizan con más frecuencia, siendo necesario para su empleo el cumplimiento

de diversos supuestos sobre la población que se estudia.

La técnica conocida como Análisis de Varianza (ANAVA), fue desarrollada por R.

A. Fisher para facilitar el análisis e interpretación de los datos desde ensayos de

campo y experimentos de laboratorio, en la agricultura e investigaciones biológicas

(Eisenhart, 1947).

El ANAVA, es una de las técnicas más utilizadas en el proceso de investigación

Norell (2003). Es descrito por Tejedor (1999); Khan y Rayner (2003) y Spiegel et

al. (2003) como una colección de modelos estadísticos y sus procedimientos

asociados, apropiada para evaluar la igualdad entre poblaciones o tratamientos,

en el cual la varianza está fraccionada en ciertos componentes, debido a

diferentes factores o variables explicativas, incluidas en el modelo.

Los Métodos Estadísticos no paramétricos no requieren de supuestos severos

sobre la población que se estudia. Según Servy et al. (2007) una prueba

Estadística no paramétrica está basada en un modelo que especifica sólo

condiciones muy generales y ninguna acerca de la forma específica de la

distribución de la población de la que fue tomada la muestra.

8
Los Métodos Estadísticos no paramétricos resultan una alternativa importante, ya

que no dependen de la distribución de los datos, pueden usarse en caso de

muestras pequeñas y, en general, resultan más rápidos y sencillos de aplicar

(Siegel y Castellan 1995, Gómez et al. 2003 y Santos et al. 2005). En este sentido

se considera que una alternativa está dada en el ANAVA paramétrico, cuando se

incumplen los supuestos con serias implicaciones en el análisis.

A partir de lo señalado anteriormente se establecen las diferencias entre los

estadígrafos correspondientes en el empleo de los procedimientos paramétricos y

no paramétricos, autores como Siegel y Castellan (1995), De Calzadilla (1999) y

Guerra et al. (2000) se han referido al respecto, por lo que se resumen en la Tabla

1.1.

Tabla 1.1. Escalas de medidas e indicadores numéricos en procedimientos


estadísticos paramétricos y no paramétricos.
Procedimientos
Paramétricos No Paramétricos
Aspectos a analizar
Escala de Medida Métricas Métricas y no métricas
Media aritmética Mediana
Media geométrica Cuartiles
Localización o Posición Media armónica Percentiles
Mediana
Moda
Varianza Rango medio
Dispersión Desviación típica o estándar Rango
Coeficiente de variación Rango intercuartílico
Rango interpercentílico
Correlación de Pearson Correlación de Rango de
Asociación Covarianza Spearman
Correlación de Kendall
Coeficiente de contingencia

9
1.2. Consecuencias del incumplimiento de los supuestos teóricos básicos

del Modelo Análisis de Varianza paramétrico

La distribución Normal de los errores, señalan Steel y Torrie (1992) y Peña (1994),

tiene poca influencia en el ANAVA para comparar medias, dado que esta técnica

es robusta frente a desviaciones de los errores; sin embargo, plantean que la falta

de normalidad puede afectar otros supuestos como, la homogeneidad de varianza,

sobre todo, cuando el número de observaciones de los grupos son muy diferentes,

sin embargo cuando se analizan componentes de varianza, la normalidad si puede

afectar el resultado del análisis.

El incumplimiento de algunos de los supuestos del ANAVA pude afectar tanto los

niveles de significación como la sensibilidad de la prueba F de Fisher o t de

Student, lo que conlleva a la pérdida de exactitud en los estimadores obtenidos

para los efectos de tratamientos (Cochran y Cox, 1999 y Vilar, 2011).

Las decisiones estadísticas, son probabilísticas y por tanto, lo más importante no

es tomar una decisión, sino conocer la probabilidad de equivocarse al tomar esta

(Miranda 1997). Los modelos de análisis estadístico, como el ANAVA son

sensibles a las propiedades estadísticas de los términos de error aleatorio del

modelo lineal (Avanza et al. ,2006 y Balzarini et al., 2008).

El incumplimiento de alguno de estos supuestos lleva a conclusiones erróneas

como rechazar la hipótesis nula siendo verdadera o viceversa, lo que trae consigo

10
resultados falsos en los experimentos que al materializarse en los sistemas de

producción introducen pérdidas económicas y error en el proceso de toma de

decisiones (Pérez et al., 2002).

Martín y Luna (1994), señalan que la heterogeneidad de varianzas viene

acompañada de variables no normales, por lo que ante esta situación

recomiendan aplicar transformaciones y además expresan que en tales

circunstancias la misma transformación que estabiliza las varianzas suele

normalizar la respuesta.

Sin embargo, Peña (1994) ha sugerido que antes de transformar los datos se debe

estudiar gráficamente la distribución de los residuos y si la misma resulta muy

asimétrica, entonces conviene realizar la transformación, lo cual resulta una

opción antes de proceder a la misma.

En el Anexo 1 se establecen los supuestos teóricos del ANAVA, las dócimas de

uso más frecuente para normalidad, homogeneidad e independencia, así como

sus estadísticos, características y consecuencias de su incumplimiento en el

análisis estadístico.

En sentido general el incumplimiento de algunos de estos supuestos pueden

incidir en los resultados investigativos y por ende pueden conllevar a conclusiones

erróneas como rechazar la hipótesis nula siendo verdadera o viceversa. Cuando

11
estos supuestos teóricos del ANAVA son satisfechos las inferencias del modelo

estadístico son mejores.

1.3. Potencia de una dócima, tamaño de muestra, probabilidades de errores

(tipo I y II) y tamaño de efectos

Bono y Arnau (1995), realizan un recuento histórico del desarrollo del concepto de

potencia de una dócima, señalando que este se le atribuye a Neyman y Pearson

en el período de 1928 al 1933, apareciendo otros autores que tenían en cuenta la

potencia estadística, como Cox en 1948, McNemar en 1960 y Tukey en 1960,

entre otros.

Estos autores señalan que hay dos formas de estimar la potencia, a priori y a

posteriori, la primera alerta al investigador sobre el tamaño de muestra necesario

para una potencia adecuada y con este fin se construyen las tablas de potencia.

La potencia a posteriori, es importante en la interpretación de los resultados de

estudios ya acabados, que es el caso analizado en este trabajo de investigación.

Numerosos autores, entre ellos Kreyszig (1974) y Ostle (1974) concuerdan en

señalar que un experimento dado cuando se prueba una hipótesis específica, el

valor 1-β es conocido como la potencia de la prueba, esta expresión se expresa en

función del parámetro verdadero, siendo conocida como función de potencia y es

expresada como 1-β (θ), donde θ representa el valor verdadero del parámetro.

12
Mood y Graybill (1972) y Rodríguez (2008) denotan a la función de potencia como:

η (θ)= 1- β(θ) = 1- P(II)= P(rechazar H0| H0 es falsa), y se tiene que:

α = P(I), si θ = θ0 Є H0 (hipótesis nula)


η (θ)=
1- β(θ), si θ = θ1 Є H1 (hipótesis alternativa)

En esencia la función de potencia toma el valor α, cuando se cumple la hipótesis

nula, por lo que resulta muy conveniente que η (θ) tome valores bajos cuando se

cumple H0 (α) y tome altos valores cuando se cumple H1 (1- β(θ) ).

Scheffé (1959) hace referencia a la potencia de la dócima F en Modelos de

Análisis de Varianza con efectos fijos, observaciones independientes y

homogeneidad de varianzas, como la probabilidad β de rechazar la hipótesis

probada, siendo expresada por:

β = Pr{F´ (ν1, ν2, δ) > Fα(ν1, ν2)}, donde:

F´ (ν1, ν2, δ) es llamada distribución F no central, con ν1 y ν2 grados de libertad con

parámetro de no centralidad δ.

Fα (ν1, ν2) es un percentil de la distribución F, con ν1, ν2 grados de libertad del

numerador y denominador respectivamente.

13
Este autor se refiere a las tablas de potencia calculadas por Tang en 1938, solo

para los valores de α = 0,01 y 0,05 y reproduce los gráficos de potencia para la

dócima F, construidos por Pearson y Hartley en 1951.

Bono y Arnau (1995), señalan que las estimaciones de la potencia estadística

quedan determinadas por tres componentes:

 Tamaño muestral, es decir cuanto más grande sea la muestra, mayor será la
potencia.
 Nivel de significación, dado que al incrementarse la probabilidad de error tipo I,
la potencia también aumenta.
 Tamaño del efecto (TE) o grado en que el fenómeno de interés está presente,
de modo que cuando los efectos son grandes, la potencia se incrementa.

Sabín (1999) realizó un estudio sobre la determinación de la potencia a posteriori,

utilizando experimentos conducidos en el Instituto de Ciencia Animal con diseños

clásicos, a partir de la expresión de potencia dada por Scheffé (1959), utilizó la

aproximación dada por Patnaik en 1949, mediante la cual se aproxima la F no

central a una F central.

Camacho (2007) en relación con la potencia estadística, coincide con los tres

aspectos anteriores, incluyendo uno muy importante que es la variabilidad de la

respuesta estudiada.

Siegel y Castellan (1995) en el área de la Estadística no paramétrica, introducen el

concepto de Potencia – Eficiencia, referido al incremento en el tamaño de la

14
muestra necesario para hacer la prueba B tan poderosa como la A, al ser la

prueba A de las conocidas, la más poderosa de su tipo (cuando se usa con datos

que satisfacen sus condiciones), al ser la prueba B, que se presta al mismo diseño

de investigación, tan poderosa con Nb casos como la prueba A con Na casos, con

lo que se tiene:

Potencia - Eficiencia de la prueba B = Na/Nb (100).

Fraser (1957) y Gibbons (1971) proponen que para obtener una medida asintótica

útil para la Eficiencia relativa de una prueba no paramétrica con respecto a su

homóloga paramétrica, la Eficiencia Asintótica Relativa, usualmente conocida como

ARE (en inglés, Asymptotic Relative Efficiency), conocido también como Eficiencia

de Pitman.
20

Daniel (1978) plantea que el ARE de la dócima de Kruskal-Wallis es de 0,955,

comparada con la prueba paramétrica más poderosa, F de Fisher. Este mismo

autor refiere que en el caso de la dócima Friedman esta posee un ARE de 0,955

(k/k+1), cuando las poblaciones son normales; en poblaciones con distribución

uniforme el ARE se expresa como k/k+1 y en poblaciones que poseen distribución

exponencial doble este se identifica como 3/2 (k/k+1)

Johnson (1990) indica que la elección de un contraste o prueba de hipótesis no

puede apoyarse únicamente en su poder (potencia) y eficiencia. Algunas veces la

utilización de ciertas pruebas de hipótesis se ve forzada por los datos que se

15
analizan, cuando debe llegarse a una decisión al respecto, hay que considerar tres

factores:

 El poder del contraste.


 La eficiencia del contraste.
 El tipo de datos y la cantidad de observaciones disponibles.

Este mismo autor señala que los métodos no paramétricos desperdician

información, pues sacrifican el valor de la variable sustituyéndolas por un signo o

un rango, siendo por lo general menos eficientes que sus contrapartes

paramétricas.

Es real lo que plantea este autor, dado por el criterio de Potencia-Eficiencia

propuesto por Siegel (1970), Daniel (1978) y Siegel y Castellan (1995), sin

embargo, se sugieren los Métodos Estadísticos no paramétricos como alternativa

de análisis, cuando existan serias implicaciones por el incumplimiento de los

supuestos teóricos de los Métodos Estadísticos paramétricos o por otros criterios

técnicos aportados por los especialistas.

Álvarez (2008) expresa que en muestras menores de 11 casos, la potencia

estadística de las pruebas paramétricas y no paramétricas es equivalente,

teniendo en cuenta que las exigencias para las pruebas no paramétricas son

menores y que detectar violaciones de las condiciones de aplicabilidad en las

pruebas paramétricas es más difícil.

16
Generalmente, en la práctica no se tiene en cuenta la relación inversa que existe

entre estas dos probabilidades (α y β) y se hace referencia exclusivamente a los

niveles de significación obtenidos en el ANAVA, sin tomar en consideración que

para los valores bajos de α se puede obtener valores altos de β que pueden poner

en riesgo la toma de decisiones (Torres y Segui, 2001).

López y Romero (1986) realizan un análisis detallado donde exponen la relación

que existe entre el tamaño de muestra y el cumplimiento de los supuestos

teóricos, con el método estadístico a utilizar. En la tabla 1.2 se muestra un

resumen a partir de este enfoque.

Tabla 1.2. Relación entre el tamaño de muestra y cumplimiento de los supuestos


teóricos de los procedimientos paramétricos y no paramétricos.
Tamaño de Cumplimiento de los supuestos
muestra
Se cumplen Se duda No se cumplen
Pequeña Paramétrica No paramétrica No paramétrica
Análisis más
profundo para
Grande Paramétrica valorar cual es la No paramétrica
mejor opción

Cristo (2001), en una investigación relacionada con el comportamiento de las

dócimas no paramétricas respecto a las paramétricas en distribuciones no

normales, así como la eficiencia de estos métodos con sus homólogos

paramétricos, obtuvo que al emplear muestras pequeñas con el incumplimiento de

los supuestos del Análisis de Varianza, lo más conveniente es el empleo de los

Métodos Estadísticos no paramétricos.

17
Menchaca (1974, 1975); Venereo (1976); Caballero (1979) y Menchaca y Torres

(1985), aportaron tablas de tamaños de muestra y número de réplicas en Diseños

Completamente Aleatorizados, Bloques al Azar, Cuadrado Latino y Diseños de

Cambio, teniendo en consideración: la máxima diferencia estandarizada entre dos

medias (∆), la cantidad de tratamientos (t), el nivel de significación (α) y la potencia

de la dócima (1-β), las cuales representan valiosas herramientas de trabajo para

investigadores de diferentes ramas y se considera que no han sido aprovechadas

con amplitud.

En la actualidad, con el avance de la informática, existen paquetes estadísticos

que incluyen el cálculo de la potencia, como el InfoStat, G Power y el SPSS, entre

otros.

1.4. Transformación de datos. Origen e incidencia en las investigaciones

agropecuarias

Bartlett (1947) plantea que el propósito de las transformaciones de datos es

buscar una nueva escala de medida con el objetivo de hacer el análisis más

válido.

Box y Cox (1964) propusieron una técnica de transformación de potencia a las

observaciones con el fin de reducir anomalías, tales como: la no-aditividad, la no

normalidad y la heterocedasticidad.

18
Y ( )
0

Yλ = (para Y > 0)
log Y 0

Menchaca (1973) señala que Box y Cox en 1964, consideran una familia

paramétrica de transformaciones de Y en Y(λ), donde se define λ como una

transformación particular, ellos asumen que para algún λ desconocido, las

observaciones transformadas Yi(λ) (i= 1, 2, …, n) satisfacen las hipótesis de base,

por otra parte Sakia (1992) plantea que esta transformación es conocida

precisamente como Box-Cox y ha mostrado una amplia flexibilidad y aplicabilidad

desde sus primeras apariciones.

Las transformaciones de datos se utilizan con frecuencia en el Análisis de

Varianza, siendo una alternativa, siempre que sean bien empleadas, pues se ha

detectado en varios estudios un uso indiscriminado de estas sin tener en cuenta el

cumplimiento de los supuestos teóricos, antes y después de aplicadas, ya que

estos no son verificados.

Peña y Peña (1986) manifiestan, que las transformaciones Box-Cox constituyen

una alternativa razonable para lograr la normalidad, más potente que la mayoría

de los procedimientos existentes usados en distribuciones asimétricas.

Según Méndez (2000) cuando los datos son normales, pero las varianzas son

heterogéneas, se utiliza diferentes transformaciones de datos (logarítmica, raíz

19
cuadrada o inversa), estas se vuelven a comprobar y si las varianzas son

homogéneas es correcto utilizar un ANAVA.

Cabrera et al. (2012) plantean que muchos datos provenientes de poblaciones de

plagas por ser datos discretos por lo regular no cumplen los supuestos teóricos y

cuando se emplean las transformaciones de datos no se ajustan a una distribución

Normal.

Entre las transformaciones de datos más empleadas en la rama agropecuaria se

encuentran: la raíz cuadrada, logarítmica y arcoseno ( p ), que están dadas de

acuerdo a la naturaleza de la variable en estudio.

Se considera que en las investigaciones agropecuarias u otras, el uso de la

transformación de datos ponen en evidencia:

 El inconveniente de que los datos pasan a una escala de medida que no es

la original, por lo tanto se debe tener la debida precaución en el análisis de

los resultados.

 Que estudios previos científicamente fundamentados han mostrado la poca


efectividad de su empleo.

Es por ello, que se debe propiciar el uso de Métodos Estadísticos alternativos más

flexibles ante el incumplimiento de los supuestos del Análisis de Varianza, como

es el caso de la Estadística no paramétrica u otros que tengan implícito diferentes

distribuciones de los datos originales.


20
1.5 Modelo Lineal Generalizado

1.5.1. Origen y desarrollo

Nelder y Wedderbum (1972) proponen una teoría unificadora de Modelación

Estadística que le dieron el nombre de Modelo Lineal Generalizado (MLGnz),

como una extensión de los Modelos Lineales Generales clásicos (MLG). Estos

autores mostraron una serie de técnicas comúnmente estudiadas de forma

separada que pueden ser reunidas bajo ese nombre MLGnz.

Los autores antes mencionados presentaron el concepto de MLGnz, y

posteriormente McCullag y Nelder (1989) presentan una amplia información sobre

estos modelos. La esencia radica en que el valor esperado de la variable

respuesta es denotada por μ = E(Y | X ) que se relaciona con la parte sistemática

del modelo como:

E( Y | X )  g( X)    g( )

Donde:

Y: es una función monótona

η: predictor lineal

η = Xβ: función que relaciona μ

g: función de enlace

Por otra parte Mongotmery et al. (2005) y Faraway (2006) plantean que un MLGnz

está definido por dos componentes específicos. La respuesta debe ser un


21
miembro de la distribución de la familia exponencial y la función de enlace

describe de que forma se relacionan la media de la respuesta y una combinación

lineal de los predictores.

En el MLGnz la distribución de Y de la familia exponencial es de la forma:

 y  b 
F (yІθ,  ) = exp  + c y, 
 a 

Donde:

θ: se conoce como el parámetro canónico y representa la localización.

 : es el parámetro de dispersión o de la escala.

a, b y c son funciones conocidas.

Verde (2000) señala que los MLGnz se especifican con tres componentes: el

componente aleatorio que identifica la distribución probabilística de la variable

respuesta, el componente sistemático que especifica una función lineal de

variables explicativas que es usada como un predictor y una asociación que

describe la relación funcional entre el componente sistemático y el valor esperado

del componente aleatorio.

En las investigaciones agropecuarias muchas veces se involucran situaciones

donde es difícil utilizar el MLG en los Análisis de Varianza y Regresión, porque las

variables que se analizan no cumplen los supuestos de normalidad,

homogeneidad de varianzas e independencia de los errores.

22
Actualmente las Ciencias Agropecuarias demandan de herramientas estadísticas

que permitan obtener estimaciones más precisas, y teniendo en cuenta las

bondades que muestra este modelo, muchos autores recomiendan el empleo de

los MLGnz, muy utilizado en el análisis con variables discretas y categóricas.

Los mecanismos que llevaron a esta visión general de la Modelación Estadística

se remonta a más de un siglo. Una reseña histórica fue trazada por McCullagh y

Nelder en 1989 y Lidsey en 1997 (citados por García, 2002) a partir de diferentes

distribuciones (tabla 1.3).

Tabla 1.3. Modelos más empleados según la metodología del Modelo Lineal
Generalizado.
Distribuciones Tipo de Análisis Autores
Regresión Lineal Legendre y Gauss (siglo XIX)
Múltiple
Normal Análisis de Varianza Fisher (1920- 1935)
para diseños
experimentales
Fisher(1922); Bliss (1935);
Normal ; Binomial ; Berkson (1944); Dike y
Bernuolli ; Poisson Función de Patterson (1952);
Multinomial; Exponencial y verosimilitud Racha (1960); Birch (1963);
Gamma Feig y Zelen (1965); Zippin y
Armitage (1966); Gasser (1967)
y Nelder (1966)

Existen algunas diferencias entre el MLG y el MLGnz, estas están dadas porque

en el primero se debe cumplir determinados requisitos, como son: los errores

deben distribuir Normal, por tanto la variable debe ser continua, la varianza de los

errores debe ser constante y el modelo debe expresarse en forma aditiva.

23
En el caso del MLGnz se puede emplear a cualquier tipo de distribución, que tiene

un predictor lineal asociado a la variable dependiente y por otra parte este modelo

presenta una componente aleatoria, el método de estimación es el de Máxima

Verosimilitud, mientras que en el MLG el método es el de Mínimos Cuadrados

Ordinarios (Greene, 1999; Johnston, 2000 y Correa, 2007).

En la tabla 1.4 se hace una comparación entre el MLG y el MLGnz, considerando

sus características.

Tabla 1.4 Comparación entre el Modelo Lineal General y el Modelo Lineal


Generalizado.
Expresión del Modelo Variable Método de
Modelo Sistemática Aleatoria respuesta Estimación
Mínimos
Lineal General Xβ ε Continua Cuadrados
Ordinarios
(MCO)
Máximo
h(y,θ)=exp[p(θ) Continua Verosimilitud,
y-q(θ)+g(y)] Categórica, Mínimos
Lineal Xβ Discreta Cuadrados
Generalizado donde: (Poisson, Ponderados,
p(θ), q(θ),y g(y) Multinomial, Mínimos
son funciones entre otras.) Cuadrados
conocidas Generalizados

Para el análisis del MLGnz se necesita conocer que distribución poseen los datos,

pues esta permite seleccionar la función de enlace apropiada a cada distribución.

Se denomina funciones de enlace canónicas aquellas que se aplican por defecto a

cada una de las distribuciones de errores. Esto no significa que siempre se deba

usar una única función de enlace para una determinada distribución. De hecho,

24
puede ser recomendable comparar diferentes funciones de enlace para un mismo

modelo y ver con cual se obtiene un mejor ajuste del modelo a los datos (Cayuela,

2010).

En la tabla 1.5, se expresan las funciones de enlace más usadas en el análisis de

MLGnz.

Tabla 1.5. Funciones de enlace más empleadas en el Modelo Lineal Generalizado.


Funciones Funciones Modelos de
Distribución de enlace canónicas análisis Empleo
Modelo Lineal Variables continuas
Normal Identidad η=μ clásico (Diseños con errores
experimentales y normalmente
Regresión) distribuidos
Variables discretas
Poisson Logarítmica η = log (μ) Logarítmico con errores con
distribución Poisson
Proporciones
μ (variables con
Binomial Logit η  log Logístico respuestas
1 μ
dicotómicas o con
valores 0 y 1)
1 Variables continuas
Gamma Recíproca η Logarítmico con errores con
μ
distribución Gamma
Variables que miden
Normal 1 toxicidad o cualquier
inversa Recíproca2 η= Probit variable con
2 respuesta binaria

Entre las ventajas que ofrece el MLGnz, está que permite emplear una mayor

variedad de distribuciones para la variable respuesta, es decir, posibilita el ajuste

de un modelo con diferentes distribuciones.

25
En esencia este modelo descompone la variabilidad de la variable respuesta en

dos componentes una sistemática y la otra aleatoria asociada a una función de

enlace de acuerdo a la distribución que adopten los datos analizados.

Un aporte importante de este modelo es que permite analizar variables con

respuestas discretas y continuas, mientras que el MLG solamente analiza

variables de tipo continuas.

1.6. Otros Métodos Estadísticos que analizan variables discretas y

categóricas

Numerosos son los Métodos Estadísticos que se utilizan en la actualidad para el

análisis de variables discretas y categóricas. En la medida en que las

investigaciones progresan, se desarrollan nuevas técnicas para el análisis con

estos tipos de variables. Es por ello que surge la necesidad de establecer

semejanzas y diferencias entre las técnicas existentes para determinar su

superioridad o para establecer sus limitaciones y poder determinar el método más

apropiado ante una nueva situación.

El desarrollo de métodos para el análisis de las variables categóricas se comenzó

por los estudios de la investigación en las Ciencias Sociales y Biomédicas. Las

escalas categóricas son estudiadas en las Ciencias Sociológicas para medir

actitudes y opiniones. Las escalas categóricas en las Ciencias Biomédicas miden

si el resultado de un tratamiento médico es exitoso o no (Agresti, 2007).

26
Según Greene (1999), los modelos de naturaleza categórica son modelos de

probabilidad condicionada, por lo que p (y=j/xi) es una función de las

combinaciones lineales β X, donde β es el vector de los parámetros y X es el

vector de regresores, (i = 1, 2…k) y (j=0,1,2,j).

Correa (2007) plantea que la distribución de Poisson juega un importante papel en

la modelación del conteo de individuos en muchas áreas investigativas, se

caracteriza por un solo parámetro μ=n, donde μ es una esperanza matemática y

puede interpretarse como el número esperado de ocurrencias en un intervalo de

tiempo, área o espacio especificado y la tasa de ocurrencia (), se define como el

número esperado de ocurrencias del evento.

Con frecuencia las variables discretas y categóricas se relacionan con

distribuciones de probabilidad Binomial, Multinomial y Poisson, entre otras,

teniendo en cuenta estos elementos, Guerra et al. (2010) resumen en la tabla 1.6,

los principales Métodos Estadísticos relacionados con el análisis de variables

cualitativas, según el número de variables involucradas. De los procedimientos

clásicos reportados en esta tabla, los de más amplia aplicación, son los

correspondientes a la Estadística no paramétrica.

27
Tabla 1.6. Métodos Estadísticos relacionados con variables cualitativas.
Según número Métodos
de variables Descriptivo Inferencial
Moda, mediana, rango, cuantíles, Dócima de
frecuencias, porcientos. proporciones y
Univariado Tablas de frecuencia. dócimas no
Gráficos de barras, sectores, entre paramétricas.
otros. Series temporales.
Tablas de frecuencia bivariada o Dócima Chi-
tablas de contingencia. cuadrado.
Bivariada Medidas de asociación no Regresión Logit
paramétricas (coeficientes de Regresión Probit
contingencia, Spearman, Kendall, etc)
Gráficos de barras, mosaicos.
Coeficiente de fiabilidad. Regresión Logística
Coeficiente de esfuerzo (Stress). Regresión Poisson
Matriz de correlaciones. Modelo Log lineal
Multivariado Análisis Cluster. Regresión
Análisis de Correspondencia Múltiple. Categórica(CATREG)
Escalamiento Multidimensional (EMD) Modelo Lineal
Escalamiento Óptimo. Generalizado
Mapas Auto Organizados (SOM)

Navarro et al. (2008) indican que la Regresión Categórica (CATREG), trabaja bajo

el enfoque de la Regresión con transformaciones, aplicando la metodología de

Escalamiento Óptimo desarrollada por el sistema Gifi en 1990, para transformar la

respuesta y los predictores, dando lugar a un modelo flexible.

La referencia de este autor a que el CATREG es un modelo flexible, se considera

que está dada, a que este amplía las posibilidades del Modelo de Regresión

clásico, mediante el uso del Escalamiento Óptimo (minimiza la función de pérdida

de información), aplicable a variables nominales, ordinales y numéricas,

simultáneamente.

El CATREG es un método a través del cual la regresión se aplica a una variable

respuesta en forma de categorías con el propósito de predecir la respuesta como


28
función de una o más variables independientes. El CATREG se ha desarrollado

como un método de regresión lineal para variables categóricas (Navarro et al.

2010).

El Análisis de Componentes Principales Categórico (CATPCA), puede

considerarse como una técnica exploratoria de reducción de las dimensiones de

una base de datos incorporando variables nominales y ordinales de la misma

manera que las numéricas (Molina y Espinosa de los Monteros, 2010).

El Análisis Factorial de Correspondencia Múltiple es una técnica que se utiliza

para reducir la dimensionalidad y la elaboración de mapas preceptúales, ya que

estos se basan en la asociación entre objetos y un conjunto de características

descriptivas; además, va más allá de analizar la relación existente entre las

variables, porque permite conocer como está estructurada esta relación (Quaglino

y Pagura, 1998 y Aranzazu et al. 2007).

Trujillo del Pozo (2001) plantean que el Análisis de Correlación Canónica

proporciona variables que garantizan este resultado, y es recomendable su

utilización cuando tanto el número de variables endógenas, como las explicativas

son elevadas, además existen altas correlaciones de las variables de cada grupo

entre sí.

29
Mediante este método de reducción de variables se puede eliminar el ineludible

problema de multicolinealidad que ocasionaría la consideración de todas las

variables en un modelo de regresión.

El Escalamiento Multidimensional es un conjunto de técnicas que persiguen como

objetivo, la representación de datos a través de la construcción de una

configuración de puntos cuando se conoce una determinada información sobre

proximidades entre objetos (Linares, 2001; Miret et al., 2002; Mora y González,

2009 y Arce et al., 2010).

Por otra parte Miret et al. (2002) y Miret (2005) señalan que el Escalamiento

Multidimensional consiste esencialmente en representar disimilaridades entre

objetos o individuos, como distancias entre puntos en un espacio de dimensión

reducida, mientras que los Mapas Auto Organizados de Kohonen, se caracterizan

por su capacidad para clasificar un conjunto complejo de patrones de manera no

supervisada, extrayendo criterios de clasificación no obvios ni expresados de

manera explícita.

Otros criterios sobre modelos relacionados con las variables cualitativas, son

dados por Guerra et al. (2010), como son:

 La Matriz DAFO, con implementación automatizada, se puede considerar como


un Modelo cualitativo de diagnóstico en diversas áreas de investigación.

30
 El criterio de experto, a través del Método Delphy, se puede considerar como
un Modelo cualitativo de validación en determinadas situaciones.

Todos estos Métodos Estadísticos, resultan alternativas de análisis en las

investigaciones donde se analizan variables que son de tipo discretas y

categóricas.

31
CAPÍTULO II
LA ENCUESTA ESTADÍSTICA EN LA
CAPTACIÓN DE INFORMACIÓN Y SU USO
CAPÍTULO II. LA ENCUESTA ESTADÍSTICA EN LA CAPTACIÓN DE

INFORMACIÓN Y SU USO

2.1. Introducción

Se aplicó una encuesta estadística bibliométrica y a los investigadores del Instituto

de Ciencia Animal, con el objetivo de diagnosticar el estado actual del uso de la

transformación de datos y de los Métodos Estadísticos no paramétricos en las

investigaciones de la Ciencia Agropecuaria en Cuba.

2.2. Materiales y métodos

2.2.1. Encuesta estadística bibliométrica

La encuesta estadística bibliométrica se realizó con el objetivo de conocer los

Métodos Estadísticos más empleados, así como las temáticas más abordadas en

el período analizado del 2000 al 2007.

Se revisaron 1418 artículos para conocer las temáticas, así como los Métodos

Estadísticos no paramétricos más abordados en revistas científicas

correspondientes a las Ciencias Agropecuarias y Biológicas, pertenecientes al

fondo bibliotecario del Instituto de Ciencia Animal. Las revistas revisadas están

contenidas en bases de datos internacionales y en la Web of Science. Se

emplearon estas revistas por ser las colecciones más completas en el período que

se analiza.

32
Para el estudió se revisaron las revistas:

 Revista Cubana de Ciencia Agrícola (RCCA)

 Revista Ciencias Biológicas (CENIC)

 Pastos y Forrajes (EPFIH)

 Agrociencia (México)

 Veterinaria de México (México)

 Archivos de Zootecnia (España)

 Ciencias Pecuarias (Colombia)

Los indicadores que se midieron fueron:

 Nombre de la revista

 Número de los artículos por revista

 Tipo de variables analizadas

 Métodos Estadísticos aplicados

 Temáticas tratadas con aplicación de Métodos Estadísticos no

paramétricos.

2.2.2. Encuesta estadística a los investigadores

Se desarrolló una encuesta en el 2011 (Anexo 2), para evaluar el conocimiento de

los investigadores sobre la transformación de datos, y el uso de Métodos

Estadísticos alternativos para evitar el empleo de estas en el análisis estadístico

de los resultados de las investigaciones desarrolladas en el Instituto de Ciencia

33
Animal. De un total de 89 investigadores, distribuidos en Titulares, Auxiliares,

Agregados y Aspirantes, fue posible encuestar 69, que representan el 77,53% de

todas las categorías con la siguiente representación por cada departamento, tabla

2.1.

Tabla 2.1. Encuestados por departamento.


Departamento %
Monogátricos 13,3
Fisiología 24,6
Rumiantes 26,7
Pastos 15,9
Genética 7,2
Biomatemática 7,2
Total 100

Para el análisis de la encuesta a los investigadores se valoraron los siguientes

indicadores:

 Departamento.
 Empleo de transformaciones.
 Número de transformaciones que emplean.
 Métodos Estadísticos alternativos que usan.
 Sabe que logra con el uso de la transformación de datos.
 Interés por continuar con el uso de las transformaciones.

2.2.3. Organización, procesamiento y análisis estadístico de la información

Para el análisis de las encuestas estadísticas bibliométrica y a los investigadores,

la información fue tabulada en una base de datos de Excel para su posterior

procesamiento.

34
Para procesar la información de las revistas y las encuestas a investigadores se

empleó el método de Escalamiento Multidimensional PROXSCAL (en inglés

Multidimensional Sealing of Proximity) utilizando el paquete estadístico SPSS

versión 19.0 (2010).

El procesamiento de las encuestas estadísticas bibliométrica y a los

investigadores se incluyeron tablas de frecuencia bivariadas (tablas de

contingencia), gráficos de barras y sectores, entre otros. Se evaluó la bondad de

ajuste de la solución multidimensional mediante los valores del Stress bruto

normalizado, la dispersión explicada (D.A.F, en inglés) y el coeficiente de

congruencia de Tucker.

Para interpretar las medidas de calidad del ajuste obtenida del Escalamiento

Multidimensional, Guerra (2009) propone una tabla del Stress; teniendo en cuenta

los valores dados por Kruskal en 1964, (citado por Mora y González, 2009), como

se refleja en la tabla 2.2.

Tabla 2.2. Interpretación de los valores del Stress (S).


Valores del Stress Interpretación de la bondad de ajuste
S=0 Ajuste perfecto
0 < S ≤ 0,025 Ajuste excelente
0,025 < S ≤ 0,05 Ajuste muy bueno
0,05 < S ≤ 0,1 Ajuste bueno
0,1 < S < 0,2 Ajuste regular
S ≥ 0,2 Ajuste pobre

Para visualizar la información de la encuesta estadística bibliómetrica por revistas

se utilizó también el paquete estadístico Viscovery SOMine (2008), con el método

35
SOM-Wald Clusters, que combina de forma ordenada la información local del

mapa con el algoritmo de Cluster Jerárquico Clásico de Ward (Ward, 1963).

Del análisis de la encuesta bibliométrica se obtienen dos mapas, en el primero se

refleja los Métodos Estadísticos no paramétricos usados y en el segundo las

temáticas que más abordan estos métodos. En la parte inferior de cada mapa

aparece una escala con matices de colores, de más a menos intenso, si se analiza

de derecha a izquierda.

Se confeccionó la matriz DAFO para establecer un diagnóstico con los resultados

obtenidos de la encuesta a los investigadores.

2.3. Resultados y discusión

2.3.1. Encuesta estadística bibliométrica

En la tabla 2.3 se presentan las medidas de bondad de ajuste del Escalamiento

Multidimensional, relacionadas con la aplicación de los Métodos Estadísticos no

paramétricos por revistas analizadas. Con esta técnica se obtuvieron las medidas

de calidad de ajuste de la configuración de los datos, que presentan un resultado

excelente de acuerdo a lo que se muestra en la tabla 2.2.

Tabla 2.3. Bondad del ajuste de la configuración de los datos para los Métodos
Estadísticos no paramétricos.
Medida Resultado
Stress bruto normalizado 0,00092
Dispersión explicada (D.A.F.) 0,99908
Coeficiente de congruencia de 0,99954
Tucker

36
Por otra parte se observa que la dispersión explicada (D.A.F) y el coeficiente de

congruencia de Tucker, corroboran la bondad del ajuste del método, con

resultados que se encuentran próximos a 100 %, por lo que logran explicar una

alta variabilidad.

Según Cuesta (2005), se considera un buen ajuste cuando el resultado obtenido

del Stress bruto normalizado se encuentra próximo a 0 y cuando el D.A.F y el

coeficiente de congruencia de Tucker son de al menos 0,80 (80%), que indica la

dispersión explicada por el método, estos coeficientes se suelen expresar en

porciento, lo que facilita su interpretación.

En la figura 2.1 se muestra la agrupación en dos dimensiones de aquellas revistas

que hacen uso de los Métodos no paramétricos. Se destacan tres grupos; en el

primero se ubica la Ciencias Biológicas, en el segundo Veterinaria de México y en

el tercero el resto de las revistas que presentan menos aplicaciones de estos

métodos.

El hecho de que la revista Ciencias Biológicas forme un grupo más aislado del

resto de las demás, pudiera estar asociado a que sus investigaciones están más

relacionadas a variables que son de tipo discretas y categóricas, por lo que sus

análisis estadísticos están más enfocados a los Métodos Estadísticos no

paramétricos.

37
Figura 2.1. Revistas relacionadas con la aplicación de los Métodos Estadísticos no
paramétricos.

En la figura 2.2, se reflejan los mapas referentes a la aplicación de los Métodos

Estadísticos no paramétricos con 214 aplicaciones. En este sentido sobresale las

revistas Ciencias Biológicas con las dócimas Prueba Exacta de Fisher, seguida

por Mann-Whitney y Kruskal-Wallis y la Veterinaria de México con la dócima Chi-

cuadrado (  2 ).

En este caso se obtuvo un ligero incremento en la aplicación de los Métodos

Estadísticos no paramétricos que expresado en términos relativos representan el

15,09 %, con respecto al 2,12 % obtenido por De Calzadilla (1999) en el período

1987-1997.

38
Agrociencia Archivo Zootecnia

c3 c3
Com Alea Com Alea

c1 c1

c4 c4
X2 MW X2 MW
c2 c2
KW PE Fisher KW PE Fisher

0 1 3 4 6 7 8 10 11 13 14 0 1 3 4 6 7 8 10 11 13 14

Ciencias Biologicas Ciencias Pecuaria

c3 c3
Com Alea Com Alea

c1 c1

c4 c4
X2 MW X2 MW
c2 c2
KW PE Fisher KW PE Fisher

0 3 5 8 11 13 16 19 22 24 27 0,0 0,4 0,9 1,3 1,8 2,2 2,7 3,1 3,6 4,0

Pastos Forrajes RCCA

c3 c3
Com Alea Com Alea

c1 c1

c4 c4
X2 MW X2 MW
c2 c2
KW PE Fisher KW PE Fisher

0,0 0,9 1,8 2,7 3,6 4,4 5,3 6,2 7,1 8,0 0 3 6 9 12 15 18 21 24 27 30

Veterinaria Leyenda. Métodos Estadísticos no paramétricos


más usados
c3
Com Alea
Clúster 2 (c2): MW (dócima de Mann Whitney)

c1 Clúster 2 (c2): KW (dócima de Kruskal Wallis)

Clúster 2 (c2): PE Fisher (dócima Exacta de Fisher)


c4
X2 MW Clúster 4 (c4): 2 (dócima  2 ) Chi-Cuadrado
c2
KW PE Fisher

0 2 5 7 9 12 14 16 18 21 23
Figura 2.2. Métodos Estadísticos no paramétricos más usados en
estudios agropecuarios y biológicos.

39
En la tabla 2.4 se muestra la bondad de ajuste del método, que al igual que en el

análisis anterior se corrobora el buen ajuste de la configuración de los datos,

considerando el Stress bruto normalizado, así como los resultados obtenidos por

el D.A.F y el coeficiente de congruencia de Tucker, estos últimos se encuentren

cercanos a 100%.

Mora y González (2009) indican que en el Escalamiento Multidimensional, el

método PROXSCAL minimiza el Stress bruto normalizado, estos valores se

obtienen mediante la fórmula introducida por Kruskal en 1964, quien ofreció una

guía para su interpretación.

Tabla 2.4. Bondad de ajuste de las temáticas por revistas, donde se aplican los
Métodos Estadísticos no paramétricos.
Medida Resultado
Stress bruto normalizado 0,01539
Dispersión explicada (D.A.F.) 0,98461
Coeficiente de congruencia de Tucker 0,99228

Al tener en cuenta los criterios de bondad de ajuste, se considera que la solución

en dos dimensiones es apropiada. En la figura 2.3 se muestra la formación de

cuatro grupos, en el primero se unen aquellas revistas que tienen un

comportamiento similar en cuanto al análisis de sus temáticas por los Métodos

Estadísticos no paramétricos, en este sentido se observa que poseen poca

diversidad de estos en sus aplicaciones. El segundo grupo lo conforma la RCCA

que posee un comportamiento diferente, ya que realiza poco empleo de estos

métodos y en el tercer grupo se ubica Ciencias Biológicas y en el cuarto grupo se

40
encuentra Veterinaria de México, que son las que hacen un mayor empleo de la

estadística no paramétrica para el análisis de sus temáticas.

Según Guerrero y Ramírez (2002) el Escalamiento Multidimencional está basado

en la comparación de objetos o de estímulos, de forma que sí un individuo juzga a

los objetos A y B como los más similares, entonces las técnicas de Escalamiento

Multidimencional colocarán a los objetos A y B en el gráfico de forma que la

distancia entre ellos sea más pequeña que la distancia entre cualquier otro par de

objetos.

Figura 2.3. Revistas por temáticas con aplicación de los Métodos Estadísticos no
paramétricos.

En la figura 2.4 se visualizan las revistas donde sus temáticas son analizadas por

los Métodos Estadísticos no paramétricos aplicados a las Ciencias Agropecuarias.

41
En cada revista las temáticas que más abordan los Métodos Estadísticos no

paramétricos, son aquellas que enfocan su análisis desde el punto de vista teórico,

con la reproducción animal, estudios para probar y validar medicamentos en

humanos y salud animal, en este caso se destacan las revistas Agrociencia,

Archivos de Zootecnia, Ciencias Pecuarias, Ciencias Biológicas y Veterinaria de

México.

Sin embargo en otras temáticas que abordan las revistas no hay empleo de

Métodos Estadísticos no paramétricos, como es el caso de las revistas Pastos y

Forraje y la RCCA.

42
Agrociencia Archivo Zootecnia
Past Prod Sem Bi otec Past Prod Sem Bi otec
c6 c6

c4 c4

c1 c1
Est Ovi no Est Ovi no
Prod Lec Prod Lec
Prod Prod

Bovi n Aves Bovi n Aves


c2 M ed c2 M ed
Ani Lab c3 Ani Lab c3
Rep Rep
c5 San Veg Est Clhum
i c5 San Veg Est Cl hum
i
Sal ud Sal ud

0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0

Ciencias Biologicas Ciencias Pecuaria


Past Prod Sem Bi otec Past Prod Sem Bi otec
c6 c6

c4 c4

c1 c1
Est Ovi no Est Ovi no
Prod Lec Prod Lec
Prod Prod

Bovi n Aves Bovi n Aves


c2 M ed c2 M ed
Ani Lab c3 Ani Lab c3
Rep Rep
c5 San Veg Est Clhum
i c5 San Veg Est Cl hum
i
Sal ud Sal ud

0 2 4 5 7 9 11 13 14 16 18 0,0 0,7 1,3 2,0 2,7 3,3 4,0 4,7 5,3 6,0

Pastos Forrajes RCCA


Past Prod Sem Bi otec Past Prod Sem Bi otec
c6 c6

c4 c4

c1 c1
Est Ovi no Est Ovi no
Prod Lec Prod Lec
Prod Prod

Bovi n Aves Bovi n Aves


c2 M ed c2 M ed
Ani Lab c3 Ani Lab c3
Rep Rep
c5 San Veg Est Clhum
i c5 San Veg Est Cl hum
i
Sal ud Sal ud

0 1 2 3 4 5 6 7 8 9 10 0 2 4 6 8 11 13 15 17 19 21

Veterinaria Leyenda. Temáticas más representativas


Past Prod Sem Bi otec
c6 Clúster 1 (c1): investigaciones sobre Producción de semillas (Prod
Sem), Biotecnología (Biotec), Ovino, Producción de leche (Prod
c4 Lec), Aves, Sanidad vegetal (San Veg).

c1 Clúster 2 (c2): estudios en Bovinos (Bovin) y Reproducción animal


Est Ovi no
Prod Lec (Rep).
Prod Clúster 3 (c3): estudios médicos (Med), en animales de
laboratorios (Ani Lab) y clínicos en humanos (Est Cli hum).
Bovi n Aves
c2 M ed Clúster 4 (c4): métodos estadísticos (Est) aplicados a las ciencias
Ani Lab c3 agropecuarias y Producción de alimento animal (Prod).
Rep
c5 San Veg Est Clhum
i Clúster 5 (c5): estudios en Salud animal (Salud).
Sal ud
Clúster 6 (c6) investigaciones relacionadas con los Pastos (Pas).
0 2 5 7 9 12 14 16 18 21 23

Figura 2.4 Temáticas por revistas que emplean Métodos Estadísticos no


paramétricos para el análisis de sus investigaciones.

43
2.3.2. Encuesta estadística a los investigadores

En la encuesta a los investigadores (Anexo 2), se evidencia que el 97,1% de los

encuestados conocen con qué objetivo aplican la transformación de datos (figura

2.5) y hacen mayor uso de las transformaciones x y arcoseno ( p ) en el

69,57% de los casos (48 encuestados), lo que se refleja en la tabla 2.5.

Este resultado se considera que está dado porque en las investigaciones

agropecuarias es frecuente la presencia de variables originadas por conteos y

porcientos, que según autores como Steel y Torrie (1992), son las

transformaciones adecuadas para este tipo de datos, cuando presentan

distribuciones de tipo Poisson y Binomial.

2,90%
Uso de transf. en total
Si
No

97,10%

Figura 2.5. Necesidad de aplicar la transformación de datos.

44
Tabla 2.5. Transformaciones de datos más empleadas según encuesta a los
investigadores.
Transformaciones
arcoseno 1
Dpto. x ( p) Log X (1/x) x Total %

1 3 8 0 0 2 13 18,8
2 10 5 1 0 1 17 24,6
3 8 6 2 1 1 18 26,1
4 1 4 5 0 1 11 15,9
5 1 1 0 0 3 5 7,2
6 0 1 2 1 1 5 7,2
Total 23 25 10 2 9 69 -
% 33,3 36,2 14,5 2,9 13,0 - 100

En la tabla 2.6 se presentan los aspectos más frecuentes manifestados por los

investigadores. Se obtuvo que un alto porciento de los encuestados conocen que

se logra con el uso de la transformación de datos, la usan con mayor frecuencia

en el ANAVA, desean continuar transformando y desconocen el uso de Métodos

Estadísticos alternativos.

Tabla 2.6. Aspectos más frecuente en las respuestas de las preguntas a los
investigadores.
Aspectos %
Sabe que logra con el uso de la transformación de datos 73
Uso de la transformación de datos en el Modelo de Análisis de
Varianza 81,1
Continuar usando la transformación de datos 73,5
Desconocimiento de Métodos Estadísticos alternativos 62,3

Para realizar un análisis integral de la información, se aplicó el Método Estadístico

Multivariado de Escalamiento Multidimensional (PROXSCAL), teniendo en

45
consideración lo planteado por Miret (2005), las medidas de calidad de ajuste

obtenidas del análisis presentan una clasificación de excelente (tabla 2.7).

Tabla 2.7. Bondad de ajuste de los resultados a los investigadores.


Medida Resultado
Stress bruto normalizado 0,02642
Dispersión explicada (D.A.F.) 0,97358
Coeficiente de congruencia de Tucker 0,98670

La dispersión explicada y el coeficiente de congruencia de Tucker

respectivamente, presentan valores muy cercanos al 100%, que representan un

buen indicador de ajuste.

En la tabla 2.8, se sintetiza en dos dimensiones la información relevante. En la

dimensión uno sobresale el departamento con mayor peso, lo cual indica la

atención diferenciada que se debe realizar a cada departamento considerando sus

características particulares en el uso de estas temáticas y en la dimensión dos

sobresalen las variables relacionadas con el Tipo de transformaciones y Sabe que

logra con el uso de estas. Este análisis se realizó con el objetivo de visualizar las

variables más importantes por cada dimensión y no para disminuir

dimensionalidad.

46
Tabla. 2.8. Resultados de los pesos de las variables por cada dimensión
.
Dimensión
Variables 1 2
1.- Departamento 1,018 -0,232
2.- Necesidad de aplicar transformación de datos -0,518 0,286
3.- Tipo de transformaciones 0,505 0,530
4.- Análisis Estadístico donde utilizas las -0,626 -0,292
transformaciones de datos con más frecuencia
5.- Sabe que logra con el uso de la transformación de -0,031 -0,533
datos
6.- Continuar usando la transformación de datos -0,281 0,308
7.- Métodos estadísticos alternativos -0,068 -0,067

2.3.3. Diagnóstico a partir de la encuesta estadística a los investigadores:


Matriz DAFO

Después de aplicar la encuesta a los investigadores se conformó la Matriz DAFO,

para establecer acciones estadístico-metodológicas para el uso adecuado de las

transformaciones de datos, y la aplicación eficaz de Métodos Estadísticos

paramétricos y no paramétricos en la investigación científica, aspectos que sirven

como punto de partida para perfeccionar la actividad científico-investigativa, en el

área de los Métodos Estadísticos y sus aplicaciones agropecuarias (tabla 2.9).

El análisis de la Matriz DAFO logró identificar los aspectos más importantes

aportados por la encuesta a los investigadores del Instituto de Ciencia Animal, se

considera que deben ser utilizadas las Fortalezas, con el fin de atenuar las

Debilidades, aprovechando la Oportunidad del liderazgo científico de los

departamentos, para contrarrestar la Amenaza en cuanto al uso inadecuado de la

transformación de datos y propiciar la acogida de nuevos Métodos Estadísticos

como alternativas de análisis.

47
Tabla 2.9. Resultados de la Matriz DAFO
Fortalezas Debilidades
 Conocen el por qué se usa la  Alta preferencia por el empleo de las
transformación de datos. transformaciones de datos, en lo
 Existen Métodos Estadísticos para el fundamental en el Modelo de ANAVA.
análisis de la información.  Desconocimiento de Métodos
 Existencia de un Dpto. de Estadísticos alternativos de análisis.
Biomatemática.  Insuficiente intercambio sobre el
 El ICA centro de prestigio nacional e conocimiento del uso de la
internacional. transformación de datos con los
 Incremento de grados científicos en investigadores del centro.
los jóvenes.
 Doctorado curricular colaborativo en
Biometría único en el país.
Oportunidades Amenazas
 Se identifica al Dpto. como el  Insuficiente intercambio sobre el uso
escenario más importante para de la transformación de datos con
implementar una estrategia de trabajo profesionales de la Estadística y
estadístico-metodológica. usuarios, en las ciencias
 Nuevas líneas de investigación que agropecuarias y afines.
acomete el Dpto. de Biomatemática,  Está muy arraigado el uso de los
para dar respuesta a necesidades de Métodos Estadísticos clásicos
las investigaciones en las ciencias paramétricos, sobre todo los Modelos
agropecuarias. de ANAVA y Regresión.
 RCCA es la revista de más alto índice
de impacto en el país, en esta rama.

48
2.3.4. Consideraciones parciales

Del análisis de los resultados de las encuestas estadísticas bibliométricas y a los


investigadores se resume que:

 Los Métodos Estadísticos no paramétricos más empleados, fueron las


dócimas  2 (Chi-Cuadrado), Mann-Whitney, Kruskal Wallis y Exacta de
Fisher.

 Se identificaron por revistas las temáticas que fueron analizadas por


Métodos Estadísticos no paramétricos.

 Casi la totalidad de los encuestados (97,10%) conocen el por qué del uso
de las transformaciones de datos, y más del 70% consideran su empleo
para lograr el cumplimiento de los supuestos teóricos del Modelo de
Análisis de Varianza, siendo esta la técnica de uso más frecuente.

 Existe alta preferencia por el empleo de las transformaciones de los datos,


resultan más frecuentes, la x y arcoseno ( p ).

 El Departamento es el escenario de más importancia para encaminar un


trabajo futuro que permita mejorar la aplicación de estas herramientas.

49
CAPÍTULO III
MODELOS DE ANÁLISIS DE
VARIANZA PARAMÉTRICO Y NO
PARAMÉTRICO. USO DE LA
TRANSFORMACIÓN DE DATOS
CAPÍTULO III. MODELOS DE ANÁLISIS DE VARIANZA PARAMÉTRICO Y NO

PARAMÉTRICO. USO DE LA TRANSFORMACIÓN DE DATOS

3.1. Introducción

En este capítulo se analiza el cumplimiento de los supuestos teóricos del Análisis

de Varianza con y sin transformación de datos y se compararon los valores de

probabilidad de error tipo I de los diseños paramétricos con sus homólogos no

paramétricos Kruskal-Wallis y Friedman respectivamente,

Se realiza un análisis multidimensional de 12 indicadores estadísticos,

considerando el Análisis de Componentes Principales Categórico y la Regresión

Categórica para el diseño experimental aplicado, de ahí que el presente capítulo

tenga como objetivos:

Evaluar el comportamiento de la transformación de datos en el cumplimiento de

los supuestos teóricos básicos en variables discretas y categóricas en los Modelos

de Análisis de Varianza simple y doble de efectos fijos.

Analizar de forma integral indicadores estadísticos de los Modelos de Análisis de

Varianza paramétricos y no paramétricos, para establecer criterios de valor

teórico-práctico.

50
3.2. Materiales y métodos

3.2.1. Características principales de las investigaciones

La información analizada pertenece al archivo de las bases de datos procesadas

por el departamento de Biomatemática del Instituto de Ciencia Animal en el

período 2003-2011, ubicado en el municipio de San José de las Lajas, provincia

Mayabeque, correspondiente a investigaciones desarrolladas por los

departamentos de Monogástricos, Pastos y Fisiología, en aves, cerdos, pastos y

rumiantes.

Para el análisis de la información se emplearon los Modelos de ANAVA de

clasificación simple y doble, asociados a los Diseños Completamente

Aleatorizados (DCA) balanceados y Bloques al Azar (DBA), siendo las variables

analizadas discretas y categóricas.

3.2.1.1. Experimentos con Diseño Completamente Aleatorizado

Se analizan 16 experimentos con las características siguientes:

Experimento 1: Empleo del fósforo sérico y enzima fitasa en el metabolismo

mineral y el comportamiento productivo de la gallina ponedora.

Tratamientos: Arreglo factorial con 6 tratamientos (3 tipos de fósforos y 2 enzimas

fitasas).

51
Variables

 Número de huevos/aves.

 Intensidad de puesta.

Experimento 2: Empleo de levadura en la dieta de gallinas de reemplazo para

evaluar el rendimiento productivo de las aves.

Tratamientos: Diferentes porcientos de levadura 0, 10, 20 y 30.

Variables

 Porciento de viabilidad en la semana 6.

 Porciento de viabilidad en la semana 12.

 Porciento de viabilidad en la semana 18.

 Porciento de viabilidad total.

 Porciento de puesta.

 Números de huevos/aves.

Experimento 3: Empleo de levadura en la dieta de gallinas ponedoras, para

evaluar el rendimiento productivo de las aves.

Tratamientos: Diferentes porcientos de levadura 0, 5, 10 y 15.

52
Variables

 Porciento de puesta.

 Porciento viabilidad.

 Color de la yema en la semana 32.

 Color de la yema en la semana 38.

 Color de la yema en la semana 44.

Experimento 4: Efecto de la miel rica de caña, combinada con una fuente de

proteína (soya) o con pienso tradicional, en el comportamiento productivo de

reproductoras lactantes.

Tratamientos: Control, Miel Rica + pienso de reproductora lactante y Miel Rica +

Soya.

Variables

 Número de crías vivas.

 Números de crías muertas.

Experimento 5: Empleo de la zeolita en cerdas para medir su efecto en las crías.

Tratamientos: Control, 3 % de zeolita y 6 % de zeolita.

Variables

 Número de crías vivas.

53
 Números de crías muertas.

 Días de gestación.

Experimento 6: Repuesta fisiológica con la inclusión de los Granos de destilería

soluble (DDGS, siglas en inglés) en la dieta de cerdos de preceba.

Tratamientos: Inclusión de diferentes porcientos de DDGS en la dieta 0, 10, 20 y


30.

Variables
 Conteo de levaduras.

 Conteo de coliformes.

 Conteo de lactobacilos.

Experimento 7: Evaluación de la actividad probiótica del cultivo de Bacillus subtilis

en pollos como animales de laboratorio.

Tratamientos: Tres tipos de cepas C-31, C-34 y E-44.

Variables

 Conteo de bacterias totales hora 0.

 Conteo de bacterias totales, hora 24.

 Conteo de bacterias totales, hora 48.

 Conteo de bacterias totales, hora 72.

 Conteo de endosporas, hora 0.

54
 Conteo de endosporas, hora 24.

 Conteo de endosporas, hora 48.

 Conteo de endosporas, hora 72.

Experimento 8: Evaluación de la actividad probiótica de los biopreparados C-7 y C-

65 y la mezcla de ambos en pollos hembras como animales de laboratorio.

Tratamientos: Dieta basal, dieta basal + C-7, dieta basal + C-65 y dieta basal + la

mezcla de C-7 y C-65.

Variables

 Conteo de coniformes a los 21 días.

 Conteo de anaerobios a los 21 días.

 Conteo de lactobacilos a los 21 días.

 Conteo de coniformes a los 42 días.

 Conteo de anaerobios a los 42 días.

 Conteo de lactobacilos a los 42 días.

 Conteo de levaduras 42 días.

 Mortalidad a los 42 días.

 Porciento de viabilidad a los 42 días.

Experimento 9. Efecto de la proteína en la dieta de pollos de ceba.

Tratamientos: Diferentes porcientos (0, 5, 10, 15) de proteína en la dieta.

55
Variable

 Mortalidad.

Experimento 10: Efecto de germinación en la composición química de granos de

Canavalia ensiformis.

Tratamientos: Diferentes intervalos de iluminación (24, 48, 72 y 96 horas).

Variables

 Porciento de germinación con diferentes intervalos de iluminación.

 Porciento de germinación oscuridad total.

 Porciento de germinación iluminación total.

Experimento 11: Efecto de germinación en la composición química de granos de

Canavalia ensiformis.

Tratamientos: Diferentes días (3, 4, 6, 8, 10).

Variables

 Porciento de germinación con diferentes intervalos de iluminación.

 Porciento de germinación oscuridad total.

 Porciento de germinación iluminación total.

56
Experimento 12: Efecto de germinación en la composición química de granos de

Mucuna.

Tratamientos: Diferentes intervalos de iluminación (48, 72 y 120 horas).

Variables

 Porciento de germinación con diferentes intervalos de iluminación.

 Porciento de germinación oscuridad total.

 Porciento de germinación iluminación total.

Experimento 13: Efecto de germinación en la composición química de granos de

Mucuna.

Tratamientos: Diferentes días (3, 4, 6, 8 y 10).

Variables

 Porciento de germinación con diferentes intervalos de iluminación.

 Porciento de germinación iluminación total.

Experimento 14: Efecto de germinación en la composición química de granos de

Dolico.

Tratamientos: Diferentes días (3, 4, 6, 8 y 10).

57
Variables

 Porciento de germinación con diferentes intervalos de iluminación.

 Porciento de germinación oscuridad total.

 Porciento de germinación iluminación total.

Experimento 15: Evaluación de la germinación y emergencia en el crecimiento de

Albizia Lebbeck.

Tratamientos: Diferentes sistemas de siembra viveros, sombreador y cabina.

Variables

 Porciento de emergencia a la semana 6.

 Porciento de emergencia a la semana 8.

 Porciento de emergencia a la semana 11.

 Porciento de emergencia a la semana 13.

 Porciento de emergencia a la semana 19.

 Porciento de emergencia a la semana 24.

 Porciento de emergencia a la semana 29.

 Porciento de emergencia a la semana 44.

Experimento 16: Efecto de la inclusión de la levadura Scchramyces Cervicese en

la población ruminal de vacas en producción de leche.

58
Tratamientos: Diferentes gramos en la dieta (0, 10 y 15).

Variables

 Conteo de bacterias viables.

 Conteo de bacterias celulolíticas.

 Conteo de hongos celulolíticos.

 Conteo de bacterias proteolíticas.

 Conteo de levaduras.

3.2.1.2. Experimentos con Diseño de Bloques al Azar

Se analizan 5 experimentos, con las características siguientes:

Experimento 1: Evaluación de diferentes porcientos de DDGS en cerdas gestantes

de 1, 3 y 4 partos para medir el comportamiento reproductivo.

Tratamientos: Diferentes porcientos de inclusión de DDGS en la dieta (0, 30, 40,

50 y 60).

Variables

 Números de nacidos totales en cerdas de un parto.

 Números de destetados en cerdas de un parto.

 Intervalo de destete/celos en cerdas de un parto.

 Números de nacidos totales en cerdas de 3 y 4 partos.

 Números de destetados en cerdas de 3 y 4 partos.

59
 Intervalo de destete/celos en cerdas de 3 y 4 partos.

Experimento 2: Evaluación de diferentes porcientos de DDGS en cerdas gestantes

de un parto para medir su efecto en las crías y en las cerdas.

Tratamientos: diferentes porcientos de DDGS (0, 10%, 20% y 30%).

Variables

 Números de nacidos totales.

 Números de destetados.

 Intervalo de destete/celos.

Experimento 3: Evaluación de diferentes clones de King-Grass en diferentes

épocas de corte.

Tratamientos: Evaluar 8 clones de King-Grass (H 31, H-30, CT-423, CT-457, H-48,

CT-442, CT-452, CT-115)

Variables

Dadas por épocas de corte y de no corte.

 Números de tallos/surcos.

 Números de rebrotes por yemas.

 Número tallos/macollas.

 Número de tallos/surcos.

60
 Número de hojas/plantas.

 Número de tallos/macollas.

Experimento 4: Efecto del Vitazyme en la Vigna unguiculata para medir el

rendimiento productivo de la planta.

Se aplicaron 9 tratamientos, consistían en:

Tratamiento 1: Control absoluto

Tratamiento 2: Control con fertilizantes (Rizobium + fórmula completa 0.25 t/ha)

Tratamiento 3: Aplicar 1.5 litros /ha de vitazyme en el surco antes del tape +
Rizobium.

Tratamiento 4: tratamiento 3 + aplicación foliar de vitazyme por aspersión a inicios


de la floración a razón de 1.5 litros/ha.

Tratamiento 5: tratamiento 2 + aplicación foliar de vitazyme por aspersión a inicios


de la floración a razón de 1.5 litros/ha.

Tratamiento 6: Aplicar 1.5 litros /ha de fitomass-E en el surco antes del tape +
Rizobium.

Tratamiento 7: tratamiento 6 + aplicación foliar de fitomass-E por aspersión a


inicios de la floración a razón de 1.5 litros/ha.

Tratamiento 8: tratamiento 3 + aplicación foliar de fitomass-E por aspersión a


inicios de la floración a razón de 1.5 litros/ha.

61
Tratamiento 9: Rizobium + aplicación foliar de una mezcla de 50 % fitomass E y
50% vitazyme por aspersión a inicios de la floración a razón de 1.5 litros/ha.

Variables
 Números de vainas/plantas.

 Números de plantas/m.

 Porciento de floración a los 49 días.

 Porciento de floración a los 56 días.

Experimento 5: Evaluar diferentes ecotipos de Tithonia Diversifolia a diferentes

alturas.

Tratamientos: Se realizó un arreglo factorial con 27 tratamientos (9 ecotipos

Tithonia Diversifolia y 3 alturas de siembras) e igual número de observaciones.

Variables

 Número de tallos/surcos (muestreo 1).

 Número de plantones (muestreo 1).

 Número de hojas (muestreo 1).

 Número de tallos/surcos (muestreo 2).

 Número de plantones (muestreo 2).

 Número de hojas (muestreo 2).

 Número de tallos/surcos (muestreo 3).

 Número de plantones (muestreo 3).

62
 Número de hojas (muestreo 3).

 Número de tallos/surcos (muestreo 4).

 Número de plantones (muestreo 4)

 Número de hojas (muestreo 4).

 Número de tallos/surcos (muestreo 5).

 Número de plantones (muestreo 5).

 Número de hojas (muestreo 5).

3.2.2. Procesamiento y análisis estadístico de la información.

Para la evaluación del supuesto de normalidad se utilizó la dócima de Shapiro y

Wilks (1965). La homogeneidad de varianza se evaluó mediante la dócima de

Levene (1960). Ambas fueron aplicadas a las variables originales y a las

transformadas, mediante las transformaciones X; X  0,375 ; arcoseno ( p ) y

Log X.

Se aplicó el Análisis de Varianza paramétrico según los Diseños Completamente

Aleatorizado y de Bloques al Azar y sus homólogas no paramétricas las dócimas

de Kruskal-Wallis y Friedman respectivamente, conformando una matriz de datos

con los siguientes indicadores:

1. Tipo de experimento (Código).

2. Tipo de diseño (Diseño).

3. Número de tratamientos (No. tto).

63
4. Cumplimiento de los supuestos sin transformación (Cumpl S/T).

5. Cumplimiento de los supuestos con transformación (Cumpl C/T).

6. Valor de p de la dócima F de Fisher sin transformación ( Valorp S/T).

7. Valor de p de la dócima F de Fisher con transformación (Valorp C/T).

8. Valor de p para la dócima no paramétrica (Valorp NP).

9. Valor de Potencia de la dócima F de Fisher sin transformar (Potencia

S/T).

10. Valor de Potencia de la dócima F de Fisher con transformación

(Potencia C/T).

11. Tamaño de muestra (TM).

12. Distribución (Distcod).

Se aplicó la dócima de McNemar para verificar la existencia de un cambio

significativo entre las probabilidades de error tipo I (sin y con trasformación de

datos) de la dócima F de Fisher y sus homólogas no paramétricas Kruskal-Wallis y

Friedman, así como para las potencias (sin y con transformación de datos).

Se aplicó el Escalamiento Óptimo, para reducir la información a la menor

dimensión posible mediante el Análisis de Componentes Principales Categórico

(CATPCA), que permite identificar los principales indicadores y visualizar la

información mediante el gráfico Biplot. Este análisis se realizó con toda la

información y por diseños experimentales (DCA y DBA), y los arreglos factoriales,

de los tratamientos, para los diseños antes mencionados, en este último caso se

consideró la metodología indicada por Scheirer et al. (1976).


64
La fiabilidad del CATPCA se midió a través del coeficiente Alfa de Cronbach (α).

 n 2 
  si 
 k   
α     1  i 1 
 k  1   s2sum 
 
 
Donde:

k :es el número de ítems de la prueba.

Si2: es la varianza del i-ésimo ítems.

S2sum: es la varianza total.

Las bases de datos fueron procesadas utilizando el tabulador electrónico Microsoft

EXCEL versión 9.0 (2003). Para el análisis de los supuestos teóricos se empleó el

paquete estadístico Statistica StatSoft (2003), para el Análisis de Varianza

paramétrico y no paramétrico el paquete estadístico InfoStat (2008) y para los

análisis del CATPCA y CATREG, se empleó el SPSS versión 19.0 (2010).

65
3.3. Resultados y discusión

3.3.1. Modelos de Análisis de Varianza simple y doble

3.3.1.1. Cumplimiento de supuestos y la transformación de datos

Para el análisis del cumplimiento de los supuestos teóricos se analizaron 100

variables que fueron transformadas mediante X; X  0,375 ; arcoseno ( p ) y

Log X.

Los resultados del análisis de los supuestos teóricos del ANAVA, se observan en

la tabla 3.1, el 69 % de las variables analizadas antes y después de ser

transformadas incumplieron dichos supuestos. En el 16% de los casos fue

innecesario su empleo, ya que se cumplían los supuestos del ANAVA antes de

realizar la transformación, solo en el 13% de las variables las transformaciones

fueron efectivas.

Tabla 3.1. Resumen del cumplimiento de los supuestos teóricos del ANAVA.
Cumplimiento de los Modelo del ANAVA
supuestos Clasificación Simple Clasificación Doble
%
S/T C/T No. % No. %
No No 69 41 62,1 28 82,4
No Si 13 12 18,2 1 2,9
Si No 2 2 3,0 - -
Si Si 16 11 16,7 5 14,7
Total 100 66 100 34 100
S/T: Sin transformación C/T: Con transformación

En esta misma tabla se observa que el modelo de clasificación doble fue el que

presentó los resultados más bajos, pues en el 82,4% de las variables analizadas
66
las transformaciones no mejoraron el cumplimiento de los supuestos teóricos, solo

en el 2,9% de los casos el empleo de las transformaciones fue efectivo.

En sentido general en este análisis se observa que en el 85 % de los casos la

transformación de datos no cambia su respuesta en cuento al cumplimiento de los

supuestos teóricos del ANAVA.

Sakia (1990) plantea que no siempre las transformaciones son capaces de

solucionar los problemas que se presentan cuando se incumplen los supuestos

teóricos del ANAVA.

Estos resultados coinciden con los obtenidos por De Calzadilla (1999), al estudiar

el cumplimiento de los supuestos teóricos en Modelos de ANAVA empleando las

transformaciones X y X  0,375 , obtuvo que solamente el 10,3 % de las

variables proporcionaron el cumplimiento de los supuestos teóricos, siendo en el

análisis de ANAVA de clasificación doble (DBA) más crítico.

Otros resultados que coinciden con este análisis fueron los obtenidos por Cabrera

(2002), que estudió el comportamiento de siete transformaciones de datos entre

las se encuentran X, X 1, X  0,5 , X  0,375 , log (X+1), log (X+(k/2)), log

[log (X+2)] y X1 – (b/2), en un ANAVA de clasificación simple en un experimento de

plagas agrícolas, comprobó que las transformaciones empleadas no mejoraron el

cumplimiento de los supuestos del ANAVA. Por otra parte, Font et al. (2007) en un

67
experimento con aves, donde usa las transformaciones X y Log X, sin mejorar

el cumplimiento de estos supuestos.

Menchaca (1973) indica que las transformaciones de datos deben ser utilizadas

con eficacia en la práctica, sin embargo en el análisis anterior realmente no es así

porque en la mayoría de los casos no resultaron adecuadas.

Cochran y Cox (1999) plantean que las transformaciones de datos se utilizan

cuando los errores experimentales siguen una distribución asimétrica, y en tal

sentido se busca una transformación que coloque a los datos en una escala tal

que la varianza del error sea casi constante.

Sin embargo, en la investigación que se realiza se observa que no se hace empleo

de otros Métodos Estadísticos alternativos, sin necesidad de recurrir al uso de las

transformaciones de datos. En esta dirección se sugiere una reflexión por parte de

los investigadores con los especialistas de Estadística, para definir el método más

adecuado según los objetivos propuestos en la investigación.

Se concluye que en muchas ocasiones las transformaciones empleadas no

mejoran el cumplimiento de los supuestos del ANAVA, y es frecuente un uso

excesivo de las mismas sin que se logre el objetivo para el cual fueron propuestas.

68
3.3.1.2. Probabilidad de error tipo I y potencia de la dócima F

En la tabla 3.2 se observa que de las 66 variables analizadas, para el DCA en la

dócima F de Fisher (con y sin transformación), y esta comparada con su homóloga

no paramétrica Kuskal-Wallis, en el 100 % de los casos se mantiene el mismo

criterio de decisión.

Tabla 3.2. Frecuencia de coincidencias en la toma de decisión.


DCA DBA
Dócimas No. % No. %
F de Fisher C/T y S/T 66 100 33 97,05
F de Fisher S/T y - -
Kruskal-Wallis 66 100
F de Fisher C/T y - -
Kruskal-Wallis 66 100
F de Fisher S/T y - -
Friedman 31 91,7
F de Fisher C/T y - -
Friedman 30 88,2

En el caso del DBA se observó que de las 34 variables analizadas, para el caso de

la dócima F de Fisher (con y sin transformación de datos) se dan las mayores

coincidencias (97,05%). Este resultado coincide con los obtenidos por Siegel

(1970), al referirse a un análisis realizado por Friedman en 1937 y con los

obtenidos por Guerra et al. (2000), considerando este mismo diseño.

Es de destacar que en la tabla 3.2, en la primera línea la dócima F de Fisher (con

y sin transformación) presenta resultados similares en cuento a la toma de

decisiones.

69
Para verificar si existen cambios significativos entre los valores de probabilidad de

error tipo I de la dócima F de Fisher (con y sin transformación de datos) para los

DCA, DBA y ambos diseños, comparadas con sus homólogas no paramétricas

Kruskal-Wallis y Friedman respectivamente, al igual que las potencias (con y sin

transformación de datos) se empleó la dócima de McNemar, según lo propuesto

por Siegel (1970) y Siegel y Castellan (1995).

En la tabla 3.3 se evidencia la no existencia de cambios significativos entre las

probabilidades de error tipo I de la dócima F de Fisher (con y sin transformación

de datos), pues los valores de probabilidad son superiores a 0,05, se aprecia

estabilidad en los resultados, como en la tabla 3.2.

Sin embargo, cuando se compara la dócima F de Fisher sin transformación de

datos con sus homólogas no paramétricas se aprecia que solo en el DBA (con la

dócima no paramétrica Friedman) se muestran cambios significativos.

Tabla 3.3. Resultados de la dócima de McNemar para los valores de probabilidad


de error tipo I.
Dócima F de Fisher S/T y
Dócima F de Fisher C/T y S/T dócima homóloga NP
Diseños Estadístico Valor p Estadístico Valor p
DCA 0,33 0,25 0,001 0,63
DBA 1,00 0,98 3,00 0,0001
Ambos 0,001 0,65 1,29 0,13

Se considera que este resultado está asociado a que de las 34 variables

analizadas, con respecto a la dócima de Friedman, 26 de estas (76,47%),

70
presentan probabilidades de error tipo I por encima de 0,05, y la dócima F de

Fisher posee 20 variables (58,82%) en esta situación.

Por otra parte en el DCA, de las 66 variables analizadas, la dócima Kruskal-Wallis

presenta probabilidades de error tipo I por encima de la F de Fisher, en 43 casos,

que representa el 65,15%. Por lo que los valores de probabilidad de error tipo I de

las dócimas Kruskal-Wallis y Friedman fueron superiores a la de F de Fisher

(65,15 y 76,47) respectivamente, aspecto que se considera que debe ser

analizado con mayor profundidad en próximas investigaciones.

Un estudio similar a este fue realizado por Quintero y Durán (2008) en

investigaciones forestales, los que emplearon la dócima de McNemar para

comparar los valores de probabilidad de error tipo I de las dócimas  2 de bondad

de ajuste y Rao-Scott con corrección de 2do orden, para establecer la existencia de

cambios significativos.

Al verificar la existencia de cambios significativos para las potencias (con y sin

transformación de datos) tabla 3.4, se observa que el DBA mostró cambios

significativos, lo que se considera que está dado a que cuando se analizan las

potencias con y sin transformación, la mayor cantidad de variables tienen valores

por debajo del 80%, 20 de estas representan el 59% y 24 el 71% respectivamente.

71
Tabla 3.4. Resultados de la dócima de McNemar para las potencias de la dócima
F de Fisher.
Diseños Estadístico Valor P
DCA 0,20 0,97
DBA 3,00 0,0001
Ambos 0,11 0,51

La potencia de una dócima es un indicador que en muchas ocasiones no es tenido

en cuenta en las investigaciones, lo que merece una atención especial en la toma

de decisiones, por la información que aporta.

En tal sentido resulta oportuno señalar que en general no se tiene en cuenta el

uso de las tablas propuestas por Menchaca (1974, 1975); Venereo (1976);

Caballero (1979) y Menchaca y Torres (1985), las que sirven de apoyo para la

aplicación de los Modelos de ANAVA. Es importante destacar que en la actualidad

existe el apoyo de algunos paquetes estadísticos entre los que se encuentran el

InfoStat, el G Power y el SPSS, que aportan el valor de la potencia.

3.3.2. Consideraciones parciales

De los resultados obtenidos del Modelo de ANAVA paramétrico y no paramétrico,

aplicados a los DCA y DBA, se resume que:

 El uso de las transformaciones de datos no resuelven en muchos de los


casos el incumplimiento de los supuestos teóricos en los Modelos de
ANAVA para los DCA y DBA.

 Las dócimas no paramétricas Kruskal-Wallis y Friedman, comparadas con F


de Fisher (con y sin transformación de datos) presentan altos indicadores

72
de eficiencia relativa, dado por el nivel de coincidencia en la toma de
decisiones.

 No se mostraron cambios significativos para los valores de probabilidad de


error tipo I de la dócima F de Fisher (con y sin transformación de datos).

 No se observan cambios significativos en las probabilidades de error tipo I


de la dócima F de Fisher con sus homólogas no paramétricas Kruskal-
Wallis y Friedman.

 Los valores de potencias (con y sin transformación de datos) no poseen


cambios significativos para el DCA y en ambos diseños, no así para el DBA.

3.3.3. Análisis de Componentes Principales Categórico. Aplicación a

indicadores de los Modelos de Análisis de Varianza.

Para realizar un análisis integral de los indicadores establecidos con anterioridad

se aplicó el Análisis de Componentes Principales Categórico (CATPCA), para

identificar los más importantes y sus posibles relaciones.

En la tabla 3.5 se observa que el método logra explicar aproximadamente el 61%

de variabilidad de la información original, en dos dimensiones, con un coeficiente

Alfa de Cronbach total que expresa un nivel de fiabilidad excelente (0,94), lo que

indica que el método empleado es adecuado.

Se destaca en la dimensión uno que explica 43% de la varianza total, con un Alfa

de Cronbach de 0,88, lo que evidencia que las variables originales representadas

en esta dimensión presentan un buen nivel de fiabilidad, según la escala

73
propuesta por Hair et al. (1999), que considera que el método es aceptable,

cuando el valor de este coeficiente está entre 0,6 y 0,7.

Tabla 3.5. Resultados del coeficiente Alfa de Cronbach para los indicadores de los
Diseños Completamente Aleatorizados y Bloques al Azar.
Varianza explicada
Alfa de Total % de la
Dimensión Cronbach (Autovalores) varianza
1 ,880 5,176 43,130
2 ,576 2,120 17,671
Total ,941 7,296 60,800

Los indicadores que presentan mayor peso por cada dimensión se muestran en la

tabla 3.6, en la dimensión uno están los relacionados con la probabilidad de error

tipo I y la potencia. En la dimensión dos sobresalen los indicadores relacionados

con el número de tratamiento (No. tto), tipo de diseño (DCA y DBA) y tipo de

experimento.

Tabla 3.6. Resultados de los pesos de los indicadores por cada dimensión para los
Diseños Completamente Aleatorizados y Bloques al Azar.
Dimensión
Indicadores
1 2
Tipo de experimento -,351 -,673
Cumplimiento de los supuestos sin transformación -,027 ,372
Cumplimiento de los supuestos con transformación -,179 ,329
Probabilidad de error tipo I sin transformación ,923 -,186
Probabilidad de error tipo I con transformación ,952 -,152
Probabilidad de error tipo I no paramétrica ,942 -,068
Potencia sin transformación -,938 ,061
Potencia con transformación -,905 ,122
Tamaño de muestra ,581 -,173
Número de tratamientos ,236 ,764
Diseño ,505 ,730
Distribución -,157 ,439

74
Los indicadores que sobresalen en la dimensión uno presentan correlaciones por

encima de 0,80 en valor absoluto y los de la dimensión dos tienen correlaciones

positivas por encima de 0,70 (Anexo 3). Se debe destacar que las altas

correlaciones negativas entre los valores de probabilidad de error tipo I y las

potencias, se traducen en que a bajos valores de p corresponden altas potencias.

Estos resultados coinciden con los obtenidos por Vásquez (2013) cuando realiza

un análisis de correlación entre las probabilidades de error tipo I y las potencias,

diferentes tamaños de muestras y réplicas en un diseño de Bloques al Azar,

considerando distribución Normal y Binomial.

En el análisis del gráfico Biplot, (figura 3.1), se corrobora lo antes señalado

respecto a la asociación importante de los valores de probabilidad de error tipo I y

de las potencias (con y sin transformación de datos), presentando posiciones que

reflejan las altas correlaciones negativas.

75
Figura 3.1. Biplot de los indicadores analizados.

Se considera que este aspecto está dado por lo señalado por Steel y Torrie

(1992); Peña (1994) y Torres et al. (1998) que plantean que la dócima F de Fisher

tiene la característica de ser robusta ante la heterogeneidad de varianza y su poca

afectación, sobre todo, cuando se trabaja con igual número de observaciones por

tratamientos, como es el caso de los diseños analizados.

Por otra parte las altas correlaciones negativas entre la potencia y la probabilidad

de error tipo I para el caso de la dócima no paramétrica, se debe a que está última

con respecto a la dócima paramétrica (bajo el supuesto de distribución Normal)

presenta una alta Eficiencia Asintótica Relativa (ARE), que es del 95,5%. Esto

significa que para lograr iguales resultados, la dócima no paramétrica debe tener

76
un tamaño de muestra de 100, mientras la paramétrica un tamaño de muestra de

95 observaciones, este último aspecto es abordado por Siegel (1970); Siegel y

Castellan (1995) y De Calzadilla (1999), basado en el criterio de potencia-

eficiencia.

Aunque el tamaño de muestra no se asocia de manera importante con ninguno de

los indicadores, es un aspecto a considerar en las investigaciones. En este

sentido, Vásquez (2011) realiza un estudio utilizando datos simulados bajo el

supuesto de distribución Binomial, considerando entre diferentes indicadores el

porciento de rechazo de Ho y obtuvo resultados similares, al comparar la dócima F

de Fisher con su homóloga no paramétrica de Friedman, asociado al DBA.

Se aprecia la asociación del diseño con el número de tratamientos (identificados

en la dimensión dos), esto responde a que los diseños presentan diferentes

números de tratamientos de acuerdo a los experimentos analizados.

En resumen se considera que al ser la dócima F de Fisher robusta hace que

presente una alta potencia conjuntamente con una baja probabilidad de cometer

error tipo I, manifestada en las altas correlaciones negativas entre las potencias y

los valores de probabilidad de error tipo I (con y sin transformación de datos).

La tabla 3.7 presenta el análisis de CATPCA para los indicadores estudiados

relacionados con los DCA y DBA con arreglo factorial de los tratamientos. Al igual

que el análisis anterior en dos dimensiones se logra explicar aproximadamente

77
una varianza total del 93%, con un Alfa de Cronbach que presenta un nivel de

fiabilidad excelente de 0,98, lo que muestra que el método empleado es

adecuado, en este sentido se destaca la dimensión uno con una varianza

explicada de 61,31%.

Tabla 3.7. Resultados del coeficiente Alfa de Cronbach para los experimentos con
arreglo factorial de los tratamientos.
Varianza explicada
Alfa de Total % de la
Dimensión Cronbach (Autovalores) varianza
1 ,910 4,905 61,313
2 ,692 2,532 31,654
Total ,989 7,437 92,967

En la tabla 3.8 se presentan los indicadores con mayor peso o ponderación por

cada dimensión, se destacan en la dimensión uno los indicadores relacionados

con las probabilidades de error tipo I y las potencias, al igual que el análisis

anterior presentan una asociación importante, mostrando correlaciones positivas y

negativas de muy altas a perfectas por encima de 0,90 (Anexo 4), lo que reafirma

que a altos valores de potencias bajos valores de probabilidades de error tipo I.

No aparece en la tabla 3.8 los indicadores Cumplimiento de los supuestos sin

transformación porque fue excluido al presentar resultados constantes y la

distribución de los datos porque fue la misma para todos los casos.

78
Tabla 3.8. Resultados de los pesos de los indicadores por cada dimensión para los
experimentos con arreglo factorial de los tratamientos.
Dimensión
Indicadores
1 2
Tipo de experimento ,219 -,947
Cumplimiento de los supuestos con transformación -,168 ,820
Probabilidad de erro tipo I sin transformación ,983 ,129
Probabilidad de error tipo I con transformación ,983 ,129
Probabilidad de error tipo I no paramétrica ,983 ,130
Potencia sin transformación -,954 -,068
Potencia con transformación -,986 -,108
Tamaño de muestra -,219 ,947

En esta misma tabla se observa que en la dimensión dos sobresalen los

indicadores relacionados con el tipo de experimento, cumplimiento de los

supuestos teóricos y el tamaño de muestra, además se observa que estos

indicadores presentan correlaciones altas de 0,685 y -1,000 (Anexo 4).

En la figura 3.2 se presenta el Biplot de los indicadores para los experimentos con

arreglo factorial de los tratamientos, se considera como aspecto de interés una

agrupación similar entre las probabilidades de error tipo I y las potencias, a las

presentadas en el Biplot de la figura 3.1 y los argumentos dados.

79
Figura 3.2. Biplot de los indicadores para los experimentos con arreglo factorial de
los tratamientos.

Para confirmar los resultados anteriores y teniendo en cuenta los aspectos que

inciden en la potencia estadística, dado por Menchaca y Torres (1985) y Camacho

(2007), se realizó el análisis de Regresión Categórica (CATREG) para establecer

la relación entre la potencia (con y sin transformación de datos) con los

indicadores que teóricamente deben incidir en esta.

Al analizar la potencia sin transformación con el resto de los indicadores, se

obtiene que el coeficiente de determinación (R2) es 0,91, por lo que la regresión

logra explicar el 91% de la variabilidad de la potencia.

En la tabla 3.9 se aprecia que el indicador que tiene una influencia significativa

negativa sobre la potencia sin trasformar, es el valor de probabilidad de error tipo I

80
sin transformar, resultado que reafirma los obtenidos con anterioridad, pues siguen

siendo estos indicadores los de mayor importancia en el análisis.

Tabla 3.9. Estimaciones de los coeficientes de regresión en el CATREG para


potencias sin transformación.
Coeficientes tipificados
Bootstrap
(1000)
Indicadores Estimación
de error
Beta típico gl F Sig.
Tipo de experimento -,039 ,079 2 ,235 ,791
Cumplimiento de los supuestos
sin transformación -,051 ,081 2 ,404 ,669
Probabilidad de error tipo I sin
transformación -,808 ,078 3 106,939 ,000
Tamaño de muestra -,190 ,112 2 2,849 ,065
Número de tratamientos -,127 ,127 2 ,992 ,376
Diseño -,009 ,095 2 ,008 ,992
Distribución -,020 ,081 2 ,058 ,944

La tabla 3.10 muestra la importancia relativa de la contribución de las variables

predictoras en la potencia, en que se reitera la probabilidad de error tipo I sin

transformación, como el indicador más importante, aspecto analizado en el

Análisis de Componentes Principales Categórico (CATPCA).

Tabla 3.10. Importancia de los indicadores en CATREG para potencias sin


transformación.
Indicadores Importancia
Tipo de experimento -,006
Cumplimiento de los supuestos sin transformación ,001
Probabilidad de error tipo I sin transformación ,864
Tamaño de muestra ,109
Número de tratamientos ,031
Diseño ,004
Distribución -,003

81
Cuando se analiza la potencia con transformación, con los mismos indicadores

anteriores, se observa que el 89% de la variabilidad de la potencia está explicada

por los indicadores analizados, resultado similar a cuando se realizó la relación

con la potencia sin transformar.

Al igual que el análisis anterior se observa que el único indicador que tiene una

influencia significativa sobre la potencia trasformada, es la probabilidad de error

tipo I con transformación, expresado en la tabla 3.11, lo que muestra que la

relación de la potencia (con y sin transformación de los datos) con los indicadores

dados presentan resultados similares, en resumen se considera que estos son

invariante respecto a la transformación de los datos.

Tabla 3.11. Estimaciones de los coeficientes de regresión en el CATREG para


potencias con transformación
Coeficientes
tipificados
Bootstrap
Indicadores (1000)
Estimación
de error
Beta típico gl F Sig.
Código -,125 ,134 2 ,878 ,420
Tamaño de muestra -,126 ,118 3 1,143 ,338
Número de tratamientos -,062 ,193 1 ,104 ,748
Diseño -,007 ,157 2 ,002 ,998
Distribución -,068 ,050 2 1,838 ,167
Cumplimiento de los supuestos con
transformación ,010 ,082 1 ,014 ,906
Probabilidad de error tipo I con -,837 ,092 3 82,924 ,000
transformación

Se reitera como indicador más importante con relación a la variable respuesta la

probabilidad de error tipo I, corroborando los resultados del CATPCA.

82
Tabla 3.12. Importancia de los indicadores en CATREG para potencias con
transformación.
Indicadores Importancia
Tipo de experimento -,002
Tamaño de muestra ,069
Número de tratamientos ,014
Diseño ,002
Distribución -,010
Cumplimiento de los supuestos con transformación ,002
Probabilidad de error tipo I con transformación ,926

3.3.4. Consideraciones parciales.

 Se identifican y visualizan los indicadores más importantes, corroborando


los resultados obtenidos mediante los análisis bivariados.

 Los resultados obtenidos con los indicadores en los DCA y DBA y para
ambos diseños con arreglo factorial de los tratamientos, mostraron
resultados similares, en cuanto a la probabilidad de error tipo I, así como las
altas correlaciones negativas entre este indicador y la potencia.

 La distribución de los datos no mostró relación de importancia con el resto


de los indicadores analizados.

 Se evidenció la fuerte relación entre la potencia y la probabilidad de error


tipo I (con y sin transformación de datos) en los Modelos de ANAVA de
efectos fijos (unifactorial y multifactorial).

83
CAPÍTULO IV
EL MODELO LINEAL GENERALIZADO.
APLICACIÓN A DIFERENTES
DISTRIBUCIONES.
CAPÍTULO IV. El MODELO LINEAL GENERALIZADO. APLICACIÓN A

DIFERENTES DISTRIBUCIONES.

4.1. Introducción

En este capítulo se emplea el Modelo Lineal Generalizado para las variables con

distribuciones Normal, Binomial y Poisson con sus correspondientes funciones de

enlace.

Se realiza un análisis comparativo del Modelo Lineal General (MLG) y el Modelo

Lineal Generalizado (MLGnz), a partir de varios indicadores se realiza un análisis

multidimensional, con el objetivo de: Analizar de forma integral indicadores

estadísticos del Modelo Lineal Generalizado, para establecer criterios de valor

teórico-práctico.

4.2. Materiales y métodos

4.2.1. Características principales de las investigaciones

Como continuidad al análisis estadístico anterior, se seleccionaron 26 variables de

las incluidas en el capítulo III, considerando aquellas que tienen distribuciones de

tipo Normal, Binomial y Poisson, por ser estas las más frecuentes en las variables

analizadas en el proceso de investigación.

84
4.2.2. Modelo Lineal Generalizado

Se utilizó el Modelo Lineal Generalizado (MLGnz) propuesto por Nelder y

Wedderburn (1972) como una extensión del Modelo Lineal General. Este modelo

comprende los siguientes componentes:

Yij     i  e ij

Donde:

Yij: Variable respuesta perteneciente a un miembro de la familia exponencial.

: Media general.

i: Efecto del i-ésimo tratamiento (i= 1;2….n).

eij: efecto del i-ésimo error aleatorio asociado a la j-ésima observación (j = 1,2…n).

i  g  =    g 1

Donde:

 i : Se denomina predictor lineal, que está definido de la misma forma que el

Modelo Lineal General.

g: Una función de enlace monótona diferenciable que se describe como el valor


esperado de Yi, se relaciona con el predictor lineal  .
i

Las funciones de enlace considerando las distribuciones seleccionadas se

expresan en la tabla 4.1.

85
Tabla 4.1. Distribuciones y funciones de enlace.
Distribución Función de enlace
Normal Identidad:   
Poisson Logarítmica:   log  
  
Binomial Logística:   log  
1  

4.2.2.1. Procesamiento y análisis estadístico de la información

Se aplicó el Análisis de Varianza paramétrico según Diseño Completamente

Aleatorizado y el MLGnz, de acuerdo a los indicadores seleccionados.

1. Tratamiento (Tto)

2. Tamaño de muestra (TM)

3. Tipo de experimento (Tipoexp)

4. Valor de p de la dócima F de Fisher del MLG (PerrorIF)

5. Valor de p para la dócima del MLGnz (PerrorI )

6. Suma de cuadrado del error del MLG (SCerror MLG)

7. Devianza del MLGnz como criterios de bondad de ajuste (Devia MLGnz)

8. Distribución de las variables (Distribución)

Con estos indicadores se aplicó el análisis de Escalamiento Óptimo, con el

objetivo de identificar y visualizar la información mediante el gráfico Biplot, a partir

del Análisis de Componentes Principales Categórico (CATPCA).

La base de datos fue procesada utilizando el tabulador electrónico Microsoft

EXCEL versión 9.0 (2003). Para determinar la suma de cuadrado del error y la

86
probabilidad de error tipo I del MLG, se empleó el paquete estadístico Infostat

(2008). En el caso del MLGnz se empleó el paquete estadístico SAS versión 9.1.3

(2007) procedimiento GENMOD (Generalized Linear Model).

4.3. Resultados y discusión

4.3.1. Modelo Lineal General y Modelo Lineal Generalizado. Probabilidad de

error tipo I

En la tabla 4.2 se muestran los rangos de probabilidad de error de tipo I para los

modelos analizados; se observa que de las 26 variables analizadas 25 (8+13+4),

coinciden en la toma de decisiones, que representan el 96,15% de estas.

Tabla 4.2. Frecuencia de los rangos de probabilidad de error tipo I de la dócima F


de Fisher y la dócima  2 .
Dócima  2 Dócima F de Fisher (MLG)
(MLGnz) <0,01 0,01-0,05 >0,05 Total
<0,01 8 4 1 13
0,01-0,05 0 0 0 0
>0,05 0 0 13 13
Total 8 4 14 26

En resumen en el MLG y el MLGnz presentan resultados similares en la toma de

decisión, no obstante el MLGnz rechaza a niveles más bajos (<0,01) que el MLG

(<0,05) de probabilidades de error tipo I. Esto puede estar dado a que estos

modelos mantienen cierta relación, pues el MLGnz es una extensión del MLG, con

la característica que no tiene que cumplir los supuestos del ANAVA, y al igual que

el MLG, posee una parte sistémica, según lo planteado por González (2001).

87
Según Ponsot (2009), cuando la variable respuesta se distribuye Normal y siendo

la función de enlace la Identidad (    ), el MLGnz se reduce al MLG. En

cualquier otro caso, el MLGnz cobra su propio espacio y tanto la estimación de los

parámetros como el ANAVA, deben ser realizados por métodos diferentes a los

propuestos para el MLG. Por lo que los métodos de estimación del MLGnz se

realizan a través de un proceso iterativo y a su vez presentan una medida de

bondad de ajuste llamada Devianza.

4.3.2. Análisis de Componentes Principales Categórico, para el análisis de

indicadores del Modelo Lineal General y el Modelo Lineal Generalizado.

En la tabla 4.3 se presentan los resultados del coeficiente Alfa de Cronbach. Se

muestra la adecuación del método, y que en ambas dimensiones se logra explicar

el 72,26% de la variabilidad de la información original.

Tabla 4.3. Resultados del coeficiente Alfa de Cronbach para el Modelo Lineal
General y Modelo Lineal Generalizado.
Varianza explicada
Dimensión Alfa de Total % de la
Cronbach (Autovalores) varianza
1 ,814 3,472 43,402
2 ,648 2,309 28,858
Total ,945 5,781 72,260

En la primera dimensión se relacionan los indicadores de las probabilidades de

error tipo I de la dócima F de Fisher del MLG, y la dócima  2 del MLGnz, la suma

de cuadrado del error, la Devianza y la distribución. En la segunda dimensión

88
resultan importantes los indicadores tamaño de muestra y tipo de experimentos

(tabla 4.4).

Tabla 4.4. Resultados de los pesos de los indicadores por cada dimensión para el
Modelo Lineal General y el Modelo Lineal Generalizado.
Dimensión
Indicadores
1 2
Tratamientos ,526 ,350
Tamaño de muestra -,303 ,861
Tipo de experimento -,527 ,719
Probabilidad de error tipo I dócima F de Fisher -,804 ,354
Probabilidad de error tipo I dócima X2 -,795 ,347
Suma de cuadrado del error MLG ,761 ,410
Devianza MLGnz ,696 ,507
Distribución -,696 -,507

Las probabilidades de error tipo I de ambas dócimas, presentan correlaciones

altas positivas entre sí como se observa en el Anexo 5. Esto está dado porque se

parte de la misma fuente de información del capítulo anterior y por la relación que

existe entre ambos modelos.

En el caso de la suma de cuadrado del error en el MLG y la Devianza del MLGnz,

se observa una correlación alta positiva. Se considera que se debe a que estos

indicadores miden dispersión en estos modelos, según Kaps y Lamberson (2004),

la Devianza es análoga a la Suma de cuadrado del error del MLG.

Por otra parte se observa que el tamaño de muestra y el tipo de experimento

presentan correlaciones muy altas como se aprecia en el Anexo 5, en el análisis

se tuvo en cuenta diferentes tipos de experimentos que tenían diferentes tamaños

de muestras de 3 a 15.

89
En la figura 4.1 se presenta el Biplot de los indicadores analizados a partir de los

resultados del CATPCA. Es de destacar la agrupación de los indicadores de

dispersión del MLG y el MLGnz en posición opuesta a la distribución de los datos

por las altas correlaciones negativas y la agrupación casi perfecta de las

probabilidades de error tipo I para ambos modelos.

Figura 4.1. Biplot de los indicadores estadísticos de los Modelos Lineal General y
Lineal Generalizado.

La distribución de los datos muestra una correlación alta y negativa con la suma

de cuadrado del error (r=-0,649) y una correlación prefecta negativa con la

Devianza (r=-1,000) (Anexo 5). Se considera que esta correlación perfecta

negativa entre la distribución de los datos y la Devianza, se debe a que en el

MLGnz se requiere el conocimiento de la distribución de los datos para establecer

la función de enlace correspondiente; por lo tanto el paso del MLGnz ajustado con

90
la distribución adecuada a los datos, a un ajuste con otra distribución, debe

provocar un aumento en el indicador de dispersión, que incide de forma negativa

en la precisión de los resultados.

4.3.3. Análisis comparativo del Modelo Lineal General y el Modelo Lineal

Generalizado y acciones metodológicas relacionadas con estos modelos.

Para realizar un análisis comparativo de los resultados del MLG y el MLGnz se

utilizó un experimento desarrollado en la Empresa Genética “Camilo Cienfuegos”,

de la provincia de Pinar del Río en el período 2007-2008, relacionada con la

producción del pasto Pennisetum purpureum (cv. Cuba CT-115).

Se analizaron tres muestreos y como caso de estudio se seleccionó el muestreo

dos que comprendió los meses junio-julio de 2007. Se empleó un DCA con tres

tratamientos y diez repeticiones. Los tratamientos consistieron en diferentes

métodos de siembra de pastos:

- Plantación a vuelta de arado sin preparación del suelo.

- Plantación a vuelta de arado con bueyes en suelo con preparación


convencional.

- Plantación a vuelta de arado con tractor en suelo con preparación


convencional.

91
Las variables analizadas fueron:
1. No. tallos.
2. No. rebrotes.
3. No. hojas totales/tallos.
4. No. hojas totales/rebrotes.
5. No. hojas secas/tallos.
6. No. hojas secas/rebrotes.

Se verificó que la distribución de las variables es de tipo Poisson con la función de

enlace log μ .

El modelo que se empleó es el siguiente:

Yij     i  e ij

donde:

Yij: variable dependiente.

 : media general.

i : efecto del i-ésimo tratamientos. (i = 1,2, 3)

eij: efecto del i-ésimo error aleatorio asociado a la j-ésima observación (j =


1,2……10).

La función de enlace es:

η (μ) = log (μ)

Donde:

η (μ): función que relaciona a la media con el predictor lineal;

log (μ): función de enlace asociada a la distribución Poisson.

92
Para la bondad de ajuste del modelo se tuvieron en cuenta los criterios de

2
Devianza/gl y  gl (Chi - cuadrado).

En la tabla 4.5 se presentan los resultados de MLGnz para las variables

analizadas, teniendo en cuenta los criterios de bondad de ajuste a partir de la

distribución Poisson, con función de enlace logarítmica. Se observa que las

variables No. de tallos y No. rebrotes hojas totales obtienen valores del cociente

2
de la Devianza y de  gl cercanos a 1, lo que indica que el modelo para esas

variables presentó un buen ajuste.

Mora et al. (2007) y Dos Santos y Mora (2007) afirman que cuando estos

indicadores muestran valores cercanos a 1, se evidencia que el modelo presenta

un ajuste apropiado.

Tabla 4.5 Resultados de los criterios de bondad de ajuste al aplicar el Modelo


Lineal Generalizado.

2 de SCerror
Variables GL Devianza Pearson Desvianza/GL 2 /GL MLG
No. tallos 27 25,95 27,53 0,96 1,01 297,20
No. rebrotes 27 13,05 13,08 0,48 0,48 91,00
No. tallos
hojas totales 27 39,82 41,57 1,47 1,54 1733,71
No. rebrotes
hojas totales 27 19,71 19,92 0,73 0,74 330,11
No. tallos
hojas secas 27 6,32 6,33 0,23 0,23 70,90
No. rebrotes
hojas secas 27 45,29 37,87 1,68 1,40 138,00

93
Los valores por debajo o por encima de uno, son considerados como que existe

una subestimación o sobrestimación del modelo. Esto puede estar asociado a

diferentes causas de variación que no se tuvieron en cuenta, y se presenta en las

variables, No. rebrotes, No. tallos hojas totales, No. tallos hojas secas y No.

rebrotes hojas secas.

Según Morales y López (2009), en el análisis de datos relacionados con

proporciones y conteos, es común que haya presencia de sobrestimación,

situación que se presenta cuando la varianza expresada por los datos es mucho

más grande que la que predice el modelo.

Se determinó el grado de asociación entre las Devianzas y la suma de cuadrado

del error, mediante el coeficiente de correlación por rango de Spearman, el

resultado es r=0.60, que es similar a lo que se reporta en el Anexo 5, que es de

r=0,649.

En la tabla 4.6 se observa que existe coincidencia en la toma de decisiones de los

resultados obtenidos, aunque en la variable No. tallos hojas secas, el valor de

probabilidad de error tipo I del MLG y MLGnz son muy diferentes, en este caso la

dócima de McNemar no detectó cambios significativos.

94
Tabla 4.6. Resultados de los valores de probabilidad de error tipo I para el Modelo
Lineal General y el Modelo Lineal Generalizado.
Valor de Dócima de McNemar
probabilidad de Estadístico Valor P
error tipo I
Variables MLG MLGnz
No. tallos 0,1122 0,0841
No. rebrotes 0,0018 0,0180
No. tallos hojas totales 0,0463 0,0040 0,001 0,78
No. rebrotes hojas totales 0,0001 0,0001
No. tallos hojas secas 0,0026 0,1725
No. rebrotes hojas secas 0,2440 0,1161

El MLGnz, según Ojeda (2004), Montgomery et al. (2005) y Cayuela (2010), es

una técnica unificadora que agrupa los Modelos de Análisis de Varianza (ANAVA),

y de Regresión clásicos, los Modelos no lineales como el Logístico y el de

Poisson, entre otros. Una hipótesis fundamental de este modelo es que la

distribución de la variable respuesta es un miembro de la familia exponencial de

distribuciones que incluye, la Normal, la Binomial, la de Poisson, la Normal

Inversa, la Exponencial y la Gamma, entre otras.

Aunque la toma de decisión en ambos modelos es similar, el MLGnz es mucho

más flexible que el MLG, pues la variable respuesta no requiere del cumplimiento

de los supuestos del Análisis de Varianza paramétrico, sólo se requiere conocer la

distribución de los datos y la función de enlace asociada a esta.

4.3.4. Consideraciones parciales

 Entre el Modelo Lineal General y el Modelo Lineal Generalizado existen

correspondencias en cuanto a las probabilidades de error tipo I y los

95
indicadores de dispersión, dados por la suma de cuadrado del error y la

Devianza.

 El Modelo Lineal Generalizado resulta otra alternativa de análisis, al igual

que los Métodos Estadísticos no paramétricos, en presencia de variables

que no distribuyen de forma Normal.


 

4.3.5 Propuesta de acciones metodológicas para investigaciones

relacionadas con la aplicación del Modelo de Análisis de Varianza

La propuesta de acciones metodológicas relacionadas con el Modelo de Análisis

de Varianza se resume en la figura 4.2, entre los aspectos que se proponen

sobresalen con mayor interés:

 La aplicación de la propuesta de acciones para diferentes tipos de

variables.

 En el análisis a priori o a posteriori, se propicia la realización de una

valoración crítica de aspectos como: tamaño de muestra, potencia de la

dócima F de Fisher, variabilidad de los datos y criterios técnicos del

investigador y del estadístico, entre otros aspectos.

 Realizar una valoración crítica sobre las consecuencias del incumplimiento

de los supuestos teóricos del Modelo de Análisis de Varianza y a partir de

aquí asumir la mejor opción, como:

96
- Uso del Modelo de Análisis de Varianza paramétrico (si no son serias

las consecuencias en el incumplimiento de los supuestos de Análisis

de Varianza.

- Uso del Modelo de Análisis de Varianza no paramétrico.

- Uso de la transformación de datos.

- Uso del Modelo Lineal Generalizado.

97
Investigaciones relacionadas con la aplicación del
Modelo de ANAVA

Aplicable a diferentes tipos


de variables

A priori A posteriori
Planeación de
la investigación
Modelo de ANAVA paramétrico

Evaluar el cumplimiento de los Valorar las consecuencias


supuestos teóricos en cada caso
Si No Alternativas

Valorar: tamaño de muestra,


potencia de la dócima F, variabilidad Uso del Modelo Uso de
de los datos, criterios técnicos del de ANAVA transformación de
investigador y el estadístico paramétrico datos

Uso del Modelo de Uso del


Definir el Modelo de ANAVA no MLGnz
ANAVA paramétrico

Ejecutar el No
experimento Si
Cumplimiento de los
supuestos teóricos
Obtener los resultados
experimentales

Procesamiento, análisis e interpretación de los


resultados en el contexto dado

Figura 4.2. Propuesta de acciones metodológicas para investigaciones que aplican el


Modelo de Análisis de Varianza.

98
CONCLUSIONES
CONCLUSIONES

1. Se manifiesta una alta preferencia por el empleo de las transformaciones de


datos y en la mayoría de los casos analizados no resuelven el cumplimiento
de los supuestos teóricos básicos del Modelo de Análisis de Varianza.

2. Se pone en evidencia poco empleo de los Métodos Estadísticos no


paramétricos en las investigaciones agropecuarias.

3. La docima F de Fisher (con y sin transformación de datos) y con sus


homólogas no paramétricas Kruskal-Wallis y Friedman, presentaron
resultados similares en la toma de decisiones, dado por el alto nivel de
coincidencia en las probabilidades de error tipo I.

4. La potencia y la probabilidad de error tipo I son los indicadores que más se


destacan en los análisis realizados, mostrando una alta correlación
negativa.

5. El Modelo Lineal Generalizado resulta una alternativa de análisis, cuando


la variable respuesta incumple los supuestos teóricos básicos del Modelo
de Análisis de Varianza y en comparación con el Modelo Lineal General
presenta un grado de asociación de importancia con los indicadores
probabilidad de error tipo I y de variabilidad.

6. Las acciones metodológicas propuestas establecen orientaciones de valor


teórico-práctico para el empleo adecuado de la transformación de datos, los
Modelos de Análisis de Varianza de efectos fijos (paramétrico y no
paramétrico) y el Modelo Lineal Generalizado.

99
RECOMENDACIONES
RECOMENDACIONES

1. Capacitar a técnicos y usuarios de la Estadística sobre el empleo adecuado


de la transformación de datos, los Métodos Estadísticos no paramétricos y
el Modelo Lineal Generalizado.

2. Utilizar la transformación de datos en casos muy bien fundamentados por


criterios técnicos del investigador y el estadístico.

3. Ante tamaños de muestra pequeño que aporten bajas potencias y no


detecten diferencias significativas que resulten evidentes para el
investigador, se sugiere como mejor opción el Modelo de Análisis de
Varianza no paramétrico, y con un conocimiento a priori de la distribución
de los datos se sugiere utilizar el Modelo Lineal Generalizado.

4. Continuar profundizando sobre el criterio de potencia-eficiencia de los


Métodos Estadísticos no paramétricos y paramétricos, relacionados con
diferentes variables discretas y continuas.

5. Continuar evaluando el comportamiento del Modelo Lineal Generalizado


con diferentes distribuciones de los datos.

100
REFERENCIAS
BIBLIOGRÁFICAS
Referencias bibliográficas

Agresti, A. 2007. Categorical Data Analysis. Editorial John Wiley & Sons. 2ª
edition. 349 p.

Álvarez, R. 2008. Estadística multivariante y no paramétrica con SPSS: Aplicación


a las ciencias de la salud. España: Díaz de Santos. [Consultado: 10 octubre
2009] Disponible en:
http://site.ebrary.com/lib/unlsp/Doc?id=10212356&ppg=361.

Aranzazu, D. A.; Rodríguez, B. J.; Zapata, M.; Bustamante, J. y Restrepo, L. F.


2007. Aplicación del análisis de factor de correspondencia múltiple en un
estudio de válvulas cardíacas en porcinos. Revista Colombiana de Ciencias
Pecuarias. 20(2) 129-140.

Arce, C.; de Francisco, C. y Arce, I. 2010. Escalamiento Multidimensional:


Concepto Y Aplicaciones. Revista Papeles del Psicólogo. 31(1) 46-56.

Avanza, M.; Massa, S; Martínez, G. y Giménez, L. 2006. Uso de transformaciones


para el cumplimiento de los supuestos de normalidad y homocedasticidad, para
modelos lineales. Revista Agrotecnia. [s/v](11) 18-23.

Balzarini, M.; Di Rienzo, A.; Cazanove, F.; González, L.; Tablada, M.; Guzmán,
W. y Robeldo, W. 2008. InfoStat paquete estadístico InfoStat versión 2008,
Manual de usuario, Grupo InfoStat, FCA, Universidad Nacional de Córdoba,
Argentina 115pp.

Bartlett, M. S. 1947. The use of transformations. Biometrics. 3 (1) 39–51.

Bono, R. y Arnau, J. 1995. Consideraciones generales en torno a los estudios de


potencia. Revista Anales de Psicología. 11(1) 193-202.

Box, G.E.P and Cox, D.R. 1964. An analysis of transformations. Journal of the
Royal Statistical Society. Series B (Methodological) 26(2) 211-252.

Caballero, A. 1979. Tamaños de muestras en diseños completamente


aleatorizados y bloques al azar donde la unidad experimental esté formada por
grupos de animales. Revista Cubana de Ciencia Agrícola. 13 (3) 225-235.

Cabrera, A. 2002. Criterios estadísticos en la descripción del patrón espacial y


diseño de muestreos para Thrips palmi Karny en papa. Tesis Doctorado en
Ciencias. Universidad Agraria de la Habana, Centro Nacional de Sanidad
Agropecuaria. 99 p.
Cabrera, A.; Guerra, C. W.; Herrera, M. and Suris, M. 2012. Non-parametric
statistical methods and data transformations in agricultural pest population
studies. Chilean Journal of Agricultural Research. 72(3) 440-443.

Camacho, J. 2007. Potencia estadística en el diseño de estudios clínicos. Nota


Estadística. Acta Médica Costarricense. 49(4) 203-204.

Cayuela, L. 2010. Modelos lineales generalizados (GLM). Curso de R CEAMA.


EcoLab, Centro Andaluz de Medio Ambiente. Universidad de Granada.

Cochran W. y Cox, G. 1999. Diseños experimentales. Segunda edición en


español. Editorial F. Trillas, S.A.México. 75pp.

Correa, J. 2006. Estudio de potencia de pruebas de homogeneidad de varianza.


Revista Colombiana de Estadística Volumen 29(1) 57-76.

Correa, J. 2007. Estimación por intervalo del parámetro de la distribución de


Poisson con una sola observación. Revista Colombiana de Estadística 30(1) 69-
75.

Cox, F. and Dunn, T. 2002. An analysis of decathlon data. Journal of the Royal
Statistical Society: Series D (The Statistician) 51(2) 179-18.

Cristo, M. 2001. Comportamiento de las dócimas no paramétricas respecto a las


paramétricas en distribuciones no normales. Tesis presentada en opción al
título de Master en Matemática. Universidad Central de Las Villa. Cuba

Cuesta, A. 2005. Análisis Multivariante. Dpto. Matemática, Estadística y


Computación. Universidad de Cantabria, España, 55 p.

Daniel W. W. 1978. Applied No- parametric Statistics. Ed. Houghton Myffin Co.
Boston. 503p.

De Calzadilla, J. 1999. Procedimientos de la Estadística no paramétrica.


Aplicaciones en las Ciencias Agropecuarias. Tesis presentada en opción al
título de Master en Matemática Aplicada a las Ciencias Agropecuaria. Cuba.

De Calzadilla J.; Guerra, W. y Torres, V. 2002. El uso y abuso de transformaciones


matemáticas. Aplicaciones en modelos de análisis de varianza. Rev. Cubana
Ciencia Agrícola. 36(1) 103-106.

Di Rienzo; J.A.; Casanoves, F.; González, L.M.; Tablada, E.M; Díaz, M. P.;
Robledo, E.W. y Balzarini, M. G. 2005. Estadística para las Ciencias
Agropecuarias. Edición Electrónica. Sexta Edición. Córdova. Argentina. 347p.
Dos Santos, A. y Mora, F. 2007. Análisis experimental de tratamientos floculantes
de residuos orgánicos derivados de la producción porcina. Revista Ciencia e
Investigación Agraria 34(1) 49-56.

Durbin, J. and Watson, G. S. 1950. Testing for Serial Correlation in Least Squares
Regression, I. Biometrika 37(1) 409–428.

Eisenhart, C. 1947. The assupmtions underlying the analysis of variance.


Biometrics 3(1) 3–21.

Faraway, J. J. 2006. Extending the Linear Model with R: Generalized linear, mixed
effects and nonparametric regression models. Journal Computational Statistics.
24(2) 369-370.

Font, H.; Torres, V.; Herrera, M. and Rodríguez, R. 2007. Fulfillment of the
normality and the homogeneity of the variance in frequencies of accumulated
measurement of the egg production variable in White Leghorn hens. Cuban J.
Agric. Sci. 41(3) 207-210.

Fox, J. 2007. Generalized Linear Models: An introduction, York Summer


Programme in Data Analysis, Dpto. of Sociology McMaster, University in
Hamilton, Ontario. Canada.

Fraser, D.A.S. 1957. Nonparametric Methods in Statistics, John Wiley & Sons, Inc,
New York, 299p.

García, Cl. 2002. Modelos Lineares Generalizados em Experimentação


Agronômica. ESALQ/USP – Piracicaba, SP. Brazil. 121p.

Gibbons, J. D. 1971. Non-parametric Statisical Inference. Ed. MacGraw Hill Book.


Co. York. 306p.

Gómez, M.; Danglot, C. y Vega, L. 2003. Sinopsis de pruebas estadísticas no


paramétricas. Cuando usarlas. Revista Mexicana Pediatría 70(2) 91-99.

González, K. 2001. Los Métodos de los Mínimos Cuadrado Ponderado para la


estimación de los Modelos Lineales Generalizados. Tesis para optar el título
profesional de Licienciada en Estadística.

Greene, W. 1999. Análisis econométrico, 3ra ed., Prentice-Hall, Madrid, España.


325p

Guerra, C. W.; De Calzadilla, J. y Torres, V. 2000. Índice de eficiencia en relación


con procedimientos de la estadística no paramétrica. Revista Cubana de
Ciencia Agrícola 34 (1) 1-4.
Guerra, C. W. 2009. Apuntes sobre Escalamiento Óptimo y Multidimensional.
Aplicaciones. Centro Universitario de Güines. La Habana. Cuba. 15 p.

Guerra, C.W.; Herrera, M.; Vázquez y Quintero, A.B. 2010. Contribución de la


Estadística al análisis de variables cualitativas. Centro Universitario de Güines.
La Habana. Cuba.

Guerrero, F. M., Ramírez y J. M. 2002. El análisis de escalamiento


multidimensional: una alternativa y un complemento a otras técnicas
multivariantes. Asociación Española de Profesores Universitarios de
Matemática para la Economía y la Empresas. X Jornada.

Hair, J. F.; Anderson, R. E.; Tatham, R. L. and Lack, W. C. 1999. Analisis


Multivariate. Practice. Hall Iberia. Madrid. España. 799p.

Hartley, H. 1950. The Maximum F-Ratio as a Short-Cut Test for Heterogeneity of


Variance’, Biometrika 37 (2) 308–312.

InfoStat, versión 2008. Software Estadístico. Grupo InfoStat, FCA, Universidad


Nacional de Córdoba. Editorial Brujas, Argentina.

Johnson, D. E. 2000. Métodos Multivariados Aplicados al Análisis de Datos.


International Thompson Editores, México 566p.

Johnson, R. 1990. Estadística Elemental. Grupo Editorial Iberoamérica. SA de CV.


592p.

Johnston, G. 2000 SAS software to fit the generalized linear model. Consultado
[25/2/09]. [on line]. Disponible en:
http://www.sas.com/rnd/app/papers/genmod.pdf.

Kaps, M. and Lamberson, W. R. 2004. Biostatistics for Animal Sciecie. Library of


Congress Cataloging-in-Publication Data. British Library, London, UK.

Khan, A. and Rayner, D. 2003. Robustness to Non-Normality of Common Tests


for the Many-Sample Location Problem. Journal of Applied Mathematics and
Decision Sciences. 7(4) 187-206.

Kreyszig, E 1974. Introducción a la Estadística Matemática. Principios y métodos.


Editorial Limusa, S.A. México. 505p.

Levene, H. 1960. Robust tests for the equality of variance. Contributions to


Probability and Statistics. Stanford University Press. pp. 278-292.

Lilliefors, H. 1967. "On the Kolmogorov-Smirnov Test for Normality with Mean and
Variance Unknown," J Am Stat Assoc. 62(318) 399-402.
Linares, G. 2001. Escalamiento Multidimensional: Conceptos y enfoques. Revista
Investigación Operacional. 22(2) 173-183.

López, P. C. y Romero, V.O. 1986. A propósito de las estadísticas no


paramétricas. Revista Estadística (Cuba) 18[s/n] 165-181.

Martín, A. y Luna, C.J. 1994 Bioestadística para las ciencias de la salud. 4ª Ed.
Norma, S.A. España.[s/v](1) 133-170.

Martínez, O. 1995. Métodos Estadísticos Multivariados en Biología Molecular y su


aplicación en investigaciones agrícolas. Agronomía Colombiana 12(1) 66–71.

McCullagh, P. and Nelder, J.A. 1989, Generalized Linear Models, London:


Chapman and Hall 412p.

Menchaca, M. A. 1973. Método corto para el análisis de transformaciones. Revista


Cubana de Ciencia Agrícola 7 (1) 145-149.

Menchaca, M. A. 1974. Tablas útiles para determinar tamaños de muestras en


diseño de Clasificación Simple y de Bloques al Azar. Revista Cubana de
Ciencia Agrícola. 8 (1) 111-116.

Menchaca, M. A. 1975. Determinación de tamaños de muestra en diseños


Cuadrados Latinos. Revista Cubana de Ciencia Agrícola. 9 (1) 1-3.

Menchaca, M. A. y Torres V. 1985. Tablas de uso frecuente en la Bioestadística.


Instituto de Ciencia Animal. Cuba.

Méndez, J. 1993. Uso y abuso de la Estadística en investigación .Tópicos de


Investigación y Posgrado III (2) 3–8.

Méndez, M. 2000. Introducción a la estadística para ornitólogos que odian el


ardeola." Colección Ciencia p'al Pueblo, nº 2 [Consultada: 20/04/08]. [on line]
Disponible en:
http://www.escet.urjc.es/biodiversos/espa/personal/marcos/cpp/Estadis.pdf#sear
ch=%22 estadis.pdf%20normalidad%22.

Mesa, A. 1998. Determinación de la validez predictiva de los tests en el deporte.


En Memorias del II Simposio Internacional de Educación Física y Deporte
Escolar. Cienfuegos, Cuba.

Microsoft Excel versión 9.0. 2003. Microsoft Corporación. USA.

Miranda, I, 1997. La estadística del agropecuario. 10 preguntas 10 respuestas.


[Consultada 11/4/09]. [on line]. Disponible en:
http://www.monografias.com/trabajos19/ estadistica-agropecuario/estadistica-
agropecuario.shtml.

Miret, E.; Linares, G. y Mederos, M. V. 2002. Estudio comparativo de


procedimientos de Escalamiento Multidimensional a través de experimentos de
simulación. .Revista Investigación Operacional. 23 (1) 73-82.

Miret, E. 2005. Un enfoque unificado para técnicas de representación euclidiana.


Tesis para optar por el grado de Doctor en Ciencias Matemáticas. UH. La
Habana. Cuba. 148p.

Molina, O. y Espinosa de los Monteros, E. 2010. Rotación en el análisis de


Componentes Categóricos. Un caso práctico. Metodología de encuestas (SIPIE)
s/v(12) 63-88.

Montgomery, D. C.; Peck, E.A. y Vinig, G.G. 2005. Introducción al Análisis de


Regresión Lineal. Editorial Continental. Seguna reimpresión, México p 420.

Mood, A. M. y Graybill, F. A. 1972. Introducción a la teoría de la Estadística.


Ediciones Aguilar S. A. Madrid. España. 536 p.

Mora, F.; Perret, S.; Scapim. A.; Nunes Martins, E. y Paz Molina, M. 2007.
Variabilidad en el florecimiento de procedencia de Eucalyptus cladocalyx en la
Región del Coquimbo. Revista Ciencia de la Investigación Agraria 34(2) 131-
139.

Mora, M. C. y González, M. I. 2009. Caracterización del fracaso empresarial en


Colombia: Un enfoque con Escalado Multidimensional. Comisión de Estudios al
exterior. Documento de Trabajo 11/09. Universidad de Salamanca. España.
37p.

Morales, M. A. 2008. Estudio de la homogeneidad de la dispersión en un diseño


completamente al azar con datos de proporción de conteo [Tesis Maestría].
Universidad Nacional de Colombia, Departamento de Estadística. 124 p.

Morales, M. A. and López, L. A. 2009. Study of homogeneity of the dispersion in


one way classification models with proportions and counts data. Revista
Colombiana de Estadística. 32(1) 59-78.

Navarro, J. M.; Casas, G. M.; González, E. y Cuadrado, S. 2008. Estudio del


riesgo cardiovascular en el municipio de Santa Clara utilizando el método de
Regresión Categórica. Revista Investigación Operacional. 29(3) 224-230.

Navarro, J.M.; Casa, G. y González, E. 2010. Análisis de Componentes


Principales de Regresión para datos categóricos. Aplicación en la Hipertensión
Arterial. Revista de Matemática. Teorías y Aplicaciones 17(2) 199-230.
Nelder, J.A. and Wedderburn, R.W.M. 1972. Generalized linear models, Journal of
the Royal Statistical Society, Serie A. 135(3) 370–384.

Norell, L. 2003. ANOVA Estimators Under Imbalance in the One-Way Random


Model. Communications in Statistics: Theory & Methods 32(3) 601. Oficina
Nacional de Estadística (ONE). (2006). "Anuario Estadístico de Cuba 2005."
[Consultada: 06/10/10], Disponible en http://www.one.cu/aec2005indicec10.htm

Ojeda, M. 2004. La modelación estadística. Memorias: Foro de matemática del


sureste. 1(1) 69-76. México.

Ostle, B. 1974. Estadística Aplicada. Editorial Científico-Técnica. Ciudad de la


Habana, Cuba. 629p.

Peña, J.I. y Peña, D. 1986. Un contraste de normalidad basado en la


transformación de Box-Cox. Estadística Española. 110(1) 33–46.

Peña, S. 1994. Estadística. Modelos y métodos. 2. Modelos lineales y series


temporales. Alianza Editorial, S.A., Madrid. 745 p.

Pérez, R; Noda, M.; Moreno, M. y Pérez E. 2002. Aplicación de la estadística en


las diferentes etapas del ciclo de vida. Centro de Información y Gestión
Tecnológica, Revista Trimestral, Año VIII, No. 2 Universidad de Holguín.
Cuba.[Consulta: agosto 7 2010]. [on line]. Disponible en: http://www.
ciencias.Holguin.cu.2002/Junio/articulos/ARTl3.htm

Ponsot, E. 2009. Estudio de la agregación de niveles en el modelo logit. Proyecto


de tesis doctoral. Universidad de Los Andes Facultad de Ciencias Económicas y
Sociales Instituto de Estadística Aplicada y Computación Programa de
Doctorado en Estadística.

Quaglino, M. B. y Pagura, J. A. 1998. Una propuesta para algunas aplicaciones de


análisis de correspondencias múltiples. Terceras Jornadas Investigaciones en la
Facultad de Ciencias Económicas y Estadística. Instituto de Investigaciones
Teóricas y Aplicadas, Escuela de Estadística.

Quintero, M. A. y Durán M. J. 2008. Aplicación de dos pruebas estadísticas de


bondad de ajuste en muestras complejas: Un caso práctico en el campo
forestal. Revista Agrociencia 42 (3) 287-297.

Ramírez, D. C. 2004. Autocoorelación. [Datos en línea]. Consultada [14/9/12]


Disponible:
http://webdelprofesor.ula.ve/economia/dramirez/MICRO/FORMATO_PDF/Materi
aleconometria/Autocorrelacion.pdf.
Rodríguez, F. 2008. Estudio de métodos no paramétricos. Informe de pasantías
presentado como requisito para optar al título deLicenciado en Matemática
Mención Probabilidad y Estadística. Universidad Nacional Abierta, Centro Local
Metropolitano. Caracas Venezuela.

Royston, P. 1982. An extension of Shapiro and Wilk’s W test for normality to large
samples. J. Royal Statistical Soc. Series C. 31(2) 115-124.

SAS, versión 9.1.3, 2007. User’s guide statistics. SAS Institute Inc., Cary, NC, USA

Sabín, Y. 1999. Determinación a posteriori de la potencia en los diseños


experimentales clásicos. Tesis presentada en opción al título de Master en
Matemática Aplicada a las Ciencias Agropecuarias. UNAH. 65p.

Sakia, R. M. 1990. Retransformation bias: a look at the Box-Cox transformation to


linear balanced mixed ANOVA models. Metrika. 37(1) 345-351.

Sakia, R. M. 1992. The Box-Cox transformation technique: a review.


TheStatistician. 41(2) 169-178.

Salvador, M. y Gargallo, P. 2003. "Análisis Exploratorio de Datos", [en línea].


Consultada [25/09/2008]. Disponible en: http://www.5campus.com/leccion/aed

Santos, B. M., Gilreath, J. P. y Arbona, R. 2005. La estadística no paramétrica


para el análisis e interpretación de estudios de plagas: alternativas al analisis de
varianza. Manejo Integrado de Plagas y Agroecología. 75 (51) 83-89.

Scheffé, H. 1959. The Analysis of Varianza. John Wiley & Sons, Inc, New York.
477p.

Scheirer, J. C.; Ray, W. S. and Hare, N. 1976. The Analysis of Ranked Data
Derived from Completely Randomized Factorial Designs. Biometrics. 32(2) 429-
434.

Schuyten, G. 1990. Statistical Thinking in Psychology and Education. Proceeding


of the ICOTS III. Universidad de Otago. Dunedin. Australia. [En línea].
Consultada [10/4/08] Disponible en:
http://www.virtual.unal.edu.co/cursos/ciencias/
2007315/lecciones_html/capitulo_2/leccion2/homogeneidad.html

Servy, E.; Garcia, M. y Paccapelo, V. 2007. Regresión no paramétrica: una


aplicación. Décimas Jornadas "Investigaciones en la Facultad" de Ciencias
Económicas y Estadística. Instituto de Investigaciones Teóricas y Aplicadas, de
la Escuela de Estadística. Universidad Nacional de Rosario.
Shapiro, S. and Wilk, B. 1965. An analysis of variance test for normality (complete
samples), Biometrika, 52 (2) 591-611.

Siegel, S. 1970. Diseño Experimental Noparamétrico aplicado a las Ciencias de la


Conducta. Edición Revolucionaria. Instituto Cubano del Libro. Habana, Cuba.
346p.

Siegel, S. y Castellan, N. J. 1995. Estadística no paramétrica aplicada a las


Ciencias de la Conducta. Cuarta edición. Editorial Trillas, México. p 57

Spiegel, M. R., Schiller, J. J. y Srinivasan, R. A. 2003. Teoría y problemas de


probabilidad y estadística. 2 ed. México D.F: McGraw-Hill. 416 p.

SPSS, versión 19.0. 2010. SPSS for Windows. Statistical Package for the Social
Sciences.

STATSOFT, INC. versión 6. 2003. (STATISTICA, data analysis software system).


www.statsoft.com.

Steel, R. G. y Torrie, I.H. 1992. Bioestadística: principios y procedimientos.


McGraw-Hill. Interamericana. México, SA. 228 pp.

Tejedor, F.J. 1999. Análisis de varianza: introducción conceptual y diseños


básicos. Madrid: La Muralla. 132 p.

Torres, V. y Segui, Y. 2001. Procesamiento práctico para la determinación de la


función de potencia a posteriori. Revista Cubana de Ciencia Agrícola 35(4)
319-322.

Torres, V.; Ajete, A.; Martínez, M. L. y Noda, A. 1998. ANALEST.Sistema


estadístico para el procesamiento de información. (folleto teórico).

Trujillo del Pozo. 2001. Modelos dinámicos de medición de la eficiencia. Una


comparación de métodos en la educación superior. VIII Encuentro de
Economía Pública. Universidad de Extremadura, España.

Vásquez, R. E. 2011. Contribución al tratamiento estadístico de datos con


distribución Binomial en el Modelo de Análisis de Varianza. Tesis en la opción
al grado de Doctor en Ciencia. Instituto Nacional de Ciencias Agrícolas. Cuba

Vásquez, R. E. 2013. Comunicación personal sobre resultados de su tesis de


doctoral defendida en Cuba en diciembre del 2011.

Verde, O. 2000. Comparación de métodos para el análisis de datos binomiales


en producción animal. Revista de Zootecnia Tropical. 18(1) 3-28.
Venereo, A. 1976. Número de réplicas en diseños cuadrados latinos
balanceados para la estimación de efectos residuales. Revista Cubana de
Ciencia Agrícola. 10(3) 237-246.

Vilar, J. 2011. Curso de Estadística 2 La Coruña: Universidad de La Coruña.


[Consultado: 15 febrero 2011] Disponible en:
http://www.udc.es/dep/mate/estadistica2/estadistica_2.htm.

Viscovery Software GmbH. 2008. Viscovery SOMine 5.0.2. [Software de


cómputo]. Viscovery Software GmbH.

Ward, J. 1963. Hierrarchical grouping to optimize an objective function. Jornal of


the Amarican Statistical Association. 58(4) 236-244

Wu, J. and Wong, M. 2003. A Note on Determining the p-Value of Bartlett's Test of
Homogeneity of Variances. Communications in Statistics: Theory & Methods
32(1) 91.
ANEXOS
Anexo. 1. Verificación de los supuestos teóricos básicos y consecuencias de su incumplimiento en el Análisis de Varianza.

Consecuencias del
incumplimiento en el
Supuestos Dócima Estadístico de prueba Características
ANAVA
Normalidad Shapiro-Wilk (1965) modificado Si el valor de P ≤ 0,05 La falta de normalidad
2 se rechaza la hipótesis no afecta demasiado a
por Royston (1982)  n  de distribución Normal. la prueba F
  a x
i i Es una prueba potente Si los datos son muy
i  1  y se recomienda asimétricos influyen en
W
2 cuando el tamaño de el estadístico de la
n   muestra es pequeño prueba. Si no hay
  x i  x  n< 30. Salvador y Normalidad, el
i  1  Gargallo (2003) verdadero nivel de
significación es mayor
que el nivel aparente.
ai: coeficiente Esto conlleva a
xi: es el número que rechazar la hipótesis
ocupa la i-ésima posición en nula cuando es
la muestra. verdadera, es decir se
 presentan demasiadas
x : media muestral diferencias significativas
que no existen.
D  máx Fn X   FoX 
Kolmogorov-Smirnov Fn (X): Distribución teórica Las únicas premisas
acumulativa observada de la que se necesitan para
muestra tomada al azar. la realización de esta
prueba es que:
Fo (X): Distribución teórica Las mediciones se
Normal. encuentren al menos
en una escala de
intervalo.
Que la medición
considerada sea
básicamente continua.
Además dicha prueba
es aplicable cualquiera
sea el tamaño de la
muestra (Mesa, 1998).
La prueba de
Kolmogorov-Smirnov

Kolmogorov-Smirnov, corregida   con la modificación de
D  máxFn X  ((X  x) / s(x))
por Lillefors (1967)   Lillierfors es la más
utilizada
y se considera uno de
Donde:  es la función de los test más potentes
distribución de una normal para muestra mayores
estándar. de 30 casos.
Homogeneidad Bartlett (1947) Esta prueba da la Morales (2008) y,
de varianza ln 2 (n1) n1  ln2 (n1) posibilidad de decidir si Morales y López (2009),
2     
X Bartlett existe señalan que la
(n1) homogeneidad o heterogeneidad en las
k 1
1 heterogeneidad en el varianzas de los
3(k1) (Nk)
error estadístico, que se tratamientos puede
utiliza con más conllevar a una
frecuencia, siendo subestimación de los
Donde: sensible a la falta de errores estándar de los
X2Bartlett : estadístico de esta normalidad (Cox y estimadores de los
prueba.,ln: logaritmo Dunn, 2002) y (Wu y parámetros del modelo.
natural. Wong, 2003)
s2: varianza.
n = tamaño de la muestra
del grupo.
K = número de grupos
N = tamaño total
Levene (1960) k   Es menos sensible a la
(N  k )  n i ( Z  Z ) 2 no normalidad de las
i1
W 2 muestras y una buena
k ni 
k  1    Z ij  Z i  alternativa. (Correa,
i1 j1  2006), señala el autor
Donde: que esta prueba ofrece
Zij puede tener una del as una alternativa más
siguientes tres definiciones: robusta que el
procedimiento de
Bartlett, ya que es poco
Z ij  Yij  Y i. donde: Y i. es sensible a la desviación
la media en el i-ésimo de la normalidad.
subgrupo.

~ ~
Z ij  Yij  Yi. donde: Yi. es la
mediana en el i-ésimo
subgrupo.
 
Z ij  Yij  Yi . donde: Yi. es el
10% de la media truncada
en el i-ésimo subgrupo.
Z i. es la media del grupo
Z ij
Z .. es la media general de
Z ij
Hartley (1950) 2 Esta prueba se requiere
máx (s i )
Fmáx  2
que todas las
mín(s i ) observaciones en cada
grupo tengan el mismo
estadístico Fmax tamaño. Fue propuesta
(asumiendo independencia por Hartley, (1950) y
de las muestras aleatorias Schuyten, (1990)
tomadas de las poblaciones
normales) es FMáx con k
grados de libertad en el
numerador y grados de ν =
n−1 grados de libertad en el
denominador
Independencia Durbin y Watson (1950) 2 La autocorrelación Las consecuencias
tT surge cuando los inmediatas, producto de
de los errores 
  t  t 1  términos de error del la autocorrelación, es
d  t2 modelo no son que los estimadores son
tT  2 independientes entre sí, poco eficientes, ya que
 t
es decir, cuando: sus varianzas estarán
t 1 E(uiuj)≠0. para todo i≠j. sobre o subestimada lo
Entonces los errores cual imposibilita utilizar
Donde:  t es el residuo
estarán vinculados las pruebas de
estimado para el período t. entre sí. Los contrates “test”
estimadores mínimos estadístico usuales para
cuadráticos ordinarios verificar la validez de
(MCO) obtenidos, bajo las estimaciones. Pero
esta circunstancia, los estimadores siguen
dejan de ser eficientes. siendo lineales,
insesgados y
consistentes pero han
perdido (como
consecuencia de
autocorrelación) su
propiedad de varianza
mínima, pero la
insesgadez será útil
para resolver el
problema Ramírez
(2004).
Anexo 2. Encuesta aplicada a los investigadores

El objetivo de esta encuesta es indagar sobre el uso de las transformaciones de


datos en el análisis estadístico de la información.

Es importante conocer sus criterios, por cuanto estamos desarrollando una


investigación encaminada a perfeccionar el empleo de estas herramientas
estadísticas de análisis.

Dpto: ____________________________________________________________

1. ¿Tienes conocimientos sobre la necesidad de aplicar transformación de


datos a los resultados de sus experimentos?

Si __________ No_________

2. ¿Qué tipo de transformaciones usa con más frecuencia?

1
1. x _______ 4. _______
X
1
2. arcoseno p _______ 5. _________
x

3. log (x) _______ 6. Otras _________

3. ¿En qué análisis estadístico utilizas con más frecuencia las


transformaciones de datos?

1. ANAVA _________ 2. Regresión ___________

3. Otros ___________

4. ¿Sabe que logra con el uso de la transformación de datos?

Ajustar indicadores numéricos ___________


Validez de los resultados _______________
Cumplimiento de supuestos teóricos ______
Disminuir la variabilidad de los datos ______
Usar una herramienta tradicional_________
Otros (especificar) ____________________

5. En su actividad científico- técnica futura ¿consideras conveniente continuar


con el empleo de las transformaciones de datos?

Si__________ No ___________

6. ¿Conoces procedimientos estadísticos alternativos, para no usar la


transformación de datos? En caso de ser afirmativo marque con una X los
que conoces.

Si__________ No ___________

Estadística no paramétrica _________


Modelo Lineal Generalizado________
Otros

7. Otros aspectos que considere de interés.

Gracias por su colaboración.


Anexo 3. Matriz de correlaciones de las variables transformadas por dimensión para los Diseños
Completamente Aleatorizados y Bloques al Azar.
Tipo
Indicadores
experimento Cumpl Cumpl Valorp Valorp Valorp Potencia Potencia T. M No. Diseño Distcod
S/T C/T S/T C/T NP S/T C/T tto
Tipo de
experimento 1,000
Cumpl S/T -,120 1,000
Cumpl C/T -,001 ,614 1,000
Valorp S/T -,186 -,056 -,109 1,000
Valorp C/T -,219 -,008 -,122 ,947 1,000
Valorp NP -,274 -,017 -,064 ,896 ,929 1,000
Potencia S/T ,224 -,009 ,091 -,877 -,918 -,875 1,000
Potencia C/T ,175 -,088 ,135 -,856 -,870 -,853 ,861 1,000
T. M -,128 -,175 -,378 ,428 ,460 ,453 -,486 -,461 1,000
No. tto -,413 ,071 -,007 ,013 ,075 ,161 -,170 -,096 ,033 1,000
Diseño -,631 ,061 -,025 ,294 ,322 ,374 -,385 -,304 ,291 ,731 1,000
Distcod -,177 ,010 ,074 -,146 -,199 -,193 ,117 ,127 -,142 ,165 ,138 1,000
Anexo 4. Matriz de correlaciones de las variables transformadas para los diseños con arreglos factorial de los
tratamientos.
Tipo de
Indicadores experimento C/T Valorp Valorp Valorp Potencia Potencia T.M
S/T C/T NP S/T C/T
Tipo de
experimento 1,000
C/T -,685 1,000
Valorp S/T ,092 -,063 1,000
Valorp C/T ,093 -,064 1,000 1,000
Valorp NP ,091 -,063 1,000 1,000 1,000
Potencia S/T -,144 ,099 -,908 -,909 -,908 1,000
Potencia C/T -,113 ,077 -,968 -,968 -,968 ,980 1,000
T.M -1,000 ,685 -,092 -,093 -,091 ,144 ,113 1,000
Anexo 5. Matriz de correlaciones de las variables transformadas de los Modelos Lineal General y Lineal
Generalizado.
Tto TM Tipo PerrorIF PerrorIX2 SCerror Devia Distribución
Indicadores
exp MLG MLGnz
Tto 1,000
TM ,266 1,000
Tipoexp ,083 ,926 1,000
PerrorIF -,415 ,375 ,470 1,000
PerrorIX2 -,436 ,353 ,458 ,986 1,000
SCerrorMLG ,516 ,129 -,176 -,413 -,403 1,000
DeviaMLGnz ,253 ,059 -,136 -,222 -,207 ,649 1,000
Distribución -,253 -,059 ,136 ,222 ,207 -,649 -1,000 1,000

Vous aimerez peut-être aussi