Metodos Estadisticos Alternativos

Instituto de Ciencia Animal
MÉTODOS ESTADÍSTICOS ALTERNATIVOS DE

ANÁLISIS CON VARIABLES DISCRETAS Y
CATEGÓRICAS EN INVESTIGACIONES
AGROPECUARIAS
Magaly Herrera Villafranca (Autor); Caridad Walkiria
Guerra Bustillo (Director)
PÁGINA LEGAL
Herrera Villafranca, Magaly (Autor)

Métodos estadísticos alternativos de análisis con variables discretas y categóricas
en investigaciones agropecuarias / Magaly Herrera Villafranca (Autor); Caridad
Walkiria Guerra Bustillo (Director). – La Habana : Editorial Universitaria, 2015. --
ISBN 959-16-2713-1.
1. Herrera Villafranca, Magaly (Autor)
2. Guerra Bustillo, Caridad Walkiria (Director)
3. Instituto de Ciencia Animal
4. Ciencias Veterinarias
Digitalización: Editorial Universitaria, torri@mes.edu.cu
(c) Todos los derechos reservados: Instituto de Ciencia Animal, 2015.
Editorial Universitaria
Calle 23 entre F y G, No. 564.
El Vedado, Ciudad de La Habana, CP 10400,
Cuba
Departamento de Biomatemática
Métodos Estadísticos alternativos de análisis con variables

discretas y categóricas en investigaciones agropecuarias
Tesis en opción al grado científico de Doctor en Ciencias Veterinarias
Autora: Lic. Magaly Herrera Villafranca
Mayabeque
2013
Departamento de Biomatemática
Métodos Estadísticos alternativos de análisis con variables

discretas y categóricas en investigaciones agropecuarias
Tesis en opción al grado científico de Doctor en Ciencias Veterinarias
Autora: Lic. Magaly Herrera Villafranca
Tutoras: Dra. C. Caridad Walkiria Guerra Bustillo

Dra. C. Verena Torres Cárdenas
Mayabeque
2013
Pensamiento
Nunca antes en la historia de la Ciencia y la Estadística ha existido una mayor
necesidad para que haya interacción y colaboración entre científicos y
estadísticos.
D.E. Johnson, 2000

Agradecimientos
Mis más sinceros agradecimientos a todas las personas que de una forma u otra me han
ayudado y apoyado para la culminación de este trabajo:
 Dra. C. Caridad Walkiria Guerra Bustillo, por su ayuda incondicional, por sus
sabios consejos, y estar siempre a mi lado, me demostró que con estudio y
constancia se puede llegar.
 Dra. C. Verena Torres Cárdenas por la confianza que depositó en mí y colaborar

en mi formación.
 Dr. C. José A. Bravo Iglesias por sus observaciones tan oportunas, y siempre
dispuesto a dar un consejo para mejorar el trabajo.
 Mi amiga Lic. Lourdes Rodríguez Shade que, aunque siempre está peleando, me
apoyó durante el trabajo de investigación.
 Mí siempre amigo Lic. Fermín Raúl Cobo Cuña que me ha soportado durante todo
este tiempo, y por su apoyo en el trabajo de tesis con sus observaciones
oportunas.
 MSc. Profesora consultante Josefina de Calzadilla, por su ayuda y sus buenas

observaciones.
 Dr. C. Alberto Caballero por su ayuda en la orientación de esta investigación,

desde el principio me aportó buenos consejos.
 Yolaine Medina Mesa, siempre con su atención esmerada y su ayuda

incondicional.
 Dr. C. Luis Mateo Fraga Benítez por su ayuda y siempre dispuesto a aclarar
cualquier duda.
 Muchachitas las técnicas Aida Carmelita Noda Amorós y Lucía Rosario García
Sarduy, las cuales me animaron y me ayudaron en el procesamiento de la
información.
 Lic. Sarai Gómez Camacho por su ayuda.
 Yaisel Rodríguez González y Lyhen Sánchez Suárez.
 Muchachitas del Departamento de Genética.

 Lic. Nidia E. Fernández Ontivero por su colaboración y ayuda incondicional.
 Los compañeros del Departamento de Matemática de La Universidad Agraria de

La Habana los que me apoyaron en el trabajo y me dieron muchos consejos.
 Dr. C. Yasser Vásquez Alfonso, por su apoyo durante el trabajo de investigación y

su ayuda en la búsqueda de información referente al tema.
 A mis compañeros del departamento de Monogástricos, especialmente a Lazarita.
 Especial agradecimiento a Edis Dalia Arbelo Forte por su apoyo incondicional.
 A Erludys Columbie Hernández, por su inestimable apoyo en el servicio de

mensajería.
 Mis amigas y amigo de la biblioteca del ICA, Yeter Caraballo Rodríguez por su
ayuda incondicional en el procesamiento de la información, a Dianelis Mesa
Travieso por su apoyo, Daniela Rodríguez Carballoza, Ibrain A. Díaz Machado,
Yoandra Figueroa Puentes y Dayami Roque Chao por su ayuda en la búsqueda y
ubicación de la información bibliotecaria.
A todos muchas gracias

Dedicatoria
A mi madre querida
A mi padre
A mis hermanos
A mis abuelos (E.P.D)
A mis amigos
A la Revolución
SÍNTESIS
Con el objetivo de evaluar la efectividad de Métodos Estadísticos alternativos de
análisis con variables discretas y categóricas, se aplicó una encuesta estadística
bibliométrica sobre el empleo de Métodos Estadísticos no paramétricos y una
encuesta a investigadores para verificar el conocimiento sobre Métodos
Estadísticos alternativos para evitar el uso inadecuado de la transformación de
datos, en investigaciones agropecuarias y afines. Se analizan 100 variables
correspondientes a los Modelos de Análisis de Varianza simple y doble, de efectos
fijos. Las transformaciones de datos aplicadas fueron: X; X  0,375 ; arcoseno
( p ) y Log X. Se verificó el cumplimiento de los supuestos teóricos del Análisis de
Varianza, con y sin transformación de datos. Los resultados evidenciaron que el
empleo de la trasformación de datos solo fue efectiva en el 13% de los casos
analizados. Los Modelos de Análisis de Varianza (ANAVA) paramétrico y no
paramétricos presentaron resultados similares. Se aplicó el Análisis de
Componentes Principales Categórico (CATPCA) para realizar un análisis integral
de indicadores estadísticos, sobresalen por sus altas correlaciones negativas, la
potencia y la probabilidad de error tipo I en el ANAVA paramétrico (con y sin
transformación) y el no paramétrico. En un análisis comparativo del Modelo Lineal
General (MLG) y el Modelo Lineal Generalizado (MLGnz) se obtuvo que las
probabilidades de error tipo I en ambos modelos son similares, por lo que se
sugiere el MLGnz como una alternativa de análisis, pues la variable respuesta no
requiere del cumplimiento de los supuestos del ANAVA paramétrico. Finalmente
se elaboró una propuesta de acciones metodológicas relacionadas con la
aplicación del Modelo de Análisis de Varianza.

ÍNDICE
ÍNDICE
Pág.
INTRODUCCIÓN 1
CAPÍTULO I. REVISIÓN BIBLIOGRÁFICA 8
1.1 Métodos Estadísticos paramétricos y no paramétricos 8
1.2 Consecuencias del incumplimiento de los supuestos teóricos

básicos del Modelo Análisis de Varianza paramétrico 10
1.3 Potencia de una dócima, tamaño de muestra, probabilidades

de errores (tipo I y II) y tamaño de efectos 12
1.4 Transformación de datos. Origen e incidencia en las

investigaciones agropecuarias 18
1.5 Modelo Lineal Generalizado 21
1.5.1 Origen y desarrollo 21
1.6 Otros Métodos Estadísticos para el análisis con variables

discretas y categóricas 26
CAPÍTULO II. LA ENCUESTA ESTADÍSTICA EN LA

CAPTACIÓN DE INFORMACIÓN Y SU USO 32
2.1 Introducción 32
2.2 Materiales y métodos 32
2.2.1 Encuesta estadística bibliométrica 32
2.2.2 Encuesta estadística a los investigadores 33
2.2.3 Organización, procesamiento y análisis estadístico de la

información 34
2.3 Resultados y discusión 36
2.3.1 Encuesta estadística bibliométrica 36
2.3.2 Encuesta estadística a los investigadores 44
2.3.3 Diagnóstico a partir de la encuesta estadística a los

investigadores: Matriz DAFO 47
2.3.4 Consideraciones parciales 49
CAPÍTULO III. MODELOS DE ANÁLISIS DE VARIANZA

PARAMÉTRICO Y NO PARAMÉTRICO. USO DE
TRANSFORMACIÓN DE DATOS 50
3.2.1 Características principales de las investigaciones 51
3.2.1.1 Experimentos con Diseño Completamente Aleatorizado 51
3.2.1.2 Experimentos con Diseño de Bloques al Azar 59
3.2.2 Procesamiento y análisis estadístico de la información 63
3.3.1 Modelos de Análisis de Varianza simple y doble 66
3.3.1.1 Cumplimiento de supuestos y transformación de datos 66
3.3.1.2 Probabilidad de error tipo I y potencia de la dócima F 69
3.3.3 Análisis de Componentes Principales Categórico. Aplicación

a indicadores de los Modelos de Análisis de Varianza 73
3.3.4 Consideraciones parciales. 83
CAPÍTULO IV. El MODELO LINEAL GENERALIZADO.

APLICACIÓN A DIFERENTES DISTRIBUCIONES. 84
4.2.1 Características principales de las investigaciones 84
4.2.2 Modelo Lineal Generalizado 85
4.2.2.1 Procesamiento y análisis estadístico de la información 86

4.3.1 Modelo Lineal General y Modelo Lineal Generalizado.

Probabilidad de error tipo I 87
4.3.2 Análisis de Componentes Principales Categórico, para el

análisis de indicadores estadísticos del Modelo Lineal
General y del Modelo Lineal Generalizado 88
4.3.3 Análisis comparativo del Modelo Lineal General y el Modelo

Lineal Generalizado y acciones metodológicas relacionadas
con estos modelos 91
4.3.5 Propuesta de acciones metodológicas para investigaciones

relacionadas con la aplicación del Modelo de Análisis de
Varianza 96
CONCLUSIONES 99
RECOMENDACIONES 100
REFERENCIAS BIBLIOGRÁFICAS
ANEXOS
ÍNDICE DE ABREVIATURAS
ANAVA: Análisis de Varianza.
ARE: Eficiencia Asintótica Relativa.
CATPCA: Análisis de Componentes Principales Categórico.
CATREG: Regresión Categórica.
Cumpl S/T: Cumplimiento de los supuestos sin transformación.
Cumpl C/T: Cumplimiento de los supuestos con transformación.
C/T: Con transformación.
DCA: Diseño Completamente Aleatorizado.
DBA: Diseño de Bloques al Azar.
DDGS: Granos de destilería soluble.
Devia MLGnz: Devianza del Modelo Lineal Generalizado.
Distcod: Distribución con código.
Matriz DAFO: Matriz de Fortalezas, Debilidades, Oportunidades y Amenazas.
MLG: Modelo Lineal General.
MLGnz: Modelo Lineal Generalizado.
No. tto: Número de tratamiento.
PerrorIF: Probabilidad de error tipo I de la dócima F de Fisher.
PerrorI  2 : Probabilidad de error tipo I de la dócima  2 .
Potencia C/T: Potencia con transformación.

Potencia S/T: Potencia sin transformación.
S/T: Sin transformación.
SCerror MLG: Suma de cuadrado del error del Modelo Lineal General.
TM: Tamaño de muestra.
TMutil: Tamaño de muestra utilizado.
Tto: Tratamiento.
Valorp NP: Valor de la probabilidad de error tipo I no paramétrico.
Valorp S/T: Valor de la probabilidad de error tipo I sin transformación.
Valorp C/T: Valor de probabilidad de error tipo I con transformación.

ÍNDICE DE TABLAS
Tabla 1.1. Escalas de medidas e indicadores numéricos en los procedimientos

estadísticos paramétricos y no paramétricos.
Tabla 1.2. Relación entre el tamaño de muestra y cumplimiento de los supuestos

teóricos en procedimientos paramétricos y no paramétricos.
Tabla 1.3. Modelos más empleados según la metodología del Modelo Lineal
Generalizado.
Tabla 1.4. Comparación entre el Modelo Lineal General y el Modelo Lineal

Generalizado.
Tabla 1.5. Funciones de enlace más empleadas en el Modelo Lineal

Generalizado.
Tabla 1.6. Métodos Estadísticos relacionados con variables cualitativas.
Tabla 2.1. Encuestados por departamento.
Tabla 2.2. Interpretación de los valores del Stress (S).
Tabla 2.3. Bondad de ajuste de la configuración de los datos para los Métodos
Estadísticos no paramétricos.
Tabla 2.4. Bondad de ajuste de las temáticas por revistas donde se aplica los
Métodos Estadísticos no paramétricos.
Tabla 2.5. Transformaciones de datos más empleadas, según la encuesta

aplicada a los investigadores.
Tabla 2.6. Aspectos más frecuentes en las respuestas los investigadores.
Tabla 2.7. Bondad de ajuste de los resultados a los investigadores.
Tabla 2.8. Resultados de los pesos de las variables por cada dimensión.
Tabla 2.9. Resultados de la Matriz DAFO.
Tabla 3.1. Resumen del cumplimiento de los supuestos teóricos del ANAVA.
Tabla 3.2. Frecuencia de coincidencias en la toma de decisión.
Tabla 3.3. Resultados de la dócima de McNemar para los valores de probabilidad

de error tipo I.
Tabla 3.4. Resultados de la dócima de McNemar para las potencias de la dócima

F de Fisher.
Tabla 3.5. Resultados del coeficiente Alfa de Cronbach para los indicadores de los
Diseños Completamente Aleatorizado y Bloques al Azar.
Tabla 3.6. Resultados de los pesos de los indicadores por cada dimensión para
los Diseños Completamente Aleatorizado y Bloques al Azar.
Tabla 3.7. Resultados del coeficiente Alfa de Cronbach para los experimentos con
arreglos factorial de los tratamientos.
Tabla 3.8. Resultados de los pesos de los indicadores por cada dimensión para
los experimentos con arreglo factorial de los tratamientos.
Tabla 3.9. Estimaciones de los coeficientes de regresión en el CATREG para

potencias sin transformación.
Tabla 3.10. Importancia de los indicadores en CATREG para potencias sin

transformación.

potencias con transformación.
Tabla 3.12. Importancia de los indicadores en CATREG para potencias con

transformación.
Tabla 4.1. Distribuciones y funciones de enlace.

Tabla 4.2. Frecuencia de los rangos de probabilidad de error tipo I de las dócimas
F de Fisher y  2 .
Tabla 4.3. Resultados del coeficiente Alfa de Cronbach para el Modelo Lineal
General y Modelo Lineal Generalizado.
Tabla 4.4. Resultados de los pesos de los indicadores por cada dimensión para el
Modelo Lineal General y el Modelo Lineal Generalizado.
Tabla 4.5. Resultados de los criterios de bondad de ajuste al aplicar el Modelo

Lineal Generalizado.
Tabla 4.6. Resultados de los valores de probabilidad de error tipo I para el Modelo
Lineal General y el Modelo Lineal Generalizado.
ÍNDICE DE FIGURAS
Figura 2.1. Revistas relacionadas con la aplicación de los Métodos Estadísticos

no paramétricos.
Figura 2.2. Métodos Estadísticos no paramétricos más usados en estudios

agropecuarios y biológicos.
Figura 2.3. Revistas por temáticas con aplicación de los Métodos Estadísticos no
paramétricos.
.
Figura 2.4. Temáticas por revistas que emplean Métodos Estadísticos no
paramétricos para el análisis de sus investigaciones.
Figura 2.5. Necesidad de aplicar la transformación de datos.
Figura 3.1. Biplot de los indicadores analizados.
Figura 3.2. Biplot de los indicadores para los experimentos con arreglo factorial de
los tratamientos.
Figura 4.1. Biplot de los indicadores estadísticos de los Modelos Lineal General y
Figura 4.2. Propuesta de acciones metodológicas para investigaciones con la

ÍNDICE DE ANEXOS
Anexo 1. Verificación de los supuestos teóricos básicos y consecuencias de su

incumplimiento en el Análisis de Varianza.
Anexo 2. Encuesta aplicada a los investigadores.
Anexo 3. Matriz de correlaciones de las variables transformadas por dimensión

para los Diseños Completamente Aleatorizado y Bloques al Azar.
Anexo 4. Matriz de correlaciones de las variables transformadas para los diseños

con arreglos factorial de los tratamientos.
Anexo 5. Matriz de correlaciones de las variables transformadas de los Modelos

Lineal General y Lineal Generalizado.
INTRODUCCIÓN
INTRODUCCIÓN
La Estadística es una de las ramas de la Matemática de mayor universalidad, ya
que en su devenir histórico muchos de sus métodos se han desarrollado para
resolver situaciones específicas en diferentes esferas del conocimiento y la
ciencia.
Méndez (1993) señala que la Estadística se ha convertido en una forma de pensar
y una herramienta muy poderosa en muchas áreas de la actividad humana, como
son: la investigación científica, los procesos productivos y de servicios, en las
acciones y decisiones de gobiernos de países, estados e instituciones, entre otras.
Los Métodos Estadísticos como elementos de apoyo en la investigación agrícola
son fundamentales, puesto que cuantifican y cualifican objetivamente los
resultados de la investigación, estos métodos y procedimientos varían según la
naturaleza y estructura del resultado experimental. Así, si las Ciencias Biológicas
proponen o innovan procedimientos y técnicas que describan la variabilidad de
poblaciones agronómicas, entonces es necesario proveer de herramientas
estadísticas a las nuevas propuestas experimentales (Martínez, 1995).
Di Rienzo et al. (2005) señalan que la enseñanza de la Estadística en las Ciencias
Agropecuarias no es un tributo a la modernidad, sino una larga tradición que se
origina en los trabajos de Fisher que, a comienzos del siglo XX, sentaron las
bases de la Estadística aplicada a la experimentación agrícola.
1
El Análisis de Varianza paramétrico es el Método Estadístico más difundido en el
análisis de datos, desarrollado por Fisher en la década de los años 20 del pasado
siglo, siendo necesario para su empleo el cumplimiento de los supuestos teóricos
básicos, en los que se enmarcan: que los errores experimentales deben ser
normalmente distribuidos; con homogeneidad de varianza e independientes, así
como la aditividad del modelo. Sin embargo cuando algunos de estos supuestos
teóricos fallan, suelen emplearse otros métodos de análisis, como el uso de
transformación de datos y Métodos Estadísticos no paramétricos, entre otros.
Los Métodos Estadísticos no paramétricos presentaron un acelerado desarrollo en
la década de los años 50, en estudios relacionados con las Ciencias Sociales, de
la Conducta, Médicas y Biológicas. Sin embargo en la literatura consultada se
aprecia que estos métodos han sido poco aplicados en las investigaciones
desarrolladas en el campo de las Ciencias Agropecuarias, siendo estos una
alternativa ante el incumplimiento de los supuestos teóricos básicos de algunos
Métodos Estadísticos paramétricos, como es el caso del Análisis de Varianza.
De Calzadilla (1999) y De Calzadilla et al. (2002) al aplicar procedimientos de la
Estadística no paramétrica en investigaciones agropecuarias, en las condiciones
de Cuba, hacen referencia a la poca aplicación de estos métodos en esta área de
la ciencia y detectaron poca efectividad en el uso de la transformación de datos.
Por otra parte, Cristo (2001), al investigar el comportamiento de dócimas no
paramétricas respecto a sus homólogas paramétricas en distribuciones no
2
normales y su eficiencia, recomendó que con muestras pequeñas e
incumplimiento de los supuestos del Análisis de Varianza, lo más conveniente es
el empleo de Métodos Estadísticos no paramétricos.
Con posterioridad, Vásquez (2011) realizó una contribución al tratamiento
estadístico de datos con distribución Binomial en el Modelo de Análisis de
Varianza, en un diseño de Bloques al Azar y Cabrera (2012) evaluó sin éxito el
comportamiento de diferentes transformaciones de datos en una investigación
relacionada con plagas agrícolas, por lo que fue más conveniente la aplicación del
Análisis de Varianza no paramétrica.
Ojeda (2004) señala que la Modelación Estadística se puede considerar como un
área de estudio y especialización, en la que convergen los aspectos teóricos,
metodológicos y computacionales de los Modelos Estadísticos. Este autor indica
que, sin temor a equívoco, es posible asegurar que el detonante de la Modelación
Estadística en datos discretos, lo constituye el trabajo de Nelder y Wedderburn
(1972), que presenta, a partir de los Modelos Lineales Generalizados, un marco
teórico general para el estudio de los Modelos Estadísticos.
El Modelo Lineal Generalizado ha sido muy utilizado en diversas áreas de la
investigación, con el objetivo de dar respuesta al incumplimiento de los supuestos
teóricos del Análisis de Varianza, y al igual que los Métodos Estadísticos no
paramétricos, han sido una alternativa de análisis, principalmente cuando las
variables son de tipo discretas y categóricas, lo cual corroboran Ojeda (2004) y
3
Fox (2007). En las Ciencias Agropecuarias en Cuba se han encontrado pocas
aplicaciones de estos modelos y se considera que pueden ser una alternativa
viable para el análisis.
Las investigaciones realizadas resultan antecedentes necesarios de gran valor
científico, para identificar determinadas situaciones en cuanto al uso de la
transformación de datos y de los Métodos Estadísticos no paramétricos, pero se
considera que con el estado actual de la ciencia, se hace necesario profundizar en
nuevas acciones, que generen un núcleo de orientaciones científicas y
metodológicas, que guíen la aplicación de estos procedimientos en la actividad
científico-investigativa, para evitar el:
 Uso inadecuado de la transformación de datos.
 Empleo de la trasformación de datos sin que se resuelva el cumplimiento de
los supuestos teóricos básicos del Análisis de Varianza.
 No empleo de Métodos Estadísticos alternativos, ante el incumplimiento de
los supuestos teóricos básicos del Análisis de Varianza.
Por lo que se identifica como Problema de investigación: ¿Cómo evitar el uso
inadecuado de la transformación de datos en variables discretas y categóricas en
el Modelo de Análisis de Varianza de efectos fijos, en investigaciones
agropecuarias?
4
Objeto de estudio: La transformación de datos considerando variables discretas y
categóricas en el Modelo de Análisis de Varianza de efectos fijos, en
investigaciones agropecuarias.
Hipótesis
Si se emplean Métodos Estadísticos alternativos de análisis con variables
discretas y categóricas, se evitaría un uso inadecuado de la transformación de
datos en los Modelos de Análisis de Varianza de efectos fijos.
Objetivo general
Evaluar la efectividad de Métodos Estadísticos alternativos para evitar el uso
inadecuado de la transformación de datos con variables discretas y categóricas en
los Modelos de Análisis de Varianza de efectos fijos, en investigaciones
agropecuarias.
Objetivos específicos
1. Diagnosticar el estado actual del uso de la transformación de datos y de
Métodos Estadísticos no paramétricos en investigaciones agropecuarias en
Cuba.
2. Evaluar el comportamiento de la transformación de datos en el
cumplimiento de los supuestos teóricos básicos con variables discretas y
5
categóricas en los Modelos de Análisis de Varianza simple y doble de
efectos fijos.
3. Establecer criterios de valor teórico-práctico, a partir de un análisis integral
de indicadores estadísticos de los Modelos de Análisis de Varianza
paramétricos y no paramétricos y del Modelo Lineal Generalizado.
4. Proponer acciones metodológicas para investigaciones relacionadas con la
Novedad científica
La novedad científica radica en que por primera vez en las condiciones de la
Ciencia Agropecuaria en Cuba, se establecen Métodos Estadísticos alternativos
para evitar el uso inadecuado de la transformación de datos, con variables
discretas y categóricas, en los Modelos de Análisis de Varianza de efectos fijos.
Aporte social
La capacitación a técnicos y usuarios de los Métodos Estadísticos, mediante
cursos, talleres, conferencias y seminarios, entre otras modalidades, sobre el uso
adecuado de la transformación de datos, los Modelos de Análisis de Varianza
paramétricos y no paramétricos, y el Modelo Lineal Generalizado, con variables
discretas y categóricas en la investigación científica.
6
Aporte práctico
Se proponen acciones metodológicas para el tratamiento y el análisis de la
información experimental con variables discretas y categóricas, en los aspectos
relacionados con el uso de la transformación de datos y alternativas de análisis
basadas en los Modelos de Análisis de Varianza paramétricos y no paramétricos,
y el Modelo Lineal Generalizado.
7
CAPÍTULO I
REVISIÓN BIBLIOGRÁFICA
CAPÍTULO I. REVISIÓN BIBLIOGRÁFICA
1.1. Métodos Estadísticos paramétricos y no paramétricos
En la docimasia de hipótesis, los Métodos Estadísticos paramétricos son los que
se utilizan con más frecuencia, siendo necesario para su empleo el cumplimiento
de diversos supuestos sobre la población que se estudia.
La técnica conocida como Análisis de Varianza (ANAVA), fue desarrollada por R.
A. Fisher para facilitar el análisis e interpretación de los datos desde ensayos de
campo y experimentos de laboratorio, en la agricultura e investigaciones biológicas
(Eisenhart, 1947).
El ANAVA, es una de las técnicas más utilizadas en el proceso de investigación
Norell (2003). Es descrito por Tejedor (1999); Khan y Rayner (2003) y Spiegel et
al. (2003) como una colección de modelos estadísticos y sus procedimientos
asociados, apropiada para evaluar la igualdad entre poblaciones o tratamientos,
en el cual la varianza está fraccionada en ciertos componentes, debido a
diferentes factores o variables explicativas, incluidas en el modelo.
Los Métodos Estadísticos no paramétricos no requieren de supuestos severos
sobre la población que se estudia. Según Servy et al. (2007) una prueba
Estadística no paramétrica está basada en un modelo que especifica sólo
condiciones muy generales y ninguna acerca de la forma específica de la
distribución de la población de la que fue tomada la muestra.
8
Los Métodos Estadísticos no paramétricos resultan una alternativa importante, ya
que no dependen de la distribución de los datos, pueden usarse en caso de
muestras pequeñas y, en general, resultan más rápidos y sencillos de aplicar
(Siegel y Castellan 1995, Gómez et al. 2003 y Santos et al. 2005). En este sentido
se considera que una alternativa está dada en el ANAVA paramétrico, cuando se
incumplen los supuestos con serias implicaciones en el análisis.
A partir de lo señalado anteriormente se establecen las diferencias entre los
estadígrafos correspondientes en el empleo de los procedimientos paramétricos y
no paramétricos, autores como Siegel y Castellan (1995), De Calzadilla (1999) y
Guerra et al. (2000) se han referido al respecto, por lo que se resumen en la Tabla
1.1.
Tabla 1.1. Escalas de medidas e indicadores numéricos en procedimientos

estadísticos paramétricos y no paramétricos.
Procedimientos
Paramétricos No Paramétricos
Aspectos a analizar
Escala de Medida Métricas Métricas y no métricas
Media aritmética Mediana
Media geométrica Cuartiles
Localización o Posición Media armónica Percentiles
Mediana
Moda
Varianza Rango medio
Dispersión Desviación típica o estándar Rango
Coeficiente de variación Rango intercuartílico
Rango interpercentílico
Correlación de Pearson Correlación de Rango de
Asociación Covarianza Spearman
Correlación de Kendall
Coeficiente de contingencia
9
1.2. Consecuencias del incumplimiento de los supuestos teóricos básicos
del Modelo Análisis de Varianza paramétrico
La distribución Normal de los errores, señalan Steel y Torrie (1992) y Peña (1994),
tiene poca influencia en el ANAVA para comparar medias, dado que esta técnica
es robusta frente a desviaciones de los errores; sin embargo, plantean que la falta
de normalidad puede afectar otros supuestos como, la homogeneidad de varianza,
sobre todo, cuando el número de observaciones de los grupos son muy diferentes,
sin embargo cuando se analizan componentes de varianza, la normalidad si puede
afectar el resultado del análisis.
El incumplimiento de algunos de los supuestos del ANAVA pude afectar tanto los
niveles de significación como la sensibilidad de la prueba F de Fisher o t de
Student, lo que conlleva a la pérdida de exactitud en los estimadores obtenidos
para los efectos de tratamientos (Cochran y Cox, 1999 y Vilar, 2011).
Las decisiones estadísticas, son probabilísticas y por tanto, lo más importante no
es tomar una decisión, sino conocer la probabilidad de equivocarse al tomar esta
(Miranda 1997). Los modelos de análisis estadístico, como el ANAVA son
sensibles a las propiedades estadísticas de los términos de error aleatorio del
modelo lineal (Avanza et al. ,2006 y Balzarini et al., 2008).
El incumplimiento de alguno de estos supuestos lleva a conclusiones erróneas
como rechazar la hipótesis nula siendo verdadera o viceversa, lo que trae consigo
10
resultados falsos en los experimentos que al materializarse en los sistemas de
producción introducen pérdidas económicas y error en el proceso de toma de
decisiones (Pérez et al., 2002).
Martín y Luna (1994), señalan que la heterogeneidad de varianzas viene
acompañada de variables no normales, por lo que ante esta situación
recomiendan aplicar transformaciones y además expresan que en tales
circunstancias la misma transformación que estabiliza las varianzas suele
normalizar la respuesta.
Sin embargo, Peña (1994) ha sugerido que antes de transformar los datos se debe
estudiar gráficamente la distribución de los residuos y si la misma resulta muy
asimétrica, entonces conviene realizar la transformación, lo cual resulta una
opción antes de proceder a la misma.
En el Anexo 1 se establecen los supuestos teóricos del ANAVA, las dócimas de
uso más frecuente para normalidad, homogeneidad e independencia, así como
sus estadísticos, características y consecuencias de su incumplimiento en el
análisis estadístico.
En sentido general el incumplimiento de algunos de estos supuestos pueden
incidir en los resultados investigativos y por ende pueden conllevar a conclusiones
erróneas como rechazar la hipótesis nula siendo verdadera o viceversa. Cuando
11
estos supuestos teóricos del ANAVA son satisfechos las inferencias del modelo
estadístico son mejores.
1.3. Potencia de una dócima, tamaño de muestra, probabilidades de errores
(tipo I y II) y tamaño de efectos
Bono y Arnau (1995), realizan un recuento histórico del desarrollo del concepto de
potencia de una dócima, señalando que este se le atribuye a Neyman y Pearson
en el período de 1928 al 1933, apareciendo otros autores que tenían en cuenta la
potencia estadística, como Cox en 1948, McNemar en 1960 y Tukey en 1960,
entre otros.
Estos autores señalan que hay dos formas de estimar la potencia, a priori y a
posteriori, la primera alerta al investigador sobre el tamaño de muestra necesario
para una potencia adecuada y con este fin se construyen las tablas de potencia.
La potencia a posteriori, es importante en la interpretación de los resultados de
estudios ya acabados, que es el caso analizado en este trabajo de investigación.
Numerosos autores, entre ellos Kreyszig (1974) y Ostle (1974) concuerdan en
señalar que un experimento dado cuando se prueba una hipótesis específica, el
valor 1-β es conocido como la potencia de la prueba, esta expresión se expresa en
función del parámetro verdadero, siendo conocida como función de potencia y es
expresada como 1-β (θ), donde θ representa el valor verdadero del parámetro.
12
Mood y Graybill (1972) y Rodríguez (2008) denotan a la función de potencia como:
η (θ)= 1- β(θ) = 1- P(II)= P(rechazar H0| H0 es falsa), y se tiene que:
α = P(I), si θ = θ0 Є H0 (hipótesis nula)

η (θ)=
1- β(θ), si θ = θ1 Є H1 (hipótesis alternativa)
En esencia la función de potencia toma el valor α, cuando se cumple la hipótesis
nula, por lo que resulta muy conveniente que η (θ) tome valores bajos cuando se
cumple H0 (α) y tome altos valores cuando se cumple H1 (1- β(θ) ).
Scheffé (1959) hace referencia a la potencia de la dócima F en Modelos de
Análisis de Varianza con efectos fijos, observaciones independientes y
homogeneidad de varianzas, como la probabilidad β de rechazar la hipótesis
probada, siendo expresada por:
β = Pr{F´ (ν1, ν2, δ) > Fα(ν1, ν2)}, donde:
F´ (ν1, ν2, δ) es llamada distribución F no central, con ν1 y ν2 grados de libertad con
parámetro de no centralidad δ.
Fα (ν1, ν2) es un percentil de la distribución F, con ν1, ν2 grados de libertad del
numerador y denominador respectivamente.
13
Este autor se refiere a las tablas de potencia calculadas por Tang en 1938, solo
para los valores de α = 0,01 y 0,05 y reproduce los gráficos de potencia para la
dócima F, construidos por Pearson y Hartley en 1951.
Bono y Arnau (1995), señalan que las estimaciones de la potencia estadística
quedan determinadas por tres componentes:
 Tamaño muestral, es decir cuanto más grande sea la muestra, mayor será la
potencia.
 Nivel de significación, dado que al incrementarse la probabilidad de error tipo I,
la potencia también aumenta.
 Tamaño del efecto (TE) o grado en que el fenómeno de interés está presente,
de modo que cuando los efectos son grandes, la potencia se incrementa.
Sabín (1999) realizó un estudio sobre la determinación de la potencia a posteriori,
utilizando experimentos conducidos en el Instituto de Ciencia Animal con diseños
clásicos, a partir de la expresión de potencia dada por Scheffé (1959), utilizó la
aproximación dada por Patnaik en 1949, mediante la cual se aproxima la F no
central a una F central.
Camacho (2007) en relación con la potencia estadística, coincide con los tres
aspectos anteriores, incluyendo uno muy importante que es la variabilidad de la
respuesta estudiada.
Siegel y Castellan (1995) en el área de la Estadística no paramétrica, introducen el
concepto de Potencia – Eficiencia, referido al incremento en el tamaño de la
14
muestra necesario para hacer la prueba B tan poderosa como la A, al ser la
prueba A de las conocidas, la más poderosa de su tipo (cuando se usa con datos
que satisfacen sus condiciones), al ser la prueba B, que se presta al mismo diseño
de investigación, tan poderosa con Nb casos como la prueba A con Na casos, con
lo que se tiene:
Potencia - Eficiencia de la prueba B = Na/Nb (100).
Fraser (1957) y Gibbons (1971) proponen que para obtener una medida asintótica
útil para la Eficiencia relativa de una prueba no paramétrica con respecto a su
homóloga paramétrica, la Eficiencia Asintótica Relativa, usualmente conocida como
ARE (en inglés, Asymptotic Relative Efficiency), conocido también como Eficiencia
de Pitman.
20
Daniel (1978) plantea que el ARE de la dócima de Kruskal-Wallis es de 0,955,
comparada con la prueba paramétrica más poderosa, F de Fisher. Este mismo
autor refiere que en el caso de la dócima Friedman esta posee un ARE de 0,955
(k/k+1), cuando las poblaciones son normales; en poblaciones con distribución
uniforme el ARE se expresa como k/k+1 y en poblaciones que poseen distribución
exponencial doble este se identifica como 3/2 (k/k+1)
Johnson (1990) indica que la elección de un contraste o prueba de hipótesis no
puede apoyarse únicamente en su poder (potencia) y eficiencia. Algunas veces la
utilización de ciertas pruebas de hipótesis se ve forzada por los datos que se
15
analizan, cuando debe llegarse a una decisión al respecto, hay que considerar tres
factores:
 El poder del contraste.

 La eficiencia del contraste.
 El tipo de datos y la cantidad de observaciones disponibles.
Este mismo autor señala que los métodos no paramétricos desperdician
información, pues sacrifican el valor de la variable sustituyéndolas por un signo o
un rango, siendo por lo general menos eficientes que sus contrapartes
paramétricas.
Es real lo que plantea este autor, dado por el criterio de Potencia-Eficiencia
propuesto por Siegel (1970), Daniel (1978) y Siegel y Castellan (1995), sin
embargo, se sugieren los Métodos Estadísticos no paramétricos como alternativa
de análisis, cuando existan serias implicaciones por el incumplimiento de los
supuestos teóricos de los Métodos Estadísticos paramétricos o por otros criterios
técnicos aportados por los especialistas.
Álvarez (2008) expresa que en muestras menores de 11 casos, la potencia
estadística de las pruebas paramétricas y no paramétricas es equivalente,
teniendo en cuenta que las exigencias para las pruebas no paramétricas son
menores y que detectar violaciones de las condiciones de aplicabilidad en las
pruebas paramétricas es más difícil.
16
Generalmente, en la práctica no se tiene en cuenta la relación inversa que existe
entre estas dos probabilidades (α y β) y se hace referencia exclusivamente a los
niveles de significación obtenidos en el ANAVA, sin tomar en consideración que
para los valores bajos de α se puede obtener valores altos de β que pueden poner
en riesgo la toma de decisiones (Torres y Segui, 2001).
López y Romero (1986) realizan un análisis detallado donde exponen la relación
que existe entre el tamaño de muestra y el cumplimiento de los supuestos
teóricos, con el método estadístico a utilizar. En la tabla 1.2 se muestra un
resumen a partir de este enfoque.
Tabla 1.2. Relación entre el tamaño de muestra y cumplimiento de los supuestos

teóricos de los procedimientos paramétricos y no paramétricos.
Tamaño de Cumplimiento de los supuestos
muestra
Se cumplen Se duda No se cumplen
Pequeña Paramétrica No paramétrica No paramétrica
Análisis más
profundo para
Grande Paramétrica valorar cual es la No paramétrica
mejor opción
Cristo (2001), en una investigación relacionada con el comportamiento de las
dócimas no paramétricas respecto a las paramétricas en distribuciones no
normales, así como la eficiencia de estos métodos con sus homólogos
paramétricos, obtuvo que al emplear muestras pequeñas con el incumplimiento de
los supuestos del Análisis de Varianza, lo más conveniente es el empleo de los
17
Menchaca (1974, 1975); Venereo (1976); Caballero (1979) y Menchaca y Torres
(1985), aportaron tablas de tamaños de muestra y número de réplicas en Diseños
Completamente Aleatorizados, Bloques al Azar, Cuadrado Latino y Diseños de
Cambio, teniendo en consideración: la máxima diferencia estandarizada entre dos
medias (∆), la cantidad de tratamientos (t), el nivel de significación (α) y la potencia
de la dócima (1-β), las cuales representan valiosas herramientas de trabajo para
investigadores de diferentes ramas y se considera que no han sido aprovechadas
con amplitud.
En la actualidad, con el avance de la informática, existen paquetes estadísticos
que incluyen el cálculo de la potencia, como el InfoStat, G Power y el SPSS, entre
otros.
1.4. Transformación de datos. Origen e incidencia en las investigaciones
agropecuarias
Bartlett (1947) plantea que el propósito de las transformaciones de datos es
buscar una nueva escala de medida con el objetivo de hacer el análisis más
válido.
Box y Cox (1964) propusieron una técnica de transformación de potencia a las
observaciones con el fin de reducir anomalías, tales como: la no-aditividad, la no
normalidad y la heterocedasticidad.
18
Y ( )
0

Yλ = (para Y > 0)
log Y 0
Menchaca (1973) señala que Box y Cox en 1964, consideran una familia
paramétrica de transformaciones de Y en Y(λ), donde se define λ como una
transformación particular, ellos asumen que para algún λ desconocido, las
observaciones transformadas Yi(λ) (i= 1, 2, …, n) satisfacen las hipótesis de base,
por otra parte Sakia (1992) plantea que esta transformación es conocida
precisamente como Box-Cox y ha mostrado una amplia flexibilidad y aplicabilidad
desde sus primeras apariciones.
Las transformaciones de datos se utilizan con frecuencia en el Análisis de
Varianza, siendo una alternativa, siempre que sean bien empleadas, pues se ha
detectado en varios estudios un uso indiscriminado de estas sin tener en cuenta el
cumplimiento de los supuestos teóricos, antes y después de aplicadas, ya que
estos no son verificados.
Peña y Peña (1986) manifiestan, que las transformaciones Box-Cox constituyen
una alternativa razonable para lograr la normalidad, más potente que la mayoría
de los procedimientos existentes usados en distribuciones asimétricas.
Según Méndez (2000) cuando los datos son normales, pero las varianzas son
heterogéneas, se utiliza diferentes transformaciones de datos (logarítmica, raíz
19
cuadrada o inversa), estas se vuelven a comprobar y si las varianzas son
homogéneas es correcto utilizar un ANAVA.
Cabrera et al. (2012) plantean que muchos datos provenientes de poblaciones de
plagas por ser datos discretos por lo regular no cumplen los supuestos teóricos y
cuando se emplean las transformaciones de datos no se ajustan a una distribución
Normal.
Entre las transformaciones de datos más empleadas en la rama agropecuaria se
encuentran: la raíz cuadrada, logarítmica y arcoseno ( p ), que están dadas de
acuerdo a la naturaleza de la variable en estudio.
Se considera que en las investigaciones agropecuarias u otras, el uso de la
transformación de datos ponen en evidencia:
 El inconveniente de que los datos pasan a una escala de medida que no es
la original, por lo tanto se debe tener la debida precaución en el análisis de
los resultados.
 Que estudios previos científicamente fundamentados han mostrado la poca

efectividad de su empleo.
Es por ello, que se debe propiciar el uso de Métodos Estadísticos alternativos más
flexibles ante el incumplimiento de los supuestos del Análisis de Varianza, como
es el caso de la Estadística no paramétrica u otros que tengan implícito diferentes
distribuciones de los datos originales.

20
1.5 Modelo Lineal Generalizado
1.5.1. Origen y desarrollo
Nelder y Wedderbum (1972) proponen una teoría unificadora de Modelación
Estadística que le dieron el nombre de Modelo Lineal Generalizado (MLGnz),
como una extensión de los Modelos Lineales Generales clásicos (MLG). Estos
autores mostraron una serie de técnicas comúnmente estudiadas de forma
separada que pueden ser reunidas bajo ese nombre MLGnz.
Los autores antes mencionados presentaron el concepto de MLGnz, y
posteriormente McCullag y Nelder (1989) presentan una amplia información sobre
estos modelos. La esencia radica en que el valor esperado de la variable
respuesta es denotada por μ = E(Y | X ) que se relaciona con la parte sistemática
del modelo como:
E( Y | X )  g( X)    g( )
Donde:
Y: es una función monótona
η: predictor lineal
η = Xβ: función que relaciona μ
g: función de enlace
Por otra parte Mongotmery et al. (2005) y Faraway (2006) plantean que un MLGnz
está definido por dos componentes específicos. La respuesta debe ser un

21
miembro de la distribución de la familia exponencial y la función de enlace
describe de que forma se relacionan la media de la respuesta y una combinación
lineal de los predictores.
En el MLGnz la distribución de Y de la familia exponencial es de la forma:
 y  b 
F (yІθ,  ) = exp  + c y, 
 a 
Donde:
θ: se conoce como el parámetro canónico y representa la localización.
 : es el parámetro de dispersión o de la escala.
a, b y c son funciones conocidas.
Verde (2000) señala que los MLGnz se especifican con tres componentes: el
componente aleatorio que identifica la distribución probabilística de la variable
respuesta, el componente sistemático que especifica una función lineal de
variables explicativas que es usada como un predictor y una asociación que
describe la relación funcional entre el componente sistemático y el valor esperado
del componente aleatorio.
En las investigaciones agropecuarias muchas veces se involucran situaciones
donde es difícil utilizar el MLG en los Análisis de Varianza y Regresión, porque las
variables que se analizan no cumplen los supuestos de normalidad,
homogeneidad de varianzas e independencia de los errores.
22
Actualmente las Ciencias Agropecuarias demandan de herramientas estadísticas
que permitan obtener estimaciones más precisas, y teniendo en cuenta las
bondades que muestra este modelo, muchos autores recomiendan el empleo de
los MLGnz, muy utilizado en el análisis con variables discretas y categóricas.
Los mecanismos que llevaron a esta visión general de la Modelación Estadística
se remonta a más de un siglo. Una reseña histórica fue trazada por McCullagh y
Nelder en 1989 y Lidsey en 1997 (citados por García, 2002) a partir de diferentes
distribuciones (tabla 1.3).
Tabla 1.3. Modelos más empleados según la metodología del Modelo Lineal
Generalizado.
Distribuciones Tipo de Análisis Autores
Regresión Lineal Legendre y Gauss (siglo XIX)
Múltiple
Normal Análisis de Varianza Fisher (1920- 1935)
para diseños
experimentales
Fisher(1922); Bliss (1935);
Normal ; Binomial ; Berkson (1944); Dike y
Bernuolli ; Poisson Función de Patterson (1952);
Multinomial; Exponencial y verosimilitud Racha (1960); Birch (1963);
Gamma Feig y Zelen (1965); Zippin y
Armitage (1966); Gasser (1967)
y Nelder (1966)
Existen algunas diferencias entre el MLG y el MLGnz, estas están dadas porque
en el primero se debe cumplir determinados requisitos, como son: los errores
deben distribuir Normal, por tanto la variable debe ser continua, la varianza de los
errores debe ser constante y el modelo debe expresarse en forma aditiva.
23
En el caso del MLGnz se puede emplear a cualquier tipo de distribución, que tiene
un predictor lineal asociado a la variable dependiente y por otra parte este modelo
presenta una componente aleatoria, el método de estimación es el de Máxima
Verosimilitud, mientras que en el MLG el método es el de Mínimos Cuadrados
Ordinarios (Greene, 1999; Johnston, 2000 y Correa, 2007).
En la tabla 1.4 se hace una comparación entre el MLG y el MLGnz, considerando
sus características.
Tabla 1.4 Comparación entre el Modelo Lineal General y el Modelo Lineal

Generalizado.
Expresión del Modelo Variable Método de
Modelo Sistemática Aleatoria respuesta Estimación
Mínimos
Lineal General Xβ ε Continua Cuadrados
Ordinarios
(MCO)
Máximo
h(y,θ)=exp[p(θ) Continua Verosimilitud,
y-q(θ)+g(y)] Categórica, Mínimos
Lineal Xβ Discreta Cuadrados
Generalizado donde: (Poisson, Ponderados,
p(θ), q(θ),y g(y) Multinomial, Mínimos
son funciones entre otras.) Cuadrados
conocidas Generalizados
Para el análisis del MLGnz se necesita conocer que distribución poseen los datos,
pues esta permite seleccionar la función de enlace apropiada a cada distribución.
Se denomina funciones de enlace canónicas aquellas que se aplican por defecto a
cada una de las distribuciones de errores. Esto no significa que siempre se deba
usar una única función de enlace para una determinada distribución. De hecho,
24
puede ser recomendable comparar diferentes funciones de enlace para un mismo
modelo y ver con cual se obtiene un mejor ajuste del modelo a los datos (Cayuela,
2010).
En la tabla 1.5, se expresan las funciones de enlace más usadas en el análisis de
MLGnz.
Tabla 1.5. Funciones de enlace más empleadas en el Modelo Lineal Generalizado.

Funciones Funciones Modelos de
Distribución de enlace canónicas análisis Empleo
Modelo Lineal Variables continuas
Normal Identidad η=μ clásico (Diseños con errores
experimentales y normalmente
Regresión) distribuidos
Variables discretas
Poisson Logarítmica η = log (μ) Logarítmico con errores con
distribución Poisson
Proporciones
μ (variables con
Binomial Logit η  log Logístico respuestas
1 μ
dicotómicas o con
valores 0 y 1)
1 Variables continuas
Gamma Recíproca η Logarítmico con errores con
μ
distribución Gamma
Variables que miden
Normal 1 toxicidad o cualquier
inversa Recíproca2 η= Probit variable con
2 respuesta binaria
Entre las ventajas que ofrece el MLGnz, está que permite emplear una mayor
variedad de distribuciones para la variable respuesta, es decir, posibilita el ajuste
de un modelo con diferentes distribuciones.
25
En esencia este modelo descompone la variabilidad de la variable respuesta en
dos componentes una sistemática y la otra aleatoria asociada a una función de
enlace de acuerdo a la distribución que adopten los datos analizados.
Un aporte importante de este modelo es que permite analizar variables con
respuestas discretas y continuas, mientras que el MLG solamente analiza
variables de tipo continuas.
1.6. Otros Métodos Estadísticos que analizan variables discretas y
categóricas
Numerosos son los Métodos Estadísticos que se utilizan en la actualidad para el
análisis de variables discretas y categóricas. En la medida en que las
investigaciones progresan, se desarrollan nuevas técnicas para el análisis con
estos tipos de variables. Es por ello que surge la necesidad de establecer
semejanzas y diferencias entre las técnicas existentes para determinar su
superioridad o para establecer sus limitaciones y poder determinar el método más
apropiado ante una nueva situación.
El desarrollo de métodos para el análisis de las variables categóricas se comenzó
por los estudios de la investigación en las Ciencias Sociales y Biomédicas. Las
escalas categóricas son estudiadas en las Ciencias Sociológicas para medir
actitudes y opiniones. Las escalas categóricas en las Ciencias Biomédicas miden
si el resultado de un tratamiento médico es exitoso o no (Agresti, 2007).
26
Según Greene (1999), los modelos de naturaleza categórica son modelos de
probabilidad condicionada, por lo que p (y=j/xi) es una función de las
combinaciones lineales β X, donde β es el vector de los parámetros y X es el
vector de regresores, (i = 1, 2…k) y (j=0,1,2,j).
Correa (2007) plantea que la distribución de Poisson juega un importante papel en
la modelación del conteo de individuos en muchas áreas investigativas, se
caracteriza por un solo parámetro μ=n, donde μ es una esperanza matemática y
puede interpretarse como el número esperado de ocurrencias en un intervalo de
tiempo, área o espacio especificado y la tasa de ocurrencia (), se define como el
número esperado de ocurrencias del evento.
Con frecuencia las variables discretas y categóricas se relacionan con
distribuciones de probabilidad Binomial, Multinomial y Poisson, entre otras,
teniendo en cuenta estos elementos, Guerra et al. (2010) resumen en la tabla 1.6,
los principales Métodos Estadísticos relacionados con el análisis de variables
cualitativas, según el número de variables involucradas. De los procedimientos
clásicos reportados en esta tabla, los de más amplia aplicación, son los
correspondientes a la Estadística no paramétrica.
27
Tabla 1.6. Métodos Estadísticos relacionados con variables cualitativas.
Según número Métodos
de variables Descriptivo Inferencial
Moda, mediana, rango, cuantíles, Dócima de
frecuencias, porcientos. proporciones y
Univariado Tablas de frecuencia. dócimas no
Gráficos de barras, sectores, entre paramétricas.
otros. Series temporales.
Tablas de frecuencia bivariada o Dócima Chi-
tablas de contingencia. cuadrado.
Bivariada Medidas de asociación no Regresión Logit
paramétricas (coeficientes de Regresión Probit
contingencia, Spearman, Kendall, etc)
Gráficos de barras, mosaicos.
Coeficiente de fiabilidad. Regresión Logística
Coeficiente de esfuerzo (Stress). Regresión Poisson
Matriz de correlaciones. Modelo Log lineal
Multivariado Análisis Cluster. Regresión
Análisis de Correspondencia Múltiple. Categórica(CATREG)
Escalamiento Multidimensional (EMD) Modelo Lineal
Escalamiento Óptimo. Generalizado
Mapas Auto Organizados (SOM)
Navarro et al. (2008) indican que la Regresión Categórica (CATREG), trabaja bajo
el enfoque de la Regresión con transformaciones, aplicando la metodología de
Escalamiento Óptimo desarrollada por el sistema Gifi en 1990, para transformar la
respuesta y los predictores, dando lugar a un modelo flexible.
La referencia de este autor a que el CATREG es un modelo flexible, se considera
que está dada, a que este amplía las posibilidades del Modelo de Regresión
clásico, mediante el uso del Escalamiento Óptimo (minimiza la función de pérdida
de información), aplicable a variables nominales, ordinales y numéricas,
simultáneamente.
El CATREG es un método a través del cual la regresión se aplica a una variable
respuesta en forma de categorías con el propósito de predecir la respuesta como

28
función de una o más variables independientes. El CATREG se ha desarrollado
como un método de regresión lineal para variables categóricas (Navarro et al.
2010).
El Análisis de Componentes Principales Categórico (CATPCA), puede
considerarse como una técnica exploratoria de reducción de las dimensiones de
una base de datos incorporando variables nominales y ordinales de la misma
manera que las numéricas (Molina y Espinosa de los Monteros, 2010).
El Análisis Factorial de Correspondencia Múltiple es una técnica que se utiliza
para reducir la dimensionalidad y la elaboración de mapas preceptúales, ya que
estos se basan en la asociación entre objetos y un conjunto de características
descriptivas; además, va más allá de analizar la relación existente entre las
variables, porque permite conocer como está estructurada esta relación (Quaglino
y Pagura, 1998 y Aranzazu et al. 2007).
Trujillo del Pozo (2001) plantean que el Análisis de Correlación Canónica
proporciona variables que garantizan este resultado, y es recomendable su
utilización cuando tanto el número de variables endógenas, como las explicativas
son elevadas, además existen altas correlaciones de las variables de cada grupo
entre sí.
29
Mediante este método de reducción de variables se puede eliminar el ineludible
problema de multicolinealidad que ocasionaría la consideración de todas las
variables en un modelo de regresión.
El Escalamiento Multidimensional es un conjunto de técnicas que persiguen como
objetivo, la representación de datos a través de la construcción de una
configuración de puntos cuando se conoce una determinada información sobre
proximidades entre objetos (Linares, 2001; Miret et al., 2002; Mora y González,
2009 y Arce et al., 2010).
Por otra parte Miret et al. (2002) y Miret (2005) señalan que el Escalamiento
Multidimensional consiste esencialmente en representar disimilaridades entre
objetos o individuos, como distancias entre puntos en un espacio de dimensión
reducida, mientras que los Mapas Auto Organizados de Kohonen, se caracterizan
por su capacidad para clasificar un conjunto complejo de patrones de manera no
supervisada, extrayendo criterios de clasificación no obvios ni expresados de
manera explícita.
Otros criterios sobre modelos relacionados con las variables cualitativas, son
dados por Guerra et al. (2010), como son:
 La Matriz DAFO, con implementación automatizada, se puede considerar como

un Modelo cualitativo de diagnóstico en diversas áreas de investigación.
30
 El criterio de experto, a través del Método Delphy, se puede considerar como
un Modelo cualitativo de validación en determinadas situaciones.
Todos estos Métodos Estadísticos, resultan alternativas de análisis en las
investigaciones donde se analizan variables que son de tipo discretas y
categóricas.
31
CAPÍTULO II
LA ENCUESTA ESTADÍSTICA EN LA
CAPTACIÓN DE INFORMACIÓN Y SU USO
CAPÍTULO II. LA ENCUESTA ESTADÍSTICA EN LA CAPTACIÓN DE
INFORMACIÓN Y SU USO
2.1. Introducción
Se aplicó una encuesta estadística bibliométrica y a los investigadores del Instituto
de Ciencia Animal, con el objetivo de diagnosticar el estado actual del uso de la
transformación de datos y de los Métodos Estadísticos no paramétricos en las
investigaciones de la Ciencia Agropecuaria en Cuba.
2.2. Materiales y métodos
2.2.1. Encuesta estadística bibliométrica
La encuesta estadística bibliométrica se realizó con el objetivo de conocer los
Métodos Estadísticos más empleados, así como las temáticas más abordadas en
el período analizado del 2000 al 2007.
Se revisaron 1418 artículos para conocer las temáticas, así como los Métodos
Estadísticos no paramétricos más abordados en revistas científicas
correspondientes a las Ciencias Agropecuarias y Biológicas, pertenecientes al
fondo bibliotecario del Instituto de Ciencia Animal. Las revistas revisadas están
contenidas en bases de datos internacionales y en la Web of Science. Se
emplearon estas revistas por ser las colecciones más completas en el período que
se analiza.
32
Para el estudió se revisaron las revistas:
 Revista Cubana de Ciencia Agrícola (RCCA)
 Revista Ciencias Biológicas (CENIC)
 Pastos y Forrajes (EPFIH)
 Agrociencia (México)
 Veterinaria de México (México)
 Archivos de Zootecnia (España)
 Ciencias Pecuarias (Colombia)
Los indicadores que se midieron fueron:
 Nombre de la revista
 Número de los artículos por revista
 Tipo de variables analizadas
 Métodos Estadísticos aplicados
 Temáticas tratadas con aplicación de Métodos Estadísticos no
paramétricos.
2.2.2. Encuesta estadística a los investigadores
Se desarrolló una encuesta en el 2011 (Anexo 2), para evaluar el conocimiento de
los investigadores sobre la transformación de datos, y el uso de Métodos
Estadísticos alternativos para evitar el empleo de estas en el análisis estadístico
de los resultados de las investigaciones desarrolladas en el Instituto de Ciencia
33
Animal. De un total de 89 investigadores, distribuidos en Titulares, Auxiliares,
Agregados y Aspirantes, fue posible encuestar 69, que representan el 77,53% de
todas las categorías con la siguiente representación por cada departamento, tabla
2.1.
Tabla 2.1. Encuestados por departamento.

Departamento %
Monogátricos 13,3
Fisiología 24,6
Rumiantes 26,7
Pastos 15,9
Genética 7,2
Biomatemática 7,2
Total 100
Para el análisis de la encuesta a los investigadores se valoraron los siguientes
indicadores:
 Departamento.
 Empleo de transformaciones.
 Número de transformaciones que emplean.
 Métodos Estadísticos alternativos que usan.
 Sabe que logra con el uso de la transformación de datos.
 Interés por continuar con el uso de las transformaciones.
2.2.3. Organización, procesamiento y análisis estadístico de la información
Para el análisis de las encuestas estadísticas bibliométrica y a los investigadores,
la información fue tabulada en una base de datos de Excel para su posterior
procesamiento.
34
Para procesar la información de las revistas y las encuestas a investigadores se
empleó el método de Escalamiento Multidimensional PROXSCAL (en inglés
Multidimensional Sealing of Proximity) utilizando el paquete estadístico SPSS
versión 19.0 (2010).
El procesamiento de las encuestas estadísticas bibliométrica y a los
investigadores se incluyeron tablas de frecuencia bivariadas (tablas de
contingencia), gráficos de barras y sectores, entre otros. Se evaluó la bondad de
ajuste de la solución multidimensional mediante los valores del Stress bruto
normalizado, la dispersión explicada (D.A.F, en inglés) y el coeficiente de
congruencia de Tucker.
Para interpretar las medidas de calidad del ajuste obtenida del Escalamiento
Multidimensional, Guerra (2009) propone una tabla del Stress; teniendo en cuenta
los valores dados por Kruskal en 1964, (citado por Mora y González, 2009), como
se refleja en la tabla 2.2.
Tabla 2.2. Interpretación de los valores del Stress (S).

Valores del Stress Interpretación de la bondad de ajuste
S=0 Ajuste perfecto
0 < S ≤ 0,025 Ajuste excelente
0,025 < S ≤ 0,05 Ajuste muy bueno
0,05 < S ≤ 0,1 Ajuste bueno
0,1 < S < 0,2 Ajuste regular
S ≥ 0,2 Ajuste pobre
Para visualizar la información de la encuesta estadística bibliómetrica por revistas
se utilizó también el paquete estadístico Viscovery SOMine (2008), con el método
35
SOM-Wald Clusters, que combina de forma ordenada la información local del
mapa con el algoritmo de Cluster Jerárquico Clásico de Ward (Ward, 1963).
Del análisis de la encuesta bibliométrica se obtienen dos mapas, en el primero se
refleja los Métodos Estadísticos no paramétricos usados y en el segundo las
temáticas que más abordan estos métodos. En la parte inferior de cada mapa
aparece una escala con matices de colores, de más a menos intenso, si se analiza
de derecha a izquierda.
Se confeccionó la matriz DAFO para establecer un diagnóstico con los resultados
obtenidos de la encuesta a los investigadores.
2.3. Resultados y discusión
2.3.1. Encuesta estadística bibliométrica
En la tabla 2.3 se presentan las medidas de bondad de ajuste del Escalamiento
Multidimensional, relacionadas con la aplicación de los Métodos Estadísticos no
paramétricos por revistas analizadas. Con esta técnica se obtuvieron las medidas
de calidad de ajuste de la configuración de los datos, que presentan un resultado
excelente de acuerdo a lo que se muestra en la tabla 2.2.
Tabla 2.3. Bondad del ajuste de la configuración de los datos para los Métodos
Estadísticos no paramétricos.
Medida Resultado
Stress bruto normalizado 0,00092
Dispersión explicada (D.A.F.) 0,99908
Coeficiente de congruencia de 0,99954
Tucker
36
Por otra parte se observa que la dispersión explicada (D.A.F) y el coeficiente de
congruencia de Tucker, corroboran la bondad del ajuste del método, con
resultados que se encuentran próximos a 100 %, por lo que logran explicar una
alta variabilidad.
Según Cuesta (2005), se considera un buen ajuste cuando el resultado obtenido
del Stress bruto normalizado se encuentra próximo a 0 y cuando el D.A.F y el
coeficiente de congruencia de Tucker son de al menos 0,80 (80%), que indica la
dispersión explicada por el método, estos coeficientes se suelen expresar en
porciento, lo que facilita su interpretación.
En la figura 2.1 se muestra la agrupación en dos dimensiones de aquellas revistas
que hacen uso de los Métodos no paramétricos. Se destacan tres grupos; en el
primero se ubica la Ciencias Biológicas, en el segundo Veterinaria de México y en
el tercero el resto de las revistas que presentan menos aplicaciones de estos
métodos.
El hecho de que la revista Ciencias Biológicas forme un grupo más aislado del
resto de las demás, pudiera estar asociado a que sus investigaciones están más
relacionadas a variables que son de tipo discretas y categóricas, por lo que sus
análisis estadísticos están más enfocados a los Métodos Estadísticos no
paramétricos.
37
Figura 2.1. Revistas relacionadas con la aplicación de los Métodos Estadísticos no
paramétricos.
En la figura 2.2, se reflejan los mapas referentes a la aplicación de los Métodos
Estadísticos no paramétricos con 214 aplicaciones. En este sentido sobresale las
revistas Ciencias Biológicas con las dócimas Prueba Exacta de Fisher, seguida
por Mann-Whitney y Kruskal-Wallis y la Veterinaria de México con la dócima Chi-
cuadrado (  2 ).
En este caso se obtuvo un ligero incremento en la aplicación de los Métodos
Estadísticos no paramétricos que expresado en términos relativos representan el
15,09 %, con respecto al 2,12 % obtenido por De Calzadilla (1999) en el período
1987-1997.
38
Agrociencia Archivo Zootecnia
c3 c3
Com Alea Com Alea
c1 c1
c4 c4
X2 MW X2 MW
c2 c2
KW PE Fisher KW PE Fisher
0 1 3 4 6 7 8 10 11 13 14 0 1 3 4 6 7 8 10 11 13 14
Ciencias Biologicas Ciencias Pecuaria
c3 c3
Com Alea Com Alea
c1 c1
c4 c4
X2 MW X2 MW
c2 c2
0 3 5 8 11 13 16 19 22 24 27 0,0 0,4 0,9 1,3 1,8 2,2 2,7 3,1 3,6 4,0
Pastos Forrajes RCCA
c3 c3
Com Alea Com Alea
c1 c1
c4 c4
X2 MW X2 MW
c2 c2
0,0 0,9 1,8 2,7 3,6 4,4 5,3 6,2 7,1 8,0 0 3 6 9 12 15 18 21 24 27 30
Veterinaria Leyenda. Métodos Estadísticos no paramétricos

más usados
c3
Com Alea
Clúster 2 (c2): MW (dócima de Mann Whitney)
c1 Clúster 2 (c2): KW (dócima de Kruskal Wallis)
Clúster 2 (c2): PE Fisher (dócima Exacta de Fisher)

c4
X2 MW Clúster 4 (c4): 2 (dócima  2 ) Chi-Cuadrado
c2
KW PE Fisher
0 2 5 7 9 12 14 16 18 21 23
Figura 2.2. Métodos Estadísticos no paramétricos más usados en
estudios agropecuarios y biológicos.
39
En la tabla 2.4 se muestra la bondad de ajuste del método, que al igual que en el
análisis anterior se corrobora el buen ajuste de la configuración de los datos,
considerando el Stress bruto normalizado, así como los resultados obtenidos por
el D.A.F y el coeficiente de congruencia de Tucker, estos últimos se encuentren
cercanos a 100%.
Mora y González (2009) indican que en el Escalamiento Multidimensional, el
método PROXSCAL minimiza el Stress bruto normalizado, estos valores se
obtienen mediante la fórmula introducida por Kruskal en 1964, quien ofreció una
guía para su interpretación.
Tabla 2.4. Bondad de ajuste de las temáticas por revistas, donde se aplican los
Medida Resultado
Coeficiente de congruencia de Tucker 0,99228
Al tener en cuenta los criterios de bondad de ajuste, se considera que la solución
en dos dimensiones es apropiada. En la figura 2.3 se muestra la formación de
cuatro grupos, en el primero se unen aquellas revistas que tienen un
comportamiento similar en cuanto al análisis de sus temáticas por los Métodos
Estadísticos no paramétricos, en este sentido se observa que poseen poca
diversidad de estos en sus aplicaciones. El segundo grupo lo conforma la RCCA
que posee un comportamiento diferente, ya que realiza poco empleo de estos
métodos y en el tercer grupo se ubica Ciencias Biológicas y en el cuarto grupo se
40
encuentra Veterinaria de México, que son las que hacen un mayor empleo de la
estadística no paramétrica para el análisis de sus temáticas.
Según Guerrero y Ramírez (2002) el Escalamiento Multidimencional está basado
en la comparación de objetos o de estímulos, de forma que sí un individuo juzga a
los objetos A y B como los más similares, entonces las técnicas de Escalamiento
Multidimencional colocarán a los objetos A y B en el gráfico de forma que la
distancia entre ellos sea más pequeña que la distancia entre cualquier otro par de
objetos.
Figura 2.3. Revistas por temáticas con aplicación de los Métodos Estadísticos no
paramétricos.
En la figura 2.4 se visualizan las revistas donde sus temáticas son analizadas por
los Métodos Estadísticos no paramétricos aplicados a las Ciencias Agropecuarias.
41
En cada revista las temáticas que más abordan los Métodos Estadísticos no
paramétricos, son aquellas que enfocan su análisis desde el punto de vista teórico,
con la reproducción animal, estudios para probar y validar medicamentos en
humanos y salud animal, en este caso se destacan las revistas Agrociencia,
Archivos de Zootecnia, Ciencias Pecuarias, Ciencias Biológicas y Veterinaria de
México.
Sin embargo en otras temáticas que abordan las revistas no hay empleo de
Métodos Estadísticos no paramétricos, como es el caso de las revistas Pastos y
Forraje y la RCCA.
42
Agrociencia Archivo Zootecnia
Past Prod Sem Bi otec Past Prod Sem Bi otec
c6 c6
c4 c4
c1 c1
Est Ovi no Est Ovi no
Prod Lec Prod Lec
Prod Prod
Bovi n Aves Bovi n Aves

c2 M ed c2 M ed
Ani Lab c3 Ani Lab c3
Rep Rep
c5 San Veg Est Clhum
i c5 San Veg Est Cl hum
i
Sal ud Sal ud
0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0
Ciencias Biologicas Ciencias Pecuaria

c6 c6
c4 c4
c1 c1
Prod Lec Prod Lec
Prod Prod

c2 M ed c2 M ed
Rep Rep
i
Sal ud Sal ud
0 2 4 5 7 9 11 13 14 16 18 0,0 0,7 1,3 2,0 2,7 3,3 4,0 4,7 5,3 6,0
Pastos Forrajes RCCA

c6 c6
c4 c4
c1 c1
Prod Lec Prod Lec
Prod Prod

c2 M ed c2 M ed
Rep Rep
i
Sal ud Sal ud
0 1 2 3 4 5 6 7 8 9 10 0 2 4 6 8 11 13 15 17 19 21
Veterinaria Leyenda. Temáticas más representativas

Past Prod Sem Bi otec
c6 Clúster 1 (c1): investigaciones sobre Producción de semillas (Prod
Sem), Biotecnología (Biotec), Ovino, Producción de leche (Prod
c4 Lec), Aves, Sanidad vegetal (San Veg).
c1 Clúster 2 (c2): estudios en Bovinos (Bovin) y Reproducción animal

Est Ovi no
Prod Lec (Rep).
Prod Clúster 3 (c3): estudios médicos (Med), en animales de
laboratorios (Ani Lab) y clínicos en humanos (Est Cli hum).
Bovi n Aves
c2 M ed Clúster 4 (c4): métodos estadísticos (Est) aplicados a las ciencias
Ani Lab c3 agropecuarias y Producción de alimento animal (Prod).
Rep
i Clúster 5 (c5): estudios en Salud animal (Salud).
Sal ud
Clúster 6 (c6) investigaciones relacionadas con los Pastos (Pas).
0 2 5 7 9 12 14 16 18 21 23
Figura 2.4 Temáticas por revistas que emplean Métodos Estadísticos no

paramétricos para el análisis de sus investigaciones.
43
2.3.2. Encuesta estadística a los investigadores
En la encuesta a los investigadores (Anexo 2), se evidencia que el 97,1% de los
encuestados conocen con qué objetivo aplican la transformación de datos (figura
2.5) y hacen mayor uso de las transformaciones x y arcoseno ( p ) en el
69,57% de los casos (48 encuestados), lo que se refleja en la tabla 2.5.
Este resultado se considera que está dado porque en las investigaciones
agropecuarias es frecuente la presencia de variables originadas por conteos y
porcientos, que según autores como Steel y Torrie (1992), son las
transformaciones adecuadas para este tipo de datos, cuando presentan
distribuciones de tipo Poisson y Binomial.
2,90%
Uso de transf. en total
Si
No
97,10%
Figura 2.5. Necesidad de aplicar la transformación de datos.
44
Tabla 2.5. Transformaciones de datos más empleadas según encuesta a los
investigadores.
Transformaciones
arcoseno 1
Dpto. x ( p) Log X (1/x) x Total %
1 3 8 0 0 2 13 18,8
2 10 5 1 0 1 17 24,6
3 8 6 2 1 1 18 26,1
4 1 4 5 0 1 11 15,9
5 1 1 0 0 3 5 7,2
6 0 1 2 1 1 5 7,2
Total 23 25 10 2 9 69 -
% 33,3 36,2 14,5 2,9 13,0 - 100
En la tabla 2.6 se presentan los aspectos más frecuentes manifestados por los
investigadores. Se obtuvo que un alto porciento de los encuestados conocen que
se logra con el uso de la transformación de datos, la usan con mayor frecuencia
en el ANAVA, desean continuar transformando y desconocen el uso de Métodos
Estadísticos alternativos.
Tabla 2.6. Aspectos más frecuente en las respuestas de las preguntas a los
investigadores.
Aspectos %
Sabe que logra con el uso de la transformación de datos 73
Uso de la transformación de datos en el Modelo de Análisis de
Varianza 81,1
Continuar usando la transformación de datos 73,5
Desconocimiento de Métodos Estadísticos alternativos 62,3
Para realizar un análisis integral de la información, se aplicó el Método Estadístico
Multivariado de Escalamiento Multidimensional (PROXSCAL), teniendo en
45
consideración lo planteado por Miret (2005), las medidas de calidad de ajuste
obtenidas del análisis presentan una clasificación de excelente (tabla 2.7).
Tabla 2.7. Bondad de ajuste de los resultados a los investigadores.

Medida Resultado
Coeficiente de congruencia de Tucker 0,98670
La dispersión explicada y el coeficiente de congruencia de Tucker
respectivamente, presentan valores muy cercanos al 100%, que representan un
buen indicador de ajuste.
En la tabla 2.8, se sintetiza en dos dimensiones la información relevante. En la
dimensión uno sobresale el departamento con mayor peso, lo cual indica la
atención diferenciada que se debe realizar a cada departamento considerando sus
características particulares en el uso de estas temáticas y en la dimensión dos
sobresalen las variables relacionadas con el Tipo de transformaciones y Sabe que
logra con el uso de estas. Este análisis se realizó con el objetivo de visualizar las
variables más importantes por cada dimensión y no para disminuir
dimensionalidad.
46
Tabla. 2.8. Resultados de los pesos de las variables por cada dimensión
.
Dimensión
Variables 1 2
1.- Departamento 1,018 -0,232
2.- Necesidad de aplicar transformación de datos -0,518 0,286
3.- Tipo de transformaciones 0,505 0,530
4.- Análisis Estadístico donde utilizas las -0,626 -0,292
transformaciones de datos con más frecuencia
5.- Sabe que logra con el uso de la transformación de -0,031 -0,533
datos
6.- Continuar usando la transformación de datos -0,281 0,308
7.- Métodos estadísticos alternativos -0,068 -0,067
2.3.3. Diagnóstico a partir de la encuesta estadística a los investigadores:

Matriz DAFO
Después de aplicar la encuesta a los investigadores se conformó la Matriz DAFO,
para establecer acciones estadístico-metodológicas para el uso adecuado de las
transformaciones de datos, y la aplicación eficaz de Métodos Estadísticos
paramétricos y no paramétricos en la investigación científica, aspectos que sirven
como punto de partida para perfeccionar la actividad científico-investigativa, en el
área de los Métodos Estadísticos y sus aplicaciones agropecuarias (tabla 2.9).
El análisis de la Matriz DAFO logró identificar los aspectos más importantes
aportados por la encuesta a los investigadores del Instituto de Ciencia Animal, se
considera que deben ser utilizadas las Fortalezas, con el fin de atenuar las
Debilidades, aprovechando la Oportunidad del liderazgo científico de los
departamentos, para contrarrestar la Amenaza en cuanto al uso inadecuado de la
transformación de datos y propiciar la acogida de nuevos Métodos Estadísticos
como alternativas de análisis.
47
Tabla 2.9. Resultados de la Matriz DAFO
Fortalezas Debilidades
 Conocen el por qué se usa la  Alta preferencia por el empleo de las
transformación de datos. transformaciones de datos, en lo
 Existen Métodos Estadísticos para el fundamental en el Modelo de ANAVA.
análisis de la información.  Desconocimiento de Métodos
 Existencia de un Dpto. de Estadísticos alternativos de análisis.
Biomatemática.  Insuficiente intercambio sobre el
 El ICA centro de prestigio nacional e conocimiento del uso de la
internacional. transformación de datos con los
 Incremento de grados científicos en investigadores del centro.
los jóvenes.
 Doctorado curricular colaborativo en
Biometría único en el país.
Oportunidades Amenazas
 Se identifica al Dpto. como el  Insuficiente intercambio sobre el uso
escenario más importante para de la transformación de datos con
implementar una estrategia de trabajo profesionales de la Estadística y
estadístico-metodológica. usuarios, en las ciencias
 Nuevas líneas de investigación que agropecuarias y afines.
acomete el Dpto. de Biomatemática,  Está muy arraigado el uso de los
para dar respuesta a necesidades de Métodos Estadísticos clásicos
las investigaciones en las ciencias paramétricos, sobre todo los Modelos
agropecuarias. de ANAVA y Regresión.
 RCCA es la revista de más alto índice
de impacto en el país, en esta rama.
48
2.3.4. Consideraciones parciales
Del análisis de los resultados de las encuestas estadísticas bibliométricas y a los

investigadores se resume que:
 Los Métodos Estadísticos no paramétricos más empleados, fueron las

dócimas  2 (Chi-Cuadrado), Mann-Whitney, Kruskal Wallis y Exacta de
Fisher.
 Se identificaron por revistas las temáticas que fueron analizadas por

 Casi la totalidad de los encuestados (97,10%) conocen el por qué del uso
de las transformaciones de datos, y más del 70% consideran su empleo
para lograr el cumplimiento de los supuestos teóricos del Modelo de
Análisis de Varianza, siendo esta la técnica de uso más frecuente.
 Existe alta preferencia por el empleo de las transformaciones de los datos,

resultan más frecuentes, la x y arcoseno ( p ).
 El Departamento es el escenario de más importancia para encaminar un

trabajo futuro que permita mejorar la aplicación de estas herramientas.
49
CAPÍTULO III
MODELOS DE ANÁLISIS DE
VARIANZA PARAMÉTRICO Y NO
PARAMÉTRICO. USO DE LA
TRANSFORMACIÓN DE DATOS
CAPÍTULO III. MODELOS DE ANÁLISIS DE VARIANZA PARAMÉTRICO Y NO
PARAMÉTRICO. USO DE LA TRANSFORMACIÓN DE DATOS
3.1. Introducción
En este capítulo se analiza el cumplimiento de los supuestos teóricos del Análisis
de Varianza con y sin transformación de datos y se compararon los valores de
probabilidad de error tipo I de los diseños paramétricos con sus homólogos no
paramétricos Kruskal-Wallis y Friedman respectivamente,
Se realiza un análisis multidimensional de 12 indicadores estadísticos,
considerando el Análisis de Componentes Principales Categórico y la Regresión
Categórica para el diseño experimental aplicado, de ahí que el presente capítulo
tenga como objetivos:
Evaluar el comportamiento de la transformación de datos en el cumplimiento de
los supuestos teóricos básicos en variables discretas y categóricas en los Modelos
de Análisis de Varianza simple y doble de efectos fijos.
Analizar de forma integral indicadores estadísticos de los Modelos de Análisis de
Varianza paramétricos y no paramétricos, para establecer criterios de valor
teórico-práctico.
50
3.2.1. Características principales de las investigaciones
La información analizada pertenece al archivo de las bases de datos procesadas
por el departamento de Biomatemática del Instituto de Ciencia Animal en el
período 2003-2011, ubicado en el municipio de San José de las Lajas, provincia
Mayabeque, correspondiente a investigaciones desarrolladas por los
departamentos de Monogástricos, Pastos y Fisiología, en aves, cerdos, pastos y
rumiantes.
Para el análisis de la información se emplearon los Modelos de ANAVA de
clasificación simple y doble, asociados a los Diseños Completamente
Aleatorizados (DCA) balanceados y Bloques al Azar (DBA), siendo las variables
analizadas discretas y categóricas.
3.2.1.1. Experimentos con Diseño Completamente Aleatorizado
Se analizan 16 experimentos con las características siguientes:
Experimento 1: Empleo del fósforo sérico y enzima fitasa en el metabolismo
mineral y el comportamiento productivo de la gallina ponedora.
Tratamientos: Arreglo factorial con 6 tratamientos (3 tipos de fósforos y 2 enzimas
fitasas).
51
Variables
 Número de huevos/aves.
 Intensidad de puesta.
Experimento 2: Empleo de levadura en la dieta de gallinas de reemplazo para
evaluar el rendimiento productivo de las aves.
Tratamientos: Diferentes porcientos de levadura 0, 10, 20 y 30.
Variables
 Porciento de viabilidad en la semana 6.
 Porciento de viabilidad total.
 Porciento de puesta.
 Números de huevos/aves.
Experimento 3: Empleo de levadura en la dieta de gallinas ponedoras, para
evaluar el rendimiento productivo de las aves.
Tratamientos: Diferentes porcientos de levadura 0, 5, 10 y 15.
52
Variables
 Porciento de puesta.
 Porciento viabilidad.
 Color de la yema en la semana 32.
Experimento 4: Efecto de la miel rica de caña, combinada con una fuente de
proteína (soya) o con pienso tradicional, en el comportamiento productivo de
reproductoras lactantes.
Tratamientos: Control, Miel Rica + pienso de reproductora lactante y Miel Rica +
Soya.
Variables
 Número de crías vivas.
 Números de crías muertas.
Experimento 5: Empleo de la zeolita en cerdas para medir su efecto en las crías.
Tratamientos: Control, 3 % de zeolita y 6 % de zeolita.
Variables
 Número de crías vivas.
53
 Números de crías muertas.
 Días de gestación.
Experimento 6: Repuesta fisiológica con la inclusión de los Granos de destilería
soluble (DDGS, siglas en inglés) en la dieta de cerdos de preceba.
Tratamientos: Inclusión de diferentes porcientos de DDGS en la dieta 0, 10, 20 y

30.
Variables
 Conteo de levaduras.
 Conteo de coliformes.
 Conteo de lactobacilos.
Experimento 7: Evaluación de la actividad probiótica del cultivo de Bacillus subtilis
en pollos como animales de laboratorio.
Tratamientos: Tres tipos de cepas C-31, C-34 y E-44.
Variables
 Conteo de bacterias totales hora 0.
 Conteo de bacterias totales, hora 24.
 Conteo de endosporas, hora 0.
54
Experimento 8: Evaluación de la actividad probiótica de los biopreparados C-7 y C-
65 y la mezcla de ambos en pollos hembras como animales de laboratorio.
Tratamientos: Dieta basal, dieta basal + C-7, dieta basal + C-65 y dieta basal + la
mezcla de C-7 y C-65.
Variables
 Conteo de coniformes a los 21 días.
 Conteo de anaerobios a los 21 días.
 Conteo de lactobacilos a los 21 días.
 Conteo de coniformes a los 42 días.
 Conteo de anaerobios a los 42 días.
 Conteo de lactobacilos a los 42 días.
 Conteo de levaduras 42 días.
 Mortalidad a los 42 días.
 Porciento de viabilidad a los 42 días.
Experimento 9. Efecto de la proteína en la dieta de pollos de ceba.
Tratamientos: Diferentes porcientos (0, 5, 10, 15) de proteína en la dieta.
55
Variable
 Mortalidad.
Experimento 10: Efecto de germinación en la composición química de granos de
Canavalia ensiformis.
Tratamientos: Diferentes intervalos de iluminación (24, 48, 72 y 96 horas).
Variables
 Porciento de germinación con diferentes intervalos de iluminación.
 Porciento de germinación oscuridad total.
 Porciento de germinación iluminación total.
Canavalia ensiformis.
Tratamientos: Diferentes días (3, 4, 6, 8, 10).
Variables
56
Mucuna.
Tratamientos: Diferentes intervalos de iluminación (48, 72 y 120 horas).
Variables
Mucuna.
Tratamientos: Diferentes días (3, 4, 6, 8 y 10).
Variables
Dolico.
Tratamientos: Diferentes días (3, 4, 6, 8 y 10).
57
Variables
Experimento 15: Evaluación de la germinación y emergencia en el crecimiento de
Albizia Lebbeck.
Tratamientos: Diferentes sistemas de siembra viveros, sombreador y cabina.
Variables
 Porciento de emergencia a la semana 6.
Experimento 16: Efecto de la inclusión de la levadura Scchramyces Cervicese en
la población ruminal de vacas en producción de leche.
58
Tratamientos: Diferentes gramos en la dieta (0, 10 y 15).
Variables
 Conteo de bacterias viables.
 Conteo de bacterias celulolíticas.
 Conteo de hongos celulolíticos.
 Conteo de bacterias proteolíticas.
 Conteo de levaduras.
3.2.1.2. Experimentos con Diseño de Bloques al Azar
Se analizan 5 experimentos, con las características siguientes:
Experimento 1: Evaluación de diferentes porcientos de DDGS en cerdas gestantes
de 1, 3 y 4 partos para medir el comportamiento reproductivo.
Tratamientos: Diferentes porcientos de inclusión de DDGS en la dieta (0, 30, 40,
50 y 60).
Variables
 Números de nacidos totales en cerdas de un parto.
 Números de destetados en cerdas de un parto.
 Intervalo de destete/celos en cerdas de un parto.
 Números de nacidos totales en cerdas de 3 y 4 partos.
 Números de destetados en cerdas de 3 y 4 partos.
59
 Intervalo de destete/celos en cerdas de 3 y 4 partos.
Experimento 2: Evaluación de diferentes porcientos de DDGS en cerdas gestantes
de un parto para medir su efecto en las crías y en las cerdas.
Tratamientos: diferentes porcientos de DDGS (0, 10%, 20% y 30%).
Variables
 Números de nacidos totales.
 Números de destetados.
 Intervalo de destete/celos.
Experimento 3: Evaluación de diferentes clones de King-Grass en diferentes
épocas de corte.
Tratamientos: Evaluar 8 clones de King-Grass (H 31, H-30, CT-423, CT-457, H-48,
CT-442, CT-452, CT-115)
Variables
Dadas por épocas de corte y de no corte.
 Números de tallos/surcos.
 Números de rebrotes por yemas.
 Número tallos/macollas.
 Número de tallos/surcos.
60
 Número de hojas/plantas.
 Número de tallos/macollas.
Experimento 4: Efecto del Vitazyme en la Vigna unguiculata para medir el
rendimiento productivo de la planta.
Se aplicaron 9 tratamientos, consistían en:
Tratamiento 1: Control absoluto
Tratamiento 2: Control con fertilizantes (Rizobium + fórmula completa 0.25 t/ha)
Tratamiento 3: Aplicar 1.5 litros /ha de vitazyme en el surco antes del tape +
Rizobium.
Tratamiento 4: tratamiento 3 + aplicación foliar de vitazyme por aspersión a inicios

de la floración a razón de 1.5 litros/ha.
Tratamiento 5: tratamiento 2 + aplicación foliar de vitazyme por aspersión a inicios

de la floración a razón de 1.5 litros/ha.
Tratamiento 6: Aplicar 1.5 litros /ha de fitomass-E en el surco antes del tape +
Rizobium.
Tratamiento 7: tratamiento 6 + aplicación foliar de fitomass-E por aspersión a

inicios de la floración a razón de 1.5 litros/ha.
Tratamiento 8: tratamiento 3 + aplicación foliar de fitomass-E por aspersión a

inicios de la floración a razón de 1.5 litros/ha.
61
Tratamiento 9: Rizobium + aplicación foliar de una mezcla de 50 % fitomass E y
50% vitazyme por aspersión a inicios de la floración a razón de 1.5 litros/ha.
Variables
 Números de vainas/plantas.
 Números de plantas/m.
 Porciento de floración a los 49 días.
 Porciento de floración a los 56 días.
Experimento 5: Evaluar diferentes ecotipos de Tithonia Diversifolia a diferentes
alturas.
Tratamientos: Se realizó un arreglo factorial con 27 tratamientos (9 ecotipos
Tithonia Diversifolia y 3 alturas de siembras) e igual número de observaciones.
Variables
 Número de tallos/surcos (muestreo 1).
 Número de plantones (muestreo 1).
 Número de hojas (muestreo 1).
62
 Número de plantones (muestreo 4)
3.2.2. Procesamiento y análisis estadístico de la información.
Para la evaluación del supuesto de normalidad se utilizó la dócima de Shapiro y
Wilks (1965). La homogeneidad de varianza se evaluó mediante la dócima de
Levene (1960). Ambas fueron aplicadas a las variables originales y a las
transformadas, mediante las transformaciones X; X  0,375 ; arcoseno ( p ) y
Log X.
Se aplicó el Análisis de Varianza paramétrico según los Diseños Completamente
Aleatorizado y de Bloques al Azar y sus homólogas no paramétricas las dócimas
de Kruskal-Wallis y Friedman respectivamente, conformando una matriz de datos
con los siguientes indicadores:
1. Tipo de experimento (Código).
2. Tipo de diseño (Diseño).
3. Número de tratamientos (No. tto).
63
4. Cumplimiento de los supuestos sin transformación (Cumpl S/T).
5. Cumplimiento de los supuestos con transformación (Cumpl C/T).
6. Valor de p de la dócima F de Fisher sin transformación ( Valorp S/T).
7. Valor de p de la dócima F de Fisher con transformación (Valorp C/T).
8. Valor de p para la dócima no paramétrica (Valorp NP).
9. Valor de Potencia de la dócima F de Fisher sin transformar (Potencia
S/T).
10. Valor de Potencia de la dócima F de Fisher con transformación
(Potencia C/T).
11. Tamaño de muestra (TM).
12. Distribución (Distcod).
Se aplicó la dócima de McNemar para verificar la existencia de un cambio
significativo entre las probabilidades de error tipo I (sin y con trasformación de
datos) de la dócima F de Fisher y sus homólogas no paramétricas Kruskal-Wallis y
Friedman, así como para las potencias (sin y con transformación de datos).
Se aplicó el Escalamiento Óptimo, para reducir la información a la menor
dimensión posible mediante el Análisis de Componentes Principales Categórico
(CATPCA), que permite identificar los principales indicadores y visualizar la
información mediante el gráfico Biplot. Este análisis se realizó con toda la
información y por diseños experimentales (DCA y DBA), y los arreglos factoriales,
de los tratamientos, para los diseños antes mencionados, en este último caso se
consideró la metodología indicada por Scheirer et al. (1976).

64
La fiabilidad del CATPCA se midió a través del coeficiente Alfa de Cronbach (α).
 n 2 
  si 
 k   
α     1  i 1 
 k  1   s2sum 
 
 
Donde:
k :es el número de ítems de la prueba.
Si2: es la varianza del i-ésimo ítems.
S2sum: es la varianza total.
Las bases de datos fueron procesadas utilizando el tabulador electrónico Microsoft
EXCEL versión 9.0 (2003). Para el análisis de los supuestos teóricos se empleó el
paquete estadístico Statistica StatSoft (2003), para el Análisis de Varianza
paramétrico y no paramétrico el paquete estadístico InfoStat (2008) y para los
análisis del CATPCA y CATREG, se empleó el SPSS versión 19.0 (2010).
65
3.3.1. Modelos de Análisis de Varianza simple y doble
3.3.1.1. Cumplimiento de supuestos y la transformación de datos
Para el análisis del cumplimiento de los supuestos teóricos se analizaron 100
variables que fueron transformadas mediante X; X  0,375 ; arcoseno ( p ) y
Log X.
Los resultados del análisis de los supuestos teóricos del ANAVA, se observan en
la tabla 3.1, el 69 % de las variables analizadas antes y después de ser
transformadas incumplieron dichos supuestos. En el 16% de los casos fue
innecesario su empleo, ya que se cumplían los supuestos del ANAVA antes de
realizar la transformación, solo en el 13% de las variables las transformaciones
fueron efectivas.
Tabla 3.1. Resumen del cumplimiento de los supuestos teóricos del ANAVA.
Cumplimiento de los Modelo del ANAVA
supuestos Clasificación Simple Clasificación Doble
%
S/T C/T No. % No. %
No No 69 41 62,1 28 82,4
No Si 13 12 18,2 1 2,9
Si No 2 2 3,0 - -
Si Si 16 11 16,7 5 14,7
Total 100 66 100 34 100
S/T: Sin transformación C/T: Con transformación
En esta misma tabla se observa que el modelo de clasificación doble fue el que
presentó los resultados más bajos, pues en el 82,4% de las variables analizadas
66
las transformaciones no mejoraron el cumplimiento de los supuestos teóricos, solo
en el 2,9% de los casos el empleo de las transformaciones fue efectivo.
En sentido general en este análisis se observa que en el 85 % de los casos la
transformación de datos no cambia su respuesta en cuento al cumplimiento de los
supuestos teóricos del ANAVA.
Sakia (1990) plantea que no siempre las transformaciones son capaces de
solucionar los problemas que se presentan cuando se incumplen los supuestos
teóricos del ANAVA.
Estos resultados coinciden con los obtenidos por De Calzadilla (1999), al estudiar
el cumplimiento de los supuestos teóricos en Modelos de ANAVA empleando las
transformaciones X y X  0,375 , obtuvo que solamente el 10,3 % de las
variables proporcionaron el cumplimiento de los supuestos teóricos, siendo en el
análisis de ANAVA de clasificación doble (DBA) más crítico.
Otros resultados que coinciden con este análisis fueron los obtenidos por Cabrera
(2002), que estudió el comportamiento de siete transformaciones de datos entre
las se encuentran X, X 1, X  0,5 , X  0,375 , log (X+1), log (X+(k/2)), log
[log (X+2)] y X1 – (b/2), en un ANAVA de clasificación simple en un experimento de
plagas agrícolas, comprobó que las transformaciones empleadas no mejoraron el
cumplimiento de los supuestos del ANAVA. Por otra parte, Font et al. (2007) en un
67
experimento con aves, donde usa las transformaciones X y Log X, sin mejorar
el cumplimiento de estos supuestos.
Menchaca (1973) indica que las transformaciones de datos deben ser utilizadas
con eficacia en la práctica, sin embargo en el análisis anterior realmente no es así
porque en la mayoría de los casos no resultaron adecuadas.
Cochran y Cox (1999) plantean que las transformaciones de datos se utilizan
cuando los errores experimentales siguen una distribución asimétrica, y en tal
sentido se busca una transformación que coloque a los datos en una escala tal
que la varianza del error sea casi constante.
Sin embargo, en la investigación que se realiza se observa que no se hace empleo
de otros Métodos Estadísticos alternativos, sin necesidad de recurrir al uso de las
transformaciones de datos. En esta dirección se sugiere una reflexión por parte de
los investigadores con los especialistas de Estadística, para definir el método más
adecuado según los objetivos propuestos en la investigación.
Se concluye que en muchas ocasiones las transformaciones empleadas no
mejoran el cumplimiento de los supuestos del ANAVA, y es frecuente un uso
excesivo de las mismas sin que se logre el objetivo para el cual fueron propuestas.
68
3.3.1.2. Probabilidad de error tipo I y potencia de la dócima F
En la tabla 3.2 se observa que de las 66 variables analizadas, para el DCA en la
dócima F de Fisher (con y sin transformación), y esta comparada con su homóloga
no paramétrica Kuskal-Wallis, en el 100 % de los casos se mantiene el mismo
criterio de decisión.
Tabla 3.2. Frecuencia de coincidencias en la toma de decisión.

DCA DBA
Dócimas No. % No. %
F de Fisher C/T y S/T 66 100 33 97,05
F de Fisher S/T y - -
Kruskal-Wallis 66 100
F de Fisher C/T y - -
Kruskal-Wallis 66 100
F de Fisher S/T y - -
Friedman 31 91,7
F de Fisher C/T y - -
Friedman 30 88,2
En el caso del DBA se observó que de las 34 variables analizadas, para el caso de
la dócima F de Fisher (con y sin transformación de datos) se dan las mayores
coincidencias (97,05%). Este resultado coincide con los obtenidos por Siegel
(1970), al referirse a un análisis realizado por Friedman en 1937 y con los
obtenidos por Guerra et al. (2000), considerando este mismo diseño.
Es de destacar que en la tabla 3.2, en la primera línea la dócima F de Fisher (con
y sin transformación) presenta resultados similares en cuento a la toma de
decisiones.
69
Para verificar si existen cambios significativos entre los valores de probabilidad de
error tipo I de la dócima F de Fisher (con y sin transformación de datos) para los
DCA, DBA y ambos diseños, comparadas con sus homólogas no paramétricas
Kruskal-Wallis y Friedman respectivamente, al igual que las potencias (con y sin
transformación de datos) se empleó la dócima de McNemar, según lo propuesto
por Siegel (1970) y Siegel y Castellan (1995).
En la tabla 3.3 se evidencia la no existencia de cambios significativos entre las
probabilidades de error tipo I de la dócima F de Fisher (con y sin transformación
de datos), pues los valores de probabilidad son superiores a 0,05, se aprecia
estabilidad en los resultados, como en la tabla 3.2.
Sin embargo, cuando se compara la dócima F de Fisher sin transformación de
datos con sus homólogas no paramétricas se aprecia que solo en el DBA (con la
dócima no paramétrica Friedman) se muestran cambios significativos.
Tabla 3.3. Resultados de la dócima de McNemar para los valores de probabilidad

de error tipo I.
Dócima F de Fisher S/T y
Dócima F de Fisher C/T y S/T dócima homóloga NP
Diseños Estadístico Valor p Estadístico Valor p
DCA 0,33 0,25 0,001 0,63
DBA 1,00 0,98 3,00 0,0001
Ambos 0,001 0,65 1,29 0,13
Se considera que este resultado está asociado a que de las 34 variables
analizadas, con respecto a la dócima de Friedman, 26 de estas (76,47%),
70
presentan probabilidades de error tipo I por encima de 0,05, y la dócima F de
Fisher posee 20 variables (58,82%) en esta situación.
Por otra parte en el DCA, de las 66 variables analizadas, la dócima Kruskal-Wallis
presenta probabilidades de error tipo I por encima de la F de Fisher, en 43 casos,
que representa el 65,15%. Por lo que los valores de probabilidad de error tipo I de
las dócimas Kruskal-Wallis y Friedman fueron superiores a la de F de Fisher
(65,15 y 76,47) respectivamente, aspecto que se considera que debe ser
analizado con mayor profundidad en próximas investigaciones.
Un estudio similar a este fue realizado por Quintero y Durán (2008) en
investigaciones forestales, los que emplearon la dócima de McNemar para
comparar los valores de probabilidad de error tipo I de las dócimas  2 de bondad
de ajuste y Rao-Scott con corrección de 2do orden, para establecer la existencia de
cambios significativos.
Al verificar la existencia de cambios significativos para las potencias (con y sin
transformación de datos) tabla 3.4, se observa que el DBA mostró cambios
significativos, lo que se considera que está dado a que cuando se analizan las
potencias con y sin transformación, la mayor cantidad de variables tienen valores
por debajo del 80%, 20 de estas representan el 59% y 24 el 71% respectivamente.
71
Tabla 3.4. Resultados de la dócima de McNemar para las potencias de la dócima
F de Fisher.
Diseños Estadístico Valor P
DCA 0,20 0,97
DBA 3,00 0,0001
Ambos 0,11 0,51
La potencia de una dócima es un indicador que en muchas ocasiones no es tenido
en cuenta en las investigaciones, lo que merece una atención especial en la toma
de decisiones, por la información que aporta.
En tal sentido resulta oportuno señalar que en general no se tiene en cuenta el
uso de las tablas propuestas por Menchaca (1974, 1975); Venereo (1976);
Caballero (1979) y Menchaca y Torres (1985), las que sirven de apoyo para la
aplicación de los Modelos de ANAVA. Es importante destacar que en la actualidad
existe el apoyo de algunos paquetes estadísticos entre los que se encuentran el
InfoStat, el G Power y el SPSS, que aportan el valor de la potencia.
De los resultados obtenidos del Modelo de ANAVA paramétrico y no paramétrico,
aplicados a los DCA y DBA, se resume que:
 El uso de las transformaciones de datos no resuelven en muchos de los

casos el incumplimiento de los supuestos teóricos en los Modelos de
ANAVA para los DCA y DBA.
 Las dócimas no paramétricas Kruskal-Wallis y Friedman, comparadas con F

de Fisher (con y sin transformación de datos) presentan altos indicadores
72
de eficiencia relativa, dado por el nivel de coincidencia en la toma de
decisiones.
 No se mostraron cambios significativos para los valores de probabilidad de

error tipo I de la dócima F de Fisher (con y sin transformación de datos).
 No se observan cambios significativos en las probabilidades de error tipo I

de la dócima F de Fisher con sus homólogas no paramétricas Kruskal-
Wallis y Friedman.
 Los valores de potencias (con y sin transformación de datos) no poseen

cambios significativos para el DCA y en ambos diseños, no así para el DBA.
3.3.3. Análisis de Componentes Principales Categórico. Aplicación a
indicadores de los Modelos de Análisis de Varianza.
Para realizar un análisis integral de los indicadores establecidos con anterioridad
se aplicó el Análisis de Componentes Principales Categórico (CATPCA), para
identificar los más importantes y sus posibles relaciones.
En la tabla 3.5 se observa que el método logra explicar aproximadamente el 61%
de variabilidad de la información original, en dos dimensiones, con un coeficiente
Alfa de Cronbach total que expresa un nivel de fiabilidad excelente (0,94), lo que
indica que el método empleado es adecuado.
Se destaca en la dimensión uno que explica 43% de la varianza total, con un Alfa
de Cronbach de 0,88, lo que evidencia que las variables originales representadas
en esta dimensión presentan un buen nivel de fiabilidad, según la escala
73
propuesta por Hair et al. (1999), que considera que el método es aceptable,
cuando el valor de este coeficiente está entre 0,6 y 0,7.
Tabla 3.5. Resultados del coeficiente Alfa de Cronbach para los indicadores de los
Diseños Completamente Aleatorizados y Bloques al Azar.
Varianza explicada
Alfa de Total % de la
Dimensión Cronbach (Autovalores) varianza
1 ,880 5,176 43,130
2 ,576 2,120 17,671
Total ,941 7,296 60,800
Los indicadores que presentan mayor peso por cada dimensión se muestran en la
tabla 3.6, en la dimensión uno están los relacionados con la probabilidad de error
tipo I y la potencia. En la dimensión dos sobresalen los indicadores relacionados
con el número de tratamiento (No. tto), tipo de diseño (DCA y DBA) y tipo de
experimento.
Tabla 3.6. Resultados de los pesos de los indicadores por cada dimensión para los
Diseños Completamente Aleatorizados y Bloques al Azar.
Dimensión
Indicadores
1 2
Tipo de experimento -,351 -,673
Cumplimiento de los supuestos sin transformación -,027 ,372
Cumplimiento de los supuestos con transformación -,179 ,329
Probabilidad de error tipo I sin transformación ,923 -,186
Probabilidad de error tipo I con transformación ,952 -,152
Probabilidad de error tipo I no paramétrica ,942 -,068
Potencia sin transformación -,938 ,061
Potencia con transformación -,905 ,122
Tamaño de muestra ,581 -,173
Número de tratamientos ,236 ,764
Diseño ,505 ,730
Distribución -,157 ,439
74
Los indicadores que sobresalen en la dimensión uno presentan correlaciones por
encima de 0,80 en valor absoluto y los de la dimensión dos tienen correlaciones
positivas por encima de 0,70 (Anexo 3). Se debe destacar que las altas
correlaciones negativas entre los valores de probabilidad de error tipo I y las
potencias, se traducen en que a bajos valores de p corresponden altas potencias.
Estos resultados coinciden con los obtenidos por Vásquez (2013) cuando realiza
un análisis de correlación entre las probabilidades de error tipo I y las potencias,
diferentes tamaños de muestras y réplicas en un diseño de Bloques al Azar,
considerando distribución Normal y Binomial.
En el análisis del gráfico Biplot, (figura 3.1), se corrobora lo antes señalado
respecto a la asociación importante de los valores de probabilidad de error tipo I y
de las potencias (con y sin transformación de datos), presentando posiciones que
reflejan las altas correlaciones negativas.
75
Figura 3.1. Biplot de los indicadores analizados.
Se considera que este aspecto está dado por lo señalado por Steel y Torrie
(1992); Peña (1994) y Torres et al. (1998) que plantean que la dócima F de Fisher
tiene la característica de ser robusta ante la heterogeneidad de varianza y su poca
afectación, sobre todo, cuando se trabaja con igual número de observaciones por
tratamientos, como es el caso de los diseños analizados.
Por otra parte las altas correlaciones negativas entre la potencia y la probabilidad
de error tipo I para el caso de la dócima no paramétrica, se debe a que está última
con respecto a la dócima paramétrica (bajo el supuesto de distribución Normal)
presenta una alta Eficiencia Asintótica Relativa (ARE), que es del 95,5%. Esto
significa que para lograr iguales resultados, la dócima no paramétrica debe tener
76
un tamaño de muestra de 100, mientras la paramétrica un tamaño de muestra de
95 observaciones, este último aspecto es abordado por Siegel (1970); Siegel y
Castellan (1995) y De Calzadilla (1999), basado en el criterio de potencia-
eficiencia.
Aunque el tamaño de muestra no se asocia de manera importante con ninguno de
los indicadores, es un aspecto a considerar en las investigaciones. En este
sentido, Vásquez (2011) realiza un estudio utilizando datos simulados bajo el
supuesto de distribución Binomial, considerando entre diferentes indicadores el
porciento de rechazo de Ho y obtuvo resultados similares, al comparar la dócima F
de Fisher con su homóloga no paramétrica de Friedman, asociado al DBA.
Se aprecia la asociación del diseño con el número de tratamientos (identificados
en la dimensión dos), esto responde a que los diseños presentan diferentes
números de tratamientos de acuerdo a los experimentos analizados.
En resumen se considera que al ser la dócima F de Fisher robusta hace que
presente una alta potencia conjuntamente con una baja probabilidad de cometer
error tipo I, manifestada en las altas correlaciones negativas entre las potencias y
los valores de probabilidad de error tipo I (con y sin transformación de datos).
La tabla 3.7 presenta el análisis de CATPCA para los indicadores estudiados
relacionados con los DCA y DBA con arreglo factorial de los tratamientos. Al igual
que el análisis anterior en dos dimensiones se logra explicar aproximadamente
77
una varianza total del 93%, con un Alfa de Cronbach que presenta un nivel de
fiabilidad excelente de 0,98, lo que muestra que el método empleado es
adecuado, en este sentido se destaca la dimensión uno con una varianza
explicada de 61,31%.
Tabla 3.7. Resultados del coeficiente Alfa de Cronbach para los experimentos con
arreglo factorial de los tratamientos.
Varianza explicada
Alfa de Total % de la
Dimensión Cronbach (Autovalores) varianza
1 ,910 4,905 61,313
2 ,692 2,532 31,654
Total ,989 7,437 92,967
En la tabla 3.8 se presentan los indicadores con mayor peso o ponderación por
cada dimensión, se destacan en la dimensión uno los indicadores relacionados
con las probabilidades de error tipo I y las potencias, al igual que el análisis
anterior presentan una asociación importante, mostrando correlaciones positivas y
negativas de muy altas a perfectas por encima de 0,90 (Anexo 4), lo que reafirma
que a altos valores de potencias bajos valores de probabilidades de error tipo I.
No aparece en la tabla 3.8 los indicadores Cumplimiento de los supuestos sin
transformación porque fue excluido al presentar resultados constantes y la
distribución de los datos porque fue la misma para todos los casos.
78
Tabla 3.8. Resultados de los pesos de los indicadores por cada dimensión para los
experimentos con arreglo factorial de los tratamientos.
Dimensión
Indicadores
1 2
Tipo de experimento ,219 -,947
Cumplimiento de los supuestos con transformación -,168 ,820
Probabilidad de erro tipo I sin transformación ,983 ,129
Probabilidad de error tipo I con transformación ,983 ,129
Probabilidad de error tipo I no paramétrica ,983 ,130
Potencia sin transformación -,954 -,068
Potencia con transformación -,986 -,108
Tamaño de muestra -,219 ,947
En esta misma tabla se observa que en la dimensión dos sobresalen los
indicadores relacionados con el tipo de experimento, cumplimiento de los
supuestos teóricos y el tamaño de muestra, además se observa que estos
indicadores presentan correlaciones altas de 0,685 y -1,000 (Anexo 4).
En la figura 3.2 se presenta el Biplot de los indicadores para los experimentos con
arreglo factorial de los tratamientos, se considera como aspecto de interés una
agrupación similar entre las probabilidades de error tipo I y las potencias, a las
presentadas en el Biplot de la figura 3.1 y los argumentos dados.
79
Figura 3.2. Biplot de los indicadores para los experimentos con arreglo factorial de
los tratamientos.
Para confirmar los resultados anteriores y teniendo en cuenta los aspectos que
inciden en la potencia estadística, dado por Menchaca y Torres (1985) y Camacho
(2007), se realizó el análisis de Regresión Categórica (CATREG) para establecer
la relación entre la potencia (con y sin transformación de datos) con los
indicadores que teóricamente deben incidir en esta.
Al analizar la potencia sin transformación con el resto de los indicadores, se
obtiene que el coeficiente de determinación (R2) es 0,91, por lo que la regresión
logra explicar el 91% de la variabilidad de la potencia.
En la tabla 3.9 se aprecia que el indicador que tiene una influencia significativa
negativa sobre la potencia sin trasformar, es el valor de probabilidad de error tipo I
80
sin transformar, resultado que reafirma los obtenidos con anterioridad, pues siguen
siendo estos indicadores los de mayor importancia en el análisis.

potencias sin transformación.
Coeficientes tipificados
Bootstrap
(1000)
Indicadores Estimación
de error
Beta típico gl F Sig.
Tipo de experimento -,039 ,079 2 ,235 ,791
Cumplimiento de los supuestos
sin transformación -,051 ,081 2 ,404 ,669
Probabilidad de error tipo I sin
transformación -,808 ,078 3 106,939 ,000
Tamaño de muestra -,190 ,112 2 2,849 ,065
Número de tratamientos -,127 ,127 2 ,992 ,376
Diseño -,009 ,095 2 ,008 ,992
Distribución -,020 ,081 2 ,058 ,944
La tabla 3.10 muestra la importancia relativa de la contribución de las variables
predictoras en la potencia, en que se reitera la probabilidad de error tipo I sin
transformación, como el indicador más importante, aspecto analizado en el
Análisis de Componentes Principales Categórico (CATPCA).
Tabla 3.10. Importancia de los indicadores en CATREG para potencias sin

transformación.
Indicadores Importancia
Tipo de experimento -,006
Cumplimiento de los supuestos sin transformación ,001
Probabilidad de error tipo I sin transformación ,864
Tamaño de muestra ,109
Número de tratamientos ,031
Diseño ,004
Distribución -,003
81
Cuando se analiza la potencia con transformación, con los mismos indicadores
anteriores, se observa que el 89% de la variabilidad de la potencia está explicada
por los indicadores analizados, resultado similar a cuando se realizó la relación
con la potencia sin transformar.
Al igual que el análisis anterior se observa que el único indicador que tiene una
influencia significativa sobre la potencia trasformada, es la probabilidad de error
tipo I con transformación, expresado en la tabla 3.11, lo que muestra que la
relación de la potencia (con y sin transformación de los datos) con los indicadores
dados presentan resultados similares, en resumen se considera que estos son
invariante respecto a la transformación de los datos.

potencias con transformación
Coeficientes
tipificados
Bootstrap
Indicadores (1000)
Estimación
de error
Beta típico gl F Sig.
Código -,125 ,134 2 ,878 ,420
Tamaño de muestra -,126 ,118 3 1,143 ,338
Número de tratamientos -,062 ,193 1 ,104 ,748
Diseño -,007 ,157 2 ,002 ,998
Distribución -,068 ,050 2 1,838 ,167
Cumplimiento de los supuestos con
transformación ,010 ,082 1 ,014 ,906
Probabilidad de error tipo I con -,837 ,092 3 82,924 ,000
transformación
Se reitera como indicador más importante con relación a la variable respuesta la
probabilidad de error tipo I, corroborando los resultados del CATPCA.
82
Tabla 3.12. Importancia de los indicadores en CATREG para potencias con
transformación.
Indicadores Importancia
Tipo de experimento -,002
Tamaño de muestra ,069
Número de tratamientos ,014
Diseño ,002
Distribución -,010
Cumplimiento de los supuestos con transformación ,002
Probabilidad de error tipo I con transformación ,926
3.3.4. Consideraciones parciales.
 Se identifican y visualizan los indicadores más importantes, corroborando

los resultados obtenidos mediante los análisis bivariados.
 Los resultados obtenidos con los indicadores en los DCA y DBA y para
ambos diseños con arreglo factorial de los tratamientos, mostraron
resultados similares, en cuanto a la probabilidad de error tipo I, así como las
altas correlaciones negativas entre este indicador y la potencia.
 La distribución de los datos no mostró relación de importancia con el resto

de los indicadores analizados.
 Se evidenció la fuerte relación entre la potencia y la probabilidad de error

tipo I (con y sin transformación de datos) en los Modelos de ANAVA de
efectos fijos (unifactorial y multifactorial).
83
CAPÍTULO IV
EL MODELO LINEAL GENERALIZADO.
APLICACIÓN A DIFERENTES
DISTRIBUCIONES.
CAPÍTULO IV. El MODELO LINEAL GENERALIZADO. APLICACIÓN A
DIFERENTES DISTRIBUCIONES.
4.1. Introducción
En este capítulo se emplea el Modelo Lineal Generalizado para las variables con
distribuciones Normal, Binomial y Poisson con sus correspondientes funciones de
enlace.
Se realiza un análisis comparativo del Modelo Lineal General (MLG) y el Modelo
Lineal Generalizado (MLGnz), a partir de varios indicadores se realiza un análisis
multidimensional, con el objetivo de: Analizar de forma integral indicadores
estadísticos del Modelo Lineal Generalizado, para establecer criterios de valor
teórico-práctico.
4.2.1. Características principales de las investigaciones
Como continuidad al análisis estadístico anterior, se seleccionaron 26 variables de
las incluidas en el capítulo III, considerando aquellas que tienen distribuciones de
tipo Normal, Binomial y Poisson, por ser estas las más frecuentes en las variables
analizadas en el proceso de investigación.
84
4.2.2. Modelo Lineal Generalizado
Se utilizó el Modelo Lineal Generalizado (MLGnz) propuesto por Nelder y
Wedderburn (1972) como una extensión del Modelo Lineal General. Este modelo
comprende los siguientes componentes:
Yij     i  e ij
Donde:
Yij: Variable respuesta perteneciente a un miembro de la familia exponencial.
: Media general.
i: Efecto del i-ésimo tratamiento (i= 1;2….n).
eij: efecto del i-ésimo error aleatorio asociado a la j-ésima observación (j = 1,2…n).
i  g  =    g 1
Donde:
 i : Se denomina predictor lineal, que está definido de la misma forma que el
Modelo Lineal General.
g: Una función de enlace monótona diferenciable que se describe como el valor

esperado de Yi, se relaciona con el predictor lineal  .
i
Las funciones de enlace considerando las distribuciones seleccionadas se
expresan en la tabla 4.1.
85
Tabla 4.1. Distribuciones y funciones de enlace.
Distribución Función de enlace
Normal Identidad:   
Poisson Logarítmica:   log  
  
Binomial Logística:   log  
1  
4.2.2.1. Procesamiento y análisis estadístico de la información
Se aplicó el Análisis de Varianza paramétrico según Diseño Completamente
Aleatorizado y el MLGnz, de acuerdo a los indicadores seleccionados.
1. Tratamiento (Tto)
2. Tamaño de muestra (TM)
3. Tipo de experimento (Tipoexp)
4. Valor de p de la dócima F de Fisher del MLG (PerrorIF)
5. Valor de p para la dócima del MLGnz (PerrorI )
6. Suma de cuadrado del error del MLG (SCerror MLG)
7. Devianza del MLGnz como criterios de bondad de ajuste (Devia MLGnz)
8. Distribución de las variables (Distribución)
Con estos indicadores se aplicó el análisis de Escalamiento Óptimo, con el
objetivo de identificar y visualizar la información mediante el gráfico Biplot, a partir
del Análisis de Componentes Principales Categórico (CATPCA).
La base de datos fue procesada utilizando el tabulador electrónico Microsoft
EXCEL versión 9.0 (2003). Para determinar la suma de cuadrado del error y la
86
probabilidad de error tipo I del MLG, se empleó el paquete estadístico Infostat
(2008). En el caso del MLGnz se empleó el paquete estadístico SAS versión 9.1.3
(2007) procedimiento GENMOD (Generalized Linear Model).
4.3.1. Modelo Lineal General y Modelo Lineal Generalizado. Probabilidad de
error tipo I
En la tabla 4.2 se muestran los rangos de probabilidad de error de tipo I para los
modelos analizados; se observa que de las 26 variables analizadas 25 (8+13+4),
coinciden en la toma de decisiones, que representan el 96,15% de estas.
Tabla 4.2. Frecuencia de los rangos de probabilidad de error tipo I de la dócima F

de Fisher y la dócima  2 .
Dócima  2 Dócima F de Fisher (MLG)
(MLGnz) <0,01 0,01-0,05 >0,05 Total
<0,01 8 4 1 13
0,01-0,05 0 0 0 0
>0,05 0 0 13 13
Total 8 4 14 26
En resumen en el MLG y el MLGnz presentan resultados similares en la toma de
decisión, no obstante el MLGnz rechaza a niveles más bajos (<0,01) que el MLG
(<0,05) de probabilidades de error tipo I. Esto puede estar dado a que estos
modelos mantienen cierta relación, pues el MLGnz es una extensión del MLG, con
la característica que no tiene que cumplir los supuestos del ANAVA, y al igual que
el MLG, posee una parte sistémica, según lo planteado por González (2001).
87
Según Ponsot (2009), cuando la variable respuesta se distribuye Normal y siendo
la función de enlace la Identidad (    ), el MLGnz se reduce al MLG. En
cualquier otro caso, el MLGnz cobra su propio espacio y tanto la estimación de los
parámetros como el ANAVA, deben ser realizados por métodos diferentes a los
propuestos para el MLG. Por lo que los métodos de estimación del MLGnz se
realizan a través de un proceso iterativo y a su vez presentan una medida de
bondad de ajuste llamada Devianza.
4.3.2. Análisis de Componentes Principales Categórico, para el análisis de
indicadores del Modelo Lineal General y el Modelo Lineal Generalizado.
En la tabla 4.3 se presentan los resultados del coeficiente Alfa de Cronbach. Se
muestra la adecuación del método, y que en ambas dimensiones se logra explicar
el 72,26% de la variabilidad de la información original.
Tabla 4.3. Resultados del coeficiente Alfa de Cronbach para el Modelo Lineal
General y Modelo Lineal Generalizado.
Varianza explicada
Dimensión Alfa de Total % de la
Cronbach (Autovalores) varianza
1 ,814 3,472 43,402
2 ,648 2,309 28,858
Total ,945 5,781 72,260
En la primera dimensión se relacionan los indicadores de las probabilidades de
error tipo I de la dócima F de Fisher del MLG, y la dócima  2 del MLGnz, la suma
de cuadrado del error, la Devianza y la distribución. En la segunda dimensión
88
resultan importantes los indicadores tamaño de muestra y tipo de experimentos
(tabla 4.4).
Tabla 4.4. Resultados de los pesos de los indicadores por cada dimensión para el
Modelo Lineal General y el Modelo Lineal Generalizado.
Dimensión
Indicadores
1 2
Tratamientos ,526 ,350
Tamaño de muestra -,303 ,861
Tipo de experimento -,527 ,719
Probabilidad de error tipo I dócima F de Fisher -,804 ,354
Probabilidad de error tipo I dócima X2 -,795 ,347
Suma de cuadrado del error MLG ,761 ,410
Devianza MLGnz ,696 ,507
Distribución -,696 -,507
Las probabilidades de error tipo I de ambas dócimas, presentan correlaciones
altas positivas entre sí como se observa en el Anexo 5. Esto está dado porque se
parte de la misma fuente de información del capítulo anterior y por la relación que
existe entre ambos modelos.
En el caso de la suma de cuadrado del error en el MLG y la Devianza del MLGnz,
se observa una correlación alta positiva. Se considera que se debe a que estos
indicadores miden dispersión en estos modelos, según Kaps y Lamberson (2004),
la Devianza es análoga a la Suma de cuadrado del error del MLG.
Por otra parte se observa que el tamaño de muestra y el tipo de experimento
presentan correlaciones muy altas como se aprecia en el Anexo 5, en el análisis
se tuvo en cuenta diferentes tipos de experimentos que tenían diferentes tamaños
de muestras de 3 a 15.
89
En la figura 4.1 se presenta el Biplot de los indicadores analizados a partir de los
resultados del CATPCA. Es de destacar la agrupación de los indicadores de
dispersión del MLG y el MLGnz en posición opuesta a la distribución de los datos
por las altas correlaciones negativas y la agrupación casi perfecta de las
probabilidades de error tipo I para ambos modelos.
Figura 4.1. Biplot de los indicadores estadísticos de los Modelos Lineal General y
La distribución de los datos muestra una correlación alta y negativa con la suma
de cuadrado del error (r=-0,649) y una correlación prefecta negativa con la
Devianza (r=-1,000) (Anexo 5). Se considera que esta correlación perfecta
negativa entre la distribución de los datos y la Devianza, se debe a que en el
MLGnz se requiere el conocimiento de la distribución de los datos para establecer
la función de enlace correspondiente; por lo tanto el paso del MLGnz ajustado con
90
la distribución adecuada a los datos, a un ajuste con otra distribución, debe
provocar un aumento en el indicador de dispersión, que incide de forma negativa
en la precisión de los resultados.
4.3.3. Análisis comparativo del Modelo Lineal General y el Modelo Lineal
Generalizado y acciones metodológicas relacionadas con estos modelos.
Para realizar un análisis comparativo de los resultados del MLG y el MLGnz se
utilizó un experimento desarrollado en la Empresa Genética “Camilo Cienfuegos”,
de la provincia de Pinar del Río en el período 2007-2008, relacionada con la
producción del pasto Pennisetum purpureum (cv. Cuba CT-115).
Se analizaron tres muestreos y como caso de estudio se seleccionó el muestreo
dos que comprendió los meses junio-julio de 2007. Se empleó un DCA con tres
tratamientos y diez repeticiones. Los tratamientos consistieron en diferentes
métodos de siembra de pastos:
- Plantación a vuelta de arado sin preparación del suelo.
- Plantación a vuelta de arado con bueyes en suelo con preparación

convencional.
- Plantación a vuelta de arado con tractor en suelo con preparación

convencional.
91
Las variables analizadas fueron:
1. No. tallos.
2. No. rebrotes.
3. No. hojas totales/tallos.
4. No. hojas totales/rebrotes.
5. No. hojas secas/tallos.
6. No. hojas secas/rebrotes.
Se verificó que la distribución de las variables es de tipo Poisson con la función de
enlace log μ .
El modelo que se empleó es el siguiente:
Yij     i  e ij
donde:
Yij: variable dependiente.
 : media general.
i : efecto del i-ésimo tratamientos. (i = 1,2, 3)
eij: efecto del i-ésimo error aleatorio asociado a la j-ésima observación (j =

1,2……10).
La función de enlace es:
η (μ) = log (μ)
Donde:
η (μ): función que relaciona a la media con el predictor lineal;
log (μ): función de enlace asociada a la distribución Poisson.
92
Para la bondad de ajuste del modelo se tuvieron en cuenta los criterios de
2
Devianza/gl y  gl (Chi - cuadrado).
En la tabla 4.5 se presentan los resultados de MLGnz para las variables
analizadas, teniendo en cuenta los criterios de bondad de ajuste a partir de la
distribución Poisson, con función de enlace logarítmica. Se observa que las
variables No. de tallos y No. rebrotes hojas totales obtienen valores del cociente
2
de la Devianza y de  gl cercanos a 1, lo que indica que el modelo para esas
variables presentó un buen ajuste.
Mora et al. (2007) y Dos Santos y Mora (2007) afirman que cuando estos
indicadores muestran valores cercanos a 1, se evidencia que el modelo presenta
un ajuste apropiado.
Tabla 4.5 Resultados de los criterios de bondad de ajuste al aplicar el Modelo

2 de SCerror
Variables GL Devianza Pearson Desvianza/GL 2 /GL MLG
No. tallos 27 25,95 27,53 0,96 1,01 297,20
No. rebrotes 27 13,05 13,08 0,48 0,48 91,00
No. tallos
hojas totales 27 39,82 41,57 1,47 1,54 1733,71
No. rebrotes
hojas totales 27 19,71 19,92 0,73 0,74 330,11
No. tallos
hojas secas 27 6,32 6,33 0,23 0,23 70,90
No. rebrotes
hojas secas 27 45,29 37,87 1,68 1,40 138,00
93
Los valores por debajo o por encima de uno, son considerados como que existe
una subestimación o sobrestimación del modelo. Esto puede estar asociado a
diferentes causas de variación que no se tuvieron en cuenta, y se presenta en las
variables, No. rebrotes, No. tallos hojas totales, No. tallos hojas secas y No.
rebrotes hojas secas.
Según Morales y López (2009), en el análisis de datos relacionados con
proporciones y conteos, es común que haya presencia de sobrestimación,
situación que se presenta cuando la varianza expresada por los datos es mucho
más grande que la que predice el modelo.
Se determinó el grado de asociación entre las Devianzas y la suma de cuadrado
del error, mediante el coeficiente de correlación por rango de Spearman, el
resultado es r=0.60, que es similar a lo que se reporta en el Anexo 5, que es de
r=0,649.
En la tabla 4.6 se observa que existe coincidencia en la toma de decisiones de los
resultados obtenidos, aunque en la variable No. tallos hojas secas, el valor de
probabilidad de error tipo I del MLG y MLGnz son muy diferentes, en este caso la
dócima de McNemar no detectó cambios significativos.
94
Tabla 4.6. Resultados de los valores de probabilidad de error tipo I para el Modelo
Lineal General y el Modelo Lineal Generalizado.
Valor de Dócima de McNemar
probabilidad de Estadístico Valor P
error tipo I
Variables MLG MLGnz
No. tallos 0,1122 0,0841
No. rebrotes 0,0018 0,0180
No. tallos hojas totales 0,0463 0,0040 0,001 0,78
No. rebrotes hojas totales 0,0001 0,0001
No. tallos hojas secas 0,0026 0,1725
No. rebrotes hojas secas 0,2440 0,1161
El MLGnz, según Ojeda (2004), Montgomery et al. (2005) y Cayuela (2010), es
una técnica unificadora que agrupa los Modelos de Análisis de Varianza (ANAVA),
y de Regresión clásicos, los Modelos no lineales como el Logístico y el de
Poisson, entre otros. Una hipótesis fundamental de este modelo es que la
distribución de la variable respuesta es un miembro de la familia exponencial de
distribuciones que incluye, la Normal, la Binomial, la de Poisson, la Normal
Inversa, la Exponencial y la Gamma, entre otras.
Aunque la toma de decisión en ambos modelos es similar, el MLGnz es mucho
más flexible que el MLG, pues la variable respuesta no requiere del cumplimiento
de los supuestos del Análisis de Varianza paramétrico, sólo se requiere conocer la
distribución de los datos y la función de enlace asociada a esta.
 Entre el Modelo Lineal General y el Modelo Lineal Generalizado existen
correspondencias en cuanto a las probabilidades de error tipo I y los
95
indicadores de dispersión, dados por la suma de cuadrado del error y la
Devianza.
 El Modelo Lineal Generalizado resulta otra alternativa de análisis, al igual
que los Métodos Estadísticos no paramétricos, en presencia de variables
que no distribuyen de forma Normal.

4.3.5 Propuesta de acciones metodológicas para investigaciones
relacionadas con la aplicación del Modelo de Análisis de Varianza
La propuesta de acciones metodológicas relacionadas con el Modelo de Análisis
de Varianza se resume en la figura 4.2, entre los aspectos que se proponen
sobresalen con mayor interés:
 La aplicación de la propuesta de acciones para diferentes tipos de
variables.
 En el análisis a priori o a posteriori, se propicia la realización de una
valoración crítica de aspectos como: tamaño de muestra, potencia de la
dócima F de Fisher, variabilidad de los datos y criterios técnicos del
investigador y del estadístico, entre otros aspectos.
 Realizar una valoración crítica sobre las consecuencias del incumplimiento
de los supuestos teóricos del Modelo de Análisis de Varianza y a partir de
aquí asumir la mejor opción, como:
96
- Uso del Modelo de Análisis de Varianza paramétrico (si no son serias
las consecuencias en el incumplimiento de los supuestos de Análisis
de Varianza.
- Uso del Modelo de Análisis de Varianza no paramétrico.
- Uso de la transformación de datos.
- Uso del Modelo Lineal Generalizado.
97
Investigaciones relacionadas con la aplicación del
Modelo de ANAVA
Aplicable a diferentes tipos

de variables
A priori A posteriori
Planeación de
la investigación
Modelo de ANAVA paramétrico
Evaluar el cumplimiento de los Valorar las consecuencias

supuestos teóricos en cada caso
Si No Alternativas
Valorar: tamaño de muestra,

potencia de la dócima F, variabilidad Uso del Modelo Uso de
de los datos, criterios técnicos del de ANAVA transformación de
investigador y el estadístico paramétrico datos
Uso del Modelo de Uso del

Definir el Modelo de ANAVA no MLGnz
ANAVA paramétrico
Ejecutar el No
experimento Si
Cumplimiento de los
supuestos teóricos
Obtener los resultados
experimentales
Procesamiento, análisis e interpretación de los

resultados en el contexto dado
Figura 4.2. Propuesta de acciones metodológicas para investigaciones que aplican el

Modelo de Análisis de Varianza.
98
CONCLUSIONES
CONCLUSIONES
1. Se manifiesta una alta preferencia por el empleo de las transformaciones de

datos y en la mayoría de los casos analizados no resuelven el cumplimiento
de los supuestos teóricos básicos del Modelo de Análisis de Varianza.
2. Se pone en evidencia poco empleo de los Métodos Estadísticos no

paramétricos en las investigaciones agropecuarias.
3. La docima F de Fisher (con y sin transformación de datos) y con sus

homólogas no paramétricas Kruskal-Wallis y Friedman, presentaron
resultados similares en la toma de decisiones, dado por el alto nivel de
coincidencia en las probabilidades de error tipo I.
4. La potencia y la probabilidad de error tipo I son los indicadores que más se

destacan en los análisis realizados, mostrando una alta correlación
negativa.
5. El Modelo Lineal Generalizado resulta una alternativa de análisis, cuando

la variable respuesta incumple los supuestos teóricos básicos del Modelo
de Análisis de Varianza y en comparación con el Modelo Lineal General
presenta un grado de asociación de importancia con los indicadores
probabilidad de error tipo I y de variabilidad.
6. Las acciones metodológicas propuestas establecen orientaciones de valor

teórico-práctico para el empleo adecuado de la transformación de datos, los
Modelos de Análisis de Varianza de efectos fijos (paramétrico y no
paramétrico) y el Modelo Lineal Generalizado.
99
RECOMENDACIONES
RECOMENDACIONES
1. Capacitar a técnicos y usuarios de la Estadística sobre el empleo adecuado

de la transformación de datos, los Métodos Estadísticos no paramétricos y
el Modelo Lineal Generalizado.
2. Utilizar la transformación de datos en casos muy bien fundamentados por

criterios técnicos del investigador y el estadístico.
3. Ante tamaños de muestra pequeño que aporten bajas potencias y no

detecten diferencias significativas que resulten evidentes para el
investigador, se sugiere como mejor opción el Modelo de Análisis de
Varianza no paramétrico, y con un conocimiento a priori de la distribución
de los datos se sugiere utilizar el Modelo Lineal Generalizado.
4. Continuar profundizando sobre el criterio de potencia-eficiencia de los

Métodos Estadísticos no paramétricos y paramétricos, relacionados con
diferentes variables discretas y continuas.
5. Continuar evaluando el comportamiento del Modelo Lineal Generalizado

con diferentes distribuciones de los datos.
100
REFERENCIAS
BIBLIOGRÁFICAS
Referencias bibliográficas
Agresti, A. 2007. Categorical Data Analysis. Editorial John Wiley & Sons. 2ª
edition. 349 p.
Álvarez, R. 2008. Estadística multivariante y no paramétrica con SPSS: Aplicación

a las ciencias de la salud. España: Díaz de Santos. [Consultado: 10 octubre
2009] Disponible en:
http://site.ebrary.com/lib/unlsp/Doc?id=10212356&ppg=361.
Aranzazu, D. A.; Rodríguez, B. J.; Zapata, M.; Bustamante, J. y Restrepo, L. F.

2007. Aplicación del análisis de factor de correspondencia múltiple en un
estudio de válvulas cardíacas en porcinos. Revista Colombiana de Ciencias
Pecuarias. 20(2) 129-140.
Arce, C.; de Francisco, C. y Arce, I. 2010. Escalamiento Multidimensional:

Concepto Y Aplicaciones. Revista Papeles del Psicólogo. 31(1) 46-56.
Avanza, M.; Massa, S; Martínez, G. y Giménez, L. 2006. Uso de transformaciones

para el cumplimiento de los supuestos de normalidad y homocedasticidad, para
modelos lineales. Revista Agrotecnia. [s/v](11) 18-23.
Balzarini, M.; Di Rienzo, A.; Cazanove, F.; González, L.; Tablada, M.; Guzmán,
W. y Robeldo, W. 2008. InfoStat paquete estadístico InfoStat versión 2008,
Manual de usuario, Grupo InfoStat, FCA, Universidad Nacional de Córdoba,
Argentina 115pp.
Bartlett, M. S. 1947. The use of transformations. Biometrics. 3 (1) 39–51.
Bono, R. y Arnau, J. 1995. Consideraciones generales en torno a los estudios de

potencia. Revista Anales de Psicología. 11(1) 193-202.
Box, G.E.P and Cox, D.R. 1964. An analysis of transformations. Journal of the
Royal Statistical Society. Series B (Methodological) 26(2) 211-252.
Caballero, A. 1979. Tamaños de muestras en diseños completamente

aleatorizados y bloques al azar donde la unidad experimental esté formada por
grupos de animales. Revista Cubana de Ciencia Agrícola. 13 (3) 225-235.
Cabrera, A. 2002. Criterios estadísticos en la descripción del patrón espacial y

diseño de muestreos para Thrips palmi Karny en papa. Tesis Doctorado en
Ciencias. Universidad Agraria de la Habana, Centro Nacional de Sanidad
Agropecuaria. 99 p.
Cabrera, A.; Guerra, C. W.; Herrera, M. and Suris, M. 2012. Non-parametric
statistical methods and data transformations in agricultural pest population
studies. Chilean Journal of Agricultural Research. 72(3) 440-443.
Camacho, J. 2007. Potencia estadística en el diseño de estudios clínicos. Nota

Estadística. Acta Médica Costarricense. 49(4) 203-204.
Cayuela, L. 2010. Modelos lineales generalizados (GLM). Curso de R CEAMA.

EcoLab, Centro Andaluz de Medio Ambiente. Universidad de Granada.
Cochran W. y Cox, G. 1999. Diseños experimentales. Segunda edición en

español. Editorial F. Trillas, S.A.México. 75pp.
Correa, J. 2006. Estudio de potencia de pruebas de homogeneidad de varianza.

Revista Colombiana de Estadística Volumen 29(1) 57-76.
Correa, J. 2007. Estimación por intervalo del parámetro de la distribución de

Poisson con una sola observación. Revista Colombiana de Estadística 30(1) 69-
75.
Cox, F. and Dunn, T. 2002. An analysis of decathlon data. Journal of the Royal
Statistical Society: Series D (The Statistician) 51(2) 179-18.
Cristo, M. 2001. Comportamiento de las dócimas no paramétricas respecto a las

paramétricas en distribuciones no normales. Tesis presentada en opción al
título de Master en Matemática. Universidad Central de Las Villa. Cuba
Cuesta, A. 2005. Análisis Multivariante. Dpto. Matemática, Estadística y

Computación. Universidad de Cantabria, España, 55 p.
Daniel W. W. 1978. Applied No- parametric Statistics. Ed. Houghton Myffin Co.
Boston. 503p.
De Calzadilla, J. 1999. Procedimientos de la Estadística no paramétrica.

Aplicaciones en las Ciencias Agropecuarias. Tesis presentada en opción al
título de Master en Matemática Aplicada a las Ciencias Agropecuaria. Cuba.
De Calzadilla J.; Guerra, W. y Torres, V. 2002. El uso y abuso de transformaciones

matemáticas. Aplicaciones en modelos de análisis de varianza. Rev. Cubana
Ciencia Agrícola. 36(1) 103-106.
Di Rienzo; J.A.; Casanoves, F.; González, L.M.; Tablada, E.M; Díaz, M. P.;
Robledo, E.W. y Balzarini, M. G. 2005. Estadística para las Ciencias
Agropecuarias. Edición Electrónica. Sexta Edición. Córdova. Argentina. 347p.
Dos Santos, A. y Mora, F. 2007. Análisis experimental de tratamientos floculantes
de residuos orgánicos derivados de la producción porcina. Revista Ciencia e
Investigación Agraria 34(1) 49-56.
Durbin, J. and Watson, G. S. 1950. Testing for Serial Correlation in Least Squares
Regression, I. Biometrika 37(1) 409–428.
Eisenhart, C. 1947. The assupmtions underlying the analysis of variance.

Biometrics 3(1) 3–21.
Faraway, J. J. 2006. Extending the Linear Model with R: Generalized linear, mixed
effects and nonparametric regression models. Journal Computational Statistics.
24(2) 369-370.
Font, H.; Torres, V.; Herrera, M. and Rodríguez, R. 2007. Fulfillment of the
normality and the homogeneity of the variance in frequencies of accumulated
measurement of the egg production variable in White Leghorn hens. Cuban J.
Agric. Sci. 41(3) 207-210.
Fox, J. 2007. Generalized Linear Models: An introduction, York Summer

Programme in Data Analysis, Dpto. of Sociology McMaster, University in
Hamilton, Ontario. Canada.
Fraser, D.A.S. 1957. Nonparametric Methods in Statistics, John Wiley & Sons, Inc,
New York, 299p.
García, Cl. 2002. Modelos Lineares Generalizados em Experimentação

Agronômica. ESALQ/USP – Piracicaba, SP. Brazil. 121p.
Gibbons, J. D. 1971. Non-parametric Statisical Inference. Ed. MacGraw Hill Book.

Co. York. 306p.
Gómez, M.; Danglot, C. y Vega, L. 2003. Sinopsis de pruebas estadísticas no

paramétricas. Cuando usarlas. Revista Mexicana Pediatría 70(2) 91-99.
González, K. 2001. Los Métodos de los Mínimos Cuadrado Ponderado para la

estimación de los Modelos Lineales Generalizados. Tesis para optar el título
profesional de Licienciada en Estadística.
Greene, W. 1999. Análisis econométrico, 3ra ed., Prentice-Hall, Madrid, España.

325p
Guerra, C. W.; De Calzadilla, J. y Torres, V. 2000. Índice de eficiencia en relación

con procedimientos de la estadística no paramétrica. Revista Cubana de
Ciencia Agrícola 34 (1) 1-4.
Guerra, C. W. 2009. Apuntes sobre Escalamiento Óptimo y Multidimensional.
Aplicaciones. Centro Universitario de Güines. La Habana. Cuba. 15 p.
Guerra, C.W.; Herrera, M.; Vázquez y Quintero, A.B. 2010. Contribución de la

Estadística al análisis de variables cualitativas. Centro Universitario de Güines.
La Habana. Cuba.
Guerrero, F. M., Ramírez y J. M. 2002. El análisis de escalamiento

multidimensional: una alternativa y un complemento a otras técnicas
multivariantes. Asociación Española de Profesores Universitarios de
Matemática para la Economía y la Empresas. X Jornada.
Hair, J. F.; Anderson, R. E.; Tatham, R. L. and Lack, W. C. 1999. Analisis

Multivariate. Practice. Hall Iberia. Madrid. España. 799p.
Hartley, H. 1950. The Maximum F-Ratio as a Short-Cut Test for Heterogeneity of

Variance’, Biometrika 37 (2) 308–312.
InfoStat, versión 2008. Software Estadístico. Grupo InfoStat, FCA, Universidad

Nacional de Córdoba. Editorial Brujas, Argentina.
Johnson, D. E. 2000. Métodos Multivariados Aplicados al Análisis de Datos.

International Thompson Editores, México 566p.
Johnson, R. 1990. Estadística Elemental. Grupo Editorial Iberoamérica. SA de CV.

592p.
Johnston, G. 2000 SAS software to fit the generalized linear model. Consultado
[25/2/09]. [on line]. Disponible en:
http://www.sas.com/rnd/app/papers/genmod.pdf.
Kaps, M. and Lamberson, W. R. 2004. Biostatistics for Animal Sciecie. Library of

Congress Cataloging-in-Publication Data. British Library, London, UK.
Khan, A. and Rayner, D. 2003. Robustness to Non-Normality of Common Tests

for the Many-Sample Location Problem. Journal of Applied Mathematics and
Decision Sciences. 7(4) 187-206.
Kreyszig, E 1974. Introducción a la Estadística Matemática. Principios y métodos.

Editorial Limusa, S.A. México. 505p.
Levene, H. 1960. Robust tests for the equality of variance. Contributions to

Probability and Statistics. Stanford University Press. pp. 278-292.
Lilliefors, H. 1967. "On the Kolmogorov-Smirnov Test for Normality with Mean and
Variance Unknown," J Am Stat Assoc. 62(318) 399-402.
Linares, G. 2001. Escalamiento Multidimensional: Conceptos y enfoques. Revista
Investigación Operacional. 22(2) 173-183.
López, P. C. y Romero, V.O. 1986. A propósito de las estadísticas no

paramétricas. Revista Estadística (Cuba) 18[s/n] 165-181.
Martín, A. y Luna, C.J. 1994 Bioestadística para las ciencias de la salud. 4ª Ed.
Norma, S.A. España.[s/v](1) 133-170.
Martínez, O. 1995. Métodos Estadísticos Multivariados en Biología Molecular y su

aplicación en investigaciones agrícolas. Agronomía Colombiana 12(1) 66–71.
McCullagh, P. and Nelder, J.A. 1989, Generalized Linear Models, London:

Chapman and Hall 412p.
Menchaca, M. A. 1973. Método corto para el análisis de transformaciones. Revista

Cubana de Ciencia Agrícola 7 (1) 145-149.
Menchaca, M. A. 1974. Tablas útiles para determinar tamaños de muestras en

diseño de Clasificación Simple y de Bloques al Azar. Revista Cubana de
Ciencia Agrícola. 8 (1) 111-116.
Menchaca, M. A. 1975. Determinación de tamaños de muestra en diseños

Cuadrados Latinos. Revista Cubana de Ciencia Agrícola. 9 (1) 1-3.
Menchaca, M. A. y Torres V. 1985. Tablas de uso frecuente en la Bioestadística.

Instituto de Ciencia Animal. Cuba.
Méndez, J. 1993. Uso y abuso de la Estadística en investigación .Tópicos de

Investigación y Posgrado III (2) 3–8.
Méndez, M. 2000. Introducción a la estadística para ornitólogos que odian el

ardeola." Colección Ciencia p'al Pueblo, nº 2 [Consultada: 20/04/08]. [on line]
Disponible en:
http://www.escet.urjc.es/biodiversos/espa/personal/marcos/cpp/Estadis.pdf#sear
ch=%22 estadis.pdf%20normalidad%22.
Mesa, A. 1998. Determinación de la validez predictiva de los tests en el deporte.

En Memorias del II Simposio Internacional de Educación Física y Deporte
Escolar. Cienfuegos, Cuba.
Microsoft Excel versión 9.0. 2003. Microsoft Corporación. USA.
Miranda, I, 1997. La estadística del agropecuario. 10 preguntas 10 respuestas.

[Consultada 11/4/09]. [on line]. Disponible en:
http://www.monografias.com/trabajos19/ estadistica-agropecuario/estadistica-
agropecuario.shtml.
Miret, E.; Linares, G. y Mederos, M. V. 2002. Estudio comparativo de

procedimientos de Escalamiento Multidimensional a través de experimentos de
simulación. .Revista Investigación Operacional. 23 (1) 73-82.
Miret, E. 2005. Un enfoque unificado para técnicas de representación euclidiana.

Tesis para optar por el grado de Doctor en Ciencias Matemáticas. UH. La
Habana. Cuba. 148p.
Molina, O. y Espinosa de los Monteros, E. 2010. Rotación en el análisis de

Componentes Categóricos. Un caso práctico. Metodología de encuestas (SIPIE)
s/v(12) 63-88.
Montgomery, D. C.; Peck, E.A. y Vinig, G.G. 2005. Introducción al Análisis de

Regresión Lineal. Editorial Continental. Seguna reimpresión, México p 420.
Mood, A. M. y Graybill, F. A. 1972. Introducción a la teoría de la Estadística.

Ediciones Aguilar S. A. Madrid. España. 536 p.
Mora, F.; Perret, S.; Scapim. A.; Nunes Martins, E. y Paz Molina, M. 2007.
Variabilidad en el florecimiento de procedencia de Eucalyptus cladocalyx en la
Región del Coquimbo. Revista Ciencia de la Investigación Agraria 34(2) 131-
139.
Mora, M. C. y González, M. I. 2009. Caracterización del fracaso empresarial en

Colombia: Un enfoque con Escalado Multidimensional. Comisión de Estudios al
exterior. Documento de Trabajo 11/09. Universidad de Salamanca. España.
37p.
Morales, M. A. 2008. Estudio de la homogeneidad de la dispersión en un diseño

completamente al azar con datos de proporción de conteo [Tesis Maestría].
Universidad Nacional de Colombia, Departamento de Estadística. 124 p.
Morales, M. A. and López, L. A. 2009. Study of homogeneity of the dispersion in

one way classification models with proportions and counts data. Revista
Colombiana de Estadística. 32(1) 59-78.
Navarro, J. M.; Casas, G. M.; González, E. y Cuadrado, S. 2008. Estudio del

riesgo cardiovascular en el municipio de Santa Clara utilizando el método de
Regresión Categórica. Revista Investigación Operacional. 29(3) 224-230.
Navarro, J.M.; Casa, G. y González, E. 2010. Análisis de Componentes

Principales de Regresión para datos categóricos. Aplicación en la Hipertensión
Arterial. Revista de Matemática. Teorías y Aplicaciones 17(2) 199-230.
Nelder, J.A. and Wedderburn, R.W.M. 1972. Generalized linear models, Journal of
the Royal Statistical Society, Serie A. 135(3) 370–384.
Norell, L. 2003. ANOVA Estimators Under Imbalance in the One-Way Random

Model. Communications in Statistics: Theory & Methods 32(3) 601. Oficina
Nacional de Estadística (ONE). (2006). "Anuario Estadístico de Cuba 2005."
[Consultada: 06/10/10], Disponible en http://www.one.cu/aec2005indicec10.htm
Ojeda, M. 2004. La modelación estadística. Memorias: Foro de matemática del

sureste. 1(1) 69-76. México.
Ostle, B. 1974. Estadística Aplicada. Editorial Científico-Técnica. Ciudad de la

Habana, Cuba. 629p.
Peña, J.I. y Peña, D. 1986. Un contraste de normalidad basado en la

transformación de Box-Cox. Estadística Española. 110(1) 33–46.
Peña, S. 1994. Estadística. Modelos y métodos. 2. Modelos lineales y series

temporales. Alianza Editorial, S.A., Madrid. 745 p.
Pérez, R; Noda, M.; Moreno, M. y Pérez E. 2002. Aplicación de la estadística en

las diferentes etapas del ciclo de vida. Centro de Información y Gestión
Tecnológica, Revista Trimestral, Año VIII, No. 2 Universidad de Holguín.
Cuba.[Consulta: agosto 7 2010]. [on line]. Disponible en: http://www.
ciencias.Holguin.cu.2002/Junio/articulos/ARTl3.htm
Ponsot, E. 2009. Estudio de la agregación de niveles en el modelo logit. Proyecto

de tesis doctoral. Universidad de Los Andes Facultad de Ciencias Económicas y
Sociales Instituto de Estadística Aplicada y Computación Programa de
Doctorado en Estadística.
Quaglino, M. B. y Pagura, J. A. 1998. Una propuesta para algunas aplicaciones de

análisis de correspondencias múltiples. Terceras Jornadas Investigaciones en la
Facultad de Ciencias Económicas y Estadística. Instituto de Investigaciones
Teóricas y Aplicadas, Escuela de Estadística.
Quintero, M. A. y Durán M. J. 2008. Aplicación de dos pruebas estadísticas de

bondad de ajuste en muestras complejas: Un caso práctico en el campo
forestal. Revista Agrociencia 42 (3) 287-297.
Ramírez, D. C. 2004. Autocoorelación. [Datos en línea]. Consultada [14/9/12]

Disponible:
http://webdelprofesor.ula.ve/economia/dramirez/MICRO/FORMATO_PDF/Materi
aleconometria/Autocorrelacion.pdf.
Rodríguez, F. 2008. Estudio de métodos no paramétricos. Informe de pasantías
presentado como requisito para optar al título deLicenciado en Matemática
Mención Probabilidad y Estadística. Universidad Nacional Abierta, Centro Local
Metropolitano. Caracas Venezuela.
Royston, P. 1982. An extension of Shapiro and Wilk’s W test for normality to large
samples. J. Royal Statistical Soc. Series C. 31(2) 115-124.
SAS, versión 9.1.3, 2007. User’s guide statistics. SAS Institute Inc., Cary, NC, USA
Sabín, Y. 1999. Determinación a posteriori de la potencia en los diseños

experimentales clásicos. Tesis presentada en opción al título de Master en
Matemática Aplicada a las Ciencias Agropecuarias. UNAH. 65p.
Sakia, R. M. 1990. Retransformation bias: a look at the Box-Cox transformation to

linear balanced mixed ANOVA models. Metrika. 37(1) 345-351.
Sakia, R. M. 1992. The Box-Cox transformation technique: a review.

TheStatistician. 41(2) 169-178.
Salvador, M. y Gargallo, P. 2003. "Análisis Exploratorio de Datos", [en línea].

Consultada [25/09/2008]. Disponible en: http://www.5campus.com/leccion/aed
Santos, B. M., Gilreath, J. P. y Arbona, R. 2005. La estadística no paramétrica

para el análisis e interpretación de estudios de plagas: alternativas al analisis de
varianza. Manejo Integrado de Plagas y Agroecología. 75 (51) 83-89.
Scheffé, H. 1959. The Analysis of Varianza. John Wiley & Sons, Inc, New York.
477p.
Scheirer, J. C.; Ray, W. S. and Hare, N. 1976. The Analysis of Ranked Data
Derived from Completely Randomized Factorial Designs. Biometrics. 32(2) 429-
434.
Schuyten, G. 1990. Statistical Thinking in Psychology and Education. Proceeding

of the ICOTS III. Universidad de Otago. Dunedin. Australia. [En línea].
Consultada [10/4/08] Disponible en:
http://www.virtual.unal.edu.co/cursos/ciencias/
2007315/lecciones_html/capitulo_2/leccion2/homogeneidad.html
Servy, E.; Garcia, M. y Paccapelo, V. 2007. Regresión no paramétrica: una

aplicación. Décimas Jornadas "Investigaciones en la Facultad" de Ciencias
Económicas y Estadística. Instituto de Investigaciones Teóricas y Aplicadas, de
la Escuela de Estadística. Universidad Nacional de Rosario.
Shapiro, S. and Wilk, B. 1965. An analysis of variance test for normality (complete
samples), Biometrika, 52 (2) 591-611.
Siegel, S. 1970. Diseño Experimental Noparamétrico aplicado a las Ciencias de la

Conducta. Edición Revolucionaria. Instituto Cubano del Libro. Habana, Cuba.
346p.
Siegel, S. y Castellan, N. J. 1995. Estadística no paramétrica aplicada a las

Ciencias de la Conducta. Cuarta edición. Editorial Trillas, México. p 57
Spiegel, M. R., Schiller, J. J. y Srinivasan, R. A. 2003. Teoría y problemas de

probabilidad y estadística. 2 ed. México D.F: McGraw-Hill. 416 p.
SPSS, versión 19.0. 2010. SPSS for Windows. Statistical Package for the Social
Sciences.
STATSOFT, INC. versión 6. 2003. (STATISTICA, data analysis software system).

www.statsoft.com.
Steel, R. G. y Torrie, I.H. 1992. Bioestadística: principios y procedimientos.

McGraw-Hill. Interamericana. México, SA. 228 pp.
Tejedor, F.J. 1999. Análisis de varianza: introducción conceptual y diseños

básicos. Madrid: La Muralla. 132 p.
Torres, V. y Segui, Y. 2001. Procesamiento práctico para la determinación de la

función de potencia a posteriori. Revista Cubana de Ciencia Agrícola 35(4)
319-322.
Torres, V.; Ajete, A.; Martínez, M. L. y Noda, A. 1998. ANALEST.Sistema

estadístico para el procesamiento de información. (folleto teórico).
Trujillo del Pozo. 2001. Modelos dinámicos de medición de la eficiencia. Una

comparación de métodos en la educación superior. VIII Encuentro de
Economía Pública. Universidad de Extremadura, España.
Vásquez, R. E. 2011. Contribución al tratamiento estadístico de datos con

distribución Binomial en el Modelo de Análisis de Varianza. Tesis en la opción
al grado de Doctor en Ciencia. Instituto Nacional de Ciencias Agrícolas. Cuba
Vásquez, R. E. 2013. Comunicación personal sobre resultados de su tesis de

doctoral defendida en Cuba en diciembre del 2011.
Verde, O. 2000. Comparación de métodos para el análisis de datos binomiales

en producción animal. Revista de Zootecnia Tropical. 18(1) 3-28.
Venereo, A. 1976. Número de réplicas en diseños cuadrados latinos
balanceados para la estimación de efectos residuales. Revista Cubana de
Ciencia Agrícola. 10(3) 237-246.
Vilar, J. 2011. Curso de Estadística 2 La Coruña: Universidad de La Coruña.

[Consultado: 15 febrero 2011] Disponible en:
http://www.udc.es/dep/mate/estadistica2/estadistica_2.htm.
Viscovery Software GmbH. 2008. Viscovery SOMine 5.0.2. [Software de

cómputo]. Viscovery Software GmbH.
Ward, J. 1963. Hierrarchical grouping to optimize an objective function. Jornal of

the Amarican Statistical Association. 58(4) 236-244
Wu, J. and Wong, M. 2003. A Note on Determining the p-Value of Bartlett's Test of
Homogeneity of Variances. Communications in Statistics: Theory & Methods
32(1) 91.
ANEXOS
Anexo. 1. Verificación de los supuestos teóricos básicos y consecuencias de su incumplimiento en el Análisis de Varianza.
Consecuencias del
incumplimiento en el
Supuestos Dócima Estadístico de prueba Características
ANAVA
Normalidad Shapiro-Wilk (1965) modificado Si el valor de P ≤ 0,05 La falta de normalidad
2 se rechaza la hipótesis no afecta demasiado a
por Royston (1982)  n  de distribución Normal. la prueba F
  a x
i i Es una prueba potente Si los datos son muy
i  1  y se recomienda asimétricos influyen en
W
2 cuando el tamaño de el estadístico de la
n   muestra es pequeño prueba. Si no hay
  x i  x  n< 30. Salvador y Normalidad, el
i  1  Gargallo (2003) verdadero nivel de
significación es mayor
que el nivel aparente.
ai: coeficiente Esto conlleva a
xi: es el número que rechazar la hipótesis
ocupa la i-ésima posición en nula cuando es
la muestra. verdadera, es decir se
 presentan demasiadas
x : media muestral diferencias significativas
que no existen.
D  máx Fn X   FoX 
Kolmogorov-Smirnov Fn (X): Distribución teórica Las únicas premisas
acumulativa observada de la que se necesitan para
muestra tomada al azar. la realización de esta
prueba es que:
Fo (X): Distribución teórica Las mediciones se
Normal. encuentren al menos
en una escala de
intervalo.
Que la medición
considerada sea
básicamente continua.
Además dicha prueba
es aplicable cualquiera
sea el tamaño de la
muestra (Mesa, 1998).
La prueba de
Kolmogorov-Smirnov

Kolmogorov-Smirnov, corregida   con la modificación de
D  máxFn X  ((X  x) / s(x))
por Lillefors (1967)   Lillierfors es la más
utilizada
y se considera uno de
Donde:  es la función de los test más potentes
distribución de una normal para muestra mayores
estándar. de 30 casos.
Homogeneidad Bartlett (1947) Esta prueba da la Morales (2008) y,
de varianza ln 2 (n1) n1  ln2 (n1) posibilidad de decidir si Morales y López (2009),
2     
X Bartlett existe señalan que la
(n1) homogeneidad o heterogeneidad en las
k 1
1 heterogeneidad en el varianzas de los
3(k1) (Nk)
error estadístico, que se tratamientos puede
utiliza con más conllevar a una
frecuencia, siendo subestimación de los
Donde: sensible a la falta de errores estándar de los
X2Bartlett : estadístico de esta normalidad (Cox y estimadores de los
prueba.,ln: logaritmo Dunn, 2002) y (Wu y parámetros del modelo.
natural. Wong, 2003)
s2: varianza.
n = tamaño de la muestra
del grupo.
K = número de grupos
N = tamaño total
Levene (1960) k   Es menos sensible a la
(N  k )  n i ( Z  Z ) 2 no normalidad de las
i1
W 2 muestras y una buena
k ni 
k  1    Z ij  Z i  alternativa. (Correa,
i1 j1  2006), señala el autor
Donde: que esta prueba ofrece
Zij puede tener una del as una alternativa más
siguientes tres definiciones: robusta que el
procedimiento de
Bartlett, ya que es poco
Z ij  Yij  Y i. donde: Y i. es sensible a la desviación
la media en el i-ésimo de la normalidad.
subgrupo.
~ ~
Z ij  Yij  Yi. donde: Yi. es la
mediana en el i-ésimo
subgrupo.
 
Z ij  Yij  Yi . donde: Yi. es el
10% de la media truncada
en el i-ésimo subgrupo.
Z i. es la media del grupo
Z ij
Z .. es la media general de
Z ij
Hartley (1950) 2 Esta prueba se requiere
máx (s i )
Fmáx  2
que todas las
mín(s i ) observaciones en cada
grupo tengan el mismo
estadístico Fmax tamaño. Fue propuesta
(asumiendo independencia por Hartley, (1950) y
de las muestras aleatorias Schuyten, (1990)
tomadas de las poblaciones
normales) es FMáx con k
grados de libertad en el
numerador y grados de ν =
n−1 grados de libertad en el
denominador
Independencia Durbin y Watson (1950) 2 La autocorrelación Las consecuencias
tT surge cuando los inmediatas, producto de
de los errores 
  t  t 1  términos de error del la autocorrelación, es
d  t2 modelo no son que los estimadores son
tT  2 independientes entre sí, poco eficientes, ya que
 t
es decir, cuando: sus varianzas estarán
t 1 E(uiuj)≠0. para todo i≠j. sobre o subestimada lo
Entonces los errores cual imposibilita utilizar
Donde:  t es el residuo
estarán vinculados las pruebas de
estimado para el período t. entre sí. Los contrates “test”
estimadores mínimos estadístico usuales para
cuadráticos ordinarios verificar la validez de
(MCO) obtenidos, bajo las estimaciones. Pero
esta circunstancia, los estimadores siguen
dejan de ser eficientes. siendo lineales,
insesgados y
consistentes pero han
perdido (como
consecuencia de
autocorrelación) su
propiedad de varianza
mínima, pero la
insesgadez será útil
para resolver el
problema Ramírez
(2004).
Anexo 2. Encuesta aplicada a los investigadores
El objetivo de esta encuesta es indagar sobre el uso de las transformaciones de

datos en el análisis estadístico de la información.
Es importante conocer sus criterios, por cuanto estamos desarrollando una

investigación encaminada a perfeccionar el empleo de estas herramientas
estadísticas de análisis.
Dpto: ____________________________________________________________
1. ¿Tienes conocimientos sobre la necesidad de aplicar transformación de

datos a los resultados de sus experimentos?
Si __________ No_________
2. ¿Qué tipo de transformaciones usa con más frecuencia?
1
1. x _______ 4. _______
X
1
2. arcoseno p _______ 5. _________
x
3. log (x) _______ 6. Otras _________
3. ¿En qué análisis estadístico utilizas con más frecuencia las

transformaciones de datos?
1. ANAVA _________ 2. Regresión ___________
3. Otros ___________
4. ¿Sabe que logra con el uso de la transformación de datos?
Ajustar indicadores numéricos ___________

Validez de los resultados _______________
Cumplimiento de supuestos teóricos ______
Disminuir la variabilidad de los datos ______
Usar una herramienta tradicional_________
Otros (especificar) ____________________
5. En su actividad científico- técnica futura ¿consideras conveniente continuar

con el empleo de las transformaciones de datos?
Si__________ No ___________
6. ¿Conoces procedimientos estadísticos alternativos, para no usar la

transformación de datos? En caso de ser afirmativo marque con una X los
que conoces.
Si__________ No ___________
Estadística no paramétrica _________

Modelo Lineal Generalizado________
Otros
7. Otros aspectos que considere de interés.
Gracias por su colaboración.

Anexo 3. Matriz de correlaciones de las variables transformadas por dimensión para los Diseños
Completamente Aleatorizados y Bloques al Azar.
Tipo
Indicadores
experimento Cumpl Cumpl Valorp Valorp Valorp Potencia Potencia T. M No. Diseño Distcod
S/T C/T S/T C/T NP S/T C/T tto
Tipo de
experimento 1,000
Cumpl S/T -,120 1,000
Cumpl C/T -,001 ,614 1,000
Valorp S/T -,186 -,056 -,109 1,000
Valorp C/T -,219 -,008 -,122 ,947 1,000
Valorp NP -,274 -,017 -,064 ,896 ,929 1,000
Potencia S/T ,224 -,009 ,091 -,877 -,918 -,875 1,000
Potencia C/T ,175 -,088 ,135 -,856 -,870 -,853 ,861 1,000
T. M -,128 -,175 -,378 ,428 ,460 ,453 -,486 -,461 1,000
No. tto -,413 ,071 -,007 ,013 ,075 ,161 -,170 -,096 ,033 1,000
Diseño -,631 ,061 -,025 ,294 ,322 ,374 -,385 -,304 ,291 ,731 1,000
Distcod -,177 ,010 ,074 -,146 -,199 -,193 ,117 ,127 -,142 ,165 ,138 1,000
Anexo 4. Matriz de correlaciones de las variables transformadas para los diseños con arreglos factorial de los
tratamientos.
Tipo de
Indicadores experimento C/T Valorp Valorp Valorp Potencia Potencia T.M
S/T C/T NP S/T C/T
Tipo de
experimento 1,000
C/T -,685 1,000
Valorp S/T ,092 -,063 1,000
Valorp C/T ,093 -,064 1,000 1,000
Valorp NP ,091 -,063 1,000 1,000 1,000
Potencia S/T -,144 ,099 -,908 -,909 -,908 1,000
Potencia C/T -,113 ,077 -,968 -,968 -,968 ,980 1,000
T.M -1,000 ,685 -,092 -,093 -,091 ,144 ,113 1,000
Anexo 5. Matriz de correlaciones de las variables transformadas de los Modelos Lineal General y Lineal
Generalizado.
Tto TM Tipo PerrorIF PerrorIX2 SCerror Devia Distribución
Indicadores
exp MLG MLGnz
Tto 1,000
TM ,266 1,000
Tipoexp ,083 ,926 1,000
PerrorIF -,415 ,375 ,470 1,000
PerrorIX2 -,436 ,353 ,458 ,986 1,000
SCerrorMLG ,516 ,129 -,176 -,413 -,403 1,000
DeviaMLGnz ,253 ,059 -,136 -,222 -,207 ,649 1,000
Distribución -,253 -,059 ,136 ,222 ,207 -,649 -1,000 1,000

Metodos Estadisticos Alternativos

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Metodos Estadisticos Alternativos

Transféré par

Droits d'auteur :

Formats disponibles

Instituto de Ciencia Animal

MÉTODOS ESTADÍSTICOS ALTERNATIVOS DE

Herrera Villafranca, Magaly (Autor)

Digitalización: Editorial Universitaria, torri@mes.edu.cu

(c) Todos los derechos reservados: Instituto de Ciencia Animal, 2015.

Métodos Estadísticos alternativos de análisis con variables

Tesis en opción al grado científico de Doctor en Ciencias Veterinarias

Autora: Lic. Magaly Herrera Villafranca

Métodos Estadísticos alternativos de análisis con variables

Tesis en opción al grado científico de Doctor en Ciencias Veterinarias

Autora: Lic. Magaly Herrera Villafranca

Tutoras: Dra. C. Caridad Walkiria Guerra Bustillo

D.E. Johnson, 2000

 Dra. C. Verena Torres Cárdenas por la confianza que depositó en mí y colaborar

 MSc. Profesora consultante Josefina de Calzadilla, por su ayuda y sus buenas

 Dr. C. Alberto Caballero por su ayuda en la orientación de esta investigación,

 Yolaine Medina Mesa, siempre con su atención esmerada y su ayuda

 Lic. Sarai Gómez Camacho por su ayuda.

 Yaisel Rodríguez González y Lyhen Sánchez Suárez.

 Muchachitas del Departamento de Genética.

 Los compañeros del Departamento de Matemática de La Universidad Agraria de

 Dr. C. Yasser Vásquez Alfonso, por su apoyo durante el trabajo de investigación y

 A mis compañeros del departamento de Monogástricos, especialmente a Lazarita.

 Especial agradecimiento a Edis Dalia Arbelo Forte por su apoyo incondicional.

 A Erludys Columbie Hernández, por su inestimable apoyo en el servicio de

A todos muchas gracias

A mis abuelos (E.P.D)

Con el objetivo de evaluar la efectividad de Métodos Estadísticos alternativos de

análisis con variables discretas y categóricas, se aplicó una encuesta estadística

bibliométrica sobre el empleo de Métodos Estadísticos no paramétricos y una

encuesta a investigadores para verificar el conocimiento sobre Métodos

Estadísticos alternativos para evitar el uso inadecuado de la transformación de

datos, en investigaciones agropecuarias y afines. Se analizan 100 variables

correspondientes a los Modelos de Análisis de Varianza simple y doble, de efectos

fijos. Las transformaciones de datos aplicadas fueron: X; X  0,375 ; arcoseno

( p ) y Log X. Se verificó el cumplimiento de los supuestos teóricos del Análisis de

Varianza, con y sin transformación de datos. Los resultados evidenciaron que el

empleo de la trasformación de datos solo fue efectiva en el 13% de los casos

analizados. Los Modelos de Análisis de Varianza (ANAVA) paramétrico y no

paramétricos presentaron resultados similares. Se aplicó el Análisis de

Componentes Principales Categórico (CATPCA) para realizar un análisis integral

de indicadores estadísticos, sobresalen por sus altas correlaciones negativas, la

potencia y la probabilidad de error tipo I en el ANAVA paramétrico (con y sin

transformación) y el no paramétrico. En un análisis comparativo del Modelo Lineal

General (MLG) y el Modelo Lineal Generalizado (MLGnz) se obtuvo que las

probabilidades de error tipo I en ambos modelos son similares, por lo que se

sugiere el MLGnz como una alternativa de análisis, pues la variable respuesta no

requiere del cumplimiento de los supuestos del ANAVA paramétrico. Finalmente

se elaboró una propuesta de acciones metodológicas relacionadas con la

aplicación del Modelo de Análisis de Varianza.

1.1 Métodos Estadísticos paramétricos y no paramétricos 8

1.2 Consecuencias del incumplimiento de los supuestos teóricos

1.3 Potencia de una dócima, tamaño de muestra, probabilidades

1.4 Transformación de datos. Origen e incidencia en las

1.5 Modelo Lineal Generalizado 21

1.5.1 Origen y desarrollo 21

1.6 Otros Métodos Estadísticos para el análisis con variables

CAPÍTULO II. LA ENCUESTA ESTADÍSTICA EN LA

2.2 Materiales y métodos 32

2.2.1 Encuesta estadística bibliométrica 32

2.2.2 Encuesta estadística a los investigadores 33

2.2.3 Organización, procesamiento y análisis estadístico de la

2.3 Resultados y discusión 36

2.3.1 Encuesta estadística bibliométrica 36