Vous êtes sur la page 1sur 6

CAPÍTULO VIII

PROCESAMIENTO, ANÁLISIS ESTADÍSTICO


E INTERPRETACIÓN DE LA INFORMACIÓN

Una vez captada la información, ésta tendrá que ser revisada (control de calidad), después
habrá que procesar y analizarla estadísticamente, para luego proceder a la interpretación de los
resultados. Las dos actividades mencionadas (procesamiento y análisis estadístico),
dependiendo de la cantidad de información, de los objetivos e hipótesis planteadas en el
protocolo, pueden efectuarse en forma manual o con computadora. Así por ejemplo, si se
tienen pocos casos, pocas variables y sólo se pretende llegar hasta un análisis bivariado
(relación entre dos variables), entonces para el procesamiento y análisis respectivo, quizás no
sea necesario utilizar una computadora. Pero, efectuar un análisis multivariado (más de dos
variables) aunque sea con pocos casos en una simple calculadora ya sería muy laborioso, por
decir lo menos.

Para iniciar el procesamiento de la masa de información captada, éstas tienen que ser
clasificadas; es decir, se deberán agrupar las observaciones en categorías o intervalos de clase
(en lo posible mutuamente excluyentes), para una adecuada presentación ya sea en forma
tabular o gráfica. Asimismo, dependiendo del tipo de variable, se tendrán que calcular las
medidas descriptivas de resumen, entre las que destacan: las tasas, proporciones (%), razones,
promedios y las correspondientes medidas de dispersión. De estas dos últimas son
particularmente importantes la media aritmética y la desviación estándar.

Al presentar la información a través de tablas, éstas deberán contener preferentemente dos


variables (tablas de doble entrada), ya que la descripción e interpretación de tablas de más de
dos variables pueden resultar confusas. Para el protocolo es recomendable elaborar los
esquemas de las tablas que se utilizarán para la presentación y análisis de los datos. Asimismo,
deberán bosquejarse los posibles gráficos que permitirán visualizar los datos del estudio
definitivo.

Los métodos para el análisis estadístico de los datos deberán elegirse según los objetivos
planteados y de acuerdo con las hipótesis que se deseen contrastar.

Principales métodos de análisis estadístico

A continuación indicaremos los métodos estadísticos básicos mas utilizados en los trabajos de
investigación.

1. Una sola población.

a. Estimación de la media poblacional (µ).


  x Z
n

S
  x t
n

Donde:

45
x = media aritmética muestral
σ = desviación estándar poblacional (si no se conoce σ se podrá utilizar en el primer
modelo S, pero n debe ser mayor que 30)
S = desviación estándar muestral
Z = coeficiente de confiabilidad (de la distribución normal estándar), el valor depende
del nivel de confianza utilizado para la estimación.
t = coeficiente de confiabilidad (valor de la distribución “t” de Student con n - 1 grados
de libertad, depende del nivel de confianza utilizado para la estimación).

b. Estimación de la proporción poblacional (P).

pq
P  p Z
n

Donde:

p = proporción muestral
q=l-p

c. Determinación de la relación entre dos variables categóricas.

Para determinar si existe una relación estadísticamente significativa entre dos variables
expresadas cualitativamente, tales como: sistema de cultivo (monocultivo, otros) con
roña de la papa (presencia, ausencia), programa de control de sanidad agraria (si, no)
presencia significativa de la plaga (si, no), etc. se puede utilizar el contraste de chi -
cuadrado (χ2) o, si la tabla es de 2 x 2, la prueba exacta de Fisher. Las fórmulas
correspondientes son:

(oi  ei ) 2
2   , donde:
ei

oi = frecuencias observadas, y
ei = frecuencias esperadas

Si el resultado nos indica la existencia de una asociación significativa, es recomendable


cuantificar la intensidad de tal asociación, para lo cual se calcula el coeficiente de
contingencia C:

2
C , donde:
2 n

χ2 es el calculado y n el tamaño de la muestra.

La prueba exacta de Fisher se usa, preferentemente, cuando en la tabla de 2x2 alguna


frecuencia esperada es ≤ 5. El esquema de la tabla es:

+ -

46
I a b a+b
II c d c+d
a+c b+d n

El valor de p (nivel de significación) se calcula con la siguiente ecuación:

(a  c)!(b  d )!( a  b)!(c  d )!


p
a!b!c!d !n!

d. Determinación de la relación entre dos variables numéricas.

Para estudiar la naturaleza y fuerza de la relación de variables como: edad y peso,


precipitación y escorrentía, dosis de un nutriente y producción de maíz, edad y
producción de leche, etc.; y, cuando al graficar los puntos se observa una tendencia
lineal, puede usarse el análisis de regresión y correlación lineales simples y, si es de
tipo no lineal -como una exponencial, parabólica, etc.- se recurrirá al análisis de
regresión y correlación no lineales simples.

Para el análisis de regresión lineal, los puntos se ajustan al modelo:

Y = a + bX, donde:

Y = variable cuyos valores se desea estimar o predecir


X = variable cuyos valores se usan para efectuar la estimación o predicción
a = ordenada en el origen
b = coeficiente de regresión lineal

Siendo X e Y variables, las constantes que hay que calcular son a y b.

a  Y  b X , donde:

Y = media de las Y
X = media de las X

n XY   X  Y
b
n  X 2  ( X ) 2

n = tamaño de la muestra.

Una vez calculado el valor de a y de b y, previa comprobación de la linealidad de los


datos (puntos), el modelo está listo para ser utilizado; por ejemplo, en la predicción o
estimación de un valor de Y dado un valor de X.

Al efectuar el análisis de correlación lineal, la fuerza con que podrían estar relacionadas
X e Y, se mide con el coeficiente de correlación de Pearson (r).

47
n XY   X  Y
r
(n X  ( X ) 2 )(n Y 2  ( Y ) 2 )
2

El coeficiente r varía de -1 a +1. Cuanto más se acerque a -1 ó a 1, la fuerza de la


asociación es mayor, sólo que en el primer caso se trata de una relación indirecta y en el
otro de una asociación directa.

e. Correlación de dos variables de tipos diferentes.

Cuando el interés es correlacionar dos variables de tipos diferentes a los mencionados,


algunos coeficientes que pueden utilizarse, para los casos que se indican, son:

Ambas variables medidas en escala ordinal:

 Coeficiente de correlación de Spearman.

Una categórica dicotómica con una numérica medida en escala de intervalo o de razón:

 Coeficiente de correlación biserial - puntual.

Ambas categóricas dicotómicas:

 Coeficiente de correlación Ф (phi).

f. Determinación de la relación entre más de dos variables numéricas.

En los casos en que una variable, Y, podría estar en función de dos o más variables X1,
X2 Xk, es decir: Y = f(X1 X2, Xk) se tendrá que emplear el análisis de regresión y
correlación múltiple. A este respecto, igual que para los casos anteriores, existen
programas y paquetes estadísticos de computadora que son de gran ayuda.

Es bueno mencionar, en este punto, que en realidad cualquier problema por lo general
es causado por múltiples factores. De donde es recomendable visualizar el fenómeno en
forma global e integral y no reducir el enfoque sólo a situaciones bivariadas.

2. Dos poblaciones independientes

Cuando se desea comparar dos poblaciones independientes pueden contrastarse


hipótesis relacionadas con:

a. Dos medias aritméticas

En este caso puede utilizarse la prueba “Z” ó “t" de Student. La primera se usa cuando
las desviaciones estándar poblacionales y σ1 y σ2 son conocidas; en tal caso, las
muestras pueden ser incluso pequeñas. Si no se conocen las desviaciones estándar
poblacionales y las muestras son grandes (ambas mayores que 30), también puede
usarse el contraste “Z”; pero, si las nuestras son pequeñas, se empleará el contraste “t”
de Student, previa comprobación de las suposiciones de aleatoriedad, normalidad y
homogeneidad de varianzas poblacionales. Las ecuaciones correspondientes, son:

48
X1  X 2
Z
2 2
S1 S 2 (n1 y n2 > 30), donde:

n1 n2

X 1 , X 2 y S1, S2 son medias aritméticas y desviaciones estándar de las dos muestras


respectivamente.

X1  X 2
t
2 2
Sp Sp es una t con n1 + n2 -2 grados de libertad

n1 n2

Donde Sp2 es la varianza ponderada que se calcula con:

2 2
2 (n  1) S1  (n2  1) S 2
Sp  1
n1  n2  2

Si los datos no satisfacen la suposición de normalidad, no debe utilizarse el contraste


“t’; en tales casos, puede emplearse alguna prueba no paramétrica como la “U” de
Mann - Whitney o la prueba de la mediana.

b. Dos proporciones

Para la comparación estadística de dos porporciones de poblaciones independientes se


usa:

p1  p 2
Z
p1q1 p 2 q2 (n1 y n2 > 30), donde:

n1 n2

Donde: p1 y p2 son proporciones muestrales y q1 = 1 - p1, q2 = 1 - p2.

3. Dos muestras relacionadas

Cuando se comparan dos muestras relacionadas (diseños antes - después o pre - post
test, dos muestras pareadas, etc.) y los datos satisfacen las exigencias del contraste “t”
de Student, se usa:

d
t t con n – 1 grados de libertad
Sd n

Este contraste se denomina comunmente “t pareada”.

Donde: d y Sd son la media aritmética y la desviación estándar de las diferencias.

Si no se satisface la suposición de normalidad o los datos están medidos en una escala


ordinal, se usará el contraste no paramétrico T de Wilcoxon o el test de signos (prueba

49
binomial).

Si se tiene dos muestras relacionadas de variables categóricas dicotómicas (positivo -


negativo, si - no, correcto - incorrecto, etc.), se usa la prueba χ 2 de Mc Nemar. Este
contraste es particularmente importante para determinar la significación de los cambios
en los diseños antes - después. Los datos se tabulan de la siguiente manera:

Después
- +
Antes + a b

- c d

( a  d  1) 2
2  χ2 con un grado de libertad
(a  d )

4. Más de dos poblaciones.

Para la comparación de más de dos medias aritméticas y cuando los datos satisfacen las
principales suposiciones: aleatoriedad, normalidad y homogeneidad de varianzas, puede
hacerse uso del método estadístico denominado Análisis de Varianza (ANVA). Esta
técnica no sólo se usa para el caso de un factor o un criterio de clasificación (donde se
haya empleado el diseño completamente aleatorizado), sino para dos o más factores; así
como para analizar estadísticamente datos provenientes de otros diseños experimentales
tales como el diseño de bloques aleatorizados, cuadrados latinos, medidas repetidas,
etc.

Cuando no se satisfacen las suposiciones que fundamentan el uso del ANVA o los datos
consisten en rangos, deben usarse métodos no paramétricos alternativos al ANVA, entre
los que sobresalen el tést de Kruskal - Wallis para un factor y el de Friedman para dos
factores.

Si el interés es comparar más de dos muestras independientes respecto a una variable


categórica, se empleará el constraste χ2.

50

Vous aimerez peut-être aussi