Vous êtes sur la page 1sur 7

Captulo 5. Anlisis de la asociacin entre dos variables cuantitativas.

Correlacin

Caso de estudio Cuantificacin de las fracciones orgnicas e inorgnicas de fsforo en suelos de la Mesopotamia Argentina
El fsforo es un macronutriente esencial para el desarrollo vegetal, ya que interviene en numerosos procesos bioqumicos a nivel celular. En el suelo se encuentra tanto en formas orgnicas como inorgnicas y su disponibilidad est condicionada por las caractersticas biolgicas y fisicoqumicas de los suelos. Boschetti et al (2003)1 llevaron a cabo un relevamiento de suelos de la regin mesopotmica argentina con el objetivo de relacionar las formas orgnicas e inorgnicas del fsforo en superficie con las caractersticas fsicoqumicas de los mismos. Para ello tomaron muestras superficiales de 13 suelos representativos de la variabilidad edfica de la regin mesopotmica. Las muestras fueron extradas de reas no fertilizadas, a una profundidad de 10 cm, secadas al aire y tamizadas para la realizacin de los anlisis fisicoqumicos. Entre otros, se determin el contenido de carbono orgnico del suelo (CO) y el contenido de fsforo muy lbil (extrado con membrana de intercambio aninica Pi-MIA), que representa el P inorgnico en la solucin del suelo inmediatamente disponible para las plantas (Tabla 1). Tabla 1. Contenido de carbono orgnico y de fsforo en suelos mesopotmicos Sitio 1 2 3 4 5 6 7 8 9 10 11 12 13 Tipo de suelo Haoludox Cromudert Pelludert Cromudert Kandihumult Kandiudult Pelludert Ocracualf Agiudol Hapludol Haplumbrept Udifluvent Udipsament CO [%] 19,4 17,2 42 33 29,6 16,4 41,8 32 31,1 12,4 7,6 3,8 6,8 Pi-MIA [mg.kg-1] 12 17 31 18 15 13 24 20 26 16 10 0,5 0,2

Obsrvese que en este anlisis existen dos variables de inters, contenido de carbono orgnico y contenido de fsforo extrado con membrana de intercambio aninica, medidas en las mismas muestras de suelo, y que ambas variables son aleatorias y continuas. Como primera aproximacin podramos estimar a partir de la muestra el promedio y el desvo estndar de la distribucin de ambas variables:

Boschetti NG, Quintero CE, Benavdez RA, Giuffre L (2003) Cuantificacin de las fracciones orgnicas e inorgnicas de fsforo en suelos de la Mesopotamia Argentina. Ciencia del Suelo 21:1-8

Captulo 5. Asociacin entre dos variables cuantitativas

mean(suelos) CO Pi 22.54615 15.59231 sd(suelos) CO Pi 13.14246 8.94301 Sin embargo, estos estadsticos no contribuyen directamente al objetivo planteado por los investigadores, esto es, relacionar el contenido de carbono orgnico con el contenido de fsforo de los suelos. Para ello necesitamos incorporar nuevas herramientas estadsticas.

Correlacin
Se denomina anlisis de correlacin al estudio de la asociacin entre dos variables aleatorias medidas en los mismos individuos. El anlisis de correlacin permite determinar si dos variables no estn asociadas o si por el contrario covaran, es decir varan conjuntamente. No interesa establecer una relacin causa-efecto sino determinar el grado de asociacin entre dos variables aleatorias, denominadas Y1 e Y2. El primer abordaje de anlisis que efectuaremos es el grfico. La representacin grfica que permite mostrar la relacin entre dos variables cuantitativas medidas en los mismos individuos se denomina diagrama de dispersin. En el caso del anlisis de correlacin es indistinto cul de las dos variables es representada en el eje de las abscisas y cul en el de las ordenadas. El diagrama de dispersin describe el patrn general de variacin conjunta de las dos variables representadas, y esto implica la forma, direccin y fuerza de la relacin entre las dos variables. Tambin permite detectar datos atpicos, esto es observaciones que se apartan sensiblemente del comportamiento de las restantes observaciones. En la Figura 1 se muestran algunos ejemplos.

Figura 1. Diagramas de dispersin ilustrando A) una asociacin lineal positiva; B) una asociacin lineal negativa; C) no asociacin; D) asociacin no lineal Dos variables estn asociadas positivamente cuando a las observaciones con valores por encima del promedio en una variable le corresponden, en general, valores por encima del promedio en la otra variable, y lo mismo ocurre con los valores por debajo del promedio. Los casos A y D de la Figura 5.1 constituyen ejemplos de variables asociadas positivamente. Dos variables estn asociadas negativamente cuando a las observaciones con valores por encima del promedio en una variable le corresponden, en general, valores por debajo del promedio en la otra variable, y viceversa. El caso B de la Figura 1 constituye un ejemplo de dos variables asociadas negativamente. Por el contrario, si una de las variables no cambia, a pesar de que la otra variable s lo hace, entonces las variables no estn asociadas, es decir, no covaran (Figura 1, caso C).

Captulo 5. Asociacin entre dos variables cuantitativas

En cuanto al tipo de asociacin, sta puede ser de tipo lineal, como en los casos A y B de la Figura 1, curvilnea, como el caso D o de cualquier otra forma. Para obtener el grfico de dispersin en R, importamos los datos a partir del archivo suelos.txt. suelos <- read.delim("C:/archivos R/suelos.txt", dec=",") attach(suelos) plot(CO, Pi)

Figura 2. Diagrama de dispersin para los datos de suelos de la Mesopotamia En la Figura 2 se muestra el diagrama de dispersin correspondiente a las 13 muestras de suelo de la regin mesopotmica. Se observa una relacin directa, es decir que, en la muestra, los suelos con mayor contenido de CO son los que presentaron a su vez mayor contenido de Pi lbil, y viceversa. Los investigadores concluyeron que exista una estrecha relacin entre ambas variables. El paso siguiente implica calcular medidas estadsticas de la asociacin entre dos variables.

Covarianza y coeficiente de correlacin


Una medida de cunto varan conjuntamente dos variables aleatorias continuas es la covarianza. Este estadstico permite medir la fuerza de la asociacin lineal entre las dos variables. En una muestra aleatoria de n pares (y1, y2) extrada de la poblacin, el estimador insesgado de covarianza es:
n

S Y1Y2 =

(y
i =1

i1

y1 )( y i 2 y 2 ) n 1

Obsrvese que este estadstico tiene unidades [Y1].[Y2] y puede tomar valores entre - y +. Asimismo, la covarianza de una variable consigo misma es la varianza. Es posible tambin deducir a partir de la frmula que aquellas variables asociadas positivamente presentarn valores positivos de covarianza, mientras que lo contrario ocurrir para variables asociadas negativamente. Si dos variables no estn asociadas en forma lineal, su covarianza valdr cero. Finalmente, ntese que es indistinto cul de las dos variables es identificada como Y1 y como Y2, ya que el valor de la covarianza no se modificar.

Captulo 5. Asociacin entre dos variables cuantitativas

Volviendo a los datos de Boschetti et al (2003), estimaremos la covarianza entre CO y Pi muy lbil en suelos mesopotmicos. Para ello utilizaremos la funcin cov(archivo): cov(suelos) CO Pi CO 172.7244 103.14622 Pi 103.1462 79.97744 Lo que proporciona R es la matriz de varianzas y covarianzas. La covarianza muestral entre CO y Pi vale 103,15 %.mg.kg-1. El valor positivo de la misma indica una relacin directa entre las variables analizadas, en concordancia con lo observado en el diagrama de dispersin. Sin embargo, su magnitud no nos informa demasiado con respecto a la fuerza de la asociacin. De hecho, si el Pi se hubiese medido en mg.g-1 en vez de en mg.kg-1, entonces la covarianza hubiese tomado un valor de 0,10315 %. mg.g-1. sta es una de las limitaciones de la covarianza como medida de la fuerza de la asociacin lineal entre dos variables: su valor, en trminos absolutos, depende de las unidades de medida de las dos variables. Una manera de soslayar este inconveniente es utilizar una medida estandarizada de la covarianza; esto se logra dividiendo la covarianza por el desvo estndar de las dos variables. Este estadstico se conoce como el coeficiente de correlacin lineal de Pearson. Para el caso de una poblacin, el coeficiente de correlacin poblacional entre dos variables aleatorias es un parmetro que se denota con la letra y que se define de la siguiente manera:

Y ,Y =
1 2

Y Y
2
1

1 2

Y 2Y

Para el caso de una muestra bivariada de tamao n, el coeficiente de correlacin muestral, denotado con la letra r, se calcula de la siguiente manera:

rY1Y2 =

CovY1Y2 DEY1 DEY2

Se puede deducir que, al igual que la covarianza, el coeficiente de correlacin es simtrico, es decir que rY1Y2 = rY2Y1 y su signo nos indica si la posible relacin es directa o inversa. A diferencia de la covarianza, no tiene unidades, ya que como se coment anteriormente, surge de una estandarizacin de la covarianza. Slo toma valores entre 1 y 1. Cuanto ms cercano se encuentre, en valor absoluto, a 1, mayor ser el grado de asociacin lineal entre las dos variables, siempre que no existan datos atpicos. En la Figura 3 se muestran varios ejemplos. A r = 0,88 B r = -0,96 C r = 0,16 D r=0

Figura 3. Diagramas de dispersin y coeficientes de correlacin ilustrando distintos grados de asociacin entre dos variables

Captulo 5. Asociacin entre dos variables cuantitativas

El coeficiente de correlacin lineal es til para cuantificar o describir el grado de relacin lineal entre dos variables, pero no es til en los casos en que la asociacin no es lineal (cuadrtica, logartmica, etc) (ver Figura 3D). En R, el estimador del coeficiente de correlacin lineal de Pearson se calcula con la funcin cor(archivo). Al aplicarlo sobre los datos de suelos se obtiene: cor(suelos) CO Pi CO 1.0000000 0.8775922 Pi 0.8775922 1.0000000 Este resultado sugiere que existe una asociacin lineal (como se vio en el diagrama de dispersin), directa (ya que el signo del coeficiente es positivo) y fuerte (ya que el valor del coeficiente es cercano a 1) entre el contenido de carbono orgnico del suelo y el de fsforo inorgnico lbil, es decir inmediatamente disponible para las plantas, en suelos mesopotmicos. Esto implica que suelos con elevado contenido de CO tienden a presentar elevados niveles de Pi lbil y viceversa. En el mismo estudio los investigadores hallaron un coeficiente de correlacin de -0,04 entre CO y fsforo inorgnico en forma muy estable (y por lo tanto no disponible para las plantas). Esto sugerira que no existe asociacin lineal entre estas dos variables. Es decir que suelos con elevado contenido de CO no tienden a tener mayor (o menor) contenido de Pi muy estable. Es importante mencionar que el anlisis de correlacin no supone necesariamente una relacin causal, es decir que no suministra evidencia de que las variaciones de una variable se explican o dependen de variaciones en otra variable, sino slo que ambas variables estn asociadas, es decir que varan conjuntamente. En nuestro ejemplo, no es el contenido de CO el que provoca un cambio en el contenido de Pi lbil, o al menos no podemos probar esa afirmacin con este estudio. Para establecer una relacin causaefecto, debe efectuarse otro tipo de diseo experimental, que discutiremos en la prxima seccin. Para determinar si la asociacin entre dos variables aleatorias es estadsticamente significativa, puede efectuarse el test t de correlacin, que pone a prueba la siguiente hiptesis nula:

Ho : Y1 ,Y2 = 0
En R, la funcin es cor.test(Y1,Y2), que adicionalmente proporciona un IC para el coefciente de correlacin. Para los datos de suelos: cor.test(CO,Pi) Pearson's product-moment correlation data: CO and Pi t = 6.0713, df = 11, p-value = 8.06e-05 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.6323959 0.9629515 sample estimates: cor 0.8775922 Se concluye entonces que la asociacin lineal entre CO y Pi es significativa (p=8.10-5) y se estima con una confianza del 95% que el coeficiente de correlacin lineal de Pearson entre CO y Pi de los suelos mesopotmicos se encuentra entre 0,63 y 0,96.

Captulo 5. Asociacin entre dos variables cuantitativas

Asociacin entre ms de dos variables


El mismo procedimiento descripto anteriormente puede utilizarse para estudiar la asociacin entre ms de dos variables aleatorias. Vemoslo a partir de un ejemplo. Debido a la intensificacin en la produccin bovina de carne y leche, cada vez se utiliza mayor cantidad de silajes de planta entera de maz (SMz) en la alimentacin de rodeos. El SMz es un alimento complejo constituido por una mezcla de forraje voluminoso y grano, picados. Se llev a cabo un trabajo a fin de caracterizar los SMz de la regin pampeana. Para ello a 26 muestras de SMz de distinta procedencia se les determin por qumica hmeda el contenido de materia seca (MS), fibra detergente neutro (%FDN) fibra detergente cido (%FDA) y protena bruta (PB). Los resultados se encuentran en el archivo silajes.txt. Cargamos los datos en R y solicitamos las medidas resumen: silajes <- read.delim("C:/archivos R/silajes.txt", dec=",") attach(silajes) summary(silajes) MS FDN FDA Min. :21.78 Min. :36.29 Min. :18.60 1st Qu.:30.12 1st Qu.:46.97 1st Qu.:24.18 Median :33.06 Median :49.49 Median :27.84 Mean :33.94 Mean :50.26 Mean :27.76 3rd Qu.:37.94 3rd Qu.:53.07 3rd Qu.:31.46 Max. :52.10 Max. :66.00 Max. :36.63 PB Min. :5.070 1st Qu.:6.885 Median :7.610 Mean :7.301 3rd Qu.:8.010 Max. :8.290 Para obtener la matriz de todos los diagramas de dispersin posibles, se utiliza la funcin pairs(archivo) pairs(silajes)

Y finalmente solicitamos la matriz de varianzas y covarianzas (funcin cov) y la matriz de coeficientes de correlacin (funcin cor): cov(silajes)

Captulo 5. Asociacin entre dos variables cuantitativas

MS FDN FDA PB MS 45.7995022 11.4325022 -3.730780 0.8170345 FDN 11.4325022 50.5481422 15.684992 -0.9904295 FDA -3.7307803 15.6849917 27.302667 -2.0680609 PB 0.8170345 -0.9904295 -2.068061 0.7977114 cor(silajes) MS FDN FDA PB MS 1.0000000 0.2376065 -0.1055035 0.1351721 FDN 0.2376065 1.0000000 0.4222106 -0.1559725 FDA -0.1055035 0.4222106 1.0000000 -0.4431369 PB 0.1351721 -0.1559725 -0.4431369 1.0000000

Captulo 5. Asociacin entre dos variables cuantitativas

Vous aimerez peut-être aussi