Académique Documents
Professionnel Documents
Culture Documents
discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/49303936
Fundamentos de estadstica
Article
Source: OAI
CITATIONS READS
4 3,838
1 author:
Chris Leach
University of Huddersfield
45 PUBLICATIONS 889 CITATIONS
SEE PROFILE
All in-text references underlined in blue are linked to publications on ResearchGate, Available from: Chris Leach
letting you access and read them immediately. Retrieved on: 08 October 2016
Fundamentos de Estadstica
Pablo Cazau
Prefacio
Referencias bibliogrficas
Otras fuentes consultadas
Anexos
ANEXO 1: NOMENCLATURA UTILIZADA EN ESTA GUA
ANEXO 2: TABLA DE REAS BAJO LA CURVA NORMAL ESTANDARIZADA
Tabla 1 reas desde z hacia la izquierda
Tabla 2 reas desde z = 0 hacia la izquierda o hacia la derecha
ANEXO 3: TABLA DE LA DISTRIBUCIN t
Fundamentos de estadstica
Pablo Cazau
PREFACIO
El presente texto fue pensado como un manual de consulta para alumnos de diversas carreras
universitarias de grado y posgrado que cursan asignaturas donde se ensea la estadstica como
herramienta de la metodologa de la investigacin cientfica.
Se brinda aqu un panorama general e introductorio de los principales temas de una disciplina que opera
en dos grandes etapas: la estadstica descriptiva y la estadstica inferencial. Tambin se desarrollan los
conceptos de probabilidad y curva normal, bsicos para la comprensin de la estadstica inferencial, y los
conceptos de correlacin y regresin vinculados, respectivamente, con las etapas descriptiva e
inferencial.
Pablo Cazau. Licenciado en Psicologa y Profesor de Enseanza Media y Superior en Psicologa (UBA).
Buenos Aires, Enero 2006.
La Estadstica es una disciplina que utiliza recursos matemticos para organizar y resumir una gran
cantidad de datos obtenidos de la realidad, e inferir conclusiones respecto de ellos.
Por ejemplo, la estadstica interviene cuando se quiere conocer el estado sanitario de un pas, a travs de
ciertos parmetros como la tasa de morbilidad o mortalidad de la poblacin. En este caso la estadstica
describe la muestra en trminos de datos organizados y resumidos, y luego infiere conclusiones respecto
de la poblacin. Por ejemplo, aplicada a la investigacin cientfica, hace inferencias cuando emplea
medios matemticos para establecer si una hiptesis debe o no ser rechazada.
La estadstica puede aplicarse a cualquier mbito de la realidad, y por ello es utilizada en fsica, qumica,
biologa, medicina, astronoma, psicologa, sociologa, lingstica, demografa, etc.
Cuando en cualquiera de estas disciplinas se trata de establecer si una hiptesis debe o no ser rechazada,
no siempre es indispensable la estadstica inferencial.
Por ejemplo, si sobre 60 veces que se mira un dado, sale un dos 10 veces, no se requiere la estadstica
para rechazar la hiptesis el dado est cargado. Si sale un dos en 58 ocasiones sobre 60, tampoco se
necesita la estadstica para aceptar la hiptesis el dado est cargado.
Pero, qu ocurre si el nmero dos sale 20, 25 o 30 veces? En estos casos de duda, la estadstica
interviene para determinar hasta qu cantidad de veces se considerar rechazada la hiptesis (o bien
desde qu cantidad de veces se la considerar aceptada). En otras palabras, la estadstica interviene
cuando debe determinarse si los datos obtenidos son debidos al azar o son el resultado de un dado
cargado.
Otro ejemplo. Si una persona adivina el color (rojo o negro) de las cartas en un 50% de los casos, se
puede rechazar la hiptesis la persona es adivina. Si, en cambio, acierta en el 99% de los casos el color
de las cartas, se puede aceptar la mencionada hiptesis. Los casos de duda corresponden a porcentajes
de acierto intermedios, como el 60%, el 70%, etc., en cuyos casos debe intervenir la estadstica para
despejarlos.
La importancia de la estadstica en la investigacin cientfica radica en que la gran mayora de las
investigaciones son casos de duda.
Parmetros POBLACION x y
Estadsticos x y
MUESTRA
x1 x2 xn x1 y1
Puesto que la estadstica se ocupa de una gran cantidad de datos, debe primeramente definir de cules
datos se va a ocupar. El conjunto de datos de los cuales se ocupa un determinado estudio estadstico se
llama poblacin.
No debe confundirse la poblacin en sentido demogrfico y la poblacin en sentido estadstico.
La poblacin en sentido demogrfico es un conjunto de individuos (todos los habitantes de un pas, todas
las ratas de una ciudad), mientras que una poblacin en sentido estadstico es un conjunto de datos
referidos a determinada caracterstica o atributo de los individuos (las edades de todos los individuos de
un pas, el color de todas las ratas de una ciudad).
Incluso una poblacin en sentido estadstico no tiene porqu referirse a muchos individuos. Una poblacin
estadstica puede ser tambin el conjunto de calificaciones obtenidas por un individuo a lo largo de sus
estudios universitarios.
En el siguiente esquema pueden apreciarse algunas formas de considerar los datos individuales, segn
que correspondan a muchas personas o a una sola, y tambin segn que hayan sido recolectados en un
instante de tiempo determinado, o bien a lo largo del tiempo.
Los datos de la totalidad de una poblacin pueden obtenerse a travs de un censo. Sin embargo, en la
mayora de los casos no es posible hacerlo por razones de esfuerzo, tiempo y dinero, razn por la cual se
extrae, de la poblacin, una muestra, mediante un procedimiento llamado muestreo. Se llama muestra a
un subconjunto de la poblacin, y que puede o no ser representativa de la misma.
Por ejemplo, si la poblacin es el conjunto de todas las edades de los estudiantes de la provincia de
Buenos Aires, una muestra podra ser el conjunto de edades de 2000 estudiantes de la provincia de
Buenos Aires tomados al azar.
Los datos son la materia prima con que trabaja la estadstica, del mismo modo que la madera es la
materia prima con que trabaja el carpintero. As como este procesa o transforma la madera para obtener
un producto til, as tambin el estadstico procesa o transforma los datos para obtener informacin til.
Tanto los datos como la madera no se inventan: se extraen de la realidad; en todo caso el secreto est
en recoger la madera o los datos ms adecuados a los objetivos del trabajo a realizar.
De una manera general, puede definirse tcnicamente dato como una categora asignada a una variable
de una unidad de anlisis. Por ejemplo, Luis tiene 1.70 metros de estatura es un dato, donde Luis es
la unidad de anlisis, estatura es la variable, y 1.70 metros es la categora asignada.
Como puede apreciarse, todo dato tienen al menos tres componentes: una unidad de anlisis, una
variable y una categora.
La unidad de anlisis es el elemento del cual se predica una propiedad y caracterstica. Puede ser una
persona, una familia, un animal, una sustancia qumica, o un objeto como una dentadura o una mesa.
La variable es la caracterstica, propiedad o atributo que se predica de la unidad de anlisis. Por ejemplo
puede ser la edad para una persona, el grado de cohesin para una familia, el nivel de aprendizaje
alcanzado para un animal, el peso especfico para una sustancia qumica, el nivel de salud para una
dentadura, y el tamao para una mesa.
Pueden entonces tambin definirse poblacin estadstica (o simplemente poblacin) como el conjunto de
datos acerca de unidades de anlisis (individuos, objetos) en relacin a una misma caracterstica,
propiedad o atributo (variable).
Sobre una misma poblacin demogrfica pueden definirse varias poblaciones de datos, una para cada
variable. Por ejemplo, en el conjunto de habitantes de un pas (poblacin demogrfica), puede definirse
una poblacin referida a la variable edad (el conjunto de edades de los habitantes), a la variable
ocupacin (el conjunto de ocupaciones de los habitantes), a la variable sexo (el conjunto de condiciones
de sexo de los habitantes).
La categora es cada una de las posibles variaciones de una variable. Categoras de la variable sexo son
masculino y femenino, de la variable ocupacin pueden ser arquitecto, mdico, etc, y de la variable edad
pueden ser 10 aos, 11 aos, etc. Cuando la variable se mide cuantitativamente, es decir cuando se
expresa numricamente, a la categora suele llamrsela valor. En estos casos, el dato incluye tambin
una unidad de medida, como por ejemplo aos, cantidad de hijos, grados de temperatura, cantidad de
piezas dentarias, centmetros, etc. El valor es, entonces, cada una de las posibles variaciones de una
variable cuantitativa.
Datos individuales y datos estadsticos.- Un dato individual es un dato de un solo individuo, mientras
que un dato estadstico es un dato de una muestra o de una poblacin en su conjunto. Por ejemplo, la
edad de Juan es un dato individual, mientras que el promedio de edades de una muestra o poblacin de
personas es un dato estadstico. Desde ya, puede ocurrir que ambos no coincidan: la edad de Juan puede
ser 37 aos, y el promedio de edades de la muestra donde est includo Juan es 23 aos. Por esta razn
un dato estadstico nada dice respecto de los individuos, porque solamente describe la muestra o
poblacin.
Los datos estadsticos que describen una muestra suelen llamarse estadsticos (por ejemplo, el
promedio de ingresos mensuales de las personas de una muestra), mientras que los datos estadsticos
descriptores de una poblacin suelen llamarse parmetros (por ejemplo, el promedio de ingresos
mensuales de las personas de una poblacin) (Kohan N, 1994:143).
1.5 LA MEDICIN
Los datos se obtienen a travs un proceso llamado medicin. Desde este punto de vista, puede definirse
medicin como el proceso por el cual asignamos una categora (o un valor) a una variable, para
determinada unidad de anlisis. Ejemplo: cuando decimos que Martn es varn, estamos haciendo una
medicin, porque estamos asignando una categora (varn) a una variable (sexo) para una unidad de
anlisis (Martn).
A veces se ha definido medir como comparar, lo cual puede referirse a diversos tipos de comparacin: 1)
comparar una cantidad con otra tomada como unidad Sentido clsico de comparacin); 2) comparar dos
categoras de una misma variable en el mismo sujeto y distinto tiempo; 3) comparar dos categoras de una misma
variable en distintos sujetos al mismo tiempo; y 4) categoras de variables distintas (debe usarse puntaje
estandarizado), en el mismo sujeto o en sujetos distintos.
Se pueden hacer mediciones con mayor o menor grado de precisin. Cuanto ms precisa sea la medicin,
ms informacin nos suministra sobre la variable y, por tanto, sobre la unidad de anlisis. No es lo
mismo decir que una persona es alta, a decir que mide 1,83 metros.
Los diferentes grados de precisin o de contenido informativo de una medicin se suelen caracterizar
como niveles de medicin. Tpicamente se definen cuatro niveles de medicin, y en cada uno de ellos la
obtencin del dato o resultado de la medicin ser diferente:
En el nivel nominal, medir significa simplemente asignar un atributo a una unidad de anlisis (Martn es
electricista).
En el nivel ordinal, medir significa asignar un atributo a una unidad de anlisis cuyas categoras pueden
ser ordenadas en una serie creciente o decreciente (la categora secundaria completa puede ordenarse
en una serie, pues est entre secundaria incompleta y universitaria incompleta).
En el nivel cuantitativo, medir significa adems asignar un atributo a una unidad de anlisis de modo tal
que la categora asignada permita saber cunto mayor o menor es respecto de otra categora, es decir,
especifica la distancia o intervalo entre categoras (por ejemplo, la categora 70 es el doble de la
categora 35).
Las variables medibles en el nivel cuantitativo pueden ser discretas o continuas. Una variable discreta es
aquella en la cual, dados dos valores consecutivos, no puede adoptar ningn valor intermedio (por
ejemplo entre 32 y 33 dientes, no puede hablarse de 32.5 dientes). En cambio, una variable es continua
cuando, dados dos valores consecutivos, la variable puede adoptar muchos valores intermedios (por
ejemplo entre 1 y 2 metros, puede haber muchas longitudes posibles).
Algunas veces una misma variable puede ser considerada como discreta o continua. Por ejemplo, la
variable peso es discreta si solamente interesan los pesos sin valores intermedios (50 kg, 51 kg, etc),
mientras que ser continua si interesan tambin los valores intermedios (50,3 kg, 50,35 kg, 50,357 kg,
etc). Obviamente, al considerar una variable como continua se obtendr mayor precisin, es decir, mayor
informacin.
La precisin es una cualidad importante de la medicin. Se pueden hacer mediciones ms precisas y menos
precisas, o tan precisas como lo permita el instrumento de medicin. El primer nivel de medicin es el menos
preciso, y el ltimo el ms preciso. Por ejemplo, una mujer puede estar interesada en medir el amor de su
pareja, para lo cual podr interrogarla solicitndole diferentes grados de precisin: me quers? (nivel nominal),
me quers ms que a la otra? (nivel ordinal), Cunto me quers, del 1 al 10? (nivel cuantitativo).
De la misma manera, diferentes grados de precisin para la variable temperatura pueden ser: A es un objeto
caliente (nivel nominal), A es ms caliente que B (nivel ordinal), A tiene 25 grados Celsius (nivel cuantitativo). Los
ejemplos del amor y de la temperatura ilustran tambin el hecho de que una variable puede en principio medirse
en cualquiera de los niveles de medicin.
Los niveles de medicin pueden tambin ser clasificados de acuerdo a un criterio diferente, que afecta
especficamente a los dos ltimos. As, los niveles de medicin pueden ser clasificados como nominal,
ordinal, de intervalos iguales y de cocientes o razones.
Ms all de sus diferentes propiedades matemticas, el nivel de intervalos iguales incluye un cero relativo
o arbitrario, mientras que el nivel de cocientes o razones incluye un cero absoluto o real. Un cero
absoluto o real representa la ausencia real de la variable (cero metros implica ausencia de longitud),
mientras que un cero relativo o arbitrario no (cero grado centgrados no implica ausencia de
temperatura).
Existen ciertas variables a las cuales no puede asignrsele un cero real, por cuanto no se considera que
esa variable pueda estar ausente en la realidad. Tal es el caso de la ansiedad o la inteligencia: nadie, por
menos ansioso o por menos inteligente que sea, puede tener ansiedad o inteligencia nulas.
2.1 GENERALIDADES
A medida que se van utilizando estos procedimientos, los datos van quedando cada vez ms resumidos y
organizados. El empleo de dichos procedimientos propios de la estadstica descriptiva sigue un orden
determinado, como puede apreciarse en el siguiente esquema:
Una vez que los datos han sido recolectados, se procede a continuacin a ordenarlos en una matriz de
datos y luego a agruparlos en una tabla de frecuencias.
La forma de ordenarlos y agruparlos depender del tipo de variable considerada. Por ejemplo, si son
datos relativos a variables cualitativas (niveles de medicin nominal y ordinal), no podremos utilizar
tablas de frecuencias por intervalos. El siguiente cuadro indica de qu manera se pueden ordenar y
agrupar los datos segn cada nivel de medicin de la variable:
Una vez confeccionada la matriz de datos, se procede luego a resumir an ms esta informacin
mediante una tabla de frecuencias o, si cabe, en una tabla de frecuencias por intervalos. Una tabla de
este ltimo tipo se justifica cuando la tabla de frecuencias original es demasiado grande y por tanto de
difcil manejo para procesar la informacin. Sea de la forma que fuere, los datos ordenados segn sus
frecuencias suelen denominarse distribucin de frecuencias (13).
Las tablas de frecuencias contienen tres elementos importantes: las frecuencias, el tamao de la muestra
y los intervalos (en este ltimo caso slo para variables cuantitativas).
a) Frecuencia.- La frecuencia (f) se define como la cantidad de datos iguales o que se repiten. Por
ejemplo: la frecuencia 2 indica que el dato catlico se repite dos veces, la frecuencia 3 que el dato
clase media se repite tres veces, y la frecuencia 8 que el dato 17 aos se repite ocho veces.
A veces resulta necesario expresar las frecuencias de otra manera, como puede apreciarse en la siguiente
tabla ilustrativa:
x (edad) f f% F F% fr Fr
15 3 15% 3 15% 0.15 0.15
16 7 35% 10 50% 0.35 0.50
17 8 40% 18 90% 0.40 0.90
18 2 10% 20 100% 0.10 1
n = 20 n = 100% ------ ------ n=1 ------
Frecuencia absoluta (f).- Es la cantidad de datos que se repiten. Por ejemplo, la frecuencia 3 indica que
hay tres personas de 15 aos. La suma de todas las frecuencias absolutas equivale al tamao de la
muestra.
Frecuencia porcentual (f%).- Es el porcentaje de datos que se repiten. Por ejemplo, la frecuencia
porcentual 15% indica que el 15% de la muestra tiene la edad de 15 aos. La suma de todas las
frecuencias porcentuales es 100%.
Frecuencia acumulada (F).- Es el resultado de haber sumado las frecuencias anteriores. Por ejemplo, la
frecuencia acumulada 10 resulta de sumar 7+3, e indica la cantidad de veces que se repiten las edades
16 y 15. La ltima de todas las frecuencias acumuladas, que en el ejemplo es 20, debe coincidir con el
tamao de la muestra.
Frecuencia acumulada porcentual (F%).- Es el porcentaje de las frecuencias acumuladas.
Frecuencia relativa (fr).- A veces tambin llamada proporcin, es el cociente entre la frecuencia de un
dato x y la frecuencia total o tamao de la muestra. En la prctica, el tamao de la muestra se considera
como 1, a diferencia del tamao de la muestra en la frecuencia porcentual, que se considera 100%.
Frecuencia relativa acumulada (Fr).- Es el resultado de haber sumado las frecuencias relativas
anteriores. Por ejemplo: la frecuencia relativa 0.90 indica que en 0.90 casos sobre 1 las edades estn
comprendidas entre 15 y 17 aos.
Frecuencias parciales y frecuencia total.- Tanto las frecuencias absolutas como las porcentuales o las
relativas pueden ser frecuencias parciales o una frecuencia total, siendo sta ltima la suma de todas
frecuencias parciales.
Las frecuencias porcentuales y las frecuencias relativas comparan la frecuencia parcial con la frecuencia
total, y sirven para establecer comparaciones entre muestras distintas. Por ejemplo, si en una muestra
de 1000 hombres, solo votaron 200, y en una muestra de 600 mujeres solo votaron 200 mujeres, en
trminos de frecuencias absolutas existe la misma cantidad de votantes masculinos y femeninos, es decir
200, pero en proporcin, las mujeres votaron ms (la tercera parte del total) que los hombres (la quinta
parte del total). Esta informacin se obtiene al convertir las frecuencias absolutas en frecuencias
porcentuales o en frecuencias relativas (o proporciones).
2) Tamao de la muestra.- Otro concepto importante es el tamao de la muestra (n), que designa la
cantidad total de datos. Obviamente, la suma de todas las frecuencias f debe dar como resultado el
tamao n de la muestra, por lo que el tamao de la muestra coincide con la frecuencia total.
3) Intervalos.- Un intervalo, tambin llamado intervalo de clase, es cada uno de los grupos de valores
ubicados en una fila en una tabla de frecuencias. Por ejemplo el intervalo 15-16 significa que en esa fila
se estn considerando las edades de 15 a 16 aos. La frecuencia correspondiente a un intervalo es igual
a la suma de frecuencias de los valores en l includos (2). Los intervalos presentan algunas
caractersticas, que son las siguientes:
Tamao del intervalo (a).- Tambin llamado amplitud o anchura del intervalo, es la cantidad de valores
de la variable que se consideran conjuntamente en ese intervalo. Por ejemplo, el intervalo 15-16 aos
tiene una amplitud de 2, puesto que se consideran dos valores: 15 y 16. En otro ejemplo, el intervalo 20-
25 aos tiene una amplitud de 6, puesto que se consideran seis valores.
En general, puede calcularse el tamao de un intervalo restando el lmite superior y el inferior y sumando
al resultado el nmero 1. Por ejemplo, 25 menos 20 da 5, y sumndole 1 da 6.
Los ejemplos indicados corresponden a variables discretas, lo que significa que no podrn encontrarse
valores intermedios entre dos intervalos. Por ejemplo, entre los intervalos 15-16 y 17-18 no se
encontrarn valores intermedios entre 16 y 17 aos.
Tngase presente que: a) preferiblemente los intervalos deben tener un tamao constante, de manera tal
que no se pueden considerar como intervalos 15-16 y 17-20, porque tienen diferentes tamaos; y b) los
intervalos han de ser mutuamente excluyentes, de manera tal que cuando se trata de variables discretas,
no pueden definirse los intervalos 15-16 y 16-17, porque el valor 16 aos est en ambos intervalos y no
se podr saber con seguridad en qu intervalo ubicar dicho valor.
El problema se puede presentar con las variables continuas, donde, por definicin, podra aparecer algn
valor intermedio entre dos intervalos. Por ejemplo, si se considera la variable continua ingresos
mensuales y se consideran en ella los intervalos 1000-2000 dlares y 3000-4000 dlares, puede ocurrir
que un dato obtenido de la realidad sea 2500 dlares, con lo cual no podr ser registrado en ningn
intervalo. En tal caso se deberan reorganizar los intervalos como 1000-2999 dlares y 3000-4999
dlares, con lo cual el problema estara resuelto.
Desde ya, puede ocurrir que aparezca un ingreso mensual de 2999,50 dlares, en cuyo caso en principio
deberan reorganizarse nuevamente los intervalos como 1000-2999,50 dlares y 2999,51-4999 dlares.
La forma de reorganizar los intervalos depender entonces del grado de precisin que pretenda el
investigador o del grado de precisin del instrumento de medicin disponible.
Lmites del intervalo.- Todo intervalo debe quedar definido por dos lmites: un lmite inferior y un lmite
superior. Estos lmites, a su vez, pueden ser aparentes o reales (Pagano, 1998:38-39). Considrese el
siguiente ejemplo:
Si la variable considerada es discreta, carecer de sentido la distincin entre lmites reales o aparentes.
Si se conviene que los valores que la variable puede adoptar son nmeros enteros, se considerarn
solamente los intervalos 95-99, 90-94, etc. Estos intervalos son en rigor reales, porque expresan los
valores reales que puedan haber, que no son fraccionarios.
Slo en el caso de las variables continuas adquiere sentido la distincin entre lmites reales y aparentes.
Si la variable es continua, deberan tenerse en cuenta los lmites reales. Por ejemplo, si un valor resulta
ser 94.52, entonces ser ubicado en el intervalo 94.5-99.5. Sin embargo, an en estos casos, lo usual es
omitir los lmites reales y presentar slo los lmites aparentes (Pagano, 1998:39). En todo caso, los
lmites reales se utilizan a veces cuando se intenta transformar la tabla de frecuencias por intervalos en
un grfico.
En principio, en ningn caso deber haber una superposicin de valores, como en el caso de los
intervalos 20-21 y 21-22, donde el valor 21 est includo en ambos intervalos, violndose as la regla de
la mutua exclusin. Si acaso se presentara esta situacin, o bien podr ser adjudicada a un error del
autor de la tabla, o bien deber traducrsela como 20-20.99 y 21-22.99.
Punto medio del intervalo (xm).- Es el valor que resulta de la semisuma de los lmites superior e inferior,
es decir, el punto medio del intervalo se calcula sumando ambos lmites y dividiendo el resultado por dos.
Por ejemplo, el punto medio del intervalo 15-20 es 17.5. El punto medio del intervalo sirve para calcular
la media aritmtica.
Intervalos abiertos y cerrados.- Idealmente, todos los intervalos deberan ser cerrados, es decir, deberan
estar especificados un lmite superior y uno inferior de manera definida. Sin embargo, en algunos casos
se establecen tambin intervalos abiertos, donde uno de los lmites queda sin definir. En el siguiente
ejemplo, 18 o menos y 29 o ms son intervalos abiertos. Obviamente, en este tipo de distribucin los
intervalos dejan de ser de tamao constante.
Intervalos
18 o menos
19-23
24-28
29 o ms
Una vez que los datos han sido organizados en tablas de frecuencias, es posible seguir avanzando
organizndolos, desde all, de otras maneras diferentes y con distintos propsitos. Una de estas maneras
es la utilizacin de representaciones grficas, algunas de las cuales son aptas para representar variables
cualitativas (niveles nominal y ordinal) y otras para variables cuantitativas. Al tratarse de esquemas
visuales, los grficos permiten apreciar de un golpe de vista la informacin obtenida.
Esta tcnica de visualizacin de datos es aqu mencionada en primer lugar porque puede ser considerada
un procedimiento intermedio entre la tabla de frecuencias y el grfico. Fue creada por Tukey en 1977
(citado por Botella, 1993:59) y presenta, entre otras, las siguientes ventajas: a) permite conocer cada
puntuacin individual (a diferencia de la tabla de frecuencias por intervalos, donde desaparecen en ellos);
y b) puede ser considerada un grfico si hacemos girar 90 el listado de puntuaciones o datos.
A continuacin se describe la forma de construir un diagrama de tallo y hojas, tomando como ejemplo la
siguiente distribucin de datos ordenados:
32-33-37-42-46-49-51-54-55-57-58-61-63-63-65-68-71-72-73-73-73-75-77-77-78-83-85-85-91-93
Girando la tabla obtenida 90 hacia la izquierda, se obtendr algo similar a un grfico de barras, que
muestra por ejemplo que la mayor concentracin de valores es la que comienza con 7.
Una utilidad adicional del diagrama de tallo y hojas es que permite comparar visualmente dos variables,
es decir, dos conjuntos de datos en los anlisis de correlacin, como puede apreciarse en el siguiente
ejemplo:
Visualmente es posible darse una idea de los resultados del experimento: los datos del grupo
experimental tienden a concentrarse en los valores altos, y los del grupo de control en los valores bajos.
Pictograma
Es una representacin grfica en la cual se utilizan dibujos. Por ejemplo, en el siguiente pictograma cada
cara puede representar 100 personas:
Varones
Mujeres
100 personas
Sector circular
Representacin grfica de forma circular donde cada porcin de la torta representa una frecuencia. Para
confeccionarlo se parte de una tabla de frecuencias donde estn especificadas las frecuencias en grados
(f), las cuales se calculan mediante una sencilla regla de tres simple a partir de las frecuencias absolutas
(f).
Por ejemplo, si 825 es a 360, entonces 310 es igual a 360 x 310 dividido por 825, lo cual da un
resultado de 135. Por lo tanto, para representar la frecuencia 310 deber trazarse un ngulo de 135.
Estos valores pueden verse en el ejemplo siguiente, donde se han representado dos sectores circulares
distintos, uno para varones y otro para mujeres:
x Sexo Total f f
(patologa) Varones Mujeres (varones) (mujeres)
Angina 310 287 597 135 113
Bronquitis 297 429 726 130 169
Sarampin 123 120 243 54 47
Otras 95 80 175 41 31
Total 825 916 1691 360 360
Bronquitis Bronquitis
Angina
Saram Angina Saram
pin
pin
Otras Otras
Varones
Mujeres
Para realizar estos sectores se traza un ngulo de por ejemplo 130 y dentro de coloca la palabra
bronquitis, y as sucesivamente.
El crculo para mujeres es algo mayor que el crculo para hombres, porque en la muestra hay ms
mujeres que hombres. Para lograr estos tamaos debe calcularse el radio. Por ejemplo, si se ha elegido
un radio masculino de 4 cm, el radio femenino puede calcularse mediante la frmula siguiente:
El radio femenino es igual al radio masculino multiplicado por la raz cuadrada del n femenino, resultado
que se dividir por la raz cuadrada del n masculino, donde n = tamao de la muestra de cada sexo. Si el
radio masculino es 4 cm, con esta frmula se obtendr un radio femenino de 4,22 cm.
Diagrama de barras
Representacin grfica donde cada barra representa una frecuencia parcial. En el eje de las ordenadas se
indican las frecuencias absolutas, y en el eje de absisas se representan los valores de la variable x. De
esta manera, las barras ms altas tienen mayor frecuencia.
Existen diferentes tipos de diagramas de barras, de los cuales se ilustran tres: las barras simples, las
barras superpuestas y las barras adyacentes. Los dos ltimos tipos dan informacin sobre dos variables
al mismo tiempo, que son sexo y estado civil en los ejemplos que siguen:
f f
25 25
20 20
15 15
10 10
5 5
Barras adyacentes
25
20
15
Adolescentes
10
5
Adultos
Histograma de Pearson
Utilizado para representar variables cuantitativas continuas agrupadas en intervalos, este grfico se
compone de barras adyacentes cuya altura es proporcional a las respectivas frecuencias parciales. En el
ejemplo siguiente, se presenta la tabla de frecuencias por intervalos y su histograma correspondiente:
x (longitud) f
1-1.99 3
2-2.99 5
3-3.99 2
Total 10
f
1 2 3 4
x
Como pude apreciarse, en las absisas se indican los lmites inferiores de los intervalos.
Cuando los intervalos no son iguales, en lugar de indicar las frecuencias absolutas pueden indicarse las
alturas (h). Esta ltima se obtiene dividiendo la frecuencia parcial por el tamao del intervalo
correspondiente.
Polgono de frecuencias
Es un grfico de lneas rectas que unen puntos, siendo cada punto la interseccin del punto medio del
intervalo (indicado en las absisas) y la frecuencia correspondiente. Tomando el ejemplo anterior, el
polgono de frecuencias sera el siguiente:
Un polgono de frecuencias puede obtenerse tambin a partir del histograma correspondiente. Para ello
basta con indicar los puntos medios de cada lnea horizontal superior de cada barra del histograma, y
luego unirlos con lneas rectas.
Otra alternativa para este tipo de diagrama es el polgono de frecuencias acumuladas, donde se indican
las frecuencias acumuladas en lugar de las frecuencias habituales.
Ojiva de Galton
Grfico en el cual se consignan en las ordenadas las frecuencias acumuladas y en las absisas los lmites
superiores de cada intervalo (aunque tambin pueden indicarse los puntos medios de cada intervalo). Por
ejemplo:
x (longitud) f F
1-1.99 3 3
2-2.99 5 8
3-3.99 2 10
Total 10
F
10
Los datos individuales pueden ser sintetizados mediante medidas de posicin, medidas de dispersin
(ambas se llaman medidas estadsticas), medidas de asimetra y medidas de curtosis. En este tem se
describen las medidas de posicin.
Definicin
Las medidas de posicin pueden ser definidas de diversas formas (4). En esta nota proponemos la
siguiente definicin: Las medidas de posicin son datos estadsticos que intentan representar un conjunto
de datos individuales respecto de una variable.
Esta definicin se refiere a tres cuestiones:
1) Son medidas estadsticas, es decir, no son medidas individuales. Una medida de posicin representa a
todo un conjunto de datos, y no son los datos individuales. Por ejemplo, un promedio de edades
representa a todas las edades del grupo, y no es la edad individual de uno de sus miembros, aunque
pueda coincidir numricamente con ella. As, si el promedio de edades es 20 aos y una de las personas
del grupo tiene 20 aos, el primer dato es una medida estadstica y el segundo una medida individual.
En otros trminos, las medidas estadsticas no describen individuos, sino poblaciones o muestras. Por
ejemplo, no tiene sentido explicar que una persona es anciana porque vive en una poblacin cuyo
promedio de edad es 70 aos.
2) Son medidas representativas, es decir, intentan representar y sintetizar a todas las medidas
individuales. El conjunto de todas las medidas individuales puede recibir diversos nombres, tales como
muestra y poblacin, con lo cual tiene sentido afirmar proposiciones tales como una medida de posicin
representa una muestra o una poblacin.
Por ejemplo, es posible representar las notas obtenidas por un grupo de alumnos de diversas maneras:
a) El promedio de las notas es de 7.35 puntos (en este caso usamos una medida de posicin llamada
media aritmtica).
b) La mitad de los alumnos ha obtenido una nota superior a 6,5 puntos (en este caso utilizamos otra
medida de posicin llamada mediana).
c) La nota que ms se ha repetido fue 7 puntos (en este caso usamos la medida de posicin llamada
modo).
La pregunta acerca de cul de las tres medidas de posicin representa mejor al conjunto de datos
individuales es el problema de la representatividad de la medida de posicin, y la estadstica suministra,
como se ver, diversos criterios para evaluar la mejor forma de representar un cierto nmero de datos
individuales.
3) Son medidas que miden una variable, es decir, algn atributo o propiedad de los objetos. En el
ejemplo anterior la variable medida es el rendimiento acadmico, pero tambin pueden obtenerse
medidas de posicin representativas de un conjunto de edades, de profesiones, de clases sociales, de
puntuaciones de un test, de cantidad de dientes, etc.
De otra manera: no tiene sentido decir que una medida de posicin represente un conjunto de personas,
pero s tiene sentido decir que representan las edades de un conjunto de personas.
Las medidas de posicin pueden ser de tendencia central y de tendencia no central. Las primeras se
refieren a los valores de la variable que suelen estar en el centro de la distribucin (Kohan, 1994:69).
Por ejemplo: la media aritmtica, la mediana y el modo son las ms conocidas, pero tambin est la
media aritmtica ponderada (til cuando hay valores que se repiten y que requieren atencin diferencial),
la media geomtrica (Kohan, 1994:71-72), la media armnica, la media antiarmnica, la media
cuadrtica, la media cbica, etc.
Las medidas de posicin no centrales son los cuartiles, deciles y percentiles (Kohan, 1994:79), que
reciben genricamente el nombre de cuantiles o fractiles (5).
De acuerdo a Botella (1993:99), las medidas de posicin no centrales son datos o valores que ocupan
una posicin especial en la serie de datos. Cuando una medida de posicin es un dato que ocupa un lugar
central, la llamamos medida de tendencia central.
Relacin entre modo, mediana y media aritmtica.- a) La experiencia indica que la relacin entre estas
tres medidas es:
Modo = (3 . Mediana) (2 . Media aritmtica). Esta relacin es conocida como la frmula de Pearson. b)
Cuanto ms simtrica es una distribucin (por ejemplo en una curva normal), ms tienden a coincidir los
valores de las tres medidas.
Para calcular una determinada medida de posicin puede haber diversas frmulas. La eleccin de la
frmula adecuada depender de la forma en que estn organizados los datos individuales.
En principio, los datos pueden estar organizados de cuatro maneras:
1) Datos desordenados. Por ejemplo, las edades de un grupo de cuatro personas son 17, 29, 17 y 14.
Cuando se recolecta informacin, generalmente se obtienen datos desordenados, frente a lo cual
convendr ordenarlos.
2) Datos ordenados. Por ejemplo, las edades del mismo grupo de personas son 14, 17, 17 y 29, si hemos
decidido ordenarlas en forma creciente, aunque tambin podemos ordenarlas decrecientemente.
3) Datos agrupados por frecuencia. Por ejemplo, hay dos edades de 17 aos, una edad de 14 aos y una
edad de 29 aos. O, lo que es lo mismo, la frecuencia de la edad 17 es 2, y la frecuencia de las restantes
edades es 1.
4) Datos agrupados por intervalos. Por ejemplo, hay 3 edades comprendidas en el intervalo 14-17 aos,
y una edad comprendida en el intervalo 18-29 aos.
La estadstica va agrupando los datos siguiendo el orden anterior. Cuanto ms avance en este proceso,
ms habr logrado sintetizar y organizar los datos individuales.
En el siguiente cuadro se sintetizan las diversas reglas o frmulas para calcular las medidas de posicin,
segn como estn organizados los datos individuales y segn los niveles de medicin que admiten.
Ntese que en algunos casos no es posible especificar ninguna frmula, y entonces el clculo se har
siguiendo la regla indicada para los mismos. Por ejemplo: para calcular el modo de un conjunto de datos
ordenados, debe buscarse el dato o valor que ms se repite (6).
Clculo de medidas de posicin segn los niveles de medicin que admiten y segn la forma de organizacin de los datos individuales.
Preparado por: Pablo Cazau
Medida de Nivel de Datos ordenados Datos agrupados por frecuencia Datos agrupados por intervalos
posicin medicin
Modo Nominal Valor que ms se repite Valor con la mayor frecuencia ------------
Ordinal Valor que ms se repite Valor con la mayor frecuencia ------------
Cuantitativo Valor que ms se repite Valor con la mayor frecuencia f - fant
Mo = Li + ---------------------- . a
(f - fant) + (f- fpos)
Mediana Ordinal Valor central de la serie Valor que corresponde a la frecuencia acumulada n/2 ------------
ordenada de valores
Cuantitativo Valor central de la serie Valor que corresponde a la frecuencia acumulada n/2 n/2 - Fant
ordenada de valores Mn = Li + ---------------------- . a
f
Media Cuantitativo x x.f) xm.f)
aritmtica
X = ----- X = --------- X = ---------
n n n
Cuartil Cuantitativo Valores que dividen la serie Valor que corresponde a la frecuencia acumulada t.n/4, expresin t.n/4 - Fant
0
en cuatro partes iguales. llamada cuartil de orden o Q (1) Qt = Li + ---------------- . a
Por tanto, hay 3 cuartiles: Q1, Donde t puede valer 1, 2 o 3.
Q2 y Q3 Por tanto, hay 3 cuartiles: Q1, Q2 y Q3 f
Decil Cuantitativo Valores que dividen la serie Valor que corresponde a la frecuencia acumulada t.n/10, expresin t.n/10 - Fant
0
en diez partes iguales. llamada decil de orden o D (1) Dt = Li + ---------------- . a
Por tanto, hay 9 deciles: Donde t puede valer entre 1 y 9.
desde el D1 hasta el D9 Por tanto, hay 9 deciles: desde el D1 hasta el D9 f
Percentil Cuantitativo Valores que dividen la serie Valor que corresponde a la frecuencia acumulada t.n/100, expresin t.n/100 - Fant
0
en cien parte iguales. llamada percentil de orden o P (1) Pt = Li + ---------------- . a
Por tanto, hay 99 percentiles: Donde t puede valer entre 1 y 99.
desde el P1 hasta el P99 Por tanto, hay 99 percentiles: desde el P1 hasta el P99 f
(1) Si no puede identificarse unvocamente una frecuencia acumulada, y por tanto un valor determinado de x, puede ser calculada por interpolacin. En realidad, los cuantiles se
utilizan preferentemente cuando los datos estn agrupados por intervalos.
A continuacin, se suministran ejemplos de cmo calcular cada medida de posicin teniendo
en cuenta las reglas y frmulas del esquema anterior.
a) Clculo del modo para datos ordenados (niveles nominal, ordinal y cuantitativo)
Nivel nominal: perro, perro, gato, gato, gato, gato (por tanto, el modo es gato)
Nivel ordinal: grande, grande, mediano, mediano, mediano, chico, chico, chico, chico (por
tanto, el modo es chico)
Nivel cuantitativo: 6, 6, 7, 7, 7, 7, 8, 9, 10, 10, 11 (por tanto, el modo es 7)
b) Clculo del modo para datos agrupados en frecuencia (niveles nominal, ordinal y
cuantitativo)
c) Clculo del modo para datos agrupados por intervalos (nivel cuantitativo)
Una vez confeccionada la tabla de frecuencias por intervalos, se procede en dos pasos:
f - fant
Mo = Li + ---------------------- . a
(f - fant) + (f- fpos)
24 - 8
Mo = 28 + ---------------------- . 8 = 31.37 piezas dentarias
(24 - 8) + (24 - 2)
Para hallar la mediana de un conjunto de datos, primero hay que organizarlos en orden
descendente o ascendente. Si el conjunto de datos contiene un nmero impar de elementos,
el central es la mediana. Si hay un nmero par, la mediana es el promedio de los dos datos
centrales.
Nmero impar de datos: alto, alto, alto, alto, medio, medio, medio, medio, medio, medio,
bajo (por tanto, la mediana es = medio).
Nmero par de datos: En el nivel ordinal no puede calcularse un promedio si los dos valores
centrales son distintos. Si los dos valores centrales son iguales, ese es el valor de la
mediana.
x (das) f F
1 7 7
2 9 16
3 14 30
4 10 40
5 2 42
n = 42
x f F
0-3 8 8
3-6 10 18
6-9 11 29
9-12 12 41
12-15 9 50
15-18 7 57
18-21 6 63
21-24 5 68
n = 68
Ntese que para calcular la mediana se precisa informacin sobre frecuencias acumuladas,
razn por la cual se ha agregado la columna respectiva.
Se procede en dos pasos:
a) Se identifica cul es el intervalo que debe ser considerado, para lo cual se calcula la
mediana de orden:
n/2 - Fant
Mn = Li + ---------------------- . a
f
34 - 29
Mn = 9 + ---------------------- . 3 = 10.25
12
Tngase presente que si la variable fuera discreta y medible slo en nmeros enteros, sera
Mn = 10.
Si la variable fuese cantidad de materias aprobadas, el alumno con 10 materias aprobadas
est en el lugar central de la serie, es decir, habra un 50% de compaeros con menos
materias aprobadas y un 50% con ms materias aprobadas.
g) Clculo de la media aritmtica para datos ordenados (nivel cuantitativo)
x
X = -----
n
X = ---------------------------------------- = --------- = 5
12 12
x (edad) f f.x
18 3 54
19 1 19
20 2 40
23 4 42
25 2 50
26 2 52
28 2 56
n = 16 363
Ntese que para el clculo de la media aritmtica se ha agregado una columna con los
productos de x . f.
Se aplica la frmula de media aritmtica:
x f xm xm.f
0-3 8 1.5 12
3-6 10 4.5 45
6-9 11 7.5 82.5
9-12 12 10.5 126
12-15 9 13.5 121.5
15-18 7 16.5 115.5
18-21 6 19.5 117.6
21-24 5 22.5 112.5
n = 68 732.5
Ntese que para el clculo de la media aritmtica se ha agregado una columna con los
puntos medios de los intervalos y otra con los productos de las frecuencias por los puntos
medios.
Se aplica la frmula de media aritmtica:
xm.f) 732.5
X = ------------- = ---------- = 10.77
n 68
El mtodo corto y el mtodo clave son dos mtodos alternativos para calcular la media
aritmtica, siendo el ltimo slo aplicable cuando el tamao de los intervalos es constante.
De acuerdo al mtodo corto, la media aritmtica se calcula sumando al punto medio del
intervalo de mayor frecuencia, el cociente entre la sumatoria de los productos entre cada
frecuencia y la diferencia entre el punto medio de cada intervalo menos el punto medio del
intervalo de mayor frecuencia, y la sumatoria de frecuencias (n).
De acuerdo al mtodo clave, la media aritmtica se calcula sumando al punto medio del
intervalo de mayor frecuencia, el producto entre el tamao del intervalo y un cociente, donde
el numerador es la sumatoria de los productos entre las frecuencias y el llamado intervalo
unitario (que resulta de dividir la diferencia entre cada punto medio y el punto medio del
intervalo de mayor frecuencia, por el tamao del intervalo), y donde el denominador es la
sumatoria de frecuencias (n).
1-1-1-1-1-2-2-2-3-3-3-3-4-5-6-6-6-6-7-7-8-8-9
Si en la serie anterior resaltamos los tres valores que la dividen en cuatro partes iguales,
esos valores sern los cuartiles Q1, Q2 y Q3:
1-1-1-1-1-2-2-2-3-3-3-3-4-5-6-6-6-6-7-7-8-8-9
Q1 = 2
Q2 = 3
Q3 = 6
Sin embargo, es ms prctico agrupar los datos por frecuencias o por intervalos, a los
efectos del clculo de los cuantiles (cuartiles, deciles o percentiles).
k) Clculo del cuantil para datos agrupados por frecuencia (nivel cuantitativo)
x (edad) f F
18 3 3
19 1 4
20 2 6
23 4 10
25 2 12
26 2 14
28 2 16
n = 16
Q1 = 4
Q2 = Est entre 20 y 23
Q3 = 25
l) Clculo del cuantil para datos agrupados por intervalos (nivel cuantitativo)
x (puntaje) f F
0-10 1 1
10-20 3 4
20-30 5 9
30-40 6 15
40-50 10 25
50-60 12 37
60-70 13 50
70-80 9 59
80-90 4 63
90-100 3 66
n = 66
t.n/10 - Fant
Dt = Li + ------------------- . a
f
46.2 - 37
D7 = 60 + ---------------- . 11 = 67.78
13
Es posible utilizar un procedimiento grfico para calcular ciertas medidas de posicin, tales
como el modo y la mediana. Por ejemplo, el modo se puede calcular a partir de un
histograma. La mediana tambin puede calcularse con un histograma, aunque lo ms
habitual es hacerlo mediante una ojiva.
Una vez construido el histograma a partir de una tabla de datos agrupados por intervalos:
1) Se considera el rectngulo de mayor frecuencia (mayor altura).
2) Dentro del mismo se trazan dos rectas como est indicado en el grfico siguiente.
3) Por la interseccin de ambas rectas se traza una recta perpendicular al eje de absisas.
4) El punto del eje de las absisas por donde pasa la recta perpendicular corresponde al modo
(en el ejemplo, el modo es 4.80).
f
1 4 7 10
x
la ojiva; c) por este punto de interseccin se traza una recta paralela al eje y hasta que
intersecte el eje x. En este punto estar ubicada la mediana.
2) Se trazan en el mismo eje de coordenadas las ojivas creciente y decreciente de la misma
distribucin de datos. Luego, a) se traza una recta paralela al eje y que pase por la
interseccin de ambas ojivas y por algn punto del eje x; b) el punto del eje x por donde
pasa dicha recta corresponde a la mediana.
(*) Hay al menos tres situaciones donde se preferir la mediana a la media (Botella, 1993:115): a)
cuando la variable es ordinal, b) cuando haya valores extremos que distorsionen la interpretacin de la
media, y c) cuando haya intervalos abiertos, como en el caso de variables como ingresos mensuales.
2) La eleccin de una medida de posicin debe tener en cuenta la forma en que estn
organizados los datos. Por ejemplo: en ocasiones, el azar hace que un solo elemento no
representativo se repita lo suficiente para ser el valor ms frecuente del conjunto de datos.
Es por esta razn que rara vez utilizamos el modo de un conjunto de datos no agrupados
como medida de tendencia central. Por esta razn, debemos calcular el modo en datos
agrupados en una distribucin de frecuencias (Levin y Rubin, 1996).
3) La eleccin de una medida de posicin de una muestra debe tener en cuenta el grado de
fidelidad con que representa a la medida de posicin poblacional.
Botella (1993:114) afirma, en este sentido, que si no hay ningn argumento en contra,
siempre se preferir la media, no slo porque permite la utilizacin de otras medidas
estadsticas (por ejemplo el desvo estndar), sino porque es ms representativa de la media
poblacional que el modo o la mediana con respecto al modo o la mediana poblacional.
Definicin
Algunos autores (Botella, 1993:325) han relacionado la dispersin de los datos -para los
niveles de medicin nominal y ordinal- con los conceptos de entropa y de incertidumbre e
incluso han propuesto a la primera como una medida que permite cuantificar la dispersin: a
mayor dispersin de los datos, hay mayor entropa y mayor incertidumbre.
Por ejemplo, las siguientes dos muestras tienen cada una 40 sujetos que han elegido
determinados colores para representar la idea de paz:
Si habra que adivinar qu color eligi determinado sujeto de la muestra A, cabra proponer
el color blanco porque fue el ms elegido. En cambio, la incertidumbre aumenta si habra que
elegir lo mismo en la muestra B. En esta muestra hay ms entropa, es decir, ms desorden,
mientras que en la muestra A los datos estn ms ordenados alrededor de un valor muy
repetido, como el blanco.
La muestra B es ms dispersa, es decir, ms heterognea, mientras que la muestra A es
menos dispersa, es decir, ms homognea. La homogeneidad no debe relacionarse con la
repeticin de frecuencias (3-3-3-3) sino con la repeticin de valores iguales o muy cercanos
entre s (28 sujetos eligieron blanco).
Una medida de posicin no alcanza para describir adecuadamente una muestra. Se obtiene
una informacin ms precisa y completa de ella cuando adems se utiliza una medida de
dispersin.
Por ejemplo, la muestra 1 de datos 3-4-5 y la muestra 2 de datos 1-4-7 tienen la misma
medida de posicin: la media aritmtica en ambos casos es 4. Sin embargo, se trata
evidentemente de dos muestras diferentes, por cuanto la segunda es ms dispersa que la
primera, es decir, sus datos estn ms alejados de la media aritmtica.
En la primera muestra el promedio de las desviaciones respecto de la media es 1 (de 3 a 4
hay 1, y de 5 a 4 hay 1), mientras que el promedio de las desviaciones en la segunda
muestra es 3 (de 1 a 4 hay 3, y de 7 a 4 hay 3). Por lo tanto, ambas muestras pueden
representarse de la siguiente manera:
Las medidas de dispersin tienen una importancia adicional porque (Levin y Rubin: 1996): a)
Proporcionan informacin adicional que permite juzgar la confiabilidad de la medida de
tendencia central. Si los datos se encuentran ampliamente dispersos, la posicin central es
menos representativa de los datos. b) A veces resulta indispensable conocer la dispersin de
una muestra porque muestras demasiado dispersas pueden no ser tiles para poder sacar
conclusiones tiles sobre la muestra. Levin y Rubin indican que, ya que existen problemas
caractersticos para datos ampliamente dispersos, debemos ser capaces de distinguir los que
presentan esa dispersin antes de abordar esos problemas.
En este tem se indican las frmulas para calcular medidas de dispersin, y se suministran
ejemplos de cada caso.
Clculo de las medidas de dispersin segn la forma de organizacin de los datos
individuales
Preparado por: Pablo Cazau
a) Clculo del rango para datos ordenados y para datos agrupados por frecuencia
Muestra 1: 80, 100, 100, 110, 120. Aqu el rango R es = 120 80 = 40.
Muestra 2: 30, 50, 70, 120, 180. Aqu el rango R es = 180 30 = 150
No se puede calcular el rango para datos agrupados por intervalos porque se desconocen
cules son los valores mximo y mnimo.
2+3+5+6+7+9+10
X = --------------------------- = 6
7
A la siguiente tabla de frecuencias (f) deber agregarse una columna (f.x) para calcular la
media aritmtica, y luego otras dos columnas (x-X) y (| x-X | . f) para calcular la desviacin
media:
x.f) 62800
X = --------- = ------------ = 104.66 = 105
n 600
|xX|.f 8810
Dm = ------------------ = ------------ = 14.68
n 600
Se procede de la misma manera que en el caso anterior, con la diferencia que en lugar de
considerar los valores x, se consideran los puntos medios de los intervalos (xm).
Para la serie de valores 5, 6, 10, su media aritmtica es 7. Una vez conocido este valor,
puede obtenerse el desvo estndar de la siguiente forma:
2 2 2 2
(xX) (5-7) + (6-7) + (10-7)
S = ------------------- = ------------------------------------ = 4.66 = 2.2
n 3
x (edad) f f.x xX ( x X )2 ( x X )2 . f
18 3 54 -5 25 75
19 1 19 -4 16 16
20 2 40 -3 9 18
23 4 42 0 0 0
25 2 50 +2 4 8
26 2 52 +3 9 18
28 2 56 +5 25 50
n = 16 363 185
Puede tambin utilizarse una frmula ms sencilla a los efectos del clculo (Bancroft,
1960:80):
2
x .f
2
S = ----------- - (X)
n
Se procede del mismo modo que en el caso anterior, con la diferencia que se calcula el punto
medio xm de los intervalos en lugar del valor x.
h) Clculo de la varianza
El procedimiento es el mismo que en el caso del desvo estndar. Slo debe tenerse presente
que la varianza es el cuadrado del desvo estndar.
x f
0-20 2
20-40 4
40-60 5
60-80 8
80-100 1
n = 20
DQ = Q3 Q1 = 70 35 = 35
Si una muestra tiene una media aritmtica 111 y el desvo estndar 18, entonces su
coeficiente de variacin es:
S 111
CV = ----- = ---------- = 0.16
X 18
Xmn Q1 Q3 Xmx
B
Xmn Xmx
Q1 Q3
Nivel de
ansiedad
4 5 6 7 8
Curso
Asimetra
La asimetra hace referencia al grado en que los datos se reparten equilibradamente por
encima y por debajo de la tendencia central (Botella, 1993:169). Por ejemplo, en la siguiente
tabla se puede apreciar que en el curso A muchos alumnos obtuvieron buenas notas, en el
curso C muchos alumnos obtuvieron bajas notas, y en el curso B estn equilibrados.
Representando las tres distribuciones de datos con curvas en un grfico con las frecuencias
en las ordenadas y los valores de x en las absisas, se obtiene lo siguiente:
Han sido propuestos diversos ndices de asimetra para cuantificar el grado de asimetra de
una distribucin de datos. De entre ellos pueden citarse los siguientes (Botella, 1993:170):
Los tres ndices se interpretan de manera similar: si resultan ser nmeros negativos, la curva
ser asimtrica hacia la derecha, y si dan resultados positivos, la curva ser asimtrica a la
izquierda. El resultado 0 (cero) indicar asimetra nula (simetra perfecta).
Existen otros muchos tipos de curvas: parablicas, hiperblicas, bimodales, etc, pero una
forma usual es la curva simtrica, llamada tambin curva normal o campana de Gauss.
Curtosis
La curtosis hace referencia a la forma de la curva de la distribucin de datos en tanto muy
aguda (mayor apuntamiento o mayor curtosis: leptocrtica) o muy aplanada (menor
apuntamiento o menor curtosis: platicrtica).
Del mismo modo que sucede con la asimetra, tambin se han propuesto diversos ndices de
curtosis. Si el ndice es positivo, su apuntamiento es mayor que el de una distribucin normal
y la curva ser leptocrtica, y si es negativo, su apuntamiento es menor y la curva ser
platicrtica (Botella, 1993).
NOTAS
(1) Segn Botella (1993:49) la distribucin de frecuencias es un instrumento diseado para cumplir
tres funciones: a) proporcionar una reorganizacin y ordenacin racional de los datos recogidos; b)
ofrecer la informacin necesaria para hacer representaciones grficas; y c) facilitar los clculos
necesarios para obtener los estadsticos muestrales.
(2) Cuando se confecciona una tabla de frecuencias por intervalos con la intencin de elaborar grficos o
medidas estadsticas a partir de ella, deben asumirse ciertos supuestos que implican un margen de
error, pero que son imprescindibles. Estos supuestos, llamados supuestos de concentracin
intraintervalo, son dos. a) El supuesto de concentracin en el punto medio del intervalo, segn el cual
todos los valores de la variable son el mismo, a saber, el punto medio del intervalo. b) El supuesto de
distribucin homognea, segn el cual los valores incluidos en un intervalo se reparten con absoluta
uniformidad en su interior. Es decir, que si en un intervalo hay cinco observaciones [valores observados
en la variable] aceptaremos que sus valores son los que tendramos si partiramos al intervalo en cinco
subintervalos de igual amplitud y asignramos a cada individuo el punto medio de un subintervalo
(Botella, 1993:56).
(3) Hay quienes recurren a la frmula de Sturges para calcular la cantidad de intervalos que resulta
deseable tomar en funcin del tamao de la muestra. Esta frmula es: Nmero de intervalos = 1 + (log
n / log 2), donde n designa el tamao de la muestra. Por ejemplo, aplicando la frmula para n = 40, la
cantidad deseable de intervalos es 6.3, con lo cual podrn elegirse entre 6 o 7 intervalos. Una vez
determinada la cantidad de intervalos, slo resta dividir el tamao de la muestra por 6 o 7, de lo que
resultar el tamao de cada intervalo.
(4) Por ejemplo, las medidas de posicin son aquellas que caracterizan la posicin de un grupo respecto
de una variable (Kohan, 1994:69). Otras definiciones se refieren a la utilidad de estas medidas, y
entonces por ejemplo se definen como ndices diseados especialmente para revelar la situacin de una
puntuacin con respecto a un grupo, utilizando a ste como marco de referencia (Botella, 1993:83).
(5) Estrictamente hablando, ciertos cuantiles como el cuartil 2, el decil 5 y el percentil 50 resultan ser
medidas de tendencia central, ya que coinciden con la mediana.
(6) Estrictamente, dato y valor no son sinnimos, aunque aqu se emplearn indistintamente ambas
expresiones. El valor es uno de los componentes del dato: los otros dos son la unidad de anlisis y la
variable.
(7) Botella (1993:105-111) describe seis propiedades de la media aritmtica: 1) La suma de las
diferencias de n puntuaciones de la media aritmtica, o puntuaciones diferenciales, es igual a cero. 2) La
suma de los cuadrados de las desviaciones de unas puntuaciones con respecto a su media es menor que
con respecto a cualquier otro valor. 3) Si sumamos una constante a un conjunto de puntuaciones, la
media aritmtica quedar aumentada en esa misma constante. 4) Si multiplicamos una constante a un
conjunto de puntuaciones, la media aritmtica quedar multiplicada por esa misma constante. 5) La
media total de un grupo de puntuaciones, cuando se conocen los tamaos y medias de varios subgrupos
hechos a partir del grupo total, mutuamente exclusivos y exhaustivos, puede obtenerse ponderando las
medias parciales a partir de los tamaos de los subgrupos en que han sido calculadas. 6) Una variable
definida como la combinacin lineal de otras variables tiene como media la misma combinacin lineal de
las medias de las variables intervinientes en su definicin.
(8) Equivalencias entre cuantiles (Botella, 1993:89):
(9) Para la varianza, las unidades son el cuadrado de las unidades de los datos. Estas unidades no son
intuitivamente claras o fciles de interpretar. Por esta razn, tenemos que hacer un cambio significativo
en la varianza para calcular una medida til de la desviacin, que sea menos confusa. Esta medida se
conoce como la desviacin estndar, y es la raz cuadrada de la varianza. La desviacin estndar,
entonces, est en las mismas unidades que los datos originales (Levin y Rubin, 1996). La varianza
como tal se utiliza ms frecuentemente en estadstica inferencial (Pagano, 1998:77).
(10) La raz cuadrada de un nmero positivo puede ser tanto positiva como negativa. Cuando tomamos
la raz cuadrada de la varianza para calcular la desviacin estndar, los estadsticos solamente
consideran la raz cuadrada positiva (Levin y Rubin, 1996).
(11) La desviacin estndar nos permite determinar, con un buen grado de precisin, dnde estn
localizados los valores de una distribucin de frecuencias con relacin a la media. El teorema de
Chebyshev dice que no importa qu forma tenga la distribucin, al menos 75% de los valores caen
dentro de + 2 desviaciones estndar a partir de la media de la distribucin, y al menos 89% de los
valores caen dentro de + 3 desviaciones estndar a partir de la media.
Con ms precisin:
Aproximadamente 68% de los valores de la poblacin cae dentro de + 1 desviacin estndar a partir de
la media.
Aproximadamente 95% de los valores estar dentro de + 2 desviaciones estndar a partir de la media.
Aproximadamente 99% de los valores estar en el intervalo que va desde tres desviaciones estndar por
debajo de la media hasta tres desviaciones estndar por arriba de la media (Levin y Rubin, 1996).
(12) Esto se debe a que los especialistas en estadstica pueden demostrar que si tomamos muchas
muestras de una poblacin dada, si encontramos la varianza de la muestra para cada muestra y
promediamos los resultados, entonces este promedio no tiende a tomar el valor de la varianza de la
poblacin, a menos que tomemos n1 como denominador de los clculos (Levin y Rubin, 1996).
(13) El concepto de distribucin de frecuencias es uno de los ms bsicos de la estadstica descriptiva, y
hace referencia a un conjunto de valores de una variable ordenados de acuerdo con sus frecuencias. Las
distribuciones de frecuencias pueden expresarse en forma de tablas, grficos, medidas de posicin,
medidas de dispersin, de asimetra y de curtosis. Estas ltimas cuatro medidas pueden considerarse
propiedades o caractersticas bsicas de una distribucin frecuencial.
Casos favorables 1
p= ----------------------------------------------------- = 0.1666
Casos equiprobables posibles 6
Para poder calcular esta probabilidad necesitamos, obviamente, conocer todos los casos
posibles (requisito de exhaustividad), pero adems debemos saber que todos esos casos
posibles tienen la misma probabilidad de salir (requisito de equiprobabilidad), vale decir,
debemos tener la suficiente seguridad de que ninguna cara tendr mayor o menor
probabilidad de salir que otra cara cualquiera, como puede ocurrir, por ejemplo, con los
dados 'cargados'.
Una aclaracin respecto de la expresin 'casos favorables'. Debemos evitar aqui la
connotacin subjetiva del trmino. Un caso favorable es simplemente un caso del cual
queremos conocer la probabilidad de su ocurrencia. Puede incluso tratarse de un terremoto o
una enfermedad, aunque estos eventos no sean 'favorables' desde otro punto de vista ms
subjetivo.
Respecto de la expresin 'casos equiprobables posibles', esta alude al hecho antes indicado
de que para calcular una probabilidad en sentido clsico, deben cumplirse los dos requisitos
de exhaustividad y equiprobabilidad.
Puede suceder, en efecto, que alguno de estos requisitos no se cumpla. 1) Exhaustividad:
Este requisito puede no cumplirse en dos casos. Primero, puede ocurrir que al arrojar un
dado, este quede parado en equilibrio sobre alguno de sus vrtices o aristas. Como
posibilidad existe, pero es remotsima. Debido a que esta posibilidad es muy baja, a los
efectos prcticos la consideramos nula y seguimos aplicando la definicin clsica de
probabilidad, como si todos los casos posibles fueran, como en el caso del dado, solamente
seis. Segundo, puede ocurrir que no sepamos cuntas caras tiene el dado (en la situacin
anterior s sabamos esta cantidad, descartando las alternativas remotas), an cuando
sepamos que todas tienen la misma probabilidad de salir. En este caso, al desconocer el
nmero de casos posibles, la definicin clsica de probabilidad resulta inaplicable,
quedndonos la opcin de aplicar la probabilidad frecuencial. 2) Equiprobabilidad: Este
requisito puede no cumplirse cuando el dado est 'cargado' lo que hace que, por ejemplo, el
tres tenga mayores probabilidades de salir que el cuatro. En este caso, podemos calcular la
probabilidad mediante la probabilidad frecuencial.
En sntesis hasta aqu: cuando ninguno de estos requisitos, o ambos, no pueden cumplirse,
nos queda an la opcin de calcular la probabilidad en forma emprica, lo que nos lleva al
tema de la llamada probabilidad frecuencial.
b) Probabilidad frecuencial.- Suele tambin denominarse probabilidad emprica o a posteriori,
y es definible como el cociente entre el nmeros de casos favorables y el nmero de casos
observados. En un ejemplo, supongamos que no conocemos cuntas caras tiene un dado (es
decir desconocemos la cantidad de casos posibles), y queremos averiguar qu probabilidad
tiene de salir el uno. Obviamente no podemos decir 'un sexto' o 'uno sobre seis' porque no
sabemos cuntas caras tiene el dado. Para hacer este clculo decidimos hacer un
experimento, y arrojamos un dado comn de seis caras (aunque nosotros ignoramos este
detalle) por ejemplo diez veces, constatando que el uno sali cinco veces, cosa
perfectamente posible. Conclumos entonces que la probabilidad de obtener un uno es de
cinco sobre diez, es decir, de 0.5. Si tomamos al pie de la letra este valor, podramos
conclur que el dado tiene... 2 caras!, cada una con la misma probabilidad de 0.5. Aplicando
la definicin de probabilidad frecuencial, resulta:
Casos favorables 5
p= -------------------------------- = 0.5
Casos observados 10
Otro ejemplo: supongamos que conocemos perfectamente que el dado tiene seis caras, pero
no sabemos si las probabilidades de salir son iguales o no para todas ellas, ya que
sospechamos que el dado puede estar 'cargado'. Para determinar la probabilidad de salir del
nmero uno hacemos el mismo experimento, dndonos un valor de 0.7. Este valor, si lo
tomamos al pie de la letra, nos hara pensar que el dado est preparado para que tenga
tendencia a salir el nmero uno, ya que su probabilidad de ocurrencia es bastante alta.
La probabilidad frecuencial se llama tambin 'a posteriori' debido a que 'slo despus' de
hacer nuestra observacin o nuestro experimento podemos saber el valor de la probabilidad,
y no 'antes', como en el caso de la probabilidad clsica, donde 'antes' de arrojar el dado ya
sabemos que la probabilidad de cada cara es de 0.1666.
La denominacin 'frecuencial' alude al hecho de el clculo de probabilidades se realiza en
base a la frecuencia con que sale una determinada cara o posibilidad, frecuencia que es
relativa porque la comparamos con la cantidad de casos observados. Por ejemplo, en nuestro
ltimo ejemplo la frecuencia absoluta es 7, porque de 10 veces que arrojamos el dado, 7
veces sali el nmero deseado. En cambio la frecuencia relativa es 0.7, y resulta de dividir la
frecuencia absoluta por el nmero de casos observados.
c) La ley de los grandes nmeros.- Tambin llamada principio de la estabilidad de la
frecuencia relativa, nos permite unificar conceptualmente los dos tipos de probabilidad recin
examinados, y puede expresarse de la siguiente manera: a medida que aumenta la cantidad
de ensayos, el valor de la probabilidad emprica obtenido se va aproximando cada vez ms al
valor de la probabilidad terica.
Siguiendo el esquema adjunto, si arrojamos una moneda por primera vez (primer ensayo), la
probabilidad terica de salir cara es de 0.5, cosa que sabemos ms all de hacer o no esa
experiencia. Sin embargo, puede ocurrir que salga ceca, y entonces conclumos que la
probabilidad emprica es 0, pues no sali ninguna cara.
Al arrojar la moneda por segunda vez, la probabilidad terica sigue siendo 0.5, ya que el
dado no tiene 'memoria': por ms que haya salido cien veces cara, la 101 vez sigue
teniendo la misma probabilidad de salir cara. La probabilidad emprica, en cambio, nos da
por ejemplo tambin 0.5, porque la primera vez no sali cara pero la segunda s, con lo cual
habr salido cara la mitad de las veces, o sea hay una probabilidad de 0.5. Al tercer tiro
vuelve a aparecer ceca, con lo cual sobre tres tiros habr salido slo una cara (la segunda
vez), y entonces la probabilidad emprica es de un tercio (0.333).
Lo que dice la ley de los grandes nmeros es que, si seguimos aumentando la cantidad de
tiros, el valor de la probabilidad emprica se ir aproximando cada vez ms a la probabilidad
terica de 0.5, es decir, se verifica una tendencia de la frecuencia relativa a estabilizarse en
dicho resultado, y por ello esta ley se llama tambin principio de la estabilidad de la
frecuencia relativa.
La probabilidad (p) vara entre 0 y 1
Si se tomaran nueve personas al azar para medir la variable frecuencia cardaca, podran
obtenerse, por ejemplo, los siguientes resultados: tres personas con 62, cinco personas con
70 y una persona con 84 pulsaciones por minuto. Representando visualmente esta situacin
mediante un polgono de frecuencias, se obtiene el grfico 1.
Si se registrara la frecuencia cardaca de 80 personas ms, probablemente se obtendra
resultados similares al polgono de frecuencias del grfico 2. Finalmente, si se consideraran
infinito nmero de personas, la representacin visual se asemejara al grfico 3, denominado
curva normal, curva de Gauss o campana de Gauss (por su forma acampanada).
Como puede apreciarse, ciertas variables continuas como la frecuencia cardaca, la glucemia,
la estatura, el peso, la agudeza visual, el cociente intelectual, y otras, tiende a adoptar la
forma de una curva normal a medida que aumenta la cantidad de casos observados (3).
Aunque esta curva es una idealizacin, porque no pueden medirse infinitos casos, tiene,
como se ver, su utilidad, an cuando las variables que se estudian desde este modelo no
siguen estrictamente la distribucin de la curva normal. Pruebas como por ejemplo el chi
cuadrado permiten determinar si una distribucin es lo suficientemente parecida a una
distribucin normal como para poder aceptar el modelo de la curva normal para estudiarla.
De hecho, muchas variables tienen distribuciones lo suficientemente similares a una
distribucin normal como para tratarlas como tales sin cometer grandes errores.
En relacin con estas cuestiones, conviene recordar aqu el teorema del lmite central, que
dice que cualquiera sea la poblacin de donde se tome una muestra, la distribucin de los
valores de la muestra se aproximan o asemejan cada vez ms a una distribucin normal a
medida que el tamao n de la muestra aumenta. En la prctica se consideran normales a las
muestras cuyo tamao es igual o superior a 30.
f
Grfico 1 Grfico 2 Grfico 3
62 70 84 70 x
La curva normal tiene entonces algunas caractersticas que son las siguientes:
a) Es la idealizacin de un polgono de frecuencias con tendencia central para una gran
cantidad de casos. Por esta razn tiene la apariencia de una curva y no de una lnea
quebrada, ya que el polgono de frecuencias tiene infinito nmero de lados.
b) Tiene forma de campana: no tiene otras formas similares como puede ser la forma de
herradura o la forma de una campana invertida.
c) Es simtrica respecto de un eje vertical, lo que las diferencia de otras curvas como por
ejemplo la hiprbole equiltera. La simetra de la curva normal implica que la media
aritmtica, la mediana y el modo coinciden en el punto central. Consecuentemente, la curva
normal es unimodal (en cambio, una campana invertida podra ser bimodal). Tambin
implica que la distancia del cuartil 1 al cuartil 2 es igual a la distancia entre el cuartil 2 y el
cuartil 3.
d) Es asinttica respecto del eje x. Esto significa que la curva y el eje de las absisas se
cortan en el infinito, lo cual implica que cualquier valor de x tiene potencialmente alguna
frecuencia, y ninguna frecuencia igual a 0.
e) La curva normal puede adoptar diferentes formas: mesocrtica, platicrtica o leptocrtica.
f) Los puntos de inflexin (donde la curva cambia de cncava a convexa y viceversa) se
encuentran en los puntos correspondientes a la media aritmtica ms/menos un desvo
estndar.
g) Hay muchas posibilidades de curvas normales, dependiendo de cules sean los valores de
las medias aritmticas y los desvos estndar. La ms importante es aquella que tiene como
media aritmtica 0 (cero) y como desvo estndar 1 (la unidad). En este caso, la curva
normal se designa como distribucin o curva normal estndar o estandarizada.
h) Est comprobado que en una curva normal, y siempre idealmente, alrededor de un 68%
de los casos posibles estn comprendidos entre menos un desvo estndar y ms un desvo
estndar alrededor de un 95% estn comprendidos entre menos 2 y ms dos desvos
estndar y alrededor de un 99% estn comprendidos entre menos tres y ms tres
desvos estndar segn lo ilustra el siguiente esquema:
Esto significa por ejemplo que una persona tiene una probabilidad del 68% de tener una
frecuencia cardaca comprendida entre menos un desvo estndar y ms un desvo estndar.
Si la media aritmtica de esta distribucin fuera 80 pulsaciones por minuto y el desvo
estndar fuera de 10 pulsaciones por minuto, entonces la frecuencia cardaca de una persona
cualquiera tendra un 68% de probabilidades de valer entre 70 y 90 pulsaciones por minuto.
Siguiendo el mismo criterio, tambin puede calcularse la probabilidad de aparicin de un
valor comprendido entre menos tres desvos estndar y la media aritmtica (99% dividido
2), la probabilidad de aparicin de un valor comprendido entre menos dos desvos estndar y
la media aritmtica (95% dividido 2), la probabilidad de aparicin de un valor comprendido
entre menos un desvo estndar y ms dos desvos estndar (68% dividido 2, ms 95%
dividido 2), y la probabilidad de obtener cualquier otro valor intermedio (como el
comprendido entre -1.27 desvos y +2.56 desvos), para lo cual se habr de consultar una
tabla especialmente confeccionada para tal efecto.
Antes de hacer referencia a las utilidades prcticas de la curva normal, convendr aclarar
algunos conceptos tales como los de puntaje bruto y puntaje estandarizado.
Para designar los diferentes valores que asume una variable para una determinada unidad de
anlisis, en estadstica descriptiva suele emplearse la expresin dato. Por ejemplo, un dato
puede ser Juan mide 1.70 metros. Muchos datos, sin embargo, se distribuyen de acuerdo a
una curva normal, y esta clase de datos suelen ser tpicamente puntuaciones o puntajes de
tests o pruebas de evaluacin. Por ejemplo, Juan obtuvo 90 puntos en el test de inteligencia
de Weschler, o Pedro obtuvo 7 puntos en el examen de geografa. Esta es la razn por la
cual, en lo que sigue se utilizar la expresin puntaje en lugar de dato, pero debe tenerse
presente que todo puntaje es, siempre, un dato.
Se llama puntaje bruto, directo u original al puntaje obtenido por un sujeto en una prueba.
Por ejemplo, podra resultar de la suma de respuestas correctas, valiendo cada una de ellas
un punto (Kohan, 1994:138).
Los puntajes brutos presentan sin embargo algunos inconvenientes. Por ejemplo: a) Si una
persona obtuvo 4 puntos en una prueba acadmica, podemos suponer que obtuvo un bajo
puntaje porque lo comparamos con el puntaje mximo, que es 10. Sin embargo, no nos sirve
para comparar a esa persona con el resto de la poblacin, ya que si los dems alumnos
obtuvieron en promedio 2 puntos, la calificacin 4 ser, entonces, alta. b) Si una persona
obtuvo 8 puntos en geografa y 5 puntos en matemticas, podemos suponer que obtuvo ms
puntaje en geografa. Sin embargo, esta suposicin es errnea si resulta ser que el puntaje
mximo en geografa es 20 y el puntaje mximo en matemticas es 6, en cuyo caso habr
obtenido mayor puntaje en matemticas.
Estas y otras dificultades pueden resolverse transformando los puntajes brutos en otros
llamados puntajes estandarizados (o tambin puntajes transformados, porque resultan de
haber transformado los puntajes brutos). Estos puntajes estandarizados permitirn, por
ejemplo, comparar el puntaje de un sujeto con toda la poblacin, o bien comparar dos
puntajes de pruebas con diferentes sistemas de evaluacin (1).
Los puntajes estandarizados pueden ser lineales o no lineales, segn que resulten de
transformaciones lineales o no lineales (Kohan, 1994:138). En el primer caso existe una
proporcionalidad entre los puntajes brutos y sus correspondientes puntajes estandarizados,
ya que la transformacin opera segn una ecuacin lineal o ecuacin de primer grado y, por
tanto, no deforma la distribucin de los puntajes brutos.
En lo que sigue se describen sucintamente tres ejemplos de puntajes estandarizados de uso
frecuente: los puntajes estandarizados z (puntaje reducido), Z (puntaje derivado) y P
(puntaje percentil).
El puntaje reducido z es un dato transformado que designa a cuntas unidades de desvos
estndar por arriba o por debajo de la media se encuentra un dato en bruto (Pagano,
1998:84). Para transformar un dato en bruto x en un puntaje z se utiliza la frmula: z = (x -
X) / s.
Pueden destacarse tres caractersticas de los puntajes z (Pagano, 1998:86-87): a) tienen la
misma forma que el conjunto de datos en bruto; b) la media de los puntajes z es siempre
igual a cero; y c) el desvo estndar de los puntajes z es siempre igual a 1.
El puntaje derivado Z (tambin llamado a veces puntaje derivado T) tiene la ventaja sobre
el puntaje reducido z que no tiene valores negativos y que pueden despreciarse los
decimales por ser una cantidad pequea (Kohan, 1994:141). Para transformar un puntaje
reducido z en un puntaje derivado Z se utiliza la frmula: Z = (z.10) + 50, ya que este
puntaje derivado considera la media aritmtica como 50 y el desvo estndar como 10.
Existen otras modalidades de puntajes derivados (Botella: 1993:161). Uno muy conocido en
psicologa es el llamado cociente intelectual o CI, que considera como media aritmtica a 100
y como desvo estndar a 15.
El puntaje percentil P es un puntaje no lineal y es tambin de uso frecuente por su
facilidad de comprensin, aunque tenga el inconveniente de que su distribucin toma una
forma que no responde a la realidad de las funciones psicolgicas. Para transformar un
puntaje z en un puntaje percentil hay que recurrir a una tabla especial, que se describe ms
adelante.
Como se puede apreciar en el esquema siguiente, el puntaje percentil P no es proporcional al
resto de los puntajes, pero si lo es respecto de las reas cubiertas bajo la curva normal,
reas que a su vez indican la probabilidad de ocurrencia de un puntaje cualquiera. En efecto,
puede verse que los puntajes percentiles P estn concentrados en aquellos lugares donde el
rea bajo la curva es mayor y, adems, cuanto mayor es esta rea mayor ser el percentil
correspondiente.
Las correspondencias entre los diferentes puntajes pueden visualizarse mediante el siguiente
esquema (2):
x
-3s -2s -1s X +1s +2s +3s
z
-5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5
Z
0 10 20 30 40 50 60 70 80 90 100
P
P0 P2 P16 P50 P84 P98 P100
Multiplicar Dividir
Z = (z.10) + 50 z = (Z-50) / 10 por 100 por 100
AREA EXPRESADA
PUNTAJE COMO PORCENTAJE (%)
DERIVADO (Z)
m% Pm Pm m%
En este esquema, las flechas ms gruesas indican los procedimientos habituales en las
aplicaciones prcticas de la curva normal, mientras que aquellas y las flechas ms finas
indican mas bien los procedimientos que se piden en ejercitaciones en cursos de estadstica.
El modelo matemtico de la curva normal tiene varias aplicaciones prcticas, como por
ejemplo en psicologa y ciencias de la educacin. Pagano (1998:81) invoca tres razones
principales que explican su importancia en estas disciplinas: 1) Muchas variables psicolgicas
tienen distribuciones muy semejantes a la curva normal, tales como altura, peso e
inteligencia. 2) Muchas pruebas de inferencia empleadas para analizar experimentos tienen
distribuciones muestrales que poseen una distribucin muestral al aumentar el tamao de la
muestra. 3) Muchas pruebas de inferencia requieren distribuciones muestrales que se
asemejen a la curva normal, como la prueba z, la prueba t de Student o la prueba F.
Consiguientemente, gran parte de la importancia de la curva normal aparece conjuntamente
con la estadstica inferencial.
Problema tpico.- La variable peso en una poblacin de mujeres adultas tiene una
distribucin aproximadamente normal, con una media aritmtica (X) de 60 kg y un desvo
estndar (s) de 6 kg. Calcular la probabilidad de que una mujer adulta de esa poblacin
tomada al azar tenga un peso mayor a 68 kg.
Resolucin del problema tpico.- Cuando el enunciado del problema afirma que la variable
tiene una distribucin aproximadamente normal, ello significa que puede ser resuelto
recurriendo al modelo de la curva normal. A partir de aqu, los pasos para resolverlo son los
siguientes:
a) Lo primero que debe especificarse son los datos y las incgnitas. Los datos son tres: la
media aritmtica (60 kg), el desvo estndar (6 kg), y finalmente un valor de la variable a
partir del cual debe estimarse su probabilidad (68 kg). En smbolos:
X = 60 kg s = 6 kg x = 68 kg
En este caso el problema solicita resolver una sola incgnita: la probabilidad de que una
persona tomada al azar tenga ms de 68 kg (tambin podra haber solicitado averiguar la
probabilidad de que tenga menos de 50 kg, o la probabilidad de que tenga entre 40 y 60 kg).
En smbolos:
p 68 kg > x
z = (x - X) / s
z = (68 60) / 6 = 1.33
e) Sin embargo, esta tabla indica la probabilidad de z o menos, es decir, la zona rayada
hacia la izquierda de z.
Por lo tanto, como lo que interesa es la probabilidad de un valor de z o mayor, se restar al
valor p = 1 (el total del rea bajo la curva) el valor p = 0.9082. En smbolos:
Area total 1.0000
Menos rea hacia la izquierda 0.9082
Area hacia la derecha 0.0918
Por lo tanto, la probabilidad de que una mujer adulta pese ms de 68 kg es de p = 0.0918.
Traduciendo la probabilidad a porcentajes, puede decirse que existe un 9.18% de
probabilidades de que la mujer pese 68 kg o ms. De idntica manera, puede decirse que el
percentil P que ocupa una mujer adulta de 68 kg es, siguiendo las pautas del esquema de
reglas de transformacin de puntajes: P91 (calculado y redondeado a partir de p = 0.9082),
lo cual significa que una mujer que pese 68 kg tiene por debajo aproximadamente un 91%
de personas que pesan menos que ella.
Algunas variantes posibles.- Los siguientes ocho casos ilustran algunos ejemplos de
problemas que pueden resolverse mediante la curva normal y los puntajes estandarizados. El
problema tpico examinado precedentemente encuadra en el caso 4.
En todos estos casos se trata de calcular la probabilidad de ocurrencia de un valor
comprendido bajo el rea rayada de la curva ya que la probabilidad de ocurrencia del valor
es proporcional al rea respectiva. Como se ver, en algunos casos conviene ms utilizar la
Tabla 1 y en otros las Tabla 2 (ver Anexo).
CASO 1 CASO 2
CASO 3 CASO 4
CASO 5 CASO 6
CASO 7 CASO 8
Caso 2.- En este caso se procede de manera similar que en el caso anterior.
Caso 3.- Aqu se trata de averiguar la probabilidad de que un valor z valga -2 o ms. Esta
situacin exige dos pasos. El primer paso es idntico al caso 1. Sin embargo, este primer
paso calcula la probabilidad de z hacia la izquierda, y lo que se necesita saber es la
probabilidad de z hacia la derecha (zona rayada). Como se sabe que la totalidad del rea
bajo la curva vale 1, para averiguar la zona hacia la derecha bastar con restar 1 de la
probabilidad de la zona hacia la izquierda. En esto consiste el segundo y ltimo paso.
Caso 4.- Aqu debe averiguarse la probabilidad de que un valor z valga 1.5 o ms. La opcin
ms sencilla es aqu emplear la Tabla1, con la cual se calcula la probabilidad correspondiente
a z = +1.5, que es p = 0.9332. Esta probabilidad corresponde a la zona rayada desde z
hacia la izquierda, pero como debe averiguarse la probabilidad de z hacia la derecha, deber
restarse 1 menos 0.9332.
Caso 5.- Aqu debe averiguarse la probabilidad de que un valor z est comprendido entre -
2.5 y +1.5. Una forma sencilla de resolver este problema es dividiendo el rea rayada en
dos: una desde la mitad hacia la izquierda (0 a -2.5) y otra desde la mitad hacia la derecha
(0 a +1.5). Se calcula luego la probabilidad de cada rea recurriendo a la Tabla 2, y
finalmente se suman ambas probabilidades. Nota: para el clculo de la zona rayada de la
mitad hacia la izquierda se buscar en la Tabla 2 el valor z = +2.5, porque es igual al valor z
= -2.5 (por ser la curva normal simtrica).
Caso 6.- Este caso es tan sencillo que no requiere el uso de tablas. La probabilidad de la
zona rayada es p = 0.5 porque corresponde exactamente a la mitad de toda el rea bajo la
curva, cuya p es igual a 1 (p = 1 equivale a la certeza).
Caso 7.- Aqu debe calcularse la probabilidad de que un valor z est comprendido entre -2 y
-1. En este caso, en lugar de sumar reas como en el caso 5, debern restarse reas.
Recurriendo a la Tabla 1, se calcula primero la probabilidad correspondiente a z = -1 (que es
p = 0.1587) y luego la probabilidad de z = -2 (que es p = 0.0228). La probabilidad
resultante ser p = 0.1587 0.0228 = 0.1359.
Caso 8.- Aqu debe calcularse la probabilidad de que un valor z est comprendido entre +1 y
+2. Se puede proceder de la misma forma que en el caso 7, es decir, restando las
probabilidades correspondientes a z = +2 y z = +1.
NOTAS
(1) Botella (1993:153) refiere que los puntajes estandarizados son tiles en los siguientes casos: a) al
hacer comparaciones entre unidades de distintos grupos: se pueden comparar, mediante puntuaciones
estandarizadas, distintas observaciones de un mismo sujeto o de sujetos diferentes; b) al hacer
comparaciones entre variables medidas de distinta forma, debido a que los puntajes estandarizados son
adimensionales. Por ejemplo, comparar una altura expresada en centmetros con otra expresada en
metros; y c) al comparar observaciones de distintas variables: por ejemplo, comparar la altura y el peso
de un sujeto.
(2) En el esquema puede apreciarse que z contempla valores que se extienden a -5 o +5.desvos
estndar. En la prctica, sin embargo, se consideran solamente valores entre -3 y +3 por razones
prcticas. En efecto, los valores superiores a +3 o menores a -3 cubren reas muy pequeas bajo la
curva, es decir, la probabilidad de ocurrencia de puntajes mayores que +3 o menores que -3 son muy
improbables, estando muy alejados de la media aritmtica.
(3) Hay muchas formas en que los datos pueden distribuirse, y en todos esos casos existe cierta
regularidad en los mismos. Por ejemplo, hay una tendencia a que la mitad de las veces salga cara
arrojando una moneda, y tambin hay una tendencia a que la mitad de las veces se opte por un
producto A y no uno B (suponiendo que lo hay ninguna razn para elegir uno u otro). Estos hechos
sugieren que los datos de una manera regular, y los estadsticos propusieron diversos modelos de
distribucin, uno para cada forma regular de distribucin de datos, como por ejemplo el modelo
Bernouilli o el modelo binomial.
La nocin de permanencia estadstica (Vessereau A, 1962:15) hace referencia a ciertas uniformidades en
los datos de la realidad. Por ejemplo: a) la cantidad de varones y la de mujeres tiende a ser
aproximadamente igual; b) el tamao de las galletitas que fabrica una mquina tiende a ser
aproximadamente igual; c) la proporcin entre granos esfricos de arvejas y granos arrugados de
arvejas tiende a ser del 75% y del 25% aproximadamente, o sea, siempre tiende a encontrarse
aproximadamente 75 granos esfricos cada 100, y 25 granos arrugados cada 100; d) la estatura de las
personas tienden siempre a estar alrededor de un valor medio, siendo frecuente encontrar estaturas de
1.70 metros pero raro encontrar estaturas de 2 metros.
Estas uniformidades sugieren la presencia de leyes que rigen la forma en que se distribuyen los datos.
Como hay muchas formas en que los datos pueden distribuirse, tambin habr muchas leyes que
describen dichas distribuciones. Entre las ms conocidas (Vessereau A, 1962:16-24) se cuentan la ley
binomial, la ley de Laplace-Gauss y la ley de Poisson. Por ejemplo, la ley de Laplace-Gauss describe las
distribuciones que siguen una curva normal: cuando una magnitud recibe la influencia de una gran
cantidad de causas de variacin, y estas son todas muy pequeas e independientes unas de otras, se
demuestra que los valores individuales de las mediciones se distribuyen respondiendo a la ley de
Laplace-Gauss (Vessereau A, 1962:20).
Otros autores consideran fundamentales a las distribuciones normal, binomial y de Student, y hacen
referencia a otras, como la distribucin chi cuadrado (x2) que, a diferencia de la primeras, no es
paramtrica, es decir, no requiere supuestos tan rigurosos acerca de la poblacin, como por ejemplo de
que esta se distribuya normalmente (Kohan N, 1994:191).
Hay otras leyes que tienen alcance ms general, como por ejemplo la ley de distribucin de las medias
(Vessereau A, 1962:24) que establece que, cualquiera que sea la distribucin (binomial, gaussiana, etc),
el desvo estndar de las medias aritmticas de todas las muestras posibles de n elementos disminuye
inversamente a la raz cuadrada de n. Esto significa que cuanto ms grandes sean las muestras, menos
desviacin o dispersin habr entre sus medias aritmticas.
4.1 INTRODUCCIN
Correlacin lineal.- Las relaciones entre variables pueden ser de muchos tipos. a) Hay
relaciones deterministas que responden a modelos matemticos tericos, como por ejemplo
la relacin entre la intensidad de una corriente y la resistencia del conductor, o bien, la
relacin entre la factura de consumo de agua y el nmero de metros cbicos consumidos.
Estas relaciones son habituales en ciencias exactas. b) Otras relaciones no son tan
deterministas, pero pueden eventualmente parecerse slo parecerse- a algn modelo
matemtico terico determinista, en cuyo caso se concluye que ese modelo explica bien la
relacin, aunque no lo haga perfectamente. Estas relaciones son habituales en las ciencias
sociales (Botella, 1993:181).
Dentro de los muchos modelos tericos a los cuales podra ajustarse una relacin no
determinista se cuentan los modelos lineales, los modelos cuadrticos, los modelos cbicos,
etc. El primero se representa mediante una recta, y los restantes mediante diversos tipos de
curva como parbolas e hiprbolas. El presente artculo har referencia, por razones de
simplicidad, a las relaciones lineales y, por tanto, a la correlacin lineal.
El siguiente esquema permite visualizar algunos pasos posibles para llevar a cabo un anlisis
de correlacin seguido de un anlisis de regresin. El esquema sintetiza, al mismo tiempo,
los temas a tratar en el presente artculo.
Juan se sac una buena nota en el primer parcial, y por lo tanto es bastante probable que
tambin saque buena nota en el segundo parcial. Esta persona tiene ms edad y por lo
tanto es ms probable que le falte alguna pieza dentaria. Abundan esta clase de
razonamientos en la vida cotidiana, que suelen aceptarse sin demasiada crtica.
Sin embargo, en un estudio cientfico es habitual que estas hiptesis deban ser comprobadas
ms all de las certidumbres subjetivas. Para constatar si hay realmente asociacin entre
dos o ms variables cualesquiera, se emplea una herramienta denominada anlisis de
correlacin, que tambin evala el grado o intensidad en que dichas variables estn
asociadas. Se examina aqu el caso ms sencillo (dos variables), que se estudia dentro de la
estadstica bivariada.
En el siguiente ejemplo se exponen tres posibles distribuciones de frecuencias bivariadas (1)
referidas a las primeras y segundas notas de exmenes parciales.
Tipos de correlacin
Un grfico es mucho mejor que una tabla para apreciar rpidamente si hay o no correlacin
entre variables. Existen varias maneras de graficar la correlacin (3), pero aqu se describir
el procedimiento clsico: el diagrama de dispersin. El diagrama de dispersin es
bsicamente una nube de puntos, donde cada punto corresponde al entrecruzamiento de
cada par de valores de X e Y. Este diagrama puede realizarse independientemente del clculo
analtico de la correlacin.
Por ejemplo, el diagrama de dispersin correspondiente a la Tabla 1 se asemeja al diagrama
A del esquema de diagramas de dispersin.
A este diagrama se ha agregado a ojo una lnea imaginaria, que viene a representar ms o
menos el ordenamiento lineal de los puntos (que van desde abajo a la izquierda hacia arriba
a la derecha). El diagrama se llama 'de dispersin' porque muestra cun dispersos (prximos
o alejados) estn los puntos alrededor de dicha recta. Fcil es advertir que cuanto ms
alineados estn, ms correlacin habr. En el ejemplo A del esquema sobre diferentes
diagramas de dispersin, los puntos tienden a ubicarse en las proximidades de la recta
imaginaria, lo que indica que estn poco dispersos. Si los puntos figurasen ms alejados
habra ms dispersin, y por lo tanto menor correlacin entre X e Y.
El caso B muestra correlacin inversa, pues el ordenamiento de los puntos indican que, a
medida que aumenta X, va disminuyendo Y. As entonces, cuando la lnea imaginaria va de
abajo a la izquierda hacia arriba a la derecha, hay correlacin directa, y cuando va desde
arriba a la izquierda hacia abajo a la derecha hay correlacin inversa. Dicho ms
tcnicamente, en el primer caso la recta tiene una inclinacin o pendiente positiva, y en
segundo su pendiente es negativa.
El caso C revela, por su parte, que a medida que aumenta Y, los valores de X ni aumentan ni
disminuyen, permaneciendo fijos en el valor 5. Por lo tanto no hay correlacin. En general no
la hay cuando una de las variables no vara (en este caso X permanece constante en el valor
5).
El caso D es similar al anterior: all los valores de Y permanecen constantes en el nmero 4,
mientras va variando X. Tampoco hay correlacin.
El caso E muestra un ejemplo donde varan ambas variables, pero sin embargo no hay
correlacin. En esa nube es imposible trazar una lnea imaginaria representativa de la
orientacin de los puntos, simplemente porque no hay tal orientacin lineal. Los valores que
van asumiendo las variables son en principio aleatorios (varan al azar). Tampoco hay
correlacin.
El caso F nos muestra un caso de correlacin perfecta o mxima (en este caso directa), pues
no hay dispersin de puntos alrededor de la lnea imaginaria: todos estn sobre ella. Estas
regularidades perfectas no suelen encontrarse fcilmente, ni menos an en ciencias
sociales, porque los fenmenos obedecen siempre a muchas causas que estarn actuando
para romper la armona natural entre X e Y.
Tambin hay casos de correlacin no lineal, donde en lugar de una recta imaginaria se traza
una curva. En este artculo se presentan solamente los casos ms sencillos, es decir, los
casos de correlacin lineal, representables mediante rectas.
10 10 10
9 9 9
8 8 8
7 7 7
6 6 6
5 5 5
4 4 4
3 3 3
2 2 2
1 1 1
0 0 0
0 1 2 3 4 5 6 7 8 9 10 X 0 1 2 3 4 5 6 7 8 9 10 X 0 1 2 3 4 5 6 7 8 9 10 X
Y Y Y
10 10 10
9 9 9
8 8 8
7 7 7
6 6 6
5 5 5
4 4 4
3 3 3
2 2 2
1 1 1
0 0 0
0 1 2 3 4 5 6 7 8 9 10 X 0 1 2 3 4 5 6 7 8 9 10 X 0 1 2 3 4 5 6 7 8 9 10 X
Si bien una nube de puntos puede dar una idea de si hay o no correlacin, o de si es directa
o inversa, todava no proporciona informacin sobre cuanta correlacin hay. Esta
informacin se obtiene mediante un clculo analtico.
Este coeficiente (que se designa con r), fue creado por Karl Pearson (1857-1936) para
relacionar variables cuantitativas (es decir, variables que, como nota de examen, se miden
mediante nmeros).
El coeficiente de Pearson es un nmero comprendido entre -1 y +1, y que posee un
determinado signo (positivo o negativo). El valor numrico indica cuanta correlacin hay,
mientras que el signo indica qu tipo de correlacin es (directa si el signo es positivo,
inversa si es negativo). En el siguiente esquema se muestran algunos posibles valores de r.
Frmula 1 Frmula 2
{ ( x X) (y Y) } { ( x X) (y Y) }
r = ------------------------------- r = -------------------------------
2 2
n x. y ( x X) . (y Y)
Se usa esta frmula cuando dan como (El denominador debe elevarse a la raz cuadrada).
datos las medias de X e Y y sus Se usa esta frmula cuando dan como datos las medias
respectivos desvos estndar. aritmticas de X e Y.
Frmula 3 Frmula 4
(Z x . Zy)
n (x.y) x . y
r = ---------------------
n r = ------------------------------------------------
n x2 ( x)2 . n y2 ( y)2
Se usa esta frmula cuando dan como
datos los puntajes estandarizados Z. (Ambos factores del denominador se elevan a la raz cuadrada)
Se utiliza esta frmula (llamada frmula del producto momento)
cuando no se conocen ni medias aritmticas ni desvos
estndar.
A continuacin se suministra un ejemplo de cmo calcular el coeficiente "r" utilizando la
frmula 2. Se trata de determinar el coeficiente de Pearson para dos variables X e Y (que
podran ser por ejemplo las notas del primero y segundo parcial). Tambin se pide
interpretar el resultado.
La tabla 1 son los datos dados, mientras que la tabla 2 es una ampliacin que debe hacerse
para poder obtener ms informacin y poder as aplicar la frmula:
Tabla 1
Alumno X Y
A 4 6
B 5 7
C 7 8
D 9 9
E 10 10
N=5 alumnos 35 40
Tabla 2
2 2
xX yY ( x X) (y Y) ( x X) (y Y)
-3 -2 6 9 1
-2 -1 2 4 1
0 0 0 0 0
2 1 2 4 1
3 2 6 9 1
0 0 16 26 10
X=7
Y=8
{ ( x X) (y Y) } 16
r = ---------------------------------------- = ----------------------- = +0.99
2 2
raz de ( x X) . (y Y) raz de 26,10
Coeficientes derivados.- A partir del coeficiente "r" de Pearson (en cualquiera de sus formas)
se pueden derivar otros, segn la informacin que se quiera obtener:
1) Coeficiente de determinacin (r2): es el coeficiente "r" elevado al cuadrado. El coeficiente
de determinacin indica qu porcentaje de la variacin de Y est determinada por las
variaciones de X. Por ejemplo, para un "r" de 0,70, hay un coeficiente de determinacin de
0,49, lo que significa que el 49% de la variacin de Y est determinada por la variacin de X.
2) Coeficiente de alienacin (k): llamado tambin de no correlacin, no indica la correlacin
sino la falta de correlacin entre dos variables (o grado de independencia). Para calcularlo se
aplica la frmula siguiente:
r2 + k2 = 1 [1]
Por ejemplo, si sabemos que "r" es de 0,50, aplicando la frmula indicada tenemos que "k"
vale 0,86, con lo cual el grado en que falta la correlacin resulta ser mayor que el grado en
que s hay correlacin.
Idnticamente, si "r" vale 1 entonces "k" vale 0, y viceversa. Cuanto mayor es el coeficiente
de alienacin tanto menor es la correlacin, y por tanto menos confiables sern las
predicciones que -anlisis de regresin mediante- se hagan sobre esa base.
3) Coeficiente de indeterminacin (k2): es el coeficiente "k" pero elevado al cuadrado. Mide
el grado en que la variacin de Y no est determinada por la variacin de X. La frmula del
coeficiente de indeterminacin es deducible de la anterior [1].
4) Coeficiente de eficiencia predictiva (E): suele utilizarse para, sabiendo "r", estimar
rpidamente el poder predictivo de la correlacin "r". Su frmula es:
E = 100 . (1 - 1-r2) donde 1-r2 debe elevarse a la raz cuadrada.
Por ejemplo si la correlacin "r" es de 0,50, la eficiencia predictiva ser del 13%. Pero
cuando "r" sube a 0,98, la eficiencia predictiva ser del 80%. La correlacin debe ser
entonces de 0.87 o ms para que la eficiencia predictiva sea mayor al 50%.
La matriz permite visualizar inmediatamente, entre otras cosas, cules son los coeficientes
de correlacin ms altos (en este caso, entre Y y W).
Ntese que no han sido llenados los casilleros donde se cruzan las mismas variables (por
ejemplo X con X), porque carece de sentido hacerlo y su correlacin es siempre perfecta y
positiva (r = +1).
Frmula 1 Frmula 2
2 2 2 2
6 d x + y + d
= 1 - --------------------------- = --------------------------------
2 2
n (n + 1) (n 1) 2. x. y
casos, y es x = y = (n3 n) / 12
2 2
En ciertos casos conviene utilizar la primera frmula, y en otros casos la segunda. Por
ejemplo (Kohan, 1994:256), si no hay empates en los rangos o son muy pocos, se utilizar
la frmula 1, y si hay empates en los rangos, se utilizar la frmula 2. Para comprender esto,
se suministran a continuacin dos ejemplos diferentes: uno sin empates y otro con empates.
Esta tabla indica, por ejemplo, que el sujeto A se situ en un segundo lugar en autoritarismo
y en un tercer lugar en bsqueda de estatus.
Aplicando la frmula 1, se obtiene un coeficiente de Spearman de 0.82, lo cual sugiere una
alta correlacin entre autoritarismo y bsqueda de status.
Ejemplo 2.- Aqu se trata de obtener el coeficiente de Spearman cuando hay empates en los
rangos. Los empates ocurren cuando dos o ms sujetos tienen el mismo rango en la misma
variable. Por ejemplo (ver tabla siguiente), los sujetos A y B obtuvieron el mismo puntaje en
la variable X (o sea, obtuvieron ambos cero). Otro tanto ocurri con los sujetos C y D y con
los sujetos J y K, siempre en relacin a la misma variable X. En el caso de la variable Y todos
los puntajes fueron diferentes, y por lo tanto no hubo empates.
Cuanto mayor es la cantidad de empates, ms conveniente resultar utilizar la frmula 2.
Para hallar el coeficiente de Spearman en estos casos, puede procederse se acuerdo a tres
pasos:
b) Correccin de la suma de los cuadrados.- Para poder aplicar la frmula 2, y puesto que
hay empates, deben modificarse los valores de x y de y es decir, las sumatorias de los
2 2
141.5
12 12 12 12 12
El valor 2 significa que hay sido dos los valores empatados. En este caso, los empates se han
dado en tres oportunidades (sujetos A-B, C-D y J-K), y por ello se suman los tres cocientes.
Como en la variable Y no se han verificado empates, el clculo no incluir el factor de
correccin:
3 3
n n 12 12
y = --------- = ------------ = 143
2
12 12
c) Aplicacin de la frmula 2.- Se aplica la frmula con los valores corregidos del siguiente
modo:
2 2 2
x + y + d 141.5 + 143 109.5
= -------------------------------- = ------------------------------ = 0.616
2 2
2. x. y 2 141.5 . 143
Esquema 6 Esquema 7
Acto seguido, se eligen mil sujetos con diagnsticos diversos de personalidad y se les
pregunta qu dibujo les gusta ms. Aqu es donde interviene el anlisis de correlacin, que
permitir ver el grado de asociacin entre el diagnstico y el dibujo elegido. Una muy alta
correlacin aparecera, por ejemplo, si gran cantidad de sujetos con trastorno narcisista
eligen el esquema 6, con lo cual, en lo sucesivo se podr tomar este test sin necesidad de
explorar sus conductas y ver si cumplen los criterios del DSM-IV, un trmite que suele ser
arduo.
Desde ya, construir un test exige una gran cantidad de controles y precauciones que no
vienen al caso exponer aqu. Por ejemplo, debe determinarse su validez y su confiabilidad. El
anlisis de correlacin permite, precisamente, determinar por ejemplo un tipo especial de
validez: la validez predictiva, que pueden verse claramente en las pruebas de orientacin
vocacional.
As, por ejemplo, una forma de establecer si un test de este tipo evala la vocacin de un
sujeto, es esperar varios aos y ver si ese sujeto tuvo xito en la profesin sugerida por el
test. Como puede apreciarse, aqu se recurre nuevamente al anlisis de correlacin, al
compararse la profesin diagnosticada con la profesin elegida exitosamente. Una alta
correlacin entre ambas variables es indicador de la validez predictiva del test en cuestin.
El anlisis de correlacin permite tambin determinar otros tipos de validez como la validez
inter-test, que compara los resultados de un test vocacional con otro test vocacional. Si
ambos arrojan aproximadamente los mismos resultados en un conjunto de sujetos, entonces
tienen validez inter-test, comparacin que fue posible por un anlisis de correlacin.
El objetivo del anlisis de regresin es establecer una prediccin acerca del comportamiento
de una variable Y conociendo el correspondiente valor de X (o viceversa) y el grado de
correlacin existente entre ambas variables.
Para ello es preciso conocer la llamada recta de regresin (7), que es la recta imaginaria que
mejor representa el conjunto de pares de valores de las variables X e Y. En el siguiente eje
de coordenadas, estn representados por ejemplo cinco de esos pares de valores, mediante
cinco puntos. La recta de regresin dibujada sera la que mejor representa esos puntos, por
cuanto la distancia de los puntos a la recta (representada con una lnea punteada) es la
mnima. Esta distancia recibe el nombre de regresin, de manera tal que cuanto menor es la
regresin de los puntos, mayor ser la correlacin entre ellos.
y Recta de regresin
La recta de regresin es, de muchas rectas posibles, la que mejor representa la correlacin
o, ms tcnicamente, es la nica que hace mnima la suma de los cuadrados de las
desviaciones o distancias de cada punto a la recta. Es, adems, la mejor manera de poder
hacer predicciones.
Las desviaciones de los puntos respecto de la recta se adjudican a factores no controlados
(que suelen ser particularmente importantes en las ciencias sociales), y se parte del
supuesto de que si no hubiera factores extraos que afecten la relacin entre X e Y, entonces
no habra desviaciones y la correlacin sera perfecta.
La recta de regresin puede trazarse a ojo, pero este procedimiento no tiene precisin. El
anlisis de regresin propone un mtodo mucho ms preciso, consistente en hallar la recta
de regresin por una va analtica.
Este clculo de la recta de regresin consiste en hallar la ecuacin de la recta de regresin, y
eventualmente luego dibujndola en un diagrama de coordenadas cartesianas. Una vez en
posesin de esta ecuacin, podrn hacerse predicciones a partir de la ecuacin misma o bien
a partir de la recta trazada en el diagrama de coordenadas.
Ambos procedimientos sern examinados a continuacin con los nombres de clculo analtico
de la regresin y clculo grfico de la regresin, respectivamente.
n (x.y) x. y
b = ------------------------------
n x2 - ( x)2
Como puede apreciarse, primero debe calcularse b, ya que para calcular a se requiere
conocer b.
y = r . (Sy / Sx) . (x - X) + Y
A los efectos de poder obtener informacin sobre las medias aritmticas, los desvos
estndar y el coeficiente de correlacin (necesarios para calcular la ecuacin de la recta), se
ampla la tabla anterior de la siguiente manera:
y = r . (Sy / Sx) . (x - X) + Y
y = 0.81 (10.8 / 2) . (x 5) + 70
Esta expresin se transforma de manera tal que adopte la forma tpica de la ecuacin de la
recta, con lo cual se obtiene:
y = 47.85 4.43 . x
Una vez que se cuenta con la ecuacin de la recta, ahora s pueden hacerse predicciones. Por
ejemplo, si a un nio que 10 aos se le toma el test, cul ser el puntaje ms probable que
obtendr?
y = 47.85 4.43 . x
y = 47.85 4.43 . 10 = 92.15
y = 92.15
90
80
70
60
50
40
30
20
10
0
0 1 2 3 4 5 6 7 8 9 10 X
90
80
70
60
50
40
30
20
10
0
0 1 2 3 4 5 6 7 8 9 10 X
Esto es, el error estndar es igual al desvo estndar poblacional multiplicado por la raz
cuadrada de la diferencia entre 1 y el cuadrado del coeficiente de correlacin.
En el ejemplo anterior, el desvo estndar vala 10.8 y el coeficiente de correlacin vala
0.82. Reemplazando, se obtiene:
2
est y = . 1 0.82 = 6.2
Esto significa que el valor de y predicho y = 82, estar en un 68% de los casos entre 82
6.2, es decir entre 88.2 y 75.8. O si se quiere, hay un 68% de probabilidades que el valor de
y se encuentre entre 88.2 y 75.8. Desde ya, tambin puede calcularse este intervalo de
confianza en base a un 95% o un 99% de probabilidades, en cuyo caso el intervalo de
confianza deber ser mayor.
NOTAS
(1) Una distribucin de frecuencias bivariada es un conjunto de pares de valores, correspondientes a dos
variables observadas conjuntamente, con sus respectivas frecuencias. Cuando la distribucin se registra
en una tabla de doble entrada se obtiene una tabla de contingencia. En cada celda de esta tabla se
indica la frecuencia con que se observ cada par de valores.
(2) Algunos autores (por ejemplo Botella, 1993:183), clasifican en tres los casos posibles de relacin
lineal entre variables. a) Relacin lineal directa: se dice que dos variables X e Y mantienen una relacin
lineal directa cuando los valores altos en Y tienden a emparejarse con valores altos en X, los valores
intermedios en Y tienden a emparejarse con valores intermedios en X, y los valores bajos en Y tienden a
emparejarse con valores bajos en X. Por ejemplo: la relacin entre inteligencia y rendimiento. b)
Relacin lineal inversa: se dice que dos variables X e Y mantienen una relacin lineal inversa cuando los
valores altos en Y tienden a emparejarse con valores bajos en X, los valores intermedios en Y tienden a
emparejarse con valores intermedios en X, y los valores bajos en Y tienden a emparejarse con valores
altos en X. Por ejemplo: la relacin entre tiempo y errores. c) Relacin lineal nula: se dice que hay
relacin lineal nula entre dos variables cuando no hay un emparejamiento sistemtico entre ellas en
funcin de sus valores. Por ejemplo: la relacin entre estatura e inteligencia.
(3) Otra forma de apreciar grficamente la correlacin es mediante el ngulo de correlacin: dadas las
dos rectas y1 = a + b . x1 y x1 = a + b . y1 , el punto donde se intersectan se llama centroide. El
ngulo entre ambas rectas se llama ngulo de correlacin. Cuanto menor es este ngulo, ms
correlacin hay (Kohan, 1994:224).
(4) Adems del clsico coeficiente "r" de Pearson, existen otros tambin destinados a medir el grado de
asociacin entre variables. En el esquema siguiente se resumen algunos ejemplos. No deben confundirse
los coeficientes derivados del coeficiente de Pearson, con estos otros coeficientes de correlacin, que en
general fueron diseados de manera diferente o para otros propsitos.
Otros coeficientes son: el Coeficiente (Tau) de Kendall (Kohan, 1994:260), el Coeficiente de Wilcoxon, el
Coeficiente de Flanagan, el Coeficiente de correlacin multiserial de Jaspe, el Coeficiente T de
Tschuprow, el Coeficiente de correlacin tetracrica (Kohan, 1994:281), etc.
Todos los coeficientes de correlacin pueden aplicarse en psicologa, por ejemplo, en experimentos sobre
el aprendizaje, en la teora factorialista de Spearman, y en psicometra cuando por ejemplo debemos
establecer el grado de correlacin entre dos tests, o el grado de correlacin de un mismo test tomado en
dos momentos diferentes.
(5) En algunos textos de estadstica se describen frmulas abreviadas para facilitar los clculos cuando
se dispone de un nmero grande de pares de valores. La disponibilidad actual de calculadoras de mesa y
ordenadores personales hacen innecesarias estas frmulas (Botella, 1993:193).
(6) La construccin de tests puede llevarse a cabo para realizar una investigacin ad hoc para la cual no
hay instrumentos de medicin conocidos, o bien para crear una prueba que pueda ser utilizada por otros
en diferentes circunstancias, aunque esto ltimo es ms raro en un mercado sobresaturado de pruebas
psicomtricas y proyectivas donde es realmente muy difcil posicionar un test que pueda representar una
mejora respecto de los anteriores.
(7) Tambin puede ser una curva, pero en este artculo se describe solamente la regresin lineal, que se
representa mediante una recta.
(8) El valor a es la ordenada al origen, y el valor b es el coeficiente angular o pendiente de la recta,
que equivale a la tangente del ngulo alfa (formado por la recta y otra recta paralela a la absisa). La
ecuacin de la recta tambin puede representarse como x = a + b.y, en cuyo caso el parmetro a
significar la absisa al origen. En este artculo no se considerar esta segunda expresin por razones de
simplicidad, y por cuanto la idea es poder predecir un valor y en funcin de un valor x, y no un valor x
en funcin de un valor y. As, la ecuacin y = a + b.x permite predecir cunto valdr y en funcin de x,
mientras que la ecuacin x = a + b.y permite predecir cunto valdr x en funcin de y.
Ambas rectas de regresin se cortan en un punto llamado centroide, y la correlacin entre las dos
variables est dada por el ngulo entre las dos rectas: si este ngulo vale 0, la correlacin es 1 (Kohan
N, 1994:224).
5.1 INTRODUCCIN
Esta tarea consiste en, partiendo de ciertos valores de la muestra llamados estadsticos o
estadgrafos (por ejemplo la media aritmtica muestral), inferir ciertos otros valores de la
poblacin llamados parmetros (por ejemplo la media aritmtica poblacional o esperanza).
Ello es as porque en general lo que interesa es la poblacin, no la muestra. Cuando un
investigador observa que en una muestra el 80% de las personas lee el diario, le interesar
averiguar a partir de all qu porcentaje o proporcin de la poblacin lee el diario, ya que por
ejemplo su inters es editar un nuevo peridico. De la misma forma, cuando un investigador
observa que la media aritmtica muestral de la frecuencia cardaca es 80 pulsaciones por
minuto, le interesar averiguar si ello se cumple tambin en la poblacin, ya que por ejemplo
su inters puede ser comparar la frecuencia cardaca de sus pacientes con toda la poblacin
para decidir sobre su salud en base a un criterio estadstico.
Como puede verse, lo ms habitual es inferir medias aritmticas (promedios) y proporciones
(porcentajes). As, a partir de la media aritmtica muestral se infiere la media aritmtica
poblacional, y a partir de la proporcin observada en la muestra se infiere la proporcin en la
poblacin.
Existen dos tipos de estimacin de parmetros: la estimacin puntual y la estimacin
intercalar (Pagano R, 1998:304).
La estimacin puntual consiste en inferir un determinado valor para el parmetro. Por
ejemplo, inferir que la poblacin debe tener puntualmente una media aritmtica de 80.
La estimacin intervalar consiste en inferir dentro de qu intervalo de valores estar el
parmetro con un determinado nivel de confianza. Por ejemplo, inferir que la poblacin debe
tener una media aritmtica entre 75 y 83, con un nivel de confianza de 0.95 (esto es, hay un
95% de probabilidades de que el parmetro poblacional se encuentre entre 75 y 93) o, si se
quiere, con un nivel de riesgo (4) de 0.05 (esto es, hay un 5% de probabilidades de que el
parmetro no se encuentre entre esos valores).
En general, resulta mucho ms riesgoso afirmar que el parmetro vale 80 que afirmar que
vale entre 75 y 83. Por esta razn, se prefiere bajar este riesgo y establecer un intervalo de
confianza, que podr ser de 0.90, 0.95, 0.99, etc, segn elija el investigador.
Hay diferentes procedimientos de estimacin de parmetros, segn se trate de estimar
medias o proporciones, o segn se trate de estimar parmetros de variables cualitativas (con
dos categoras o con ms de dos categoras) o cuantitativas. En lo que sigue se dan algunos
ejemplos combinados.
Ls = X + z . (S / Donde:
n)
Ls = Lmite superior del intervalo de confianza.
Li = X - z . (S/ Li = Lmite inferior del intervalo de confianza.
n) X = Media aritmtica muestral.
S = Desvo estndar muestral.
n = Tamao de la muestra. Si se trata de una muestra chica (menor a
30) se considera n-1.
(S / n) = Desvo estndar poblacional. Cuando no tenemos el desvo
estndar de la poblacin (hecho muy frecuente) se utiliza el desvo
muestral (Rodrguez Feijo N, 2003).
z . (S/ n) = Error muestral o estndar (error que puede cometerse al
inferir la media poblacional) (3).
z = Puntaje estandarizado que define el nivel de confianza. Si se desea
un nivel de confianza de 0.90, debe consignarse z = 1.64. Si se desea
un nivel de confianza de 0.95, debe consignarse z = 1.96. Si se desea
un nivel de confianza de 0.99, debe consignarse z = 2.58. Para valores
intermedios de nivel de confianza, pueden consultarse las tablas de
reas de z (ver captulo sobre probabilidad y curva normal).
Ejemplo (Rodrguez Feijo N, 2003).- En una muestra probabilstica de 600 nios de 10 aos
de Capital Federal el cociente intelectual promedio obtenido fue de 105 con una desviacin
estndar de 16. Con un intervalo de confianza del 95%, entre qu lmites oscilar el CI
promedio de los nios de 10 aos de Capital Federal?
Ls = X + z . (S / n) = 105 + 1.96 (16 / 600) = 106.27
Li = X - z . (S/ n) = 105 - 1.96 (16 / 600) = 103.73
Respuesta: con un riesgo de 5% de equivocarse en la estimacin, el CI promedio de los
nios de 10 aos de Capital Federal oscila entre 103.73 y 106.27 puntos.
Ls = p + z . ( p . q / Donde:
n)
Ls = Lmite superior del intervalo de confianza.
Li = p - z . ( p . q / Li = Lmite inferior del intervalo de confianza.
n) p = Proporcin muestral
z = Puntaje estandarizado que define el nivel de confianza. Si se
Nota: La raz cuadrada desea un nivel de confianza de 0.90, debe consignarse z = 1.64. Si
afecta a p, q y n. se desea un nivel de confianza de 0.95, debe consignarse z = 1.96.
Si se desea un nivel de confianza de 0.99, debe consignarse z =
2.58. Para valores intermedios de nivel de confianza, pueden
consultarse las tablas de reas de z (ver captulo sobre probabilidad
y curva normal).
q = Proporcin que falta para llegar al 100%. Por ejemplo: si p es
65%, entonces q = 35%).
n = Tamao de la muestra. Si se trata de una muestra chica (menor
a 30) se considera n-1.
Ejemplo.- En una muestra probabilstica de 100 personas, el 20% son masculinos. Con un
intervalo de confianza del 99%, entre qu proporciones oscilar el porcentaje de masculinos
en la poblacin?
Ls = 20% + 2.58 . ( 20 . 80 / 100) = 30.3%
Li = 20% 2.58 . ( 20 . 80 / 100) = 9.7%
Respuesta: con un riesgo de 1% de equivocarse en la estimacin, la proporcin de
masculinos en la poblacin oscila entre el 9.7% y el 30.3%.
Las pruebas de hiptesis se utilizan para probar alguna hiptesis en investigacin cientfica
(10). Cuando el investigador propone una hiptesis, su deseo ser poder confirmarla (porque
l mismo la propuso o porque cree intuitivamente en ella). Si decide hacer una prueba
estadstica para salir de dudas, entonces realizar una prueba de hiptesis y establecer dos
hiptesis estadsticas: su propia hiptesis, a la que convertir en hiptesis alternativa, y la
opuesta, que llamar hiptesis nula, y la tarea consistir en intentar probar esta ltima. Si la
rechaza, aceptar la alternativa, y si la acepta, rechazar la alternativa (7).
Existe una gran variedad de pruebas de hiptesis, pero todas ellas tienen en comn una
determinada secuencia de operaciones, que son las siguientes:
z
-3 -2 -1 0 +1 +2 +3
t
-3 -2 -1 0 +1 +2 +3
Las zonas de rechazo se definirn segn se trate de pruebas de hiptesis de una cola
(hiptesis direccionales) o de dos colas (hiptesis no direccionales), segn el siguiente
esquema:
Para determinar una zona de rechazo (o tambin zona crtica) es preciso indicar un
determinado valor de z (o de t) que sirva para delimitar la zona de rechazo ( ) de la zona de
aceptacin (1 - ). Ese valor recibe el nombre de z terico, z crtico o punto crtico, que se
calcula en base a una tabla de z (o de t) y en base al nivel de significacin elegido.
Existe una relacin bsica entre , y el tamao de muestra n. Puesto que es la
probabilidad de que la estadstica de prueba (por ejemplo el z emprico) caiga en la regin de
rechazo, un incremento en el tamao de esta regin aumenta , y simultneamente
disminuye , para un tamao de muestra fijo. El reducir el tamao de la regin de rechazo
disminuye y aumenta . Si se aumenta el tamao de muestra entonces, se tiene ms
informacin en la cual basar la decisin y ambas y decrecern.
8) Decisin final (6).- Si el dato emprico (llamado z emprico) obtenido cae dentro de la
zona de rechazo, se rechaza la Ho y por tanto se acepta la Ha. En cambio, si el dato cae
fuera de esta zona de rechazo, no se rechaza (se acepta) la Ho, siempre para un nivel de
significacin elegido (Kohan N, 1994:189). Por ejemplo:
z z terico = -1.65
-1.80 -1.65 z emprico = -1.80
En este ejemplo, se puede apreciar que el z terico delimita las zonas de rechazo y
aceptacin de la Ho. Como de los datos del experimento result un z emprico ubicado dentro
de la zona de rechazo, se decide rechazar la Ho y, por lo tanto, se acepta la Ha.
1) Prueba de la media.- Aqu no hay que estimar un intervalo para la media poblacional
(como en la estimacin de parmetros), sino probar la hiptesis segn la cual no hay
diferencia estadsticamente significativa entre la media poblacional y la muestral. Esta
prueba, llamada tambin prueba de la media, se entiende cabalmente a partir de un
conocimiento mnimo sobre distribucin muestral y teorema central del lmite (12).
Existe una gran diversidad de pruebas de la media, segn que se conozca o no se conozca el
desvo estndar poblacional (en cuyo caso se utiliza una prueba z o una prueba t,
respectivamente), segn que la hiptesis sea direccional (prueba de una cola) o no
direccional (prueba de dos colas), y segn se aplique a una sola muestra (Pagano R,
1998:293) o a dos muestras (Pagano R, 1998:317).
Resolucin.- a) En primer lugar convendr ordenar los datos que suministra el problema:
X - 1.65 1.68
ze = -------------- = ------------------ = - 1.8
/ n 0.10 / 36
3) Se calcula el z terico mediante la tabla de z para un nivel de significacin del 5%. Como
se trata de una hiptesis alternativa direccional que especifica una direccin de menor que,
se emplea la tabla de reas de z hacia la izquierda (ver apndice).
Puesto que se pide un nivel de significacin del 5%, traduciendo este valor a probabilidades
obtenemos 0.05. A continuacin, se busca el valor de z que corresponde aproximadamente a
esa probabilidad. Hay dos valores que se aproximan idnticamente: 0.0505 y 0.0495.
Eligiendo arbitrariamente el primero, se obtiene:
zt = -1.64
z z terico = -1.64
-1.8 -1.64 z emprico = -1.8
5) Como ze cae dentro de la regin de rechazo o regin crtica, entonces se rechaza la Ho, y
por lo tanto, se acepta la Ha segn la cual la estatura media poblacional es menor que 1.68
m. En este caso se puede estar cometiendo un error tipo I, es decir, rechazar la Ho cuando
es verdadera, con una probabilidad de = 0.05 (o si se quiere, existe una probabilidad del
5% de estar rechazando la Ho cuando es verdadera).
Ejemplo.- Sean, a efectos didcticos, las siguientes seis observaciones obtenidas en dos
variables X e Y:
X Y
10 13
10 16
12 12
12 17
14 15
16 15
a) Antes de aplicar x lo que se exige es que no haya diferencias significativas entre los
grupos experimental y de control, tanto en lo referente a x como en las variables de
control (es decir a las variables extraas relevantes que requieren ser controladas).
b) Despus de aplicar x, lo que se espera como deseable (para aceptar la hiptesis de
investigacin) es que haya diferencias significativas en cuanto a x entre ambos grupos.
La teora de las muestras (2) es til para poder determinar si las diferencias observadas
entre dos muestras son realmente debidas al azar o si son significativas, lo que puede
llevar a un proceso de toma de decisiones gracias a las pruebas de hiptesis y de
significacin que se pueden hacer (Kohan N, 1994:144).
2) Diferencia entre muestra y poblacin.- Queda, no obstante, otra tarea adicional para la
estadstica inferencial: establecer si las conclusiones obtenidas para la muestra experimental,
luego de la exposicin a x, pueden extenderse lcitamente a toda la poblacin, habida cuenta
de que la ciencia busca un conocimiento vlido y universal. Esta tarea es lo que Kohan
describe como probar hiptesis vlidas para la poblacin correspondiente, conociendo la
informacin de las muestras (Kohan N, 1994:144). La misma autora indica que para que las
conclusiones que se obtienen a partir de las muestras sean vlidas, stas deben ser
representativas de la poblacin.
En los informes de investigacin suelen aparecer expresiones del tipo "los resultados del
experimento son estadsticamente significativos". Seguidamente se aclarar en forma
intuitiva qu quiere decir esto, siguiendo los lineamientos didcticos de Len y Montero
(1995:105-130).
Supngase un sencillo experimento, donde se trata de probar si un choque emocional altera
o no el recuerdo de los sucesos inmediatamente anteriores al mismo.
Para ello, se tomaron dos grupos de estudiantes: el grupo experimental presenci una
pelcula donde haba una escena violenta, y el grupo de control presenci la misma pelcula
pero sin la escena violenta.
Los resultados fueron los siguientes: el grupo sometido al choque emocional lograba luego
recordar un promedio de 10, mientras que el grupo sin choque emocional lograba recordar
ms sobre las escenas del film: por ejemplo, un promedio de 15. Esquemticamente:
Tabla 1
Los resultados de la tabla 1 permiten ver, en efecto, que hay muy pocos experimentos donde
la diferencia entre grupos es muy grande (en apenas 5 experimentos la diferencia fue 7),
mientras que hay muchos experimentos donde la diferencia entre grupos es nula (hay 2000
experimentos donde la diferencia fue 0).
La tabla tambin informa sobre lo siguiente:
a) La cantidad de casos que obtuvieron como diferencia entre +1 y -1 fue de 5.390 casos
(que resulta de sumar 1690 + 2000 + 1700). Ello representa el 53,9% ms prximo a cero
del total de casos.
b) La cantidad de casos que obtuvieron como diferencia entre +3 y -3 fue de 9180 casos.
Esto representa el 91,8% ms prximo a cero del total de casos, y se puede graficar
mediante una curva normal tal como aparece en el grfico 1. En este grfico se puede
visualizar fcilmente que el 91,8% de los experimentos obtuvo una diferencia de -3 hasta
+3.
Grfico 1
2000
Frecuencias
91,8%
-7 -6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6
+7
Diferencias
Una vez hechos estos clculos, ahora cabe hacerse una pregunta fundamental: dentro de
qu intervalo de diferencias cabra admitir que las diferencias responden al simple azar?
Dentro del intervalo -1 y +1? Dentro del intervalos -3 y +3? Por las dudas, se considerar
convencionalmente este ltimo intervalo. Esto quiere decir, por ejemplo, que si en un
experimento se obtuvo una diferencia de 2, entonces se considerar que dicha diferencia se
debe al azar (pues 2 est entre -3 y +3), mientras que si en otro experimento se obtuvo una
diferencia de 6, entonces se considerar que dicha diferencia no se debe al azar (pues 6 est
fuera del intervalo entre -3 y +3), es decir, se considerar que la diferencia es
'estadsticamente significativa'.
Supngase ahora el experimento original, donde un grupo era sometido al estmulo violento
y el otro no, es decir, donde los grupos son sometidos a diferentes condiciones
experimentales.
En uno de dichos experimentos se ha obtenido, por ejemplo, una diferencia de 2.5; por lo
tanto, deber concluirse que esta diferencia no es 'estadsticamente significativa' porque est
comprendida dentro del 91,8% de los casos ms prximos a cero (o sea, entre -3 y +3),
segn la convencin propuesta.
En cambio, si la diferencia encontrada en otro experimento de este tipo hubiese sido de 5,
este valor cae fuera del intervalo entre -3 y +3, y por lo tanto es 'estadsticamente
significativo' (ver grfico 2). Desde ya, para decidir esto se ha considerado que el porcentaje
que permite discriminar lo que es significativo de lo que no lo es era 91,8%. Si se hubiese
elegido el 99%, una diferencia de 5 como resultado hubiese resultado estadsticamente no
significativa.
Sealan Len y Montero: "el investigador [es quien] determina el porcentaje que sirve para
discriminar la significacin de la no significacin. Este tanto por ciento se denomina 'nivel de
confianza', y tiene sus valores ms frecuentes entre 95% y 99%". Cuanto mayor es el
porcentaje elegido, ms exigente deber ser en cuanto a la tipificacin de un resultado como
estadsticamente significativo.
En los informes de investigacin, en vez de citarse el nivel de confianza, se suele citar su
complementario, que es el 'nivel de significacin' o 'nivel de riesgo'. En el caso del ejemplo,
si el nivel de confianza era del 91,8%, el nivel de significacin o de riesgo ser lo que falta
para completar 100%, es decir, el 8,2% (ver grfico 2). Ms an, inclusive, es frecuente
expresar este nivel de significacin no en trminos de porcentajes sino en trminos de
probabilidad, con lo cual, en vez de afirmarse 8,2%, se afirmar 0.082.
Grfico 2
Nivel de Nivel de Nivel de
significacin confianza significacin
(o de riesgo) 91,8% (o de riesgo)
4,1% 4,1%
z
-7 -6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6
+7
Resultados estadsticamente Resultados estadsticamente Resultados estadsticamente
significativos NO significativos significativos
Las expresiones 'confianza' y 'riesgo' resultan esclarecedoras para entender estos conceptos:
si un experimento cae dentro del nivel de confianza se puede decir con tranquilidad, con
'confianza', que los resultados no son estadsticamente significativos, pero si cae dentro del
nivel de riesgo, el investigador se estara 'arriesgando' a sostener que los resultados son
estadsticamente significativos, es decir, a aceptar la hiptesis segn la cual un choque
emocional efectivamente influye sobre los recuerdos.
Len y Montero indican que encontrar diferencias estadsticamente significativas no es el
propsito final del investigador, ni lo ms importante. Lo que el investigador persigue es en
realidad determinar la significacin terica, ms que la significacin estadstica que le sirve
como medio, es decir, si resulta o no relevante para alguna finalidad. As por ejemplo, si se
ha constatado que un tratamiento para adelgazar produce una prdida de 2 Kg, esto puede
ser estadsticamente significativo, pero mientras que para un investigador nutricionista ser
adems tambin importante desde el punto de vista terico, para un vendedor de esa dieta
no, porque 2 Kg. no le proporciona un buen argumento de venta.
Una ltima acotacin. Podra ocurrir que algunos investigadores que hicieran el experimento
del choque emocional hubiesen obtenido diferencias extremas, como por ejemplo -7 o +7,
mientras que otros hubiesen obtenido diferencias ms prximas a cero, con lo cual los
primeros hubiesen aceptado la hiptesis del choque emocional, mientras que los segundos la
hubiesen rechazado. Este desacuerdo entre investigaciones puede ocurrir, con lo cual deber
emprenderse lo que se llama un 'meta-anlisis', es decir, un procedimiento que permita
integrar los resultados acumulados de una serie de investigaciones.
NOTAS
(1) Las muestras no probabilsticas solo suelen usarse como primera aproximacin en trabajos piloto,
pero no puede saberse cun confiables son sus resultados (Kohan N, 1994:146).
(2) Toda teora de las muestras es una estadstica inferencial, pues se infieren a partir de los valores
estadsticos hallados en las muestras los valores paramtricos ms probables para las poblaciones de las
cuales hemos extrado las muestras (Kohan N, 1994:145).
(3) Cuanto mayor es el error estndar, mayor es el intervalo de confianza. El error estndar es mayor
cuando z es mayor, o sea, cuanto menor es el riesgo que se quiere correr; cuando n es menor (si se
quiere ms precisin se necesitar una muestra ms grande), y cuando S es mayor. En sntesis: cuanto
menor es el riesgo que se quiere correr, cuanto menor es el tamao de la muestra y cuanto mayor es el
S (desvo estndar muestral), mayor ser el intervalo de confianza.
(4) Este nivel de riesgo es tambin llamado nivel de significacin (Rodrguez Feijo N, 2003).
(5) "La teora sobre las muestras... es til [entre otras cosas] para poder determinar si las diferencias
observadas entre dos muestras son realmente debidas al azar o si son significativas, lo que puede llevar
a un proceso de toma de decisiones gracias a las pruebas de hiptesis y de significacin que se pueden
hacer" (Kohan N, 1994:144).
(6) La prueba de hiptesis tiende a ser denominada en la actualidad teora de la decisin (Kohan N,
1994:173). Con ello se quiere significar que la prueba de hiptesis se lleva a cabo sobre la base de una
teora llamada teora de la decisin.
(7) Un experimento clsico para probar la hiptesis del investigador es comparar dos muestras: el grupo
experimental y el grupo de control. Si hay diferencia significativa entre la muestra experimental y la
muestra de control, entonces NO hay diferencia significativa entre la muestra experimental y la
poblacin.
(8) Puede llamar la atencin que el investigador no pruebe directamente su hiptesis alternativa sino
que lo haga indirectamente, probando la hiptesis nula. Por qu proceder para apoyar una teora
mostrando que hay poca evidencia para apoyar la teora contraria? Por qu no apoyar directamente la
hiptesis alternativa o de investigacin? La respuesta est en los problemas para evaluar las
posibilidades de decisiones incorrectas.
El argumento que en general puede encontrarse en los textos de estadstica es el siguiente: Si la
hiptesis de investigacin es verdadera (por ejemplo una vacuna cura el resfriado), la prueba de la
hiptesis nula (la contraria a la hiptesis de investigacin) deber conducir a su rechazo. En este caso, la
probabilidad de tomar una decisin incorrecta corresponde a cuyo valor fue especificado al determinar
la regin de rechazo. Por lo tanto, si se rechaza la hiptesis nula (que es lo deseable) se conoce
inmediatamente la probabilidad de tomar una decisin incorrecta. Esto proporciona una medida de
confianza de la conclusin.
Supngase que se utiliza el razonamiento opuesto, probando la hiptesis alternativa (de investigacin)
de que la vacuna es efectiva. Si la hiptesis de investigacin es verdadera, la estadstica de prueba
probablemente caer en la regin de aceptacin (en lugar de la de rechazo). Ahora, para encontrar la
probabilidad de una decisin incorrecta de debe evaluar , la probabilidad de aceptar la hiptesis nula
cuando esta es falsa. A pesar de que esto no representa un gran esfuerzo para el problema de la vacuna
contra el resfriado, es un trabajo adicional que se debe hacer y en algunos casos es muy difcil calcular
.
As que, para resumir, es mucho ms fcil seguir el camino de la prueba por contradiccin. Por lo
tanto, el estadstico elegir la hiptesis contraria a la de la investigacin como hiptesis nula y su deseo
es que la prueba conduzca a su rechazo. Si es as, el estadstico conoce el valor de y tiene una medida
inmediata de la confianza que se puede depositar en esta conclusin.
(9) Autores como Hernndez Sampieri et al (1996:91) nos ofrecen una interesante tipologa de hiptesis
nulas que contemplan varias posibilidades. Concretamente, hacen referencia a: 1) hiptesis nulas
descriptivas de una variable que se va a observar en un contexto (por ejemplo la expectativa de ingreso
mensual de los trabajadores de la corporacin T no oscila entre 50.000 y 60.000 pesos colombianos);
2) hiptesis que niegan o contradicen la correlacin entre dos o ms variables (por ejemplo no hay
relacin entre la autoestima y el temor de logro); 3) hiptesis que niegan que haya diferencia entre
grupos (por ejemplo no existen diferencias en el contenido de sexo en las telenovelas S, L y M); y 4)
hiptesis que niegan la relacin de causalidad entre dos o ms variables (por ejemplo la percepcin de
la similitud en religin, valores y creencias no provoca mayor atraccin fsica).
A nuestro entender, una visin ms completa de las hiptesis nulas debera considerar al menos cuatro
sentidos, que podemos designar respectivamente en trminos de hiptesis nula de estimacin, hiptesis
nula de correlacin, de causalidad y de validez externa:
a) La hiptesis nula de estimacin vendra a afirmar que los estadsticos muestrales no son
representativos de los parmetros poblacionales.
b) La hiptesis nula de correlacin vendra a afirmar que no existe una correlacin significativa entre dos
o ms variables. El nivel de significacin es en estos casos el que establece a priori el investigador
cuando califica ciertos intervalos del coeficiente de correlacin como alto, medio, bajo, etc.
c) La hiptesis nula de causalidad vendra a afirmar que los cambios en la variable dependiente Y no son
adjudicables a los cambios de la variable independiente X. Pagano, por ejemplo, refiere que la hiptesis
nula indica que la variable independiente no influye sobre la variable dependiente (Pagano, 1998:212).
Este segundo sentido de hiptesis nula es el ms frecuentemente mencionado en los tratados sobre el
tema.
d) La hiptesis nula de validez externa vendra a indicar que las conclusiones obtenidas en la muestra no
son extensibles -con el nivel confianza requerido- a toda la poblacin. Este tipo de hiptesis vendra
entonces a negar la validez externa de un experimento, entendiendo aqu validez externa como
requisitos de los diseos experimentales tal como por aparecen en gran parte de la bibliografa sobre el
tema (por ejemplo Campbell D y Stanley J, 1995:16). Autores como Tamayo pareceran considerar este
sentido de hiptesis nula cuando la incluyen dentro de las hiptesis estadsticas, definiendo stas ltimas
como suposiciones sobre una poblacin que se realizan a partir de los datos observados, es decir, de una
muestra (Tamayo M, 1999:120).
La hiptesis nula de estimacin corresponde a la primera tarea de la estadstica inferencial: la estimacin
de parmetros. Las hiptesis nulas de correlacin y de causalidad corresponderan a la prueba de
hiptesis donde se busca establecer si y se debe a x y no al azar, y la hiptesis nula de validez externa
corresponderan a la prueba de hiptesis donde se busca generalizar los resultados a toda la poblacin.
(10) Debe diferenciarse la hiptesis de investigacin (H), la hiptesis alternativa (Ha) y la hiptesis nula
(Ho). La hiptesis de investigacin resulta, segn Vessereau (1962:28), de consideraciones tericas o
bien est sugerida por los datos mismos. A los efectos de probar la hiptesis de investigacin, deber
drsele una forma estadstica, con lo cual se convierte en la hiptesis alternativa (esta forma
estadstica significa que incluye por ejemplo alguna afirmacin acerca de si hay o no diferencias
significativas). A su vez para probar esta hiptesis alternativa deber probarse la hiptesis nula, que no
es otra cosa que la negacin de la hiptesis alternativa.
Ms concretamente, por lo general, la hiptesis de investigacin predice una relacin entre dos o ms
variables (por ejemplo, que los nios que tienen mayor dominio del ojo izquierdo obtendrn puntajes de
rendimiento en lectura bastante inferiores a los de los otros alumnos). Para probar esta hiptesis de
manera estadstica, el investigador debe transformarla en hiptesis alternativa y luego negarla mediante
la hiptesis nula. La hiptesis nula no siempre refleja las expectativas del investigador en relacin con el
resultado del experimento. Por lo general, se opone a la hiptesis de investigacin, pero se la utiliza
porque resulta ms apropiada para la aplicacin de los procedimientos estadsticos. La hiptesis nula
determina que no existe relacin entre las variables consideradas (por ejemplo, en lo que respecta al
rendimiento en la lectura, no hay ninguna diferencia entre los nios que poseen mayor dominio del ojo
izquierdo y los dems). Por lo general, cuando se formula una hiptesis nula, se espera que sea
rechazada. Si esto ltimo ocurre, se acepta la hiptesis de investigacin (Van Dalen: 189-190).
(11) Las pruebas de una cola y dos colas tambin se llaman pruebas de un extremo y dos extremos, o
tambin unilaterales y bilaterales, o tambin one tailed test o two tailed test.
(12) Dada una poblacin de la cual se conoce su media aritmtica, por ejemplo 70, su varianza, y su
tamao N, por ejemplo 4, puede llevarse a cabo el siguiente procedimiento: a) primero se sacan todas
las muestras posibles del mismo tamao. La cantidad de muestras posibles se puede calcular mediante
un nmero combinatorio, y as, por ejemplo, de una poblacin de N = 4, se pueden obtener un total de
6 muestras de n = 2. b) A continuacin se calculan las medias aritmticas de cada una de las muestras
posibles, con lo cual se obtiene una distribucin muestral de medias aritmticas. Por ejemplo, las medias
aritmticas de las 6 muestras pueden ser: 50, 60, 70, 80 y 90. c) Seguidamente se calcula la media
aritmtica de todas estas medias aritmticas, y se obtiene un valor de 70. Como puede apreciarse, esta
media de todas la medias muestrales coincide con la media poblacional.
La estadstica ha demostrado que esta distribucin de medias de todas las medias muestrales sigue el
modelo de la curva normal, y se ha establecido as el teorema central de lmite, que dice que si se sacan
repetidamente muestras de tamao n de una poblacin normal de cierta media y cierta varianza, la
distribucin de las medias muestrales ser normal con una media igual a la media poblacional y con una
varianza igual a la varianza poblacional dividido n. Desde ya, la precisin de la aproximacin mejora al
aumentar n.
De todo ello se desprende que si se selecciona una muestra cualquiera y sta tiene una determinada
varianza (o sea, un determinado desvo estndar respecto de la media de las medias), se habr
cometido un determinado error, llamado en este caso error estndar, por haber trabajado con una
muestra en lugar de haberlo hecho con la poblacin. La frmula del error estndar no es otra cosa que el
desvo estndar de la muestra en cuestin, lo que es igual al desvo estndar poblacional dividido por la
raz cuadrada del tamao n de la muestra (Rodrguez Feijo, 2003) (Kohan N, 1994:150-153).
(13) Extrado de http://www.bibliopsiquis.com/psicologiacom/vol5num1/2815/. Otro ejemplo de prueba
de hiptesis de correlacin puede encontrarse en Kohan (1994:234).
REFERENCIAS BIBLIOGRFICAS
ANEXOS
Smbolo Concepto
h Altura
CV Coeficiente de variacin
CV% Coeficiente de variacin porcentual
0
Q Cuartil de orden
Qt Cuartil t (ejemplo: Q3 = Cuartil 3)
0
D Decil de orden
Dt Decil t (ejemplo: D9 = Decil 9)
Dm Desviacin media
S Desvo estndar muestral
Desvo estndar poblacional
f Frecuencia absoluta
F Frecuencia acumulada
Fant Frecuencia acumulada anterior
F% Frecuencia acumulada porcentual
Fpos Frecuencia acumulada posterior
Fr Frecuencia acumulada relativa
fant Frecuencia del intervalo anterior
fpos Frecuencia del intervalo posterior
f Frecuencia expresada en grados
f% Frecuencia porcentual
fr Frecuencia relativa
As Indice de asimetra
Li Lmite inferior del intervalo
Ls Lmite superior del intervalo
xmay Mayor valor de la variable
X Media aritmtica muestral de x
Y Media aritmtica muestral de y
Media aritmtica poblacional (esperanza)
Mn Mediana
0
Mn Mediana de orden
xmen Menor valor de la variable
Mo Modo
t Nmero de decil o del percentil
0
P Percentil de orden
Pt Percentil t (ejemplo P99 = Percentil 99)
p Probabilidad
Z Puntaje estandarizada derivado
z Puntaje estandarizado reducido
xm Punto medio del intervalo
R Rango o amplitud
DQ Rango o desvo intercuartlico
Sumatoria
n Tamao de la muestra
N Tamao de la poblacin
a Tamao o amplitud del intervalo
| Valor absoluto
xn Variable (cualquier valor de una)
x1 Variable (determinado valor de una)
x, y Variables (letras que designan)
2
S Variancia muestral
Variancia poblacional
Ls Lmite superior del intervalo de confianza
Li Lmite inferior del intervalo de confianza
H Hiptesis de investigacin
Ho Hiptesis nula
Ha Hiptesis alternativa
Probabilidad de cometer un error Tipo I
Probabilidad de cometer un error Tipo II
1- Probabilidad de NO cometer el error tipo I
1- Probabilidad de NO cometer el error tipo II
ze z emprico
zt z terico o crtico
Alfabeto griego
Nombre Mayscula Minscula Nombre Mayscula Minscula Nombre Mayscula Minscula
alfa iota ro
beta kappa sigma
gamma lambda tau
delta mi psilon
psilon ni fi
dseta xi ji
eta micron psi
zeta pi omega
Las siguientes tablas representan dos maneras diferentes de proporcionar una misma
informacin, a saber, la relacin entre el puntaje reducido z con la probabilidad p de
ocurrencia del valor z. El valor de esta probabilidad es proporcional al rea correspondiente
bajo la curva.
Por ejemplo, dado un valor z, las tablas permite conocer qu probabilidad tiene que darse
ese valor o ms o ese valor o menos, en un individuo elegido al azar. Desde ya, a la inversa,
tambin permite conocer qu valor z corresponde a una determinada probabilidad. Los
valores z figuran en la primera columna, mientras que los diferentes valores de probabilidad
figuran en las columnas restantes.
Por ejemplo:
a) Siguiendo la Tabla 1, un puntaje reducido z = +1.26 o menor tiene una probabilidad de
ocurrencia de p = 0.8962 (el rea bajo la curva normal corresponde al 89.62% de total del
rea).
b) Siguiendo la Tabla 2, un puntaje reducido z situado entre z = 0 y z = +1.26 tiene una
probabilidad de ocurrencia de p = 0.3962 (el rea bajo la curva normal corresponde al
39.62% del total del rea).
Arriba de cada tabla puede observarse un esquema de la curva normal. Las reas rayadas
indican las reas que cada tabla permite calcular. Por ejemplo, la Tabla 1 permite calcular
reas desde z hacia la izquierda, y la Tabla 2 calcula reas entre z y el centro de la
distribucin (z = 0).
Ntese que el ttulo asignado a la Tabla 2 es reas desde z = 0 hacia la izquierda o hacia la
derecha. Esto significa que, debido a la perfecta simetra de la curva normal, una distancia
entre z = +1.26 y 0 da la misma probabilidad que la distancia z = -1.26 y 0.
z Probabilidad (p)
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359
0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0754
0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141
0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .1517
0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879
0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224
0.6 .2258 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2518 .2549
0.7 .2580 .2612 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852
0.8 .2881 .2910 .2939 .2967 .2996 .3023 .3051 .3078 .3106 .3133
0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389
1.0 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830
1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .4015
1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177
1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319
1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441
1.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545
1.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .4633
1.8 .4641 .4649 .4656 .4664 .4671 .4599 .4608 .4616 .4625 .4633
1.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4767
2.0 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817
2.1 .4821 .4826 .4830 .4834 .4838 .4842 .4846 .4850 .4854 .4857
2.2 .4961 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4887 .4890
2.3 .4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .4916
2.4 .4918 .4920 .4922 .4925 .4927 .4929 .4931 .4932 .4934 .4936
2.5 .4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 .4951 .4952
2.6 .4953 .4955 .4956 .4957 .4959 .4960 .4961 .4962 .4963 .4964
2.7 .4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .4973 .4974
2.8 .4974 .4975 .4976 .4977 .4977 .4978 .4979 .4979 .4980 .4981
2.9 .4981 .4982 .4982 .4983 .4984 .4984 .4985 .4985 .4986 .4986
3.0 .4987 .4987 .4987 .4988 .4988 .4989 .4989 .4989 .4990 .4990
3.1 .4990 .4991 .4991 .4991 .4992 .4992 .4992 .4992 .4993 .4993
3.2 .4993 .4993 .4994 .4994 .4994 .4994 .4994 .4995 .4995 .4995
3.3 .4995 .4995 .4995 .4996 .4996 .4996 .4996 .4996 4996. .4997
3.4 .4997 .4997 .4997 .4997 .4997 .4997 .4997 .4997 .4997 .4998
ANEXO 3