Vous êtes sur la page 1sur 81

See

discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/49303936

Fundamentos de estadstica

Article
Source: OAI

CITATIONS READS

4 3,838

1 author:

Chris Leach
University of Huddersfield
45 PUBLICATIONS 889 CITATIONS

SEE PROFILE

All in-text references underlined in blue are linked to publications on ResearchGate, Available from: Chris Leach
letting you access and read them immediately. Retrieved on: 08 October 2016
Fundamentos de Estadstica
Pablo Cazau
Prefacio

Captulo 1: Introduccin a la estadstica


1.1 Definicin y utilidad de la estadstica
1.2 Clasificaciones de la estadstica
1.3 Poblacin y muestra
1.4 Estructura del dato
1.5 La medicin

Captulo 2: Estadstica descriptiva


2.1 Generalidades
2.2 Ordenamiento y agrupacin de los datos: matrices y tablas
2.3 Visualizacin de los datos: grficos
2.4 Sntesis de los datos: medidas estadsticas de posicin
2.5 Sntesis de los datos: medidas estadsticas de dispersin
2.6 Sntesis de los datos: asimetra y curtosis
Notas

Captulo 3: Probabilidad y curva normal


3.1 El concepto de probabilidad
3.2 Definicin y caractersticas de la curva normal
3.3 Puntajes brutos y puntajes estandarizados
3.4 Aplicaciones de la curva normal
Notas

Captulo 4: Correlacin y regresin


4.1 Introduccin
4.2 El anlisis de correlacin
4.3 Clculo grfico de la correlacin
4.4 Clculo analtico de la correlacin
4.5 Un ejemplo: construccin y validacin de tests
4.6 El anlisis de regresin
4.7 Clculo analtico de la regresin
4.8 Clculo grfico de la correlacin
Notas

Captulo 5: Estadstica inferencial


5.1 Introduccin
5.2 Estimacin de parmetros
5.3 Prueba de hiptesis
5.4 Ejemplos de pruebas de hiptesis
5.5 El concepto de significacin estadstica
Notas

Referencias bibliogrficas
Otras fuentes consultadas

Anexos
ANEXO 1: NOMENCLATURA UTILIZADA EN ESTA GUA
ANEXO 2: TABLA DE REAS BAJO LA CURVA NORMAL ESTANDARIZADA
Tabla 1 reas desde z hacia la izquierda
Tabla 2 reas desde z = 0 hacia la izquierda o hacia la derecha
ANEXO 3: TABLA DE LA DISTRIBUCIN t

Fundamentos de estadstica
Pablo Cazau

PREFACIO
El presente texto fue pensado como un manual de consulta para alumnos de diversas carreras
universitarias de grado y posgrado que cursan asignaturas donde se ensea la estadstica como
herramienta de la metodologa de la investigacin cientfica.
Se brinda aqu un panorama general e introductorio de los principales temas de una disciplina que opera
en dos grandes etapas: la estadstica descriptiva y la estadstica inferencial. Tambin se desarrollan los
conceptos de probabilidad y curva normal, bsicos para la comprensin de la estadstica inferencial, y los
conceptos de correlacin y regresin vinculados, respectivamente, con las etapas descriptiva e
inferencial.

Pablo Cazau. Licenciado en Psicologa y Profesor de Enseanza Media y Superior en Psicologa (UBA).
Buenos Aires, Enero 2006.

Todos los derechos reservados


CAPTULO 1: INTRODUCCION A LA ESTADISTICA

1.1 DEFINICIN Y UTILIDAD DE LA ESTADSTICA

La Estadstica es una disciplina que utiliza recursos matemticos para organizar y resumir una gran
cantidad de datos obtenidos de la realidad, e inferir conclusiones respecto de ellos.
Por ejemplo, la estadstica interviene cuando se quiere conocer el estado sanitario de un pas, a travs de
ciertos parmetros como la tasa de morbilidad o mortalidad de la poblacin. En este caso la estadstica
describe la muestra en trminos de datos organizados y resumidos, y luego infiere conclusiones respecto
de la poblacin. Por ejemplo, aplicada a la investigacin cientfica, hace inferencias cuando emplea
medios matemticos para establecer si una hiptesis debe o no ser rechazada.
La estadstica puede aplicarse a cualquier mbito de la realidad, y por ello es utilizada en fsica, qumica,
biologa, medicina, astronoma, psicologa, sociologa, lingstica, demografa, etc.
Cuando en cualquiera de estas disciplinas se trata de establecer si una hiptesis debe o no ser rechazada,
no siempre es indispensable la estadstica inferencial.
Por ejemplo, si sobre 60 veces que se mira un dado, sale un dos 10 veces, no se requiere la estadstica
para rechazar la hiptesis el dado est cargado. Si sale un dos en 58 ocasiones sobre 60, tampoco se
necesita la estadstica para aceptar la hiptesis el dado est cargado.
Pero, qu ocurre si el nmero dos sale 20, 25 o 30 veces? En estos casos de duda, la estadstica
interviene para determinar hasta qu cantidad de veces se considerar rechazada la hiptesis (o bien
desde qu cantidad de veces se la considerar aceptada). En otras palabras, la estadstica interviene
cuando debe determinarse si los datos obtenidos son debidos al azar o son el resultado de un dado
cargado.
Otro ejemplo. Si una persona adivina el color (rojo o negro) de las cartas en un 50% de los casos, se
puede rechazar la hiptesis la persona es adivina. Si, en cambio, acierta en el 99% de los casos el color
de las cartas, se puede aceptar la mencionada hiptesis. Los casos de duda corresponden a porcentajes
de acierto intermedios, como el 60%, el 70%, etc., en cuyos casos debe intervenir la estadstica para
despejarlos.
La importancia de la estadstica en la investigacin cientfica radica en que la gran mayora de las
investigaciones son casos de duda.

1.2 CLASIFICACIONES DE LA ESTADSTICA

Existen varias formas de clasificar los estudios estadsticos.


1) Segn la etapa.- Hay una estadstica descriptiva y una estadstica inferencial. La primera etapa se
ocupa de describir la muestra, y la segunda etapa infiere conclusiones a partir de los datos que describen
la muestra (por ejemplo, conclusiones con respecto a la poblacin).
Tanto la estadstica descriptiva como la estadstica inferencial se ocupan de obtener datos nuevos. La
diferencia radica en que la estadstica descriptiva procede a resumir y organizar esos datos para facilitar
su anlisis e interpretacin, y la estadstica inferencial procede a formular estimaciones y probar hiptesis
acerca de la poblacin a partir de esos datos resumidos y obtenidos de la muestra. Puesto que estas
ltimas operaciones llevarn siempre a conclusiones que tienen algn grado de probabilidad, la teora de
la probabilidad constituye una de sus herramientas principales. Tngase presente que en s misma la
teora de la probabilidad no forma parte de la estadstica porque es otra rama diferente de la matemtica,
pero es utilizada por la estadstica como instrumento para lograr sus propios objetivos.
La estadstica descriptiva tambin incluye explcita o implcitamente- consideraciones probabilsticas,
aunque no resultan ser tan importantes como en la estadstica inferencial. Por ejemplo, la eleccin de un
determinado estadstico para caracterizar una muestra (modo, mediana o media aritmtica) se funda
sobre ciertas consideraciones implcitas acerca de cul de ellos tiene ms probabilidades de representar
significativamente el conjunto de los datos que se intenta resumir.
Tanto la estadstica descriptiva como la inferencial implican, entonces, el anlisis de datos. Si se realiza
un anlisis con el fin de describir o caracterizar los datos que han sido reunidos, entonces estamos en el
rea de la estadstica descriptiva Por otro lado, la estadstica inferencial no se refiere a la simple
descripcin de los datos obtenidos, sino que abarca las tcnicas que nos permiten utilizar los datos
muestrales para inferir u obtener conclusiones sobre las poblaciones de las cuales fueron extrados dichos
datos (Pagano, 1998:19).
Kohan, por su parte, sintetiza as su visin de las diferencias entre ambos tipos de estadstica: Si
estudiamos una caracterstica de un grupo, sea en una poblacin o en una muestra, por ejemplo talla,
peso, edad, cociente intelectual, ingreso mensual, etc, y lo describimos sin sacar de ello conclusiones
estamos en la etapa de la estadstica descriptiva. Si estudiamos en una muestra una caracterstica
cualquiera e inferimos, a partir de los resultados obtenidos en la muestra, conclusiones sobre la poblacin
correspondiente, estamos haciendo estadstica inductiva o inferencial, y como estas inferencias no
pueden ser exactamente ciertas, aplicamos el lenguaje probabilstico para sacar las conclusiones
(Kohan, 1994:25). Kohan emplea la palabra inductiva porque las inferencias realizadas en este tipo de
estadstica son razonamientos inductivos, modernamente definidos como razonamientos cuya conclusin
es slo probable.
2) Segn la cantidad de variables estudiada.- Desde este punto de vista hay una estadstica univariada
(estudia una sola variable, como por ejemplo la inteligencia), una estadstica bivariada (estudia la
relacin entre dos variables, como por ejemplo inteligencia y alimentacin), y una estadstica
multivariada (estudia tres o ms variables, como por ejemplo como estn relacionados el sexo, la edad y
la alimentacin con la inteligencia).
El siguiente esquema ilustra la relacin entre dos clasificaciones de la estadstica: descriptiva / inferencial
y univariada / bivariada.

Parmetros POBLACION x y

Estadsticos x y

MUESTRA

x1 x2 xn x1 y1

Una variable Dos (o ms) variables

La estadstica descriptiva se ocupa de muestras, y la estadstica inferencial infiere caractersticas de la


poblacin a partir de muestras.
A su vez, ambas etapas de la estadstica pueden estudiar una variable por vez o la relacin entre dos o
ms variables. Por ejemplo, a) en el caso de la estadstica univariada, el clculo de medidas de posicin y
dispersin en una muestra corresponde a la estadstica descriptiva, mientras que la prueba de la media
corresponde a la estadstica inferencial; b) en el caso de la estadstica bivariada, el anlisis de correlacin
de variables en una muestra corresponde estrictamente hablando a la estadstica descriptiva, mientras
que el anlisis de regresin o las pruebas de hiptesis para coeficientes de correlacin (Kohan N,
1994:234) corresponden a la estadstica inferencial.
3) Segn el tiempo considerado.- Si se considera a la estadstica descriptiva, se distingue la estadstica
esttica o estructural, que describe la poblacin en un momento dado (por ejemplo la tasa de
nacimientos en determinado censo), y la estadstica dinmica o evolutiva, que describe como va
cambiando la poblacin en el tiempo (por ejemplo el aumento anual en la tasa de nacimientos).

1.3 POBLACIN Y MUESTRA

Puesto que la estadstica se ocupa de una gran cantidad de datos, debe primeramente definir de cules
datos se va a ocupar. El conjunto de datos de los cuales se ocupa un determinado estudio estadstico se
llama poblacin.
No debe confundirse la poblacin en sentido demogrfico y la poblacin en sentido estadstico.
La poblacin en sentido demogrfico es un conjunto de individuos (todos los habitantes de un pas, todas
las ratas de una ciudad), mientras que una poblacin en sentido estadstico es un conjunto de datos
referidos a determinada caracterstica o atributo de los individuos (las edades de todos los individuos de
un pas, el color de todas las ratas de una ciudad).
Incluso una poblacin en sentido estadstico no tiene porqu referirse a muchos individuos. Una poblacin
estadstica puede ser tambin el conjunto de calificaciones obtenidas por un individuo a lo largo de sus
estudios universitarios.
En el siguiente esquema pueden apreciarse algunas formas de considerar los datos individuales, segn
que correspondan a muchas personas o a una sola, y tambin segn que hayan sido recolectados en un
instante de tiempo determinado, o bien a lo largo del tiempo.

De muchos individuos De un solo individuo


En un instante de tiempo Notas de todos los alumnos en el Notas de un solo alumno en el
primer parcial de tal mes y tal ao. primer parcial de las materias que
cursa en ese momento.
A lo largo del tiempo Notas de todos los alumnos durante Notas de un alumno a lo largo de
los 6 aos de carrera. los 6 aos de carrera.

Los datos de la totalidad de una poblacin pueden obtenerse a travs de un censo. Sin embargo, en la
mayora de los casos no es posible hacerlo por razones de esfuerzo, tiempo y dinero, razn por la cual se
extrae, de la poblacin, una muestra, mediante un procedimiento llamado muestreo. Se llama muestra a
un subconjunto de la poblacin, y que puede o no ser representativa de la misma.
Por ejemplo, si la poblacin es el conjunto de todas las edades de los estudiantes de la provincia de
Buenos Aires, una muestra podra ser el conjunto de edades de 2000 estudiantes de la provincia de
Buenos Aires tomados al azar.

1.4 ESTRUCTURA DEL DATO

Los datos son la materia prima con que trabaja la estadstica, del mismo modo que la madera es la
materia prima con que trabaja el carpintero. As como este procesa o transforma la madera para obtener
un producto til, as tambin el estadstico procesa o transforma los datos para obtener informacin til.
Tanto los datos como la madera no se inventan: se extraen de la realidad; en todo caso el secreto est
en recoger la madera o los datos ms adecuados a los objetivos del trabajo a realizar.
De una manera general, puede definirse tcnicamente dato como una categora asignada a una variable
de una unidad de anlisis. Por ejemplo, Luis tiene 1.70 metros de estatura es un dato, donde Luis es
la unidad de anlisis, estatura es la variable, y 1.70 metros es la categora asignada.
Como puede apreciarse, todo dato tienen al menos tres componentes: una unidad de anlisis, una
variable y una categora.

La unidad de anlisis es el elemento del cual se predica una propiedad y caracterstica. Puede ser una
persona, una familia, un animal, una sustancia qumica, o un objeto como una dentadura o una mesa.
La variable es la caracterstica, propiedad o atributo que se predica de la unidad de anlisis. Por ejemplo
puede ser la edad para una persona, el grado de cohesin para una familia, el nivel de aprendizaje
alcanzado para un animal, el peso especfico para una sustancia qumica, el nivel de salud para una
dentadura, y el tamao para una mesa.
Pueden entonces tambin definirse poblacin estadstica (o simplemente poblacin) como el conjunto de
datos acerca de unidades de anlisis (individuos, objetos) en relacin a una misma caracterstica,
propiedad o atributo (variable).
Sobre una misma poblacin demogrfica pueden definirse varias poblaciones de datos, una para cada
variable. Por ejemplo, en el conjunto de habitantes de un pas (poblacin demogrfica), puede definirse
una poblacin referida a la variable edad (el conjunto de edades de los habitantes), a la variable
ocupacin (el conjunto de ocupaciones de los habitantes), a la variable sexo (el conjunto de condiciones
de sexo de los habitantes).
La categora es cada una de las posibles variaciones de una variable. Categoras de la variable sexo son
masculino y femenino, de la variable ocupacin pueden ser arquitecto, mdico, etc, y de la variable edad
pueden ser 10 aos, 11 aos, etc. Cuando la variable se mide cuantitativamente, es decir cuando se
expresa numricamente, a la categora suele llamrsela valor. En estos casos, el dato incluye tambin
una unidad de medida, como por ejemplo aos, cantidad de hijos, grados de temperatura, cantidad de
piezas dentarias, centmetros, etc. El valor es, entonces, cada una de las posibles variaciones de una
variable cuantitativa.

Datos individuales y datos estadsticos.- Un dato individual es un dato de un solo individuo, mientras
que un dato estadstico es un dato de una muestra o de una poblacin en su conjunto. Por ejemplo, la
edad de Juan es un dato individual, mientras que el promedio de edades de una muestra o poblacin de
personas es un dato estadstico. Desde ya, puede ocurrir que ambos no coincidan: la edad de Juan puede
ser 37 aos, y el promedio de edades de la muestra donde est includo Juan es 23 aos. Por esta razn
un dato estadstico nada dice respecto de los individuos, porque solamente describe la muestra o
poblacin.
Los datos estadsticos que describen una muestra suelen llamarse estadsticos (por ejemplo, el
promedio de ingresos mensuales de las personas de una muestra), mientras que los datos estadsticos
descriptores de una poblacin suelen llamarse parmetros (por ejemplo, el promedio de ingresos
mensuales de las personas de una poblacin) (Kohan N, 1994:143).

1.5 LA MEDICIN

Los datos se obtienen a travs un proceso llamado medicin. Desde este punto de vista, puede definirse
medicin como el proceso por el cual asignamos una categora (o un valor) a una variable, para
determinada unidad de anlisis. Ejemplo: cuando decimos que Martn es varn, estamos haciendo una
medicin, porque estamos asignando una categora (varn) a una variable (sexo) para una unidad de
anlisis (Martn).
A veces se ha definido medir como comparar, lo cual puede referirse a diversos tipos de comparacin: 1)
comparar una cantidad con otra tomada como unidad Sentido clsico de comparacin); 2) comparar dos
categoras de una misma variable en el mismo sujeto y distinto tiempo; 3) comparar dos categoras de una misma
variable en distintos sujetos al mismo tiempo; y 4) categoras de variables distintas (debe usarse puntaje
estandarizado), en el mismo sujeto o en sujetos distintos.

Se pueden hacer mediciones con mayor o menor grado de precisin. Cuanto ms precisa sea la medicin,
ms informacin nos suministra sobre la variable y, por tanto, sobre la unidad de anlisis. No es lo
mismo decir que una persona es alta, a decir que mide 1,83 metros.
Los diferentes grados de precisin o de contenido informativo de una medicin se suelen caracterizar
como niveles de medicin. Tpicamente se definen cuatro niveles de medicin, y en cada uno de ellos la
obtencin del dato o resultado de la medicin ser diferente:

Ejemplos de datos en diferentes niveles de medicin

Nivel de Nivel nominal Nivel ordinal Nivel cuantitativo Nivel cuantitativo


medicin discreto continuo
DATO Martn es Elena termin la Juan tiene 32 Mara tiene 70
electricista secundaria dientes pulsaciones por
minuto
Unidad de Martn Elena Juan Mara
anlisis
Variable Oficio Nivel de Cantidad de piezas Frecuencia cardaca
instruccin dentarias
Categora o Electricista Secundaria 32 70
valor completa
Unidad de ------------- ------------ Diente Pulsaciones por
medida minuto

En el nivel nominal, medir significa simplemente asignar un atributo a una unidad de anlisis (Martn es
electricista).
En el nivel ordinal, medir significa asignar un atributo a una unidad de anlisis cuyas categoras pueden
ser ordenadas en una serie creciente o decreciente (la categora secundaria completa puede ordenarse
en una serie, pues est entre secundaria incompleta y universitaria incompleta).
En el nivel cuantitativo, medir significa adems asignar un atributo a una unidad de anlisis de modo tal
que la categora asignada permita saber cunto mayor o menor es respecto de otra categora, es decir,
especifica la distancia o intervalo entre categoras (por ejemplo, la categora 70 es el doble de la
categora 35).
Las variables medibles en el nivel cuantitativo pueden ser discretas o continuas. Una variable discreta es
aquella en la cual, dados dos valores consecutivos, no puede adoptar ningn valor intermedio (por
ejemplo entre 32 y 33 dientes, no puede hablarse de 32.5 dientes). En cambio, una variable es continua
cuando, dados dos valores consecutivos, la variable puede adoptar muchos valores intermedios (por
ejemplo entre 1 y 2 metros, puede haber muchas longitudes posibles).
Algunas veces una misma variable puede ser considerada como discreta o continua. Por ejemplo, la
variable peso es discreta si solamente interesan los pesos sin valores intermedios (50 kg, 51 kg, etc),
mientras que ser continua si interesan tambin los valores intermedios (50,3 kg, 50,35 kg, 50,357 kg,
etc). Obviamente, al considerar una variable como continua se obtendr mayor precisin, es decir, mayor
informacin.

La precisin es una cualidad importante de la medicin. Se pueden hacer mediciones ms precisas y menos
precisas, o tan precisas como lo permita el instrumento de medicin. El primer nivel de medicin es el menos
preciso, y el ltimo el ms preciso. Por ejemplo, una mujer puede estar interesada en medir el amor de su
pareja, para lo cual podr interrogarla solicitndole diferentes grados de precisin: me quers? (nivel nominal),
me quers ms que a la otra? (nivel ordinal), Cunto me quers, del 1 al 10? (nivel cuantitativo).
De la misma manera, diferentes grados de precisin para la variable temperatura pueden ser: A es un objeto
caliente (nivel nominal), A es ms caliente que B (nivel ordinal), A tiene 25 grados Celsius (nivel cuantitativo). Los
ejemplos del amor y de la temperatura ilustran tambin el hecho de que una variable puede en principio medirse
en cualquiera de los niveles de medicin.

Los niveles de medicin pueden tambin ser clasificados de acuerdo a un criterio diferente, que afecta
especficamente a los dos ltimos. As, los niveles de medicin pueden ser clasificados como nominal,
ordinal, de intervalos iguales y de cocientes o razones.
Ms all de sus diferentes propiedades matemticas, el nivel de intervalos iguales incluye un cero relativo
o arbitrario, mientras que el nivel de cocientes o razones incluye un cero absoluto o real. Un cero
absoluto o real representa la ausencia real de la variable (cero metros implica ausencia de longitud),
mientras que un cero relativo o arbitrario no (cero grado centgrados no implica ausencia de
temperatura).
Existen ciertas variables a las cuales no puede asignrsele un cero real, por cuanto no se considera que
esa variable pueda estar ausente en la realidad. Tal es el caso de la ansiedad o la inteligencia: nadie, por
menos ansioso o por menos inteligente que sea, puede tener ansiedad o inteligencia nulas.

CAPTULO 2: ESTADSTICA DESCRIPTIVA

2.1 GENERALIDADES

El propsito fundamental de la estadstica descriptiva es resumir y organizar una gran cantidad de


datos referentes a una muestra (lo ms habitual) o a una poblacin. Se supone que los datos resumidos
y organizados permiten describir adecuadamente la muestra o la poblacin a los efectos de conocerla y,
eventualmente, utilizarlos en la estadstica inferencial para obtener conclusiones a partir de ellos.
Para resumir y organizar los datos se utilizan diferentes procedimientos, llamados tcnicas
descriptivas: la matriz de datos permite ordenarlos, las tablas de frecuencias (o tablas de distribucin
de frecuencias) permiten agruparlos, los grficos permiten visualizarlos, y las medidas estadsticas y las
medidas de asimetra y curtosis permiten resumirlos reducindolos a un solo dato.

Secuencia para organizar y resumir datos individuales

A medida que se van utilizando estos procedimientos, los datos van quedando cada vez ms resumidos y
organizados. El empleo de dichos procedimientos propios de la estadstica descriptiva sigue un orden
determinado, como puede apreciarse en el siguiente esquema:

DATOS ORDENADOS DATOS RECOLECTADOS


(matriz de datos) (entrevistas, cuestionarios, tests, etc)

DATOS AGRUPADOS POR DATOS AGRUPADOS POR


FRECUENCIA INTERVALOS
(tabla de frecuencias) (tabla de frecuencias por intervalos)

DATOS VISUALIZADOS DATOS SINTETIZADOS


(grficos) (medidas estadsticas y medidas de asimetra y curtosis)

Como puede verse:


a) Los datos quedan recolectados mediante entrevistas, cuestionarios, tests, etc.
b) Los datos quedan ordenados mediante una matriz de datos (lo cual permite resumir la informacin en
unas pocas pginas).
c) Los datos quedan agrupados mediante tablas de frecuencias (lo cual permite resumir la informacin en
una sola pgina).
d) Los datos quedan visualizados mediante grficos.
e) Los datos quedan sintetizados mediante las medidas estadsticas y otras (lo cual permite resumir la
informacin en uno o dos renglones).
Puede entonces decirse que, mediante una matriz de datos, una tabla de frecuencias (1), un grfico o
con medidas estadsticas, etc, la muestra o la poblacin (conjuntos de datos) puede quedar
adecuadamente descrita.
Estas sucesivas abstracciones estadsticas implican: a) la reduccin del espacio fsico donde queda
guardada la nueva informacin, y b) la desaparicin de considerable informacin irrelevante.
Debe distinguirse el fin o propsito perseguido (por ejemplo ordenar los datos), del medio utilizado para
ello, que e la tcnica descriptiva (por ejemplo, la matriz de datos).

2.2 ORDENAMIENTO Y AGRUPACIN DE LOS DATOS: MATRICES Y TABLAS

Una vez que los datos han sido recolectados, se procede a continuacin a ordenarlos en una matriz de
datos y luego a agruparlos en una tabla de frecuencias.
La forma de ordenarlos y agruparlos depender del tipo de variable considerada. Por ejemplo, si son
datos relativos a variables cualitativas (niveles de medicin nominal y ordinal), no podremos utilizar
tablas de frecuencias por intervalos. El siguiente cuadro indica de qu manera se pueden ordenar y
agrupar los datos segn cada nivel de medicin de la variable:

Ejemplos de organizacin de los datos segn el nivel de medicin

Datos ordenados Datos agrupados por frecuencia Datos agrupados por


intervalos
Nivel nominal Matriz de datos Tabla de frecuencias
(Ejemplo: Sujeto x (religin) x (religin) f
variable Juan Catlica Catlica 2
religin) Pedro Catlica Juda 1
Mara Juda Protestante 3
Antonio Protestante n=6
Luis Protestante
Jos Protestante f = frecuencia
n = tamao de la muestra

Nivel ordinal Matriz de datos Tabla de frecuencias


(Ejemplo: Sujeto x (clase x (clase social) f
variable clase social) Alta 1
social) Juan Alta Media 3
Pedro Media Baja 2
Mara Media n=6
Antonio Media
Luis Baja f = frecuencia
Jos Baja n = tamao de la muestra

Nivel Matriz de datos Tabla de frecuencias Tabla de frecuencias por


cuantitativo Sujeto x (edad) x (edad) f intervalos
(Ejemplo: Juan 15 15 3 x (edad) f
variable edad) Pedro 15 16 5 15-16 8
Mara 15 17 8 17-18 11
Antonio 16 18 3 19-20 3
Luis 16 19 2 n = 22
Jos 16 20 1
Ana 16 n = 22 f = frecuencia
Gabriela 16 n = tamao de la muestra
Susana 17 f = frecuencia
Martn 17 n = tamao de la muestra
Sergio 17
Pablo 17
Daniel 17
Graciela 17
Daniela 17
Beatriz 17
Oscar 18
Felipe 18
Alberto 18
Mnica 19
Marta 19
Mariana 20

Una vez confeccionada la matriz de datos, se procede luego a resumir an ms esta informacin
mediante una tabla de frecuencias o, si cabe, en una tabla de frecuencias por intervalos. Una tabla de
este ltimo tipo se justifica cuando la tabla de frecuencias original es demasiado grande y por tanto de
difcil manejo para procesar la informacin. Sea de la forma que fuere, los datos ordenados segn sus
frecuencias suelen denominarse distribucin de frecuencias (13).

Las tablas de frecuencias contienen tres elementos importantes: las frecuencias, el tamao de la muestra
y los intervalos (en este ltimo caso slo para variables cuantitativas).
a) Frecuencia.- La frecuencia (f) se define como la cantidad de datos iguales o que se repiten. Por
ejemplo: la frecuencia 2 indica que el dato catlico se repite dos veces, la frecuencia 3 que el dato
clase media se repite tres veces, y la frecuencia 8 que el dato 17 aos se repite ocho veces.
A veces resulta necesario expresar las frecuencias de otra manera, como puede apreciarse en la siguiente
tabla ilustrativa:

Tipos de frecuencias que pueden indicarse en una tabla de frecuencias

x (edad) f f% F F% fr Fr
15 3 15% 3 15% 0.15 0.15
16 7 35% 10 50% 0.35 0.50
17 8 40% 18 90% 0.40 0.90
18 2 10% 20 100% 0.10 1
n = 20 n = 100% ------ ------ n=1 ------

Frecuencia absoluta (f).- Es la cantidad de datos que se repiten. Por ejemplo, la frecuencia 3 indica que
hay tres personas de 15 aos. La suma de todas las frecuencias absolutas equivale al tamao de la
muestra.
Frecuencia porcentual (f%).- Es el porcentaje de datos que se repiten. Por ejemplo, la frecuencia
porcentual 15% indica que el 15% de la muestra tiene la edad de 15 aos. La suma de todas las
frecuencias porcentuales es 100%.
Frecuencia acumulada (F).- Es el resultado de haber sumado las frecuencias anteriores. Por ejemplo, la
frecuencia acumulada 10 resulta de sumar 7+3, e indica la cantidad de veces que se repiten las edades
16 y 15. La ltima de todas las frecuencias acumuladas, que en el ejemplo es 20, debe coincidir con el
tamao de la muestra.
Frecuencia acumulada porcentual (F%).- Es el porcentaje de las frecuencias acumuladas.
Frecuencia relativa (fr).- A veces tambin llamada proporcin, es el cociente entre la frecuencia de un
dato x y la frecuencia total o tamao de la muestra. En la prctica, el tamao de la muestra se considera
como 1, a diferencia del tamao de la muestra en la frecuencia porcentual, que se considera 100%.
Frecuencia relativa acumulada (Fr).- Es el resultado de haber sumado las frecuencias relativas
anteriores. Por ejemplo: la frecuencia relativa 0.90 indica que en 0.90 casos sobre 1 las edades estn
comprendidas entre 15 y 17 aos.
Frecuencias parciales y frecuencia total.- Tanto las frecuencias absolutas como las porcentuales o las
relativas pueden ser frecuencias parciales o una frecuencia total, siendo sta ltima la suma de todas
frecuencias parciales.
Las frecuencias porcentuales y las frecuencias relativas comparan la frecuencia parcial con la frecuencia
total, y sirven para establecer comparaciones entre muestras distintas. Por ejemplo, si en una muestra
de 1000 hombres, solo votaron 200, y en una muestra de 600 mujeres solo votaron 200 mujeres, en
trminos de frecuencias absolutas existe la misma cantidad de votantes masculinos y femeninos, es decir
200, pero en proporcin, las mujeres votaron ms (la tercera parte del total) que los hombres (la quinta
parte del total). Esta informacin se obtiene al convertir las frecuencias absolutas en frecuencias
porcentuales o en frecuencias relativas (o proporciones).

2) Tamao de la muestra.- Otro concepto importante es el tamao de la muestra (n), que designa la
cantidad total de datos. Obviamente, la suma de todas las frecuencias f debe dar como resultado el
tamao n de la muestra, por lo que el tamao de la muestra coincide con la frecuencia total.

3) Intervalos.- Un intervalo, tambin llamado intervalo de clase, es cada uno de los grupos de valores
ubicados en una fila en una tabla de frecuencias. Por ejemplo el intervalo 15-16 significa que en esa fila
se estn considerando las edades de 15 a 16 aos. La frecuencia correspondiente a un intervalo es igual
a la suma de frecuencias de los valores en l includos (2). Los intervalos presentan algunas
caractersticas, que son las siguientes:
Tamao del intervalo (a).- Tambin llamado amplitud o anchura del intervalo, es la cantidad de valores
de la variable que se consideran conjuntamente en ese intervalo. Por ejemplo, el intervalo 15-16 aos
tiene una amplitud de 2, puesto que se consideran dos valores: 15 y 16. En otro ejemplo, el intervalo 20-
25 aos tiene una amplitud de 6, puesto que se consideran seis valores.
En general, puede calcularse el tamao de un intervalo restando el lmite superior y el inferior y sumando
al resultado el nmero 1. Por ejemplo, 25 menos 20 da 5, y sumndole 1 da 6.
Los ejemplos indicados corresponden a variables discretas, lo que significa que no podrn encontrarse
valores intermedios entre dos intervalos. Por ejemplo, entre los intervalos 15-16 y 17-18 no se
encontrarn valores intermedios entre 16 y 17 aos.
Tngase presente que: a) preferiblemente los intervalos deben tener un tamao constante, de manera tal
que no se pueden considerar como intervalos 15-16 y 17-20, porque tienen diferentes tamaos; y b) los
intervalos han de ser mutuamente excluyentes, de manera tal que cuando se trata de variables discretas,
no pueden definirse los intervalos 15-16 y 16-17, porque el valor 16 aos est en ambos intervalos y no
se podr saber con seguridad en qu intervalo ubicar dicho valor.
El problema se puede presentar con las variables continuas, donde, por definicin, podra aparecer algn
valor intermedio entre dos intervalos. Por ejemplo, si se considera la variable continua ingresos
mensuales y se consideran en ella los intervalos 1000-2000 dlares y 3000-4000 dlares, puede ocurrir
que un dato obtenido de la realidad sea 2500 dlares, con lo cual no podr ser registrado en ningn
intervalo. En tal caso se deberan reorganizar los intervalos como 1000-2999 dlares y 3000-4999
dlares, con lo cual el problema estara resuelto.
Desde ya, puede ocurrir que aparezca un ingreso mensual de 2999,50 dlares, en cuyo caso en principio
deberan reorganizarse nuevamente los intervalos como 1000-2999,50 dlares y 2999,51-4999 dlares.
La forma de reorganizar los intervalos depender entonces del grado de precisin que pretenda el
investigador o del grado de precisin del instrumento de medicin disponible.
Lmites del intervalo.- Todo intervalo debe quedar definido por dos lmites: un lmite inferior y un lmite
superior. Estos lmites, a su vez, pueden ser aparentes o reales (Pagano, 1998:38-39). Considrese el
siguiente ejemplo:

Lmites aparentes Lmites reales


95-99 94.5-99.5
90-94 89.5-94.5
85-89 84.5-89.5
80-84 79.5-84.5
75-79 74.5-79.5

Si la variable considerada es discreta, carecer de sentido la distincin entre lmites reales o aparentes.
Si se conviene que los valores que la variable puede adoptar son nmeros enteros, se considerarn
solamente los intervalos 95-99, 90-94, etc. Estos intervalos son en rigor reales, porque expresan los
valores reales que puedan haber, que no son fraccionarios.
Slo en el caso de las variables continuas adquiere sentido la distincin entre lmites reales y aparentes.
Si la variable es continua, deberan tenerse en cuenta los lmites reales. Por ejemplo, si un valor resulta
ser 94.52, entonces ser ubicado en el intervalo 94.5-99.5. Sin embargo, an en estos casos, lo usual es
omitir los lmites reales y presentar slo los lmites aparentes (Pagano, 1998:39). En todo caso, los
lmites reales se utilizan a veces cuando se intenta transformar la tabla de frecuencias por intervalos en
un grfico.
En principio, en ningn caso deber haber una superposicin de valores, como en el caso de los
intervalos 20-21 y 21-22, donde el valor 21 est includo en ambos intervalos, violndose as la regla de
la mutua exclusin. Si acaso se presentara esta situacin, o bien podr ser adjudicada a un error del
autor de la tabla, o bien deber traducrsela como 20-20.99 y 21-22.99.
Punto medio del intervalo (xm).- Es el valor que resulta de la semisuma de los lmites superior e inferior,
es decir, el punto medio del intervalo se calcula sumando ambos lmites y dividiendo el resultado por dos.
Por ejemplo, el punto medio del intervalo 15-20 es 17.5. El punto medio del intervalo sirve para calcular
la media aritmtica.
Intervalos abiertos y cerrados.- Idealmente, todos los intervalos deberan ser cerrados, es decir, deberan
estar especificados un lmite superior y uno inferior de manera definida. Sin embargo, en algunos casos
se establecen tambin intervalos abiertos, donde uno de los lmites queda sin definir. En el siguiente
ejemplo, 18 o menos y 29 o ms son intervalos abiertos. Obviamente, en este tipo de distribucin los
intervalos dejan de ser de tamao constante.

Intervalos
18 o menos
19-23
24-28
29 o ms

Cantidad de intervalos.- La cantidad de intervalos es inversamente proporcional al tamao de los


mismos: cuanto menor tamao tienen los intervalos, ms numerosos sern.
El solo hecho de emplear intervalos supone una cierta prdida de la informacin. Por ejemplo, si se
considera el intervalo 15-18 aos, quedar sin saber cuntas personas de 16 aos hay. Para reducir esta
incertidumbre, podra establecerse un intervalo menor (15-16 aos), pero con ello habr aumentado la
cantidad de intervalos hasta un punto donde la informacin se procesar de manera ms difcil.
Consiguientemente, al agrupar los datos hay que resolver el dilema entre perder informacin y presentar
los datos de manera sencilla (Pagano R, 1998:37) (Botella, 1993:54), es decir, encontrar el justo
equilibrio entre el tamao de los intervalos y su cantidad.
En la prctica, por lo general (Pagano, 1998:37) se consideran de 10 a 20 intervalos, ya que la
experiencia indica que esa cantidad de intervalos funciona bien con la mayor parte de las distribuciones
de datos (3).

Se pueden sintetizar algunas reglas importantes para la construccin de intervalos de la siguiente


manera:
a) Los intervalos deben ser mutuamente excluyentes.
b) Cada intervalo debe incluir el mismo nmero de valores (constancia de tamao).
c) La cantidad de intervalos debe ser exhaustiva (todos los valores deben poder ser includos en algn
intervalo).
d) El intervalo superior debe incluir el mayor valor observado (Botella, 1993:54).
e) El intervalo inferior debe incluir al menor valor observado (Botella, 1993:54).
f) En variables continuas, es aconsejable expresar los lmites aparentes de los intervalos, que los lmites
reales.

2.3 VISUALIZACIN DE LOS DATOS: GRFICOS

Una vez que los datos han sido organizados en tablas de frecuencias, es posible seguir avanzando
organizndolos, desde all, de otras maneras diferentes y con distintos propsitos. Una de estas maneras
es la utilizacin de representaciones grficas, algunas de las cuales son aptas para representar variables
cualitativas (niveles nominal y ordinal) y otras para variables cuantitativas. Al tratarse de esquemas
visuales, los grficos permiten apreciar de un golpe de vista la informacin obtenida.

Diagrama de tallo y hojas

Esta tcnica de visualizacin de datos es aqu mencionada en primer lugar porque puede ser considerada
un procedimiento intermedio entre la tabla de frecuencias y el grfico. Fue creada por Tukey en 1977
(citado por Botella, 1993:59) y presenta, entre otras, las siguientes ventajas: a) permite conocer cada
puntuacin individual (a diferencia de la tabla de frecuencias por intervalos, donde desaparecen en ellos);
y b) puede ser considerada un grfico si hacemos girar 90 el listado de puntuaciones o datos.

A continuacin se describe la forma de construir un diagrama de tallo y hojas, tomando como ejemplo la
siguiente distribucin de datos ordenados:

32-33-37-42-46-49-51-54-55-57-58-61-63-63-65-68-71-72-73-73-73-75-77-77-78-83-85-85-91-93

Tallo Hojas Procedimiento para realizar el diagrama de tallo y hojas


3 237
4 269 a) Se construye una tabla como la de la izquierda con dos columnas: tallos y
5 14578 hojas.
6 13358 b) Se identifican cules son los valores extremos: 32 y 93.
7 123335778 c) Se consideran los primeros dgitos de cada valor: 3 y 9.
8 355 d) En la columna tallos se colocan los nmeros desde el 3 hasta el 9.
9 13 e) En la columna hojas se colocan los segundos dgitos de cada valor que
empiece con 3, con 4, con 5, etc.

Girando la tabla obtenida 90 hacia la izquierda, se obtendr algo similar a un grfico de barras, que
muestra por ejemplo que la mayor concentracin de valores es la que comienza con 7.

Una utilidad adicional del diagrama de tallo y hojas es que permite comparar visualmente dos variables,
es decir, dos conjuntos de datos en los anlisis de correlacin, como puede apreciarse en el siguiente
ejemplo:

Hojas (Grupo control) Tallo Hojas (Grupo experimental)


87655 1 9
44322110 2 124
876655 3 5667788899
111000 4 00023344
5 555

Visualmente es posible darse una idea de los resultados del experimento: los datos del grupo
experimental tienden a concentrarse en los valores altos, y los del grupo de control en los valores bajos.

Pictograma

Es una representacin grfica en la cual se utilizan dibujos. Por ejemplo, en el siguiente pictograma cada
cara puede representar 100 personas:
Varones

Mujeres

100 personas

Sector circular

Representacin grfica de forma circular donde cada porcin de la torta representa una frecuencia. Para
confeccionarlo se parte de una tabla de frecuencias donde estn especificadas las frecuencias en grados
(f), las cuales se calculan mediante una sencilla regla de tres simple a partir de las frecuencias absolutas
(f).
Por ejemplo, si 825 es a 360, entonces 310 es igual a 360 x 310 dividido por 825, lo cual da un
resultado de 135. Por lo tanto, para representar la frecuencia 310 deber trazarse un ngulo de 135.
Estos valores pueden verse en el ejemplo siguiente, donde se han representado dos sectores circulares
distintos, uno para varones y otro para mujeres:

x Sexo Total f f
(patologa) Varones Mujeres (varones) (mujeres)
Angina 310 287 597 135 113
Bronquitis 297 429 726 130 169
Sarampin 123 120 243 54 47
Otras 95 80 175 41 31
Total 825 916 1691 360 360

Bronquitis Bronquitis

Angina
Saram Angina Saram
pin
pin

Otras Otras

Varones
Mujeres

Para realizar estos sectores se traza un ngulo de por ejemplo 130 y dentro de coloca la palabra
bronquitis, y as sucesivamente.
El crculo para mujeres es algo mayor que el crculo para hombres, porque en la muestra hay ms
mujeres que hombres. Para lograr estos tamaos debe calcularse el radio. Por ejemplo, si se ha elegido
un radio masculino de 4 cm, el radio femenino puede calcularse mediante la frmula siguiente:
El radio femenino es igual al radio masculino multiplicado por la raz cuadrada del n femenino, resultado
que se dividir por la raz cuadrada del n masculino, donde n = tamao de la muestra de cada sexo. Si el
radio masculino es 4 cm, con esta frmula se obtendr un radio femenino de 4,22 cm.

Diagrama de barras

Representacin grfica donde cada barra representa una frecuencia parcial. En el eje de las ordenadas se
indican las frecuencias absolutas, y en el eje de absisas se representan los valores de la variable x. De
esta manera, las barras ms altas tienen mayor frecuencia.
Existen diferentes tipos de diagramas de barras, de los cuales se ilustran tres: las barras simples, las
barras superpuestas y las barras adyacentes. Los dos ltimos tipos dan informacin sobre dos variables
al mismo tiempo, que son sexo y estado civil en los ejemplos que siguen:

Barras simples Barras superpuestas

f f

25 25

20 20

15 15

10 10

5 5

Solteros Casados Separados Solteros Casados Separados x


x

Barras adyacentes

25

20

15
Adolescentes
10

5
Adultos

Solteros Casados Separados x

Las barras tambin pueden disponerse horizontalmente.


Mediante el diagrama de barras pueden representarse variables cualitativas y cuantitativas discretas.

Histograma de Pearson

Utilizado para representar variables cuantitativas continuas agrupadas en intervalos, este grfico se
compone de barras adyacentes cuya altura es proporcional a las respectivas frecuencias parciales. En el
ejemplo siguiente, se presenta la tabla de frecuencias por intervalos y su histograma correspondiente:

x (longitud) f
1-1.99 3
2-2.99 5
3-3.99 2
Total 10
f

1 2 3 4
x

Como pude apreciarse, en las absisas se indican los lmites inferiores de los intervalos.
Cuando los intervalos no son iguales, en lugar de indicar las frecuencias absolutas pueden indicarse las
alturas (h). Esta ltima se obtiene dividiendo la frecuencia parcial por el tamao del intervalo
correspondiente.

Polgono de frecuencias

Es un grfico de lneas rectas que unen puntos, siendo cada punto la interseccin del punto medio del
intervalo (indicado en las absisas) y la frecuencia correspondiente. Tomando el ejemplo anterior, el
polgono de frecuencias sera el siguiente:

1.5 2.5 3.5 punto medio (xm)

Un polgono de frecuencias puede obtenerse tambin a partir del histograma correspondiente. Para ello
basta con indicar los puntos medios de cada lnea horizontal superior de cada barra del histograma, y
luego unirlos con lneas rectas.
Otra alternativa para este tipo de diagrama es el polgono de frecuencias acumuladas, donde se indican
las frecuencias acumuladas en lugar de las frecuencias habituales.

Ojiva de Galton

Grfico en el cual se consignan en las ordenadas las frecuencias acumuladas y en las absisas los lmites
superiores de cada intervalo (aunque tambin pueden indicarse los puntos medios de cada intervalo). Por
ejemplo:

x (longitud) f F
1-1.99 3 3
2-2.99 5 8
3-3.99 2 10
Total 10
F

10

1.99 2.99 3.99 lm superior (L s)

La ojiva de Galton tambin puede representar frecuencias acumuladas decrecientes.

2.4 SNTESIS DE LOS DATOS: MEDIDAS ESTADSTICAS DE POSICIN

Los datos individuales pueden ser sintetizados mediante medidas de posicin, medidas de dispersin
(ambas se llaman medidas estadsticas), medidas de asimetra y medidas de curtosis. En este tem se
describen las medidas de posicin.

Definicin

Las medidas de posicin pueden ser definidas de diversas formas (4). En esta nota proponemos la
siguiente definicin: Las medidas de posicin son datos estadsticos que intentan representar un conjunto
de datos individuales respecto de una variable.
Esta definicin se refiere a tres cuestiones:

1) Son medidas estadsticas, es decir, no son medidas individuales. Una medida de posicin representa a
todo un conjunto de datos, y no son los datos individuales. Por ejemplo, un promedio de edades
representa a todas las edades del grupo, y no es la edad individual de uno de sus miembros, aunque
pueda coincidir numricamente con ella. As, si el promedio de edades es 20 aos y una de las personas
del grupo tiene 20 aos, el primer dato es una medida estadstica y el segundo una medida individual.
En otros trminos, las medidas estadsticas no describen individuos, sino poblaciones o muestras. Por
ejemplo, no tiene sentido explicar que una persona es anciana porque vive en una poblacin cuyo
promedio de edad es 70 aos.
2) Son medidas representativas, es decir, intentan representar y sintetizar a todas las medidas
individuales. El conjunto de todas las medidas individuales puede recibir diversos nombres, tales como
muestra y poblacin, con lo cual tiene sentido afirmar proposiciones tales como una medida de posicin
representa una muestra o una poblacin.
Por ejemplo, es posible representar las notas obtenidas por un grupo de alumnos de diversas maneras:
a) El promedio de las notas es de 7.35 puntos (en este caso usamos una medida de posicin llamada
media aritmtica).
b) La mitad de los alumnos ha obtenido una nota superior a 6,5 puntos (en este caso utilizamos otra
medida de posicin llamada mediana).
c) La nota que ms se ha repetido fue 7 puntos (en este caso usamos la medida de posicin llamada
modo).
La pregunta acerca de cul de las tres medidas de posicin representa mejor al conjunto de datos
individuales es el problema de la representatividad de la medida de posicin, y la estadstica suministra,
como se ver, diversos criterios para evaluar la mejor forma de representar un cierto nmero de datos
individuales.
3) Son medidas que miden una variable, es decir, algn atributo o propiedad de los objetos. En el
ejemplo anterior la variable medida es el rendimiento acadmico, pero tambin pueden obtenerse
medidas de posicin representativas de un conjunto de edades, de profesiones, de clases sociales, de
puntuaciones de un test, de cantidad de dientes, etc.
De otra manera: no tiene sentido decir que una medida de posicin represente un conjunto de personas,
pero s tiene sentido decir que representan las edades de un conjunto de personas.

Caractersticas de las principales medidas de posicin

Las medidas de posicin pueden ser de tendencia central y de tendencia no central. Las primeras se
refieren a los valores de la variable que suelen estar en el centro de la distribucin (Kohan, 1994:69).
Por ejemplo: la media aritmtica, la mediana y el modo son las ms conocidas, pero tambin est la
media aritmtica ponderada (til cuando hay valores que se repiten y que requieren atencin diferencial),
la media geomtrica (Kohan, 1994:71-72), la media armnica, la media antiarmnica, la media
cuadrtica, la media cbica, etc.
Las medidas de posicin no centrales son los cuartiles, deciles y percentiles (Kohan, 1994:79), que
reciben genricamente el nombre de cuantiles o fractiles (5).
De acuerdo a Botella (1993:99), las medidas de posicin no centrales son datos o valores que ocupan
una posicin especial en la serie de datos. Cuando una medida de posicin es un dato que ocupa un lugar
central, la llamamos medida de tendencia central.

En el siguiente cuadro se especifican las definiciones y caractersticas principales de las medidas de


posicin.

Medida Definicin Caractersticas


MODO Es el dato o Resulta til si hay muchos datos repetidos (altas frecuencias).
valor que ms Puede calcularse cuando hay valores muy extremos.
se repite, o El modo muestral no es un estimador suficiente del modo poblacional
sea, el de porque no incluye todos los datos.
mayor En distribuciones multimodales es posible que la muestra no sea
frecuencia. homognea, y que est constituda por varios estratos.
Es posible convertir una distribucin multimodal en una modal
reorganizando los intervalos.
Si una distribucin no tiene modo, podra obtenerse reorganizando los
datos en intervalos.
MEDIANA Es el dato o Es la medida ms til en escalas ordinales siempre que los valores
valor que centrales sean iguales.
divide por la No est influenciada por los valores extremos (por ello por ejemplo
mitad la serie puede aplicarse desconociendo estos o sea cuando hay lmites
de datos superiores o inferiores abiertos).
ordenados Puede usarse cuando hay intervalos abiertos, siempre que el orden de
creciente o la mediana no se corresponda con ellos.
decrecienteme Es til cuando unos pocos datos difieren mucho del resto.
nte, es decir, No es til si hay muchos datos repetidos (altas frecuencias).
es el valor La mediana muestral no es un estimador suficiente de la mediana
central de la poblacional porque no incluye todos los datos.
serie. Es til es distribuciones muy asimtricas (extremos no compensados).
La mediana coincide con el Q2 (cuartil 2), el D5 (decil 5) y el P50
(percentil 50) (8).
MEDIA Es el promedio Est influenciada por los valores extremos (por ejemplo, no puede
ARITMTICA aritmtico de utilizarse cuando hay valores extremos desconocidos o intervalos
todos los abiertos, salvo que estos puedan cerrarse).
datos o No conviene cuando los valores extremos son muy altos o muy bajos.
valores. Es til en distribuciones simtricas (con extremos compensados).
No puede usarse en escalas nominales ni ordinales.
Es siempre superior a la media geomtrica y a la media armnica.
La media muestral es un estimador suficiente de la media poblacional
porque incluye todos los datos.
No necesariamente coincide con alguno de los valores.
La media aritmtica tiene varios otras propiedades (7).
CUANTIL Es el dato o Es til cuando hay gran cantidad de valores.
valor que Puede tambin utilizarse como medida de dispersin.
divide la serie Suelen utilizarse los cuartiles, los deciles y los percentiles.
ordenada de
datos en
partes iguales.
-Cuartiles Valores que Tres cuartiles dividen la serie en cuatro partes iguales.
dividen la
serie en
cuatro partes
iguales.
-Deciles Valores que Nueve deciles dividen la serie en diez partes iguales.
dividen la
serie en diez
partes iguales.
-Percentiles Valores que Noventa y nueve percentiles dividen la serie en cien partes iguales.
dividen la Tambin se llaman centiles.
serie en cien
partes iguales.

Relacin entre modo, mediana y media aritmtica.- a) La experiencia indica que la relacin entre estas
tres medidas es:
Modo = (3 . Mediana) (2 . Media aritmtica). Esta relacin es conocida como la frmula de Pearson. b)
Cuanto ms simtrica es una distribucin (por ejemplo en una curva normal), ms tienden a coincidir los
valores de las tres medidas.

Clculo analtico de las medidas de posicin: frmulas

Para calcular una determinada medida de posicin puede haber diversas frmulas. La eleccin de la
frmula adecuada depender de la forma en que estn organizados los datos individuales.
En principio, los datos pueden estar organizados de cuatro maneras:
1) Datos desordenados. Por ejemplo, las edades de un grupo de cuatro personas son 17, 29, 17 y 14.
Cuando se recolecta informacin, generalmente se obtienen datos desordenados, frente a lo cual
convendr ordenarlos.
2) Datos ordenados. Por ejemplo, las edades del mismo grupo de personas son 14, 17, 17 y 29, si hemos
decidido ordenarlas en forma creciente, aunque tambin podemos ordenarlas decrecientemente.
3) Datos agrupados por frecuencia. Por ejemplo, hay dos edades de 17 aos, una edad de 14 aos y una
edad de 29 aos. O, lo que es lo mismo, la frecuencia de la edad 17 es 2, y la frecuencia de las restantes
edades es 1.
4) Datos agrupados por intervalos. Por ejemplo, hay 3 edades comprendidas en el intervalo 14-17 aos,
y una edad comprendida en el intervalo 18-29 aos.
La estadstica va agrupando los datos siguiendo el orden anterior. Cuanto ms avance en este proceso,
ms habr logrado sintetizar y organizar los datos individuales.
En el siguiente cuadro se sintetizan las diversas reglas o frmulas para calcular las medidas de posicin,
segn como estn organizados los datos individuales y segn los niveles de medicin que admiten.
Ntese que en algunos casos no es posible especificar ninguna frmula, y entonces el clculo se har
siguiendo la regla indicada para los mismos. Por ejemplo: para calcular el modo de un conjunto de datos
ordenados, debe buscarse el dato o valor que ms se repite (6).
Clculo de medidas de posicin segn los niveles de medicin que admiten y segn la forma de organizacin de los datos individuales.
Preparado por: Pablo Cazau

Medida de Nivel de Datos ordenados Datos agrupados por frecuencia Datos agrupados por intervalos
posicin medicin
Modo Nominal Valor que ms se repite Valor con la mayor frecuencia ------------
Ordinal Valor que ms se repite Valor con la mayor frecuencia ------------
Cuantitativo Valor que ms se repite Valor con la mayor frecuencia f - fant
Mo = Li + ---------------------- . a
(f - fant) + (f- fpos)
Mediana Ordinal Valor central de la serie Valor que corresponde a la frecuencia acumulada n/2 ------------
ordenada de valores
Cuantitativo Valor central de la serie Valor que corresponde a la frecuencia acumulada n/2 n/2 - Fant
ordenada de valores Mn = Li + ---------------------- . a
f
Media Cuantitativo x x.f) xm.f)
aritmtica
X = ----- X = --------- X = ---------
n n n
Cuartil Cuantitativo Valores que dividen la serie Valor que corresponde a la frecuencia acumulada t.n/4, expresin t.n/4 - Fant
0
en cuatro partes iguales. llamada cuartil de orden o Q (1) Qt = Li + ---------------- . a
Por tanto, hay 3 cuartiles: Q1, Donde t puede valer 1, 2 o 3.
Q2 y Q3 Por tanto, hay 3 cuartiles: Q1, Q2 y Q3 f
Decil Cuantitativo Valores que dividen la serie Valor que corresponde a la frecuencia acumulada t.n/10, expresin t.n/10 - Fant
0
en diez partes iguales. llamada decil de orden o D (1) Dt = Li + ---------------- . a
Por tanto, hay 9 deciles: Donde t puede valer entre 1 y 9.
desde el D1 hasta el D9 Por tanto, hay 9 deciles: desde el D1 hasta el D9 f
Percentil Cuantitativo Valores que dividen la serie Valor que corresponde a la frecuencia acumulada t.n/100, expresin t.n/100 - Fant
0
en cien parte iguales. llamada percentil de orden o P (1) Pt = Li + ---------------- . a
Por tanto, hay 99 percentiles: Donde t puede valer entre 1 y 99.
desde el P1 hasta el P99 Por tanto, hay 99 percentiles: desde el P1 hasta el P99 f

(1) Si no puede identificarse unvocamente una frecuencia acumulada, y por tanto un valor determinado de x, puede ser calculada por interpolacin. En realidad, los cuantiles se
utilizan preferentemente cuando los datos estn agrupados por intervalos.
A continuacin, se suministran ejemplos de cmo calcular cada medida de posicin teniendo
en cuenta las reglas y frmulas del esquema anterior.

a) Clculo del modo para datos ordenados (niveles nominal, ordinal y cuantitativo)

Nivel nominal: perro, perro, gato, gato, gato, gato (por tanto, el modo es gato)
Nivel ordinal: grande, grande, mediano, mediano, mediano, chico, chico, chico, chico (por
tanto, el modo es chico)
Nivel cuantitativo: 6, 6, 7, 7, 7, 7, 8, 9, 10, 10, 11 (por tanto, el modo es 7)

b) Clculo del modo para datos agrupados en frecuencia (niveles nominal, ordinal y
cuantitativo)

Nivel nominal Nivel ordinal Nivel cuantitativo


x (religin) f x (dureza) f x (edad) f
Catlicos 56 Muy duro 18 30 aos 6
Protestantes 78 Duro 8 31 aos 14
Judos 45 Intermedio 13 32 aos 19
Budistas 24 Blando 16 33 aos 24
Otros 31 Muy blando 7 34 aos 15
El modo es Protestantes El modo es Muy duro El modo es 33 aos

Como puede verse, el modo es el valor de la variable x que est ms repetido.

c) Clculo del modo para datos agrupados por intervalos (nivel cuantitativo)

x (cantidad piezas dentarias) f


10-18 6
19-27 8
28-36 24
37-45 2
n=40

Una vez confeccionada la tabla de frecuencias por intervalos, se procede en dos pasos:

a) Se identifica cul es el intervalo de mayor frecuencia. En este caso, es 28-36.


b) Se aplica la frmula correspondiente:

f - fant
Mo = Li + ---------------------- . a
(f - fant) + (f- fpos)

24 - 8
Mo = 28 + ---------------------- . 8 = 31.37 piezas dentarias
(24 - 8) + (24 - 2)

d) Clculo de la mediana para datos ordenados (niveles ordinal y cuantitativo)

Para hallar la mediana de un conjunto de datos, primero hay que organizarlos en orden
descendente o ascendente. Si el conjunto de datos contiene un nmero impar de elementos,
el central es la mediana. Si hay un nmero par, la mediana es el promedio de los dos datos
centrales.

Ejemplos para el nivel ordinal:

Nmero impar de datos: alto, alto, alto, alto, medio, medio, medio, medio, medio, medio,
bajo (por tanto, la mediana es = medio).
Nmero par de datos: En el nivel ordinal no puede calcularse un promedio si los dos valores
centrales son distintos. Si los dos valores centrales son iguales, ese es el valor de la
mediana.

Ejemplos para el nivel cuantitativo:


Nmero impar de datos: 13, 13, 13, 14, 14, 17, 18, 19, 19 (por tanto, la mediana es 14)
Nmero par de datos: 11, 11, 12, 13, 14, 15, 16, 18, 18, 18 (por tanto, la mediana es el
promedio entre 14 y 15, o sea 14.5).

e) Clculo de la mediana para datos agrupados por frecuencia (niveles ordinal y


cuantitativo)

x (das) f F
1 7 7
2 9 16
3 14 30
4 10 40
5 2 42
n = 42

La variable es aqu cantidad de das de posoperatorio.


El procedimiento es el siguiente:
a) Se calcula la mediana de orden:

Mn0 = n/2 = 42/2 = 21

b) Se identifica cul es el valor de x que corresponde a la frecuencia acumulada que contiene


el valor 21:

Dicha frecuencia acumulada es 30, y, por lo tanto Mn = 3 das

f) Clculo de la mediana para datos agrupados por intervalos (nivel cuantitativo)

x f F
0-3 8 8
3-6 10 18
6-9 11 29
9-12 12 41
12-15 9 50
15-18 7 57
18-21 6 63
21-24 5 68
n = 68

Ntese que para calcular la mediana se precisa informacin sobre frecuencias acumuladas,
razn por la cual se ha agregado la columna respectiva.
Se procede en dos pasos:
a) Se identifica cul es el intervalo que debe ser considerado, para lo cual se calcula la
mediana de orden:

Mn0 = n/2 = 68/2 = 34


Tomando en cuenta las frecuencias acumuladas, el valor 34 entra en la frecuencia
acumulada 41, y, por lo tanto, el intervalo a considerar ser 9-12.
b) Se aplica la frmula de mediana:

n/2 - Fant
Mn = Li + ---------------------- . a
f

34 - 29
Mn = 9 + ---------------------- . 3 = 10.25
12

Tngase presente que si la variable fuera discreta y medible slo en nmeros enteros, sera
Mn = 10.
Si la variable fuese cantidad de materias aprobadas, el alumno con 10 materias aprobadas
est en el lugar central de la serie, es decir, habra un 50% de compaeros con menos
materias aprobadas y un 50% con ms materias aprobadas.
g) Clculo de la media aritmtica para datos ordenados (nivel cuantitativo)

Dados los siguientes dados ordenados: 2-2-3-4-4-4-5-5-6-7-8-10


Se puede calcular la media aritmtica aplicando la frmula:

x
X = -----
n

X = ---------------------------------------- = --------- = 5
12 12

h) Clculo de la media aritmtica para datos agrupados por frecuencia (nivel


cuantitativo)

x (edad) f f.x
18 3 54
19 1 19
20 2 40
23 4 42
25 2 50
26 2 52
28 2 56
n = 16 363

Ntese que para el clculo de la media aritmtica se ha agregado una columna con los
productos de x . f.
Se aplica la frmula de media aritmtica:

x.f) 54+19+40+42+50+52+56 363


X = --------- = ----------------------------------- = -------- = 22.68 aos = 23 aos.
n 16 16

i) Clculo de la media aritmtica para datos agrupados por intervalos (nivel


cuantitativo)

x f xm xm.f
0-3 8 1.5 12
3-6 10 4.5 45
6-9 11 7.5 82.5
9-12 12 10.5 126
12-15 9 13.5 121.5
15-18 7 16.5 115.5
18-21 6 19.5 117.6
21-24 5 22.5 112.5
n = 68 732.5

Ntese que para el clculo de la media aritmtica se ha agregado una columna con los
puntos medios de los intervalos y otra con los productos de las frecuencias por los puntos
medios.
Se aplica la frmula de media aritmtica:

xm.f) 732.5
X = ------------- = ---------- = 10.77
n 68
El mtodo corto y el mtodo clave son dos mtodos alternativos para calcular la media
aritmtica, siendo el ltimo slo aplicable cuando el tamao de los intervalos es constante.
De acuerdo al mtodo corto, la media aritmtica se calcula sumando al punto medio del
intervalo de mayor frecuencia, el cociente entre la sumatoria de los productos entre cada
frecuencia y la diferencia entre el punto medio de cada intervalo menos el punto medio del
intervalo de mayor frecuencia, y la sumatoria de frecuencias (n).
De acuerdo al mtodo clave, la media aritmtica se calcula sumando al punto medio del
intervalo de mayor frecuencia, el producto entre el tamao del intervalo y un cociente, donde
el numerador es la sumatoria de los productos entre las frecuencias y el llamado intervalo
unitario (que resulta de dividir la diferencia entre cada punto medio y el punto medio del
intervalo de mayor frecuencia, por el tamao del intervalo), y donde el denominador es la
sumatoria de frecuencias (n).

j) Clculo del cuantil para datos ordenados (nivel cuantitativo)

1-1-1-1-1-2-2-2-3-3-3-3-4-5-6-6-6-6-7-7-8-8-9

Si en la serie anterior resaltamos los tres valores que la dividen en cuatro partes iguales,
esos valores sern los cuartiles Q1, Q2 y Q3:

1-1-1-1-1-2-2-2-3-3-3-3-4-5-6-6-6-6-7-7-8-8-9

Q1 = 2
Q2 = 3
Q3 = 6

Sin embargo, es ms prctico agrupar los datos por frecuencias o por intervalos, a los
efectos del clculo de los cuantiles (cuartiles, deciles o percentiles).

k) Clculo del cuantil para datos agrupados por frecuencia (nivel cuantitativo)

x (edad) f F
18 3 3
19 1 4
20 2 6
23 4 10
25 2 12
26 2 14
28 2 16
n = 16

Se pueden calcular, por ejemplo, Q1, Q2 y Q3.

El primer paso consiste en averiguar los respectivos cuartiles de orden.

Para Q1 es Q = t.n/4 = 1.16/4 = 4


0

Para Q2 es Q = t.n/4 = 2.16/4 = 8


0

Para Q3 es Q = t.n/4 = 3.16/4 = 12


0

El segundo y ltimo paso consiste en identificar el valor de x correspondiente al cuartil de


orden respectivo.

Q1 = 4
Q2 = Est entre 20 y 23
Q3 = 25

l) Clculo del cuantil para datos agrupados por intervalos (nivel cuantitativo)

x (puntaje) f F
0-10 1 1
10-20 3 4
20-30 5 9
30-40 6 15
40-50 10 25
50-60 12 37
60-70 13 50
70-80 9 59
80-90 4 63
90-100 3 66
n = 66

Se pueden calcular, por ejemplo, Q3, D7 y P45.

El primer paso consiste en averiguar los cuantiles de orden:

Para Q3 es Q = t.n/4 = 3.66/4 = 49.5


0

Para D7 es D = t.n/10 = 7.66/10 = 46.2


0

Para P45 es P = t.n/100 = 45.66/100 = 29,7


0

El segundo paso consiste en identificar el intervalo que corresponde al cuantil de orden en la


columna de frecuencias acumuladas:

El valor 49.5 corresponde al intervalo 60-70


El valor 46.2 corresponde al intervalo 60-70
El valor 29.7 corresponde al intervalo 50-60

El tercer y ltimo paso consiste en aplicar la frmula basndose en la informacin del


intervalo identificado. Si la frmula pide el dato de la frecuencia acumulada anterior y esta
no existe, se coloca 0 (cero).
En el ejemplo del clculo del D7, se aplica la siguiente frmula:

t.n/10 - Fant
Dt = Li + ------------------- . a
f

46.2 - 37
D7 = 60 + ---------------- . 11 = 67.78
13

Clculo visual de las medidas de posicin: grficos

Es posible utilizar un procedimiento grfico para calcular ciertas medidas de posicin, tales
como el modo y la mediana. Por ejemplo, el modo se puede calcular a partir de un
histograma. La mediana tambin puede calcularse con un histograma, aunque lo ms
habitual es hacerlo mediante una ojiva.

a) Clculo del modo mediante un histograma

Una vez construido el histograma a partir de una tabla de datos agrupados por intervalos:
1) Se considera el rectngulo de mayor frecuencia (mayor altura).
2) Dentro del mismo se trazan dos rectas como est indicado en el grfico siguiente.
3) Por la interseccin de ambas rectas se traza una recta perpendicular al eje de absisas.
4) El punto del eje de las absisas por donde pasa la recta perpendicular corresponde al modo
(en el ejemplo, el modo es 4.80).
f

1 4 7 10
x

b) Clculo de la mediana mediante una ojiva

En este caso pueden utilizarse dos procedimientos:


1) Una vez trazada la ojiva, a) se ubica en el eje de las ordenadas a la mediana de orden
(Mn ); b) por la mediana se orden se traza una recta paralela al eje x hasta que intersecte
0

la ojiva; c) por este punto de interseccin se traza una recta paralela al eje y hasta que
intersecte el eje x. En este punto estar ubicada la mediana.
2) Se trazan en el mismo eje de coordenadas las ojivas creciente y decreciente de la misma
distribucin de datos. Luego, a) se traza una recta paralela al eje y que pase por la
interseccin de ambas ojivas y por algn punto del eje x; b) el punto del eje x por donde
pasa dicha recta corresponde a la mediana.

Criterios de eleccin de medidas de posicin

1) La eleccin de una medida de posicin debe tener en cuenta el nivel de medicin de la


variable que se mide:

Nivel nominal Nivel ordinal Nivel cuantitativo


Modo SI SI SI
Mediana NO SI. Siempre y cuando SI
los dos valores centrales
con n = par sean
iguales. En caso
contrario usar el Modo.
Media NO NO SI Cuando no haya valores
aritmtica extremos alejados ni valores
extremos abiertos. En caso
contrario, usar el Modo o la
Mediana (*).
Cuantiles NO NO SI

(*) Hay al menos tres situaciones donde se preferir la mediana a la media (Botella, 1993:115): a)
cuando la variable es ordinal, b) cuando haya valores extremos que distorsionen la interpretacin de la
media, y c) cuando haya intervalos abiertos, como en el caso de variables como ingresos mensuales.

2) La eleccin de una medida de posicin debe tener en cuenta la forma en que estn
organizados los datos. Por ejemplo: en ocasiones, el azar hace que un solo elemento no
representativo se repita lo suficiente para ser el valor ms frecuente del conjunto de datos.
Es por esta razn que rara vez utilizamos el modo de un conjunto de datos no agrupados
como medida de tendencia central. Por esta razn, debemos calcular el modo en datos
agrupados en una distribucin de frecuencias (Levin y Rubin, 1996).

3) La eleccin de una medida de posicin de una muestra debe tener en cuenta el grado de
fidelidad con que representa a la medida de posicin poblacional.
Botella (1993:114) afirma, en este sentido, que si no hay ningn argumento en contra,
siempre se preferir la media, no slo porque permite la utilizacin de otras medidas
estadsticas (por ejemplo el desvo estndar), sino porque es ms representativa de la media
poblacional que el modo o la mediana con respecto al modo o la mediana poblacional.

2.5 SNTESIS DE LOS DATOS: MEDIDAS ESTADSTICAS DE DISPERSIN

Definicin

Las medidas de dispersin, llamadas tambin medidas de variabilidad o de variacin, son


datos estadsticos que informan acerca del grado de dispersin o variabilidad de los datos
individuales de una muestra o una poblacin, respecto de una variable. En otras palabras,
indican el grado de homogeneidad o de heterogeneidad del conjunto de los datos. Por
ejemplo, indican cun alejados o cun cercanos se encuentran los datos de algn valor
central como la media aritmtica: una muestra cuyos datos son 3-4-5 es menos dispersa que
una muestra cuyos datos son 1-4-7.

Algunos autores (Botella, 1993:325) han relacionado la dispersin de los datos -para los
niveles de medicin nominal y ordinal- con los conceptos de entropa y de incertidumbre e
incluso han propuesto a la primera como una medida que permite cuantificar la dispersin: a
mayor dispersin de los datos, hay mayor entropa y mayor incertidumbre.
Por ejemplo, las siguientes dos muestras tienen cada una 40 sujetos que han elegido
determinados colores para representar la idea de paz:

Blanco Verde Amarillo Celeste Rosa


Muestra A: 28 3 3 3 3
Muestra B: 8 8 8 8 8

Si habra que adivinar qu color eligi determinado sujeto de la muestra A, cabra proponer
el color blanco porque fue el ms elegido. En cambio, la incertidumbre aumenta si habra que
elegir lo mismo en la muestra B. En esta muestra hay ms entropa, es decir, ms desorden,
mientras que en la muestra A los datos estn ms ordenados alrededor de un valor muy
repetido, como el blanco.
La muestra B es ms dispersa, es decir, ms heterognea, mientras que la muestra A es
menos dispersa, es decir, ms homognea. La homogeneidad no debe relacionarse con la
repeticin de frecuencias (3-3-3-3) sino con la repeticin de valores iguales o muy cercanos
entre s (28 sujetos eligieron blanco).

Una medida de posicin no alcanza para describir adecuadamente una muestra. Se obtiene
una informacin ms precisa y completa de ella cuando adems se utiliza una medida de
dispersin.
Por ejemplo, la muestra 1 de datos 3-4-5 y la muestra 2 de datos 1-4-7 tienen la misma
medida de posicin: la media aritmtica en ambos casos es 4. Sin embargo, se trata
evidentemente de dos muestras diferentes, por cuanto la segunda es ms dispersa que la
primera, es decir, sus datos estn ms alejados de la media aritmtica.
En la primera muestra el promedio de las desviaciones respecto de la media es 1 (de 3 a 4
hay 1, y de 5 a 4 hay 1), mientras que el promedio de las desviaciones en la segunda
muestra es 3 (de 1 a 4 hay 3, y de 7 a 4 hay 3). Por lo tanto, ambas muestras pueden
representarse de la siguiente manera:

Muestra 1: 4 + 1 (se lee 4 ms/menos 1)


Muestra 2: 4 + 3 (se lee 4 ms/menos 3).

Las medidas de dispersin tienen una importancia adicional porque (Levin y Rubin: 1996): a)
Proporcionan informacin adicional que permite juzgar la confiabilidad de la medida de
tendencia central. Si los datos se encuentran ampliamente dispersos, la posicin central es
menos representativa de los datos. b) A veces resulta indispensable conocer la dispersin de
una muestra porque muestras demasiado dispersas pueden no ser tiles para poder sacar
conclusiones tiles sobre la muestra. Levin y Rubin indican que, ya que existen problemas
caractersticos para datos ampliamente dispersos, debemos ser capaces de distinguir los que
presentan esa dispersin antes de abordar esos problemas.

Caractersticas de las principales medidas de dispersin


En general, las medidas de dispersin ms utilizadas sirven para la medicin de variables en
el nivel cuantitativo. Seguidamente se examinarn las siguientes medidas de dispersin:
rango, desviacin media, varianza, desvo estndar, desvo intercuartlico y coeficiente de
variacin.

En el siguiente cuadro se especifican las definiciones y caractersticas principales de las


medidas de dispersin.

Medida Definicin Caractersticas


RANGO Es la diferencia De uso limitado, no es una buena medida de dispersin.
entre los valores Es muy sensible a los valores extremos e insensible a los valores
mximo y mnimo intermedios.
de la variable. Est muy vinculada al tamao de la muestra: es probable que la muestra
de mayor tamao presente mayor rango aunque las poblaciones de
referencia tengan igual dispersin (Botella, 1993).
Se llama tambin amplitud.
DESVIACION Es el promedio de Considera desviaciones absolutas, es decir, no las considera con valores
MEDIA las desviaciones de negativos (de otro modo, el promedio de las desviaciones, por un teorem
todos los valores de la media aritmtica, dara cero). Esto representa una dificultad de
respecto de la clculo, por lo que se utiliza la varianza.
media aritmtica.
VARIANZA Es el promedio de Es un valor esencialmente no negativo (10).
los cuadrados de Matemticamente es buena medida de dispersin, pero da valores muy
las desviaciones altos, por lo cual en estadstica descriptiva se utiliza el desvo estndar
con respecto a la (9).
media aritmtica. Se apoya en una propiedad de la media aritmtica segn la cual la suma
de los cuadrados de las desviaciones respecto a la media es un valor
mnimo.
La varianza permite comparar la dispersin de dos o ms muestras si sus
medias aritmticas son similares (Botella, 1993).
Si se suma una constante a un conjunto de valores, la varianza no se
modifica (Botella, 1993).
Si se multiplica por una constante a un conjunto de valores, la varianza d
los nuevos valores el igual al producto de la varianza de las originales po
el cuadrado de la constante (Botella, 1993).
DESVIO Es la raz cuadrada Es un valor esencialmente no negativo (10).
ESTNDAR de la varianza (11) Es la medida de dispersin ms utilizada.
Se la emplea conjuntamente con la media aritmtica como medida de
posicin.
La raz cuadrada permite compensar el cuadrado de la varianza.
Si se suma una constante a un conjunto de valores, el desvo estndar no
se modifica (Botella, 1993).
Si se multiplica por una constante a un conjunto de valores, el desvo
estndar de los nuevos valores el igual al producto del desvo estndar de
las originales por el cuadrado de la constante (Botella, 1993).
Se llama tambin desviacin tpica, o tambin desviacin estndar
(Pagano, 1998:71).
DESVIO Es la diferencia Expresa el rango del 50% central de la serie de valores.
INTER entre el Q3 y el Q1. Se llama tambin amplitud intercuartil.
CUARTILICO
COEFICIENTE Es el cociente entre Permite comparar la dispersin de dos o ms muestras con diferentes
DE el desvo estndar y medias aritmticas: a mayor coeficiente de variacin, mayor dispersin.
VARIACION la media aritmtica. No se expresa en unidades como la variable en estudio (por ejemplo, par
edad, no se expresa en aos).
Puede considerarse como un ndice de la representatividad de la media
aritmtica: cuanto mayor es el coeficiente de variacin, menos
representativa es la media (Botella, 1993).

Clculo analtico de las medidas de dispersin: frmulas

En este tem se indican las frmulas para calcular medidas de dispersin, y se suministran
ejemplos de cada caso.
Clculo de las medidas de dispersin segn la forma de organizacin de los datos
individuales
Preparado por: Pablo Cazau

Medida de Datos ordenados Datos agrupados por Datos agrupados por


dispersin frecuencia intervalos
Rango R = xmay - xmen R = xmay - xmen No
Desviacin |xX| |xX|.f | xm X | . f
media
Dm = --------------- Dm = ------------------ Dm = --------------------
n n n
Desvo ( x X )2 ( x X )2 . f ( xm X )2 . f
estndar
S = ---------------- S = ------------------- S = ----------------------
n n n
El segundo miembro es El segundo miembro es a la raz El segundo miembro es a la raz
a la raz cuadrada cuadrada cuadrada
Varianza Es el cuadrado del Es el cuadrado del desvo Es el cuadrado del desvo
2 2 2
desvo estndar (S ) estndar (S ) estndar (S )
Desvo DQ = Q3 Q1 DQ = Q3 Q1 DQ = Q3 Q1
intercuartlico
Coeficiente S S S
de variacin CV = ----- CV = ----- CV = -----
X X X

Cuando hay que calcular varianza o desvo estndar poblacionales, se utiliza n en el


denominador, pero cuando se calculan las correspondientes medidas muestrales (o cuando la
muestra es muy pequea), se utilizar n1 (12).

a) Clculo del rango para datos ordenados y para datos agrupados por frecuencia

Se puede aplicar a estas muestras la frmula del Rango R = xmay - xmen

Muestra 1: 80, 100, 100, 110, 120. Aqu el rango R es = 120 80 = 40.
Muestra 2: 30, 50, 70, 120, 180. Aqu el rango R es = 180 30 = 150

Como se ve, la muestra 2 es ms dispersa porque tiene mayor rango.

No se puede calcular el rango para datos agrupados por intervalos porque se desconocen
cules son los valores mximo y mnimo.

b) Clculo de la desviacin media para datos ordenados

La serie ordenada de datos puede ser la siguiente: 2, 3, 5, 6, 7, 9, 10


Como primer paso se calcula la media aritmtica:

2+3+5+6+7+9+10
X = --------------------------- = 6
7

Como segundo y ltimo paso, se calcula la desviacin media:

|xX| |2-6| + |3-6| + |5-6| + |6-6| + |7-6| + |9-6| + |10-6|


Dm = --------------- = --------------------------------------------------------------------- = 2.29
N 7

c) Clculo de la desviacin media para datos agrupados por frecuencia

A la siguiente tabla de frecuencias (f) deber agregarse una columna (f.x) para calcular la
media aritmtica, y luego otras dos columnas (x-X) y (| x-X | . f) para calcular la desviacin
media:

x f f.x |x-X| |x-X|.f


70 45 3150 35 1575
80 63 5040 25 1575
90 78 7020 15 1170
100 106 10600 5 530
110 118 12980 5 590
120 92 11040 15 1380
130 75 9750 25 1875
140 23 3220 35 115
n = 600 62800 160 8810

Primero se calcula la media aritmtica:

x.f) 62800
X = --------- = ------------ = 104.66 = 105
n 600

Finalmente se calcula la desviacin media:

|xX|.f 8810
Dm = ------------------ = ------------ = 14.68
n 600

d) Clculo de la desviacin media para datos agrupados por intervalos

Se procede de la misma manera que en el caso anterior, con la diferencia que en lugar de
considerar los valores x, se consideran los puntos medios de los intervalos (xm).

e) Clculo del desvo estndar para datos ordenados

Para la serie de valores 5, 6, 10, su media aritmtica es 7. Una vez conocido este valor,
puede obtenerse el desvo estndar de la siguiente forma:
2 2 2 2
(xX) (5-7) + (6-7) + (10-7)
S = ------------------- = ------------------------------------ = 4.66 = 2.2
n 3

f) Clculo del desvo estndar para datos agrupados por frecuencia

x (edad) f f.x xX ( x X )2 ( x X )2 . f
18 3 54 -5 25 75
19 1 19 -4 16 16
20 2 40 -3 9 18
23 4 42 0 0 0
25 2 50 +2 4 8
26 2 52 +3 9 18
28 2 56 +5 25 50
n = 16 363 185

Primero se calcula la media aritmtica, que arroja un valor de X = 23.


Finalmente, se aplica la frmula de desvo estndar:
2
(xX) .f 185
S = ---------------------- = ------------ = 11.56 = 3.2
n 16

Puede tambin utilizarse una frmula ms sencilla a los efectos del clculo (Bancroft,
1960:80):
2
x .f
2
S = ----------- - (X)
n

Donde el primer trmino del segundo miembro es a la raz cuadrada.


g) Clculo del desvo estndar para datos agrupados por intervalos

Se procede del mismo modo que en el caso anterior, con la diferencia que se calcula el punto
medio xm de los intervalos en lugar del valor x.

h) Clculo de la varianza

El procedimiento es el mismo que en el caso del desvo estndar. Slo debe tenerse presente
que la varianza es el cuadrado del desvo estndar.

i) Clculo del desvo intercuartlico

Dada la siguiente serie, obtener el desvo intercuartlico:

x f
0-20 2
20-40 4
40-60 5
60-80 8
80-100 1
n = 20

Primero se calculan los Q3 y Q1 aplicando la frmula explicada en medidas de posicin.


Finalmente, se aplica la frmula del desvo intercuartlico:

DQ = Q3 Q1 = 70 35 = 35

Una variante es el empleo del desvo semi-intercuartlico, es decir, el desvo intercuartlico


dividido dos. Se trata de una medida de dispersin propuesta por Galton en 1889, y que
resulta recomendable cuando hay algn valor extremo que pudiera distorsionar la
representatividad de la media aritmtica (Botella, 1993).

j) Clculo del coeficiente de variacin

Si una muestra tiene una media aritmtica 111 y el desvo estndar 18, entonces su
coeficiente de variacin es:

S 111
CV = ----- = ---------- = 0.16
X 18

Cuanto mayor es el CV, mayor es la dispersin.


Tambin puede calcularse un coeficiente de variacin porcentual, multiplicando CV por
100. En el ejemplo:

CV% = 0.16 . 100 = 16%.

Clculo visual de las medidas de dispersin: grficos

Botella (1993:143) menciona dos procedimientos para expresar grficamente medidas de


dispersin: el diagrama de caja y bigotes (Tukey, 1977) y el diagrama de bigotes verticales.

Diagrama de caja y bigotes


75 80 85 90 95 100 105 110 115 120 125 130

Xmn Q1 Q3 Xmx

B
Xmn Xmx
Q1 Q3

Puede apreciarse a simple vista que la distribucin de valores B es ms dispersa que A no


slo porque la diferencia entre los valores mximo y mnimo (rango) es mayor, sino tambin
porque lo es la diferencia entre los cuartiles primero y tercero.

Diagrama de bigotes verticales

Nivel de
ansiedad

4 5 6 7 8
Curso

El grfico representa las medias aritmticas de nivel de ansiedad de diversos cursos de


alumnos. En cada media aritmtica se han trazado bigotes verticales que representan los
respectivos desvos estndar. Puede entonces apreciarse, por ejemplo, que a medida que
aumenta la media aritmtica, tiende tambin a aumentar el desvo estndar.

2.6 SNTESIS DE LOS DATOS: ASIMETRA Y CURTOSIS

Un conjunto de datos o distribucin de datos queda exhaustivamente descrito cuando


pueden especificarse una medida de posicin, una medida de dispersin, un ndice de
asimetra y un ndice de curtosis. Las medidas de asimetra y curtosis se refieren a la forma
de la distribucin y, aunque no son tan importantes como las medidas de posicin y
dispersin y son muy poco utilizadas, aportan tambin informacin sobre la distribucin de
los valores de una muestra o poblacin.

Asimetra

La asimetra hace referencia al grado en que los datos se reparten equilibradamente por
encima y por debajo de la tendencia central (Botella, 1993:169). Por ejemplo, en la siguiente
tabla se puede apreciar que en el curso A muchos alumnos obtuvieron buenas notas, en el
curso C muchos alumnos obtuvieron bajas notas, y en el curso B estn equilibrados.

x (nota) f (curso A) f (curso B) f (curso C)


10 5 2 1
9 10 5 2
8 15 8 3
7 22 10 6
6 16 15 8
5 12 20 12
4 8 15 16
3 6 10 22
2 3 8 15
1 2 5 10
0 1 2 5
n = 100 n = 100 n = 100

Representando las tres distribuciones de datos con curvas en un grfico con las frecuencias
en las ordenadas y los valores de x en las absisas, se obtiene lo siguiente:

Curso A Curso B Curso C

Media Modo Media Modo Media


Modo

Asimetra Asimetra Asimetra


negativa cero positiva
(curva hacia (curva hacia
la derecha) la izquierda)

Han sido propuestos diversos ndices de asimetra para cuantificar el grado de asimetra de
una distribucin de datos. De entre ellos pueden citarse los siguientes (Botella, 1993:170):

Indice de Indice de asimetra Indice de asimetra Indice de asimetra


asimetra media- media-mediana de Pearson intercuartlico
modo (Kohan, 1994:93)

Es la distancia Es la distancia entre Es el promedio de los Es el cociente entre la


entre la media y el la media y la valores z elevados al diferencia Q3-Q2 y Q2-
modo, medido en mediana multiplicada cubo (donde z es el Q1, y la diferencia Q3-
desvos estndar: por tres, medida en cociente entre la Q1
X - Mo desvos estndar: diferencia entre x y
As = ------------- X - Mn la media aritmtica,
S As= ------------- y el desvo
S estndar).

Los tres ndices se interpretan de manera similar: si resultan ser nmeros negativos, la curva
ser asimtrica hacia la derecha, y si dan resultados positivos, la curva ser asimtrica a la
izquierda. El resultado 0 (cero) indicar asimetra nula (simetra perfecta).
Existen otros muchos tipos de curvas: parablicas, hiperblicas, bimodales, etc, pero una
forma usual es la curva simtrica, llamada tambin curva normal o campana de Gauss.

Curtosis
La curtosis hace referencia a la forma de la curva de la distribucin de datos en tanto muy
aguda (mayor apuntamiento o mayor curtosis: leptocrtica) o muy aplanada (menor
apuntamiento o menor curtosis: platicrtica).

Leptocrtica Mesocrtica Platicrtica

Del mismo modo que sucede con la asimetra, tambin se han propuesto diversos ndices de
curtosis. Si el ndice es positivo, su apuntamiento es mayor que el de una distribucin normal
y la curva ser leptocrtica, y si es negativo, su apuntamiento es menor y la curva ser
platicrtica (Botella, 1993).

NOTAS

(1) Segn Botella (1993:49) la distribucin de frecuencias es un instrumento diseado para cumplir
tres funciones: a) proporcionar una reorganizacin y ordenacin racional de los datos recogidos; b)
ofrecer la informacin necesaria para hacer representaciones grficas; y c) facilitar los clculos
necesarios para obtener los estadsticos muestrales.
(2) Cuando se confecciona una tabla de frecuencias por intervalos con la intencin de elaborar grficos o
medidas estadsticas a partir de ella, deben asumirse ciertos supuestos que implican un margen de
error, pero que son imprescindibles. Estos supuestos, llamados supuestos de concentracin
intraintervalo, son dos. a) El supuesto de concentracin en el punto medio del intervalo, segn el cual
todos los valores de la variable son el mismo, a saber, el punto medio del intervalo. b) El supuesto de
distribucin homognea, segn el cual los valores incluidos en un intervalo se reparten con absoluta
uniformidad en su interior. Es decir, que si en un intervalo hay cinco observaciones [valores observados
en la variable] aceptaremos que sus valores son los que tendramos si partiramos al intervalo en cinco
subintervalos de igual amplitud y asignramos a cada individuo el punto medio de un subintervalo
(Botella, 1993:56).
(3) Hay quienes recurren a la frmula de Sturges para calcular la cantidad de intervalos que resulta
deseable tomar en funcin del tamao de la muestra. Esta frmula es: Nmero de intervalos = 1 + (log
n / log 2), donde n designa el tamao de la muestra. Por ejemplo, aplicando la frmula para n = 40, la
cantidad deseable de intervalos es 6.3, con lo cual podrn elegirse entre 6 o 7 intervalos. Una vez
determinada la cantidad de intervalos, slo resta dividir el tamao de la muestra por 6 o 7, de lo que
resultar el tamao de cada intervalo.
(4) Por ejemplo, las medidas de posicin son aquellas que caracterizan la posicin de un grupo respecto
de una variable (Kohan, 1994:69). Otras definiciones se refieren a la utilidad de estas medidas, y
entonces por ejemplo se definen como ndices diseados especialmente para revelar la situacin de una
puntuacin con respecto a un grupo, utilizando a ste como marco de referencia (Botella, 1993:83).
(5) Estrictamente hablando, ciertos cuantiles como el cuartil 2, el decil 5 y el percentil 50 resultan ser
medidas de tendencia central, ya que coinciden con la mediana.
(6) Estrictamente, dato y valor no son sinnimos, aunque aqu se emplearn indistintamente ambas
expresiones. El valor es uno de los componentes del dato: los otros dos son la unidad de anlisis y la
variable.
(7) Botella (1993:105-111) describe seis propiedades de la media aritmtica: 1) La suma de las
diferencias de n puntuaciones de la media aritmtica, o puntuaciones diferenciales, es igual a cero. 2) La
suma de los cuadrados de las desviaciones de unas puntuaciones con respecto a su media es menor que
con respecto a cualquier otro valor. 3) Si sumamos una constante a un conjunto de puntuaciones, la
media aritmtica quedar aumentada en esa misma constante. 4) Si multiplicamos una constante a un
conjunto de puntuaciones, la media aritmtica quedar multiplicada por esa misma constante. 5) La
media total de un grupo de puntuaciones, cuando se conocen los tamaos y medias de varios subgrupos
hechos a partir del grupo total, mutuamente exclusivos y exhaustivos, puede obtenerse ponderando las
medias parciales a partir de los tamaos de los subgrupos en que han sido calculadas. 6) Una variable
definida como la combinacin lineal de otras variables tiene como media la misma combinacin lineal de
las medias de las variables intervinientes en su definicin.
(8) Equivalencias entre cuantiles (Botella, 1993:89):

Cuartiles Deciles Percentiles


D1 P10
D2 P20
Q1 P25
D3 P30
D4 P40
Q2 D5 P50
D6 P60
D7 P70
Q3 P75
D8 P80
D9 P90

(9) Para la varianza, las unidades son el cuadrado de las unidades de los datos. Estas unidades no son
intuitivamente claras o fciles de interpretar. Por esta razn, tenemos que hacer un cambio significativo
en la varianza para calcular una medida til de la desviacin, que sea menos confusa. Esta medida se
conoce como la desviacin estndar, y es la raz cuadrada de la varianza. La desviacin estndar,
entonces, est en las mismas unidades que los datos originales (Levin y Rubin, 1996). La varianza
como tal se utiliza ms frecuentemente en estadstica inferencial (Pagano, 1998:77).
(10) La raz cuadrada de un nmero positivo puede ser tanto positiva como negativa. Cuando tomamos
la raz cuadrada de la varianza para calcular la desviacin estndar, los estadsticos solamente
consideran la raz cuadrada positiva (Levin y Rubin, 1996).
(11) La desviacin estndar nos permite determinar, con un buen grado de precisin, dnde estn
localizados los valores de una distribucin de frecuencias con relacin a la media. El teorema de
Chebyshev dice que no importa qu forma tenga la distribucin, al menos 75% de los valores caen
dentro de + 2 desviaciones estndar a partir de la media de la distribucin, y al menos 89% de los
valores caen dentro de + 3 desviaciones estndar a partir de la media.
Con ms precisin:
Aproximadamente 68% de los valores de la poblacin cae dentro de + 1 desviacin estndar a partir de
la media.
Aproximadamente 95% de los valores estar dentro de + 2 desviaciones estndar a partir de la media.
Aproximadamente 99% de los valores estar en el intervalo que va desde tres desviaciones estndar por
debajo de la media hasta tres desviaciones estndar por arriba de la media (Levin y Rubin, 1996).
(12) Esto se debe a que los especialistas en estadstica pueden demostrar que si tomamos muchas
muestras de una poblacin dada, si encontramos la varianza de la muestra para cada muestra y
promediamos los resultados, entonces este promedio no tiende a tomar el valor de la varianza de la
poblacin, a menos que tomemos n1 como denominador de los clculos (Levin y Rubin, 1996).
(13) El concepto de distribucin de frecuencias es uno de los ms bsicos de la estadstica descriptiva, y
hace referencia a un conjunto de valores de una variable ordenados de acuerdo con sus frecuencias. Las
distribuciones de frecuencias pueden expresarse en forma de tablas, grficos, medidas de posicin,
medidas de dispersin, de asimetra y de curtosis. Estas ltimas cuatro medidas pueden considerarse
propiedades o caractersticas bsicas de una distribucin frecuencial.

CAPTULO 3: PROBABILIDAD Y CURVA NORMAL

La curva normal es uno de los temas fundamentales de la estadstica que utiliza la


informacin provista por la estadstica descriptiva y permite el paso a la estadstica
inferencial en el sentido de proveer una herramienta para obtener conclusiones respecto de
la poblacin. La comprensin de este tema exige un conocimiento mnimo de la teora de la
probabilidad.

3.1 EL CONCEPTO DE PROBABILIDAD

Se entiende por probabilidad el grado de posibilidad de ocurrencia de un determinado


acontecimiento. Dicha probabilidad puede calcularse en forma terica o emprica, a partir de
las llamadas probabilidad clsica y frecuencial, respectivamente. El concepto de probabilidad
ha demostrado ser de importante utilidad en ciertos enfoques sistmicos, especialmente en
los mbitos de la termodinmica y la teora de la informacin.

1. Concepto de probabilidad.- Entendida como medida de la posibilidad de la ocurrencia de


un determinado acontecimiento, la probabilidad abarca un espectro que se extiende desde la
certeza (el acontecimiento ocurrir con total seguridad), hasta la imposibilidad (es imposible
que el acontecimiento ocurra), pasando por todos los grados intermedios (es muy probable
que ocurra, es medianamente probable, es poco probable, etc).
Por ejemplo, el suceso 'obtener un nmero entre 1 y 6 tirando un dado' equivale a la
certeza; el suceso 'obtener un 7 arrojando un dado' equivale a la imposibilidad; y el suceso
'obtener un 2 arrojando un dado' equivale a uno de los grados intermedios de probabilidad.
Es habitual representar el grado de probabilidad mediante un nmero que puede variar entre
1 (certeza) y 0 (imposibilidad). La probabilidad puede entonces valer 1, 0, 0.50, 0.80, etc.
Por ejemplo, una probabilidad de 0.1 es muy baja, y una probabilidad de 0.98 muy alta. Una
probabilidad intermedia es 0.50 o tambin, si la expresamos en trminos de porcentajes
corriendo la coma dos lugares hacia la derecha, obtenemos una probabilidad del 50 por
ciento. Tal el caso de obtener una cara arrojando una moneda.

2. Probabilidad clsica y probabilidad frecuencial.- Si bien existen diferentes teoras y


enfoques acerca de la probabilidad, explicaremos a continuacin los dos planteos ms
habituales, siguiendo un ordenamiento histrico e incluso sistemtico: el clsico y el
frecuencial. En ltima instancia, se trata de dos modos diferentes de calcular la probabilidad
de la ocurrencia de un fenmeno.
a) Probabilidad clsica.- Suele tambin denominarse probabilidad terica o a priori, y se
define como el cociente entre el nmero de casos favorables y el nmero de casos
equiprobables posibles. Aclaremos esta aparentemente engorrosa definicin.
Sabemos que un dado tiene seis caras, numeradas del uno al seis. La probabilidad de
obtener la cara tres, por ejemplo, es de un sexto, es decir de un caso favorable (porque hay
una sola cara con el tres) sobre seis casos equiprobables y posibles (caras 1-2-3-4-5-6).
Aplicando la definicin de probabilidad, es:

Casos favorables 1
p= ----------------------------------------------------- = 0.1666
Casos equiprobables posibles 6

Para poder calcular esta probabilidad necesitamos, obviamente, conocer todos los casos
posibles (requisito de exhaustividad), pero adems debemos saber que todos esos casos
posibles tienen la misma probabilidad de salir (requisito de equiprobabilidad), vale decir,
debemos tener la suficiente seguridad de que ninguna cara tendr mayor o menor
probabilidad de salir que otra cara cualquiera, como puede ocurrir, por ejemplo, con los
dados 'cargados'.
Una aclaracin respecto de la expresin 'casos favorables'. Debemos evitar aqui la
connotacin subjetiva del trmino. Un caso favorable es simplemente un caso del cual
queremos conocer la probabilidad de su ocurrencia. Puede incluso tratarse de un terremoto o
una enfermedad, aunque estos eventos no sean 'favorables' desde otro punto de vista ms
subjetivo.
Respecto de la expresin 'casos equiprobables posibles', esta alude al hecho antes indicado
de que para calcular una probabilidad en sentido clsico, deben cumplirse los dos requisitos
de exhaustividad y equiprobabilidad.
Puede suceder, en efecto, que alguno de estos requisitos no se cumpla. 1) Exhaustividad:
Este requisito puede no cumplirse en dos casos. Primero, puede ocurrir que al arrojar un
dado, este quede parado en equilibrio sobre alguno de sus vrtices o aristas. Como
posibilidad existe, pero es remotsima. Debido a que esta posibilidad es muy baja, a los
efectos prcticos la consideramos nula y seguimos aplicando la definicin clsica de
probabilidad, como si todos los casos posibles fueran, como en el caso del dado, solamente
seis. Segundo, puede ocurrir que no sepamos cuntas caras tiene el dado (en la situacin
anterior s sabamos esta cantidad, descartando las alternativas remotas), an cuando
sepamos que todas tienen la misma probabilidad de salir. En este caso, al desconocer el
nmero de casos posibles, la definicin clsica de probabilidad resulta inaplicable,
quedndonos la opcin de aplicar la probabilidad frecuencial. 2) Equiprobabilidad: Este
requisito puede no cumplirse cuando el dado est 'cargado' lo que hace que, por ejemplo, el
tres tenga mayores probabilidades de salir que el cuatro. En este caso, podemos calcular la
probabilidad mediante la probabilidad frecuencial.
En sntesis hasta aqu: cuando ninguno de estos requisitos, o ambos, no pueden cumplirse,
nos queda an la opcin de calcular la probabilidad en forma emprica, lo que nos lleva al
tema de la llamada probabilidad frecuencial.
b) Probabilidad frecuencial.- Suele tambin denominarse probabilidad emprica o a posteriori,
y es definible como el cociente entre el nmeros de casos favorables y el nmero de casos
observados. En un ejemplo, supongamos que no conocemos cuntas caras tiene un dado (es
decir desconocemos la cantidad de casos posibles), y queremos averiguar qu probabilidad
tiene de salir el uno. Obviamente no podemos decir 'un sexto' o 'uno sobre seis' porque no
sabemos cuntas caras tiene el dado. Para hacer este clculo decidimos hacer un
experimento, y arrojamos un dado comn de seis caras (aunque nosotros ignoramos este
detalle) por ejemplo diez veces, constatando que el uno sali cinco veces, cosa
perfectamente posible. Conclumos entonces que la probabilidad de obtener un uno es de
cinco sobre diez, es decir, de 0.5. Si tomamos al pie de la letra este valor, podramos
conclur que el dado tiene... 2 caras!, cada una con la misma probabilidad de 0.5. Aplicando
la definicin de probabilidad frecuencial, resulta:

Casos favorables 5
p= -------------------------------- = 0.5
Casos observados 10

Otro ejemplo: supongamos que conocemos perfectamente que el dado tiene seis caras, pero
no sabemos si las probabilidades de salir son iguales o no para todas ellas, ya que
sospechamos que el dado puede estar 'cargado'. Para determinar la probabilidad de salir del
nmero uno hacemos el mismo experimento, dndonos un valor de 0.7. Este valor, si lo
tomamos al pie de la letra, nos hara pensar que el dado est preparado para que tenga
tendencia a salir el nmero uno, ya que su probabilidad de ocurrencia es bastante alta.
La probabilidad frecuencial se llama tambin 'a posteriori' debido a que 'slo despus' de
hacer nuestra observacin o nuestro experimento podemos saber el valor de la probabilidad,
y no 'antes', como en el caso de la probabilidad clsica, donde 'antes' de arrojar el dado ya
sabemos que la probabilidad de cada cara es de 0.1666.
La denominacin 'frecuencial' alude al hecho de el clculo de probabilidades se realiza en
base a la frecuencia con que sale una determinada cara o posibilidad, frecuencia que es
relativa porque la comparamos con la cantidad de casos observados. Por ejemplo, en nuestro
ltimo ejemplo la frecuencia absoluta es 7, porque de 10 veces que arrojamos el dado, 7
veces sali el nmero deseado. En cambio la frecuencia relativa es 0.7, y resulta de dividir la
frecuencia absoluta por el nmero de casos observados.
c) La ley de los grandes nmeros.- Tambin llamada principio de la estabilidad de la
frecuencia relativa, nos permite unificar conceptualmente los dos tipos de probabilidad recin
examinados, y puede expresarse de la siguiente manera: a medida que aumenta la cantidad
de ensayos, el valor de la probabilidad emprica obtenido se va aproximando cada vez ms al
valor de la probabilidad terica.

Ley de los Grandes Nmeros

Cantidad de ensayos Probabilidad terica de Probabilidad emprica obtenida


arrojando una moneda salir cara para cara
una vez 0.5 0
2 veces 0.5 0.5
3 veces 0.5 0.3333
4 veces 0.5 0.25
10 veces 0.5 0.3
100 veces 0.5 0.4
1000 veces 0.5 0.45
1000000 veces 0.5 0.4999999999999

Siguiendo el esquema adjunto, si arrojamos una moneda por primera vez (primer ensayo), la
probabilidad terica de salir cara es de 0.5, cosa que sabemos ms all de hacer o no esa
experiencia. Sin embargo, puede ocurrir que salga ceca, y entonces conclumos que la
probabilidad emprica es 0, pues no sali ninguna cara.
Al arrojar la moneda por segunda vez, la probabilidad terica sigue siendo 0.5, ya que el
dado no tiene 'memoria': por ms que haya salido cien veces cara, la 101 vez sigue
teniendo la misma probabilidad de salir cara. La probabilidad emprica, en cambio, nos da
por ejemplo tambin 0.5, porque la primera vez no sali cara pero la segunda s, con lo cual
habr salido cara la mitad de las veces, o sea hay una probabilidad de 0.5. Al tercer tiro
vuelve a aparecer ceca, con lo cual sobre tres tiros habr salido slo una cara (la segunda
vez), y entonces la probabilidad emprica es de un tercio (0.333).
Lo que dice la ley de los grandes nmeros es que, si seguimos aumentando la cantidad de
tiros, el valor de la probabilidad emprica se ir aproximando cada vez ms a la probabilidad
terica de 0.5, es decir, se verifica una tendencia de la frecuencia relativa a estabilizarse en
dicho resultado, y por ello esta ley se llama tambin principio de la estabilidad de la
frecuencia relativa.
La probabilidad (p) vara entre 0 y 1

Imposible Grados intermedios de probabilidad Seguro


0 0.25 0.50 0.75 1
0 1/4 1/2 3/4 1
Probabilidad de Probabilidad de Probabilidad de Probabilidad de Probabilidad de
extraer un as de extraer un naipe obtener cara extraer una extraer una
espadas de un de copas de un arrojando una bolilla roja de bolilla roja de un
mazo de cartas mazo de cartas moneda una caja donde bolillero de
francesas espaolas hay 3 rojas y bolillas rojas
una blanca

3. Algunas aplicaciones del concepto de probabilidad.- La teora de las probabilidades,


importante rama de la matemtica, ha permitido encarar la investigacin de sistemas, tanto
cerrados como abiertos, bajo este relativamente nuevo enfoque. Ejemplos particularmente
representativos aparecen en la termodinmica y en la teora de la informacin.
a) Probabilidad en termodinmica.- La evolucin de los sistemas cerrados o abiertos puede
medirse segn varios parmetros, como por ejemplo el grado de entropa o desorden, pero
tambin segn el grado de probabilidad que pueden alcanzar cuando evolucionan hacia
estados de equilibrio (como en el sistema cerrado) o hacia estados uniformes (como en el
sistema abierto). As, se dice que la tendencia general de los procesos fsicos entendidos
como sistemas cerrados apunta a la entropa creciente o estados de creciente probabilidad,
mientras que los sistemas abiertos, como por ejemplo los sistemas vivos, consiguen
mantenerse en un estado de mnima entropa, es decir, en un estado de alta improbabilidad
estadstica.
b) Probabilidad en Teora de la Informacin.- En la Teora de la Informacin se emplea tanto
la probabilidad clsica como la probabilidad frecuencial. Es posible ilustrar esta cuestin con
el siguiente ejemplo (Lichtenthal, 1970): Un forastero llega a un pueblo y pregunta:
"Llover esta tarde?", a lo cual un vecino contesta "s". Esta respuesta provee mucha
informacin o poca informacin? Todo depende de quien la reciba.
a) Si la respuesta la recibe el mismo forastero, el "S" implica bastante informacin, porque
desconoce el clima del pueblo. El "S" encierra para l tanta informacin como el "No",
porque, al no conocer el clima habitual de la zona, para l ambas respuestas son igualmente
probables (equiprobabilidad), y por consiguiente evala la probabilidad de que llueva o no en
base a una probabilidad terica o a priori.
b) Si la respuesta la escucha otro vecino, el "S" tiene un valor informativo prcticamente
nulo porque todos en el pueblo saben que casi siempre llueve por las tardes. No es ninguna
novedad el "S", es decir encierra poqusima informacin. En cambio si nuestro vecino
hubiese escuchado "No" se sorprendera mucho, y la cantidad de informacin es mucha. El
"S" y el "No" no son igualmente probables, cosa que el vecino descubri por experiencia, por
haber vivido un tiempo en el pueblo (la probabilidad es, en este caso, frecuencial, y las
posibles alternativas no son equiprobables).
Los ejemplos vienen a destacar una idea muy importante que vincula informacin con
probabilidad, y que es la siguiente: el contenido informativo de un mensaje est ntimamente
ligado a su improbabilidad o 'valor sorpresa'. Por ejemplo, cuando ms nos 'sorprende' la
respuesta, o cuando ms 'improbable' o 'inesperada' la juzgamos, ms informacin encierra.
De aqu una importante definicin de informacin, como aquello que hace disminur la
incertidumbre del receptor. Si al vecino le dicen que "s llover en este pueblo esta tarde"
esto no es sorpresa para l, no reduce su incertidumbre y, por consiguiente, apenas si
contiene informacin.

4. Vocabulario.- La teora de la probabilidad utiliza cierta terminologa tcnica. Algunos de los


principales trminos son los siguientes:
Espacio muestral: es el conjunto S de todos los resultados posibles de un experimento dado.
Por ejemplo, los resultados posibles del experimento de arrojar un dado son 1, 2, 3, 4, 5 y 6.
Muestra: es un resultado particular, o sea, un elemento de S. Por ejemplo, arrojar un dado y
obtener 4.
Evento: Un evento A es un conjunto de resultados, o sea, un subconjunto de S. Por ejemplo,
un evento puede ser arrojar dos veces un dado obtenindose por ejemplo un 4 y un 3. Si el
evento tiene una sola muestra, se llama evento elemental.
El conjunto S o espacio muestral es de por s un evento (en este caso se lo llama cierto o
seguro, pues es seguro que arrojando un dado se obtendr 1, 2, 3, 4, 5 o 6), mientras que
tambin se considera evento al conjunto vaco (se lo llama imposible: no es posible que no
salga ningn nmero).
Se pueden combinar eventos entre s para formar nuevos eventos, por ejemplo:
A unin B es el evento que sucede si y slo si A o B o ambos suceden.
A interseccin B es el evento que sucede si y slo si A y B suceden simultneamente.
A complemento de A es el evento que sucede si y slo si A no sucede. Dos eventos son
mutuamente excluyentes cuando no pueden suceder simultneamente.
Espacio finito de probabilidad: se obtiene al asignar a cada muestra de un espacio muestral
finito una determinada probabilidad de ocurrencia en forma de nmero real. La probabilidad
de un evento es igual a la suma de las probabilidades de sus muestras. Si en un espacio
finito de probabilidad cada muestra tiene la misma probabilidad de ocurrir, se llamar
espacio equiprobable o uniforme. Existen tambin espacios muestrales infinitos.

3.2 DEFINICIN Y CARACTERSTICAS DE LA CURVA NORMAL

Si se tomaran nueve personas al azar para medir la variable frecuencia cardaca, podran
obtenerse, por ejemplo, los siguientes resultados: tres personas con 62, cinco personas con
70 y una persona con 84 pulsaciones por minuto. Representando visualmente esta situacin
mediante un polgono de frecuencias, se obtiene el grfico 1.
Si se registrara la frecuencia cardaca de 80 personas ms, probablemente se obtendra
resultados similares al polgono de frecuencias del grfico 2. Finalmente, si se consideraran
infinito nmero de personas, la representacin visual se asemejara al grfico 3, denominado
curva normal, curva de Gauss o campana de Gauss (por su forma acampanada).
Como puede apreciarse, ciertas variables continuas como la frecuencia cardaca, la glucemia,
la estatura, el peso, la agudeza visual, el cociente intelectual, y otras, tiende a adoptar la
forma de una curva normal a medida que aumenta la cantidad de casos observados (3).
Aunque esta curva es una idealizacin, porque no pueden medirse infinitos casos, tiene,
como se ver, su utilidad, an cuando las variables que se estudian desde este modelo no
siguen estrictamente la distribucin de la curva normal. Pruebas como por ejemplo el chi
cuadrado permiten determinar si una distribucin es lo suficientemente parecida a una
distribucin normal como para poder aceptar el modelo de la curva normal para estudiarla.
De hecho, muchas variables tienen distribuciones lo suficientemente similares a una
distribucin normal como para tratarlas como tales sin cometer grandes errores.
En relacin con estas cuestiones, conviene recordar aqu el teorema del lmite central, que
dice que cualquiera sea la poblacin de donde se tome una muestra, la distribucin de los
valores de la muestra se aproximan o asemejan cada vez ms a una distribucin normal a
medida que el tamao n de la muestra aumenta. En la prctica se consideran normales a las
muestras cuyo tamao es igual o superior a 30.

f
Grfico 1 Grfico 2 Grfico 3

62 70 84 70 x

La curva normal tiene entonces algunas caractersticas que son las siguientes:
a) Es la idealizacin de un polgono de frecuencias con tendencia central para una gran
cantidad de casos. Por esta razn tiene la apariencia de una curva y no de una lnea
quebrada, ya que el polgono de frecuencias tiene infinito nmero de lados.
b) Tiene forma de campana: no tiene otras formas similares como puede ser la forma de
herradura o la forma de una campana invertida.
c) Es simtrica respecto de un eje vertical, lo que las diferencia de otras curvas como por
ejemplo la hiprbole equiltera. La simetra de la curva normal implica que la media
aritmtica, la mediana y el modo coinciden en el punto central. Consecuentemente, la curva
normal es unimodal (en cambio, una campana invertida podra ser bimodal). Tambin
implica que la distancia del cuartil 1 al cuartil 2 es igual a la distancia entre el cuartil 2 y el
cuartil 3.
d) Es asinttica respecto del eje x. Esto significa que la curva y el eje de las absisas se
cortan en el infinito, lo cual implica que cualquier valor de x tiene potencialmente alguna
frecuencia, y ninguna frecuencia igual a 0.
e) La curva normal puede adoptar diferentes formas: mesocrtica, platicrtica o leptocrtica.
f) Los puntos de inflexin (donde la curva cambia de cncava a convexa y viceversa) se
encuentran en los puntos correspondientes a la media aritmtica ms/menos un desvo
estndar.
g) Hay muchas posibilidades de curvas normales, dependiendo de cules sean los valores de
las medias aritmticas y los desvos estndar. La ms importante es aquella que tiene como
media aritmtica 0 (cero) y como desvo estndar 1 (la unidad). En este caso, la curva
normal se designa como distribucin o curva normal estndar o estandarizada.
h) Est comprobado que en una curva normal, y siempre idealmente, alrededor de un 68%
de los casos posibles estn comprendidos entre menos un desvo estndar y ms un desvo
estndar alrededor de un 95% estn comprendidos entre menos 2 y ms dos desvos
estndar y alrededor de un 99% estn comprendidos entre menos tres y ms tres
desvos estndar segn lo ilustra el siguiente esquema:

Esto significa por ejemplo que una persona tiene una probabilidad del 68% de tener una
frecuencia cardaca comprendida entre menos un desvo estndar y ms un desvo estndar.
Si la media aritmtica de esta distribucin fuera 80 pulsaciones por minuto y el desvo
estndar fuera de 10 pulsaciones por minuto, entonces la frecuencia cardaca de una persona
cualquiera tendra un 68% de probabilidades de valer entre 70 y 90 pulsaciones por minuto.
Siguiendo el mismo criterio, tambin puede calcularse la probabilidad de aparicin de un
valor comprendido entre menos tres desvos estndar y la media aritmtica (99% dividido
2), la probabilidad de aparicin de un valor comprendido entre menos dos desvos estndar y
la media aritmtica (95% dividido 2), la probabilidad de aparicin de un valor comprendido
entre menos un desvo estndar y ms dos desvos estndar (68% dividido 2, ms 95%
dividido 2), y la probabilidad de obtener cualquier otro valor intermedio (como el
comprendido entre -1.27 desvos y +2.56 desvos), para lo cual se habr de consultar una
tabla especialmente confeccionada para tal efecto.

3.3 PUNTAJES BRUTOS Y PUNTAJES ESTANDARIZADOS

Antes de hacer referencia a las utilidades prcticas de la curva normal, convendr aclarar
algunos conceptos tales como los de puntaje bruto y puntaje estandarizado.

Para designar los diferentes valores que asume una variable para una determinada unidad de
anlisis, en estadstica descriptiva suele emplearse la expresin dato. Por ejemplo, un dato
puede ser Juan mide 1.70 metros. Muchos datos, sin embargo, se distribuyen de acuerdo a
una curva normal, y esta clase de datos suelen ser tpicamente puntuaciones o puntajes de
tests o pruebas de evaluacin. Por ejemplo, Juan obtuvo 90 puntos en el test de inteligencia
de Weschler, o Pedro obtuvo 7 puntos en el examen de geografa. Esta es la razn por la
cual, en lo que sigue se utilizar la expresin puntaje en lugar de dato, pero debe tenerse
presente que todo puntaje es, siempre, un dato.

Se llama puntaje bruto, directo u original al puntaje obtenido por un sujeto en una prueba.
Por ejemplo, podra resultar de la suma de respuestas correctas, valiendo cada una de ellas
un punto (Kohan, 1994:138).
Los puntajes brutos presentan sin embargo algunos inconvenientes. Por ejemplo: a) Si una
persona obtuvo 4 puntos en una prueba acadmica, podemos suponer que obtuvo un bajo
puntaje porque lo comparamos con el puntaje mximo, que es 10. Sin embargo, no nos sirve
para comparar a esa persona con el resto de la poblacin, ya que si los dems alumnos
obtuvieron en promedio 2 puntos, la calificacin 4 ser, entonces, alta. b) Si una persona
obtuvo 8 puntos en geografa y 5 puntos en matemticas, podemos suponer que obtuvo ms
puntaje en geografa. Sin embargo, esta suposicin es errnea si resulta ser que el puntaje
mximo en geografa es 20 y el puntaje mximo en matemticas es 6, en cuyo caso habr
obtenido mayor puntaje en matemticas.
Estas y otras dificultades pueden resolverse transformando los puntajes brutos en otros
llamados puntajes estandarizados (o tambin puntajes transformados, porque resultan de
haber transformado los puntajes brutos). Estos puntajes estandarizados permitirn, por
ejemplo, comparar el puntaje de un sujeto con toda la poblacin, o bien comparar dos
puntajes de pruebas con diferentes sistemas de evaluacin (1).
Los puntajes estandarizados pueden ser lineales o no lineales, segn que resulten de
transformaciones lineales o no lineales (Kohan, 1994:138). En el primer caso existe una
proporcionalidad entre los puntajes brutos y sus correspondientes puntajes estandarizados,
ya que la transformacin opera segn una ecuacin lineal o ecuacin de primer grado y, por
tanto, no deforma la distribucin de los puntajes brutos.
En lo que sigue se describen sucintamente tres ejemplos de puntajes estandarizados de uso
frecuente: los puntajes estandarizados z (puntaje reducido), Z (puntaje derivado) y P
(puntaje percentil).
El puntaje reducido z es un dato transformado que designa a cuntas unidades de desvos
estndar por arriba o por debajo de la media se encuentra un dato en bruto (Pagano,
1998:84). Para transformar un dato en bruto x en un puntaje z se utiliza la frmula: z = (x -
X) / s.
Pueden destacarse tres caractersticas de los puntajes z (Pagano, 1998:86-87): a) tienen la
misma forma que el conjunto de datos en bruto; b) la media de los puntajes z es siempre
igual a cero; y c) el desvo estndar de los puntajes z es siempre igual a 1.
El puntaje derivado Z (tambin llamado a veces puntaje derivado T) tiene la ventaja sobre
el puntaje reducido z que no tiene valores negativos y que pueden despreciarse los
decimales por ser una cantidad pequea (Kohan, 1994:141). Para transformar un puntaje
reducido z en un puntaje derivado Z se utiliza la frmula: Z = (z.10) + 50, ya que este
puntaje derivado considera la media aritmtica como 50 y el desvo estndar como 10.
Existen otras modalidades de puntajes derivados (Botella: 1993:161). Uno muy conocido en
psicologa es el llamado cociente intelectual o CI, que considera como media aritmtica a 100
y como desvo estndar a 15.
El puntaje percentil P es un puntaje no lineal y es tambin de uso frecuente por su
facilidad de comprensin, aunque tenga el inconveniente de que su distribucin toma una
forma que no responde a la realidad de las funciones psicolgicas. Para transformar un
puntaje z en un puntaje percentil hay que recurrir a una tabla especial, que se describe ms
adelante.
Como se puede apreciar en el esquema siguiente, el puntaje percentil P no es proporcional al
resto de los puntajes, pero si lo es respecto de las reas cubiertas bajo la curva normal,
reas que a su vez indican la probabilidad de ocurrencia de un puntaje cualquiera. En efecto,
puede verse que los puntajes percentiles P estn concentrados en aquellos lugares donde el
rea bajo la curva es mayor y, adems, cuanto mayor es esta rea mayor ser el percentil
correspondiente.

Las correspondencias entre los diferentes puntajes pueden visualizarse mediante el siguiente
esquema (2):

Equivalencias de puntajes brutos y estandarizados

f (frecuencia) X = media aritmtica


s = desvo estndar
x = puntaje bruto
z = puntaje reducido
Z = puntaje derivado
P = percentil

50% del rea 50% del rea


probabilidad = 0.5 probabilidad = 0.5

x
-3s -2s -1s X +1s +2s +3s

z
-5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5

Z
0 10 20 30 40 50 60 70 80 90 100

P
P0 P2 P16 P50 P84 P98 P100

As por ejemplo, puede apreciarse que un puntaje bruto correspondiente a ms un desvo


estndar corresponde a un puntaje reducido z de +1, a un puntaje derivado Z de 60, y a un
percentil de 84.
Especialmente cuando se trata de averiguar valores intermedios (por ejemplo el puntaje
bruto correspondiente a ms 1.62 desvos estndar) debe recurrirse al empleo de frmulas y
tablas. El siguiente esquema indica la forma de hacerlo:

Reglas de transformacin de puntajes (de utilidad para resolver aplicaciones prcticas de la


curva normal)
Tabla: entrar
z = (x - X) / s por z
PUNTAJE PUNTAJE AREA EXPRESADA
BRUTO (x) REDUCIDO (z) COMO PROBABILIDAD
x = (z.s) + X Tabla: entrar (p)
por p

Multiplicar Dividir
Z = (z.10) + 50 z = (Z-50) / 10 por 100 por 100

AREA EXPRESADA
PUNTAJE COMO PORCENTAJE (%)
DERIVADO (Z)

m% Pm Pm m%

m = un nmero cualquiera entre 0 y 100 PERCENTIL (P)

En este esquema, las flechas ms gruesas indican los procedimientos habituales en las
aplicaciones prcticas de la curva normal, mientras que aquellas y las flechas ms finas
indican mas bien los procedimientos que se piden en ejercitaciones en cursos de estadstica.

3.4 APLICACIONES DE LA CURVA NORMAL

El modelo matemtico de la curva normal tiene varias aplicaciones prcticas, como por
ejemplo en psicologa y ciencias de la educacin. Pagano (1998:81) invoca tres razones
principales que explican su importancia en estas disciplinas: 1) Muchas variables psicolgicas
tienen distribuciones muy semejantes a la curva normal, tales como altura, peso e
inteligencia. 2) Muchas pruebas de inferencia empleadas para analizar experimentos tienen
distribuciones muestrales que poseen una distribucin muestral al aumentar el tamao de la
muestra. 3) Muchas pruebas de inferencia requieren distribuciones muestrales que se
asemejen a la curva normal, como la prueba z, la prueba t de Student o la prueba F.
Consiguientemente, gran parte de la importancia de la curva normal aparece conjuntamente
con la estadstica inferencial.

En lo que sigue se suministran algunos ejemplos de aplicaciones prcticas de la curva normal


con puntajes estandarizados. En primer lugar se expone un problema tpico y la forma de
resolverlo teniendo en cuenta las reglas de transformacin de puntajes (ver esquema
anterior). En segundo lugar, se presentan algunas variantes posibles dentro del problema
tpico u otros.

Problema tpico.- La variable peso en una poblacin de mujeres adultas tiene una
distribucin aproximadamente normal, con una media aritmtica (X) de 60 kg y un desvo
estndar (s) de 6 kg. Calcular la probabilidad de que una mujer adulta de esa poblacin
tomada al azar tenga un peso mayor a 68 kg.

Resolucin del problema tpico.- Cuando el enunciado del problema afirma que la variable
tiene una distribucin aproximadamente normal, ello significa que puede ser resuelto
recurriendo al modelo de la curva normal. A partir de aqu, los pasos para resolverlo son los
siguientes:
a) Lo primero que debe especificarse son los datos y las incgnitas. Los datos son tres: la
media aritmtica (60 kg), el desvo estndar (6 kg), y finalmente un valor de la variable a
partir del cual debe estimarse su probabilidad (68 kg). En smbolos:
X = 60 kg s = 6 kg x = 68 kg
En este caso el problema solicita resolver una sola incgnita: la probabilidad de que una
persona tomada al azar tenga ms de 68 kg (tambin podra haber solicitado averiguar la
probabilidad de que tenga menos de 50 kg, o la probabilidad de que tenga entre 40 y 60 kg).
En smbolos:
p 68 kg > x

b) Antes de seguir adelante, siempre convendr trazar la curva normal y especificar la


informacin revelante para resolver el problema. En este caso es:

Segn el esquema de reglas de transformacin de puntajes, si a partir de un valor dado de x


(68 kg) se quiere calcular su probabilidad p, antes deber transformarse el valor x a un
puntaje reducido z, el cual constituye una incgnita (?) que deber resolverse.
Asimismo se raya el rea bajo la curva que se extiende desde 68 hacia la derecha, porque es
esa probabilidad (proporcional al rea rayada) la que debe averiguarse (es decir, 68 o ms).

c) Se aplica la frmula de transformacin del puntaje x en puntaje z:

z = (x - X) / s
z = (68 60) / 6 = 1.33

d) Se recurre a la Tabla de reas bajo la curva normal estandarizada para hallar la


probabilidad p a partir de z = 1.33. Para ello, puede utilizarse indistintamente la Tabla 1 o la
Tabla 2 (ver Anexo).
Se utilizar la Tabla 1, donde puede verse que a un valor z = 1.33 corresponde una
probabilidad p = 0.9082.

e) Sin embargo, esta tabla indica la probabilidad de z o menos, es decir, la zona rayada
hacia la izquierda de z.
Por lo tanto, como lo que interesa es la probabilidad de un valor de z o mayor, se restar al
valor p = 1 (el total del rea bajo la curva) el valor p = 0.9082. En smbolos:
Area total 1.0000
Menos rea hacia la izquierda 0.9082
Area hacia la derecha 0.0918
Por lo tanto, la probabilidad de que una mujer adulta pese ms de 68 kg es de p = 0.0918.
Traduciendo la probabilidad a porcentajes, puede decirse que existe un 9.18% de
probabilidades de que la mujer pese 68 kg o ms. De idntica manera, puede decirse que el
percentil P que ocupa una mujer adulta de 68 kg es, siguiendo las pautas del esquema de
reglas de transformacin de puntajes: P91 (calculado y redondeado a partir de p = 0.9082),
lo cual significa que una mujer que pese 68 kg tiene por debajo aproximadamente un 91%
de personas que pesan menos que ella.

Algunas variantes posibles.- Los siguientes ocho casos ilustran algunos ejemplos de
problemas que pueden resolverse mediante la curva normal y los puntajes estandarizados. El
problema tpico examinado precedentemente encuadra en el caso 4.
En todos estos casos se trata de calcular la probabilidad de ocurrencia de un valor
comprendido bajo el rea rayada de la curva ya que la probabilidad de ocurrencia del valor
es proporcional al rea respectiva. Como se ver, en algunos casos conviene ms utilizar la
Tabla 1 y en otros las Tabla 2 (ver Anexo).

CASO 1 CASO 2

CASO 3 CASO 4

CASO 5 CASO 6

CASO 7 CASO 8

Caso 1.- Aqu se trata de averiguar la probabilidad p de que un valor cualquiera de la


poblacin corresponda a z = +1.5. Para este caso convendr utilizar la tabla 1, donde
primero se busca el valor +1.5 en la primera columna, y luego se busca su valor de
probabilidad, que es p = 0.9332. Nota: si el valor de z hubiese sido +1.56, se busca primero
z = 1.5 y luego se busca, en la primera hilera, el valor 0.06 (ya que 1.5 + 0.06 = 1.56). En
el entrecruzamiento de 1.5 y 0.06 encontraremos, finalmente, el valor de la probabilidad p =
0.9406.

Caso 2.- En este caso se procede de manera similar que en el caso anterior.

Caso 3.- Aqu se trata de averiguar la probabilidad de que un valor z valga -2 o ms. Esta
situacin exige dos pasos. El primer paso es idntico al caso 1. Sin embargo, este primer
paso calcula la probabilidad de z hacia la izquierda, y lo que se necesita saber es la
probabilidad de z hacia la derecha (zona rayada). Como se sabe que la totalidad del rea
bajo la curva vale 1, para averiguar la zona hacia la derecha bastar con restar 1 de la
probabilidad de la zona hacia la izquierda. En esto consiste el segundo y ltimo paso.

Caso 4.- Aqu debe averiguarse la probabilidad de que un valor z valga 1.5 o ms. La opcin
ms sencilla es aqu emplear la Tabla1, con la cual se calcula la probabilidad correspondiente
a z = +1.5, que es p = 0.9332. Esta probabilidad corresponde a la zona rayada desde z
hacia la izquierda, pero como debe averiguarse la probabilidad de z hacia la derecha, deber
restarse 1 menos 0.9332.

Caso 5.- Aqu debe averiguarse la probabilidad de que un valor z est comprendido entre -
2.5 y +1.5. Una forma sencilla de resolver este problema es dividiendo el rea rayada en
dos: una desde la mitad hacia la izquierda (0 a -2.5) y otra desde la mitad hacia la derecha
(0 a +1.5). Se calcula luego la probabilidad de cada rea recurriendo a la Tabla 2, y
finalmente se suman ambas probabilidades. Nota: para el clculo de la zona rayada de la
mitad hacia la izquierda se buscar en la Tabla 2 el valor z = +2.5, porque es igual al valor z
= -2.5 (por ser la curva normal simtrica).

Caso 6.- Este caso es tan sencillo que no requiere el uso de tablas. La probabilidad de la
zona rayada es p = 0.5 porque corresponde exactamente a la mitad de toda el rea bajo la
curva, cuya p es igual a 1 (p = 1 equivale a la certeza).

Caso 7.- Aqu debe calcularse la probabilidad de que un valor z est comprendido entre -2 y
-1. En este caso, en lugar de sumar reas como en el caso 5, debern restarse reas.
Recurriendo a la Tabla 1, se calcula primero la probabilidad correspondiente a z = -1 (que es
p = 0.1587) y luego la probabilidad de z = -2 (que es p = 0.0228). La probabilidad
resultante ser p = 0.1587 0.0228 = 0.1359.

Caso 8.- Aqu debe calcularse la probabilidad de que un valor z est comprendido entre +1 y
+2. Se puede proceder de la misma forma que en el caso 7, es decir, restando las
probabilidades correspondientes a z = +2 y z = +1.

NOTAS

(1) Botella (1993:153) refiere que los puntajes estandarizados son tiles en los siguientes casos: a) al
hacer comparaciones entre unidades de distintos grupos: se pueden comparar, mediante puntuaciones
estandarizadas, distintas observaciones de un mismo sujeto o de sujetos diferentes; b) al hacer
comparaciones entre variables medidas de distinta forma, debido a que los puntajes estandarizados son
adimensionales. Por ejemplo, comparar una altura expresada en centmetros con otra expresada en
metros; y c) al comparar observaciones de distintas variables: por ejemplo, comparar la altura y el peso
de un sujeto.
(2) En el esquema puede apreciarse que z contempla valores que se extienden a -5 o +5.desvos
estndar. En la prctica, sin embargo, se consideran solamente valores entre -3 y +3 por razones
prcticas. En efecto, los valores superiores a +3 o menores a -3 cubren reas muy pequeas bajo la
curva, es decir, la probabilidad de ocurrencia de puntajes mayores que +3 o menores que -3 son muy
improbables, estando muy alejados de la media aritmtica.
(3) Hay muchas formas en que los datos pueden distribuirse, y en todos esos casos existe cierta
regularidad en los mismos. Por ejemplo, hay una tendencia a que la mitad de las veces salga cara
arrojando una moneda, y tambin hay una tendencia a que la mitad de las veces se opte por un
producto A y no uno B (suponiendo que lo hay ninguna razn para elegir uno u otro). Estos hechos
sugieren que los datos de una manera regular, y los estadsticos propusieron diversos modelos de
distribucin, uno para cada forma regular de distribucin de datos, como por ejemplo el modelo
Bernouilli o el modelo binomial.
La nocin de permanencia estadstica (Vessereau A, 1962:15) hace referencia a ciertas uniformidades en
los datos de la realidad. Por ejemplo: a) la cantidad de varones y la de mujeres tiende a ser
aproximadamente igual; b) el tamao de las galletitas que fabrica una mquina tiende a ser
aproximadamente igual; c) la proporcin entre granos esfricos de arvejas y granos arrugados de
arvejas tiende a ser del 75% y del 25% aproximadamente, o sea, siempre tiende a encontrarse
aproximadamente 75 granos esfricos cada 100, y 25 granos arrugados cada 100; d) la estatura de las
personas tienden siempre a estar alrededor de un valor medio, siendo frecuente encontrar estaturas de
1.70 metros pero raro encontrar estaturas de 2 metros.
Estas uniformidades sugieren la presencia de leyes que rigen la forma en que se distribuyen los datos.
Como hay muchas formas en que los datos pueden distribuirse, tambin habr muchas leyes que
describen dichas distribuciones. Entre las ms conocidas (Vessereau A, 1962:16-24) se cuentan la ley
binomial, la ley de Laplace-Gauss y la ley de Poisson. Por ejemplo, la ley de Laplace-Gauss describe las
distribuciones que siguen una curva normal: cuando una magnitud recibe la influencia de una gran
cantidad de causas de variacin, y estas son todas muy pequeas e independientes unas de otras, se
demuestra que los valores individuales de las mediciones se distribuyen respondiendo a la ley de
Laplace-Gauss (Vessereau A, 1962:20).
Otros autores consideran fundamentales a las distribuciones normal, binomial y de Student, y hacen
referencia a otras, como la distribucin chi cuadrado (x2) que, a diferencia de la primeras, no es
paramtrica, es decir, no requiere supuestos tan rigurosos acerca de la poblacin, como por ejemplo de
que esta se distribuya normalmente (Kohan N, 1994:191).
Hay otras leyes que tienen alcance ms general, como por ejemplo la ley de distribucin de las medias
(Vessereau A, 1962:24) que establece que, cualquiera que sea la distribucin (binomial, gaussiana, etc),
el desvo estndar de las medias aritmticas de todas las muestras posibles de n elementos disminuye
inversamente a la raz cuadrada de n. Esto significa que cuanto ms grandes sean las muestras, menos
desviacin o dispersin habr entre sus medias aritmticas.

CAPTULO 4: CORRELACION Y REGRESION

4.1 INTRODUCCIN

El anlisis de correlacin permite averiguar el tipo y el grado de asociacin estadstica entre


dos o ms variables, mientras que el anlisis de regresin permite hacer predicciones sobre
la base de la correlacin detectada.
Ms concretamente, una vez realizado el anlisis de correlacin, pueden obtenerse dos
resultados: que haya correlacin o que no la haya. Si hay correlacin, entonces se emprende
un anlisis de regresin, consistente en predecir cmo seguirn variando esas variables
segn nuevos valores.
Por ejemplo, si sobre la base de haber examinado a 40 alumnos se concluye una alta
correlacin en sus notas en ambos parciales, conociendo la nota del primer parcial de un
alumno nmero 41, podremos predecir con algn margen de seguridad cunto se sacar
este alumno en el segundo parcial.
En general el anlisis de correlacin se realiza conjuntamente con el anlisis de regresin.
Mientras el anlisis de correlacin busca asociaciones, el anlisis de regresin busca
predicciones, es decir, predecir el comportamiento de una variable a partir del
comportamiento de la otra.
As, la correlacin y la regresin estn ntimamente ligadas. En el nivel ms sencillo, ambas
implican la relacin entre dos variables y utilizan el mismo conjunto de datos bsicos, pero
mientras la correlacin tiene que ver con la magnitud y la direccin de la relacin, la
regresin se centra en el uso de la relacin para hacer una prediccin. Esta ltima es sencilla
cuando la relacin es perfecta, pero la situacin es ms compleja si la relacin es imperfecta
(Pagano, 127).
La correlacin es til porque permite hacer predicciones, porque permite establecer
correlaciones (paso previo para la determinacin de una conexin causal), y para realizar
pruebas de confiabilidad de instrumentos de medicin como los tests (prueba test-retest)
(Pagano, 99).
Por ltimo, vale la pena aclarar que en el contexto de un estudio cientfico, no basta con
determinar el grado de correlacin entre dos variables en una muestra. Es necesario adems
establecer, mediante una prueba de significacin (por ejemplo la prueba t), si la correlacin
establecida en la muestra puede extenderse a toda la poblacin con un determinado nivel de
confianza. Esta tarea corresponder a la estadstica inferencial.

Correlacin lineal.- Las relaciones entre variables pueden ser de muchos tipos. a) Hay
relaciones deterministas que responden a modelos matemticos tericos, como por ejemplo
la relacin entre la intensidad de una corriente y la resistencia del conductor, o bien, la
relacin entre la factura de consumo de agua y el nmero de metros cbicos consumidos.
Estas relaciones son habituales en ciencias exactas. b) Otras relaciones no son tan
deterministas, pero pueden eventualmente parecerse slo parecerse- a algn modelo
matemtico terico determinista, en cuyo caso se concluye que ese modelo explica bien la
relacin, aunque no lo haga perfectamente. Estas relaciones son habituales en las ciencias
sociales (Botella, 1993:181).
Dentro de los muchos modelos tericos a los cuales podra ajustarse una relacin no
determinista se cuentan los modelos lineales, los modelos cuadrticos, los modelos cbicos,
etc. El primero se representa mediante una recta, y los restantes mediante diversos tipos de
curva como parbolas e hiprbolas. El presente artculo har referencia, por razones de
simplicidad, a las relaciones lineales y, por tanto, a la correlacin lineal.

Correlacin y causalidad.- El hecho de que dos variables estn correlacionadas, no significa


necesariamente que una sea la causa y la otra el efecto: la correlacin no siempre significa
causalidad. Entre otras cosas, una alta correlacin puede deberse a que ambas variables X e
Y dependen cada una independientemente de otra variable Z, y entonces, al variar Z hace
variar conjuntamente a X e Y, produciendo un efecto de alta correlacin que puede dar la
apariencia de causalidad. Por dar un ejemplo: entre memoria visual (X) y memoria auditiva
(Y) puede haber una alta correlacin, pero ello no significa que la memoria visual sea la
causa de la memoria auditiva, ya que ambas pueden estar dependiendo de otro factor Z ms
general, llmese "memoria", o "cantidad de ARN".
Si realizar el anlisis de correlacin es algo relativamente fcil (se trata de recoger datos y
aplicar una frmula), determinar el vnculo causal suele implicar un procedimiento ms
laborioso, como por ejemplo la ejecucin de un diseo experimental que implique la
comparacin de dos grupos sometidos a condiciones diferentes y donde haya un control
sobre la influencia de variables extraas.

El siguiente esquema permite visualizar algunos pasos posibles para llevar a cabo un anlisis
de correlacin seguido de un anlisis de regresin. El esquema sintetiza, al mismo tiempo,
los temas a tratar en el presente artculo.

Si las variables son

CUANTITATIVAS CUALITATIVAS ORDINALES


Se calcula la correlacin con Se calcula la correlacin con

METODO ANALITICO METODO GRAFICO METODO ANALITICO


Coeficiente de Diagrama de Coeficiente de correlacin por
correlacin de Pearson dispersin rangos de Spearman

Se calcula la METODO ANALITICO


regresin Mtodo de los cuadrados
(prediccin) con mnimos

Para interpretar mejor este METODO GRAFICO


coeficiente, se calcula el Recta de regresin
coeficiente de determinacin

4.2 EL ANLISIS DE CORRELACIN

Juan se sac una buena nota en el primer parcial, y por lo tanto es bastante probable que
tambin saque buena nota en el segundo parcial. Esta persona tiene ms edad y por lo
tanto es ms probable que le falte alguna pieza dentaria. Abundan esta clase de
razonamientos en la vida cotidiana, que suelen aceptarse sin demasiada crtica.
Sin embargo, en un estudio cientfico es habitual que estas hiptesis deban ser comprobadas
ms all de las certidumbres subjetivas. Para constatar si hay realmente asociacin entre
dos o ms variables cualesquiera, se emplea una herramienta denominada anlisis de
correlacin, que tambin evala el grado o intensidad en que dichas variables estn
asociadas. Se examina aqu el caso ms sencillo (dos variables), que se estudia dentro de la
estadstica bivariada.
En el siguiente ejemplo se exponen tres posibles distribuciones de frecuencias bivariadas (1)
referidas a las primeras y segundas notas de exmenes parciales.

Alumno Tabla 1 Tabla 2 Tabla 3


X Y X Y X Y
A 3 2 3 3 3 2
B 4 5 4 4 4 3
C 6 5 6 6 6 5
D 6 6 6 6 6 5
E 8 6 8 8 8 7
F 9 9 9 9 9 8
G 10 9 10 10 10 9
X = Nota del primer parcial
Y = Nota del segundo parcial

En la Tabla 1 se han consignado las notas de los parciales de un grupo de 7 alumnos


ordenadas en forma creciente.
Un somero examen visual de la tabla revela que hay bastante asociacin entre las variables
X e Y: quienes sacaron buena nota en el primer parcial tienden a sacar buena nota en el
segundo, y lo mismo para quienes sacaron bajas notas, con lo cual ambas variables tienden
a variar concomitantemente o conjuntamente.
Sin embargo, debe tenerse presente que la asociacin o correlacin entre ambas variables
no depende de la similitud entre X y Y, sino de la similitud de sus modos de variacin. As, en
la Tabla 2 las notas de los primeros y segundos parciales de cada alumno son iguales, y en la
Tabla 3 la nota del segundo parcial es diferente, pero siempre menor en un punto. Sin
embargo, en ambas tablas la correlacin es la misma.

El anlisis de correlacin busca establecer esencialmente tres cosas:


1) Presencia o ausencia de correlacin.- Dadas dos o ms variables, si existe o no correlacin
entre ellas.
2) Tipo de correlacin.- En caso de existir correlacin, si esta correlacin es directa o inversa.
En la correlacin directa, ambas variables aumentan (o disminuyen) concomitantemente, y
en la correlacin inversa ambas variables varan inversamente, o tambin puede decirse "en
relacin inversamente proporcional", lo que significa que cuando una aumenta la otra
disminuye, o viceversa (2). En el siguiente esquema se muestran algunos ejemplos de
correlacin directa e inversa.

Tipos de correlacin

Tipo Definicin Ejemplos en psicologa


Correlacin Ambas variables Cociente intelectual/calificacin: A mayor CI, mayor
directa o aumentan (o calificacin obtenida en el examen.
positiva disminuyen) en Tiempo/retencin: A mayor tiempo para memorizar,
forma concomitante. mayor cantidad de palabras retenidas.
Test laboral/rendimiento futuro: A mayor puntaje en un
test de aptitud tcnica, mayor rendimiento en dicha
rea dentro de x aos (esto es tambin un modo de
estimar la validez predictiva de un test).
Correlacin Una variable Edad/memoria: Al aumentar la edad, disminuye la
inversa o aumenta y la otra memoria.
negativa disminuye (o Numero de ensayos/cantidad de errores: Al aumentar
viceversa) en forma el nmero de ensayos, disminuye la cantidad de
concomitante. errores.
Cansancio/atencin: Al aumentar el cansancio
disminuye la atencin.

3) Grado de correlacin.- El grado o intensidad de la correlacin, es decir, cunta


correlacin tienen en trminos numricos.

Para hacer todas estas averiguaciones, se puede recurrir a tres procedimientos.


a) El mtodo tabular.- Una correlacin podra constatarse con la simple visualizacin de
tablas de correlacin como las indicadas anteriormente, pero habitualmente las cosas no son
tan fciles, sobre todo porque hay bastante mayor cantidad de datos, y porque estos casi
nunca registran los mismos incrementos para ambas variables. Por lo tanto, debe
abandonarse la simple visualizacin de las tablas y utilizar procedimientos ms confiables,
como los grficos (diagramas de dispersin o dispersiogramas) y los analticos (por ejemplo
el coeficiente de Pearson).
b) El mtodo grfico.- Consiste en trazar un diagrama de dispersin.
c) El mtodo analtico.- Consiste en aplicar una frmula que permita conocer no slo el tipo
de correlacin (directa o inversa) sino tambin una medida cuantitativa precisa del grado de
correlacin. La frmula del coeficiente de Pearson es un ejemplo tpico para medir correlacin
entre variables cuantitativas.
4.3 CLCULO GRFICO DE LA CORRELACIN

Un grfico es mucho mejor que una tabla para apreciar rpidamente si hay o no correlacin
entre variables. Existen varias maneras de graficar la correlacin (3), pero aqu se describir
el procedimiento clsico: el diagrama de dispersin. El diagrama de dispersin es
bsicamente una nube de puntos, donde cada punto corresponde al entrecruzamiento de
cada par de valores de X e Y. Este diagrama puede realizarse independientemente del clculo
analtico de la correlacin.
Por ejemplo, el diagrama de dispersin correspondiente a la Tabla 1 se asemeja al diagrama
A del esquema de diagramas de dispersin.
A este diagrama se ha agregado a ojo una lnea imaginaria, que viene a representar ms o
menos el ordenamiento lineal de los puntos (que van desde abajo a la izquierda hacia arriba
a la derecha). El diagrama se llama 'de dispersin' porque muestra cun dispersos (prximos
o alejados) estn los puntos alrededor de dicha recta. Fcil es advertir que cuanto ms
alineados estn, ms correlacin habr. En el ejemplo A del esquema sobre diferentes
diagramas de dispersin, los puntos tienden a ubicarse en las proximidades de la recta
imaginaria, lo que indica que estn poco dispersos. Si los puntos figurasen ms alejados
habra ms dispersin, y por lo tanto menor correlacin entre X e Y.
El caso B muestra correlacin inversa, pues el ordenamiento de los puntos indican que, a
medida que aumenta X, va disminuyendo Y. As entonces, cuando la lnea imaginaria va de
abajo a la izquierda hacia arriba a la derecha, hay correlacin directa, y cuando va desde
arriba a la izquierda hacia abajo a la derecha hay correlacin inversa. Dicho ms
tcnicamente, en el primer caso la recta tiene una inclinacin o pendiente positiva, y en
segundo su pendiente es negativa.
El caso C revela, por su parte, que a medida que aumenta Y, los valores de X ni aumentan ni
disminuyen, permaneciendo fijos en el valor 5. Por lo tanto no hay correlacin. En general no
la hay cuando una de las variables no vara (en este caso X permanece constante en el valor
5).
El caso D es similar al anterior: all los valores de Y permanecen constantes en el nmero 4,
mientras va variando X. Tampoco hay correlacin.
El caso E muestra un ejemplo donde varan ambas variables, pero sin embargo no hay
correlacin. En esa nube es imposible trazar una lnea imaginaria representativa de la
orientacin de los puntos, simplemente porque no hay tal orientacin lineal. Los valores que
van asumiendo las variables son en principio aleatorios (varan al azar). Tampoco hay
correlacin.
El caso F nos muestra un caso de correlacin perfecta o mxima (en este caso directa), pues
no hay dispersin de puntos alrededor de la lnea imaginaria: todos estn sobre ella. Estas
regularidades perfectas no suelen encontrarse fcilmente, ni menos an en ciencias
sociales, porque los fenmenos obedecen siempre a muchas causas que estarn actuando
para romper la armona natural entre X e Y.
Tambin hay casos de correlacin no lineal, donde en lugar de una recta imaginaria se traza
una curva. En este artculo se presentan solamente los casos ms sencillos, es decir, los
casos de correlacin lineal, representables mediante rectas.

Diferentes diagramas de dispersin


Y Y Y

10 10 10
9 9 9
8 8 8
7 7 7
6 6 6
5 5 5
4 4 4
3 3 3
2 2 2
1 1 1
0 0 0

0 1 2 3 4 5 6 7 8 9 10 X 0 1 2 3 4 5 6 7 8 9 10 X 0 1 2 3 4 5 6 7 8 9 10 X

A) Correlacin directa B) Correlacin inversa C) Sin correlacin

Y Y Y

10 10 10
9 9 9
8 8 8
7 7 7
6 6 6
5 5 5
4 4 4
3 3 3
2 2 2
1 1 1
0 0 0

0 1 2 3 4 5 6 7 8 9 10 X 0 1 2 3 4 5 6 7 8 9 10 X 0 1 2 3 4 5 6 7 8 9 10 X

D) Sin correlacin E) Sin correlacin F) Correlacin directa


perfecta

Si bien una nube de puntos puede dar una idea de si hay o no correlacin, o de si es directa
o inversa, todava no proporciona informacin sobre cuanta correlacin hay. Esta
informacin se obtiene mediante un clculo analtico.

4.4 CLCULO ANALTICO DE LA CORRELACIN

La correlacin se calcula analticamente mediante ciertos coeficientes, que sern distintos


segn se trate de correlacionar variables nominales, ordinales o cuantitativas, y segn se
trate de otras consideraciones varias.
Si bien existen muchos coeficientes de correlacin (4), en lo que sigue se explicarn algunos
de los ms utilizados: el coeficiente de correlacin lineal de Pearson (para variables
cuantitativas), y el coeficiente de correlacin por rangos de Spearman (para variables
cualitativas ordinales).

a) Coeficiente de correlacin lineal de Pearson

Este coeficiente (que se designa con r), fue creado por Karl Pearson (1857-1936) para
relacionar variables cuantitativas (es decir, variables que, como nota de examen, se miden
mediante nmeros).
El coeficiente de Pearson es un nmero comprendido entre -1 y +1, y que posee un
determinado signo (positivo o negativo). El valor numrico indica cuanta correlacin hay,
mientras que el signo indica qu tipo de correlacin es (directa si el signo es positivo,
inversa si es negativo). En el siguiente esquema se muestran algunos posibles valores de r.

Algunos valores del coeficiente de Pearson


Correlacin inversa mxima (-1)

Baja correlacin inversa (-0.15)

Correlacin nula (0)

Alta correlacin directa (+0.70)

Correlacin directa mxima (+1)

Cuanto ms cerca de cero est el coeficiente de correlacin obtenido, tanto menor


correlacin habr. Cabra preguntarse: hasta qu valor se considera que hay correlacin?
desde qu valor no la hay? Esto es una cuestin que depende de varias cosas, y hace a la
cuestin de la relatividad del coeficiente de Pearson.
En efecto, su interpretacin depende de varios factores, como por ejemplo: a) la naturaleza
de las variables que se correlacionan; b) la significacin del coeficiente; c) la variabilidad del
grupo; d) los coeficientes de confiabilidad de los tests; e) el propsito para el cual se calcula
r.
El valor r = 0,70 puede indicar alta correlacin para cierto par de variables, pero baja
correlacin para otras variables distintas. Otro ejemplo: un r de 0,30 entre estatura e
inteligencia o entre tamao craneal y habilidad mecnica indicara una correlacin mas bien
alta, puesto que las correlaciones entre variables fsicas y mentales suelen ser mucho ms
bajas, a menudo iguales a cero. Otro ejemplo: un r de 0,30 entre inteligencia y nota de
examen, o entre puntaje en ingls y puntaje en historia es considerada bajsima, ya que los r
en estos campos suelen extenderse entre 0,40 y 0,60. Otro ejemplo: semejanzas entre
padres e hijos, en cuanto a rasgos fsicos y mentales, se expresan por valores entre 0,35 y
0,55, y por lo tanto un r de 0,60 sera alto.
Respecto de la frmula para calcular el coeficiente de correlacin de Pearson ("r"), no hay
una nica manera de presentarla, y la eleccin de una u otra depender de la forma de
presentacin de los datos. Por ejemplo, si los datos estn agrupados en una tabla de
frecuencias, se utiliza cierta frmula (Bancroft, 1960:190), mientras que si los datos no
estn agrupados en frecuencias, podrn utilizarse cualquiera de las frmulas indicadas en el
siguiente esquema (5):

Frmula 1 Frmula 2

{ ( x X) (y Y) } { ( x X) (y Y) }
r = ------------------------------- r = -------------------------------
2 2
n x. y ( x X) . (y Y)

Se usa esta frmula cuando dan como (El denominador debe elevarse a la raz cuadrada).
datos las medias de X e Y y sus Se usa esta frmula cuando dan como datos las medias
respectivos desvos estndar. aritmticas de X e Y.
Frmula 3 Frmula 4

(Z x . Zy)
n (x.y) x . y
r = ---------------------
n r = ------------------------------------------------
n x2 ( x)2 . n y2 ( y)2
Se usa esta frmula cuando dan como
datos los puntajes estandarizados Z. (Ambos factores del denominador se elevan a la raz cuadrada)
Se utiliza esta frmula (llamada frmula del producto momento)
cuando no se conocen ni medias aritmticas ni desvos
estndar.
A continuacin se suministra un ejemplo de cmo calcular el coeficiente "r" utilizando la
frmula 2. Se trata de determinar el coeficiente de Pearson para dos variables X e Y (que
podran ser por ejemplo las notas del primero y segundo parcial). Tambin se pide
interpretar el resultado.
La tabla 1 son los datos dados, mientras que la tabla 2 es una ampliacin que debe hacerse
para poder obtener ms informacin y poder as aplicar la frmula:

Tabla 1

Alumno X Y
A 4 6
B 5 7
C 7 8
D 9 9
E 10 10
N=5 alumnos 35 40

Tabla 2
2 2
xX yY ( x X) (y Y) ( x X) (y Y)
-3 -2 6 9 1
-2 -1 2 4 1
0 0 0 0 0
2 1 2 4 1
3 2 6 9 1
0 0 16 26 10

X=7
Y=8

Con los datos obtenidos se aplica ahora la frmula 2:

{ ( x X) (y Y) } 16
r = ---------------------------------------- = ----------------------- = +0.99
2 2
raz de ( x X) . (y Y) raz de 26,10

Interpretando el resultado, se puede decir que la correlacin obtenida es directa o positiva y


es adems, muy alta.

Coeficientes derivados.- A partir del coeficiente "r" de Pearson (en cualquiera de sus formas)
se pueden derivar otros, segn la informacin que se quiera obtener:
1) Coeficiente de determinacin (r2): es el coeficiente "r" elevado al cuadrado. El coeficiente
de determinacin indica qu porcentaje de la variacin de Y est determinada por las
variaciones de X. Por ejemplo, para un "r" de 0,70, hay un coeficiente de determinacin de
0,49, lo que significa que el 49% de la variacin de Y est determinada por la variacin de X.
2) Coeficiente de alienacin (k): llamado tambin de no correlacin, no indica la correlacin
sino la falta de correlacin entre dos variables (o grado de independencia). Para calcularlo se
aplica la frmula siguiente:
r2 + k2 = 1 [1]
Por ejemplo, si sabemos que "r" es de 0,50, aplicando la frmula indicada tenemos que "k"
vale 0,86, con lo cual el grado en que falta la correlacin resulta ser mayor que el grado en
que s hay correlacin.
Idnticamente, si "r" vale 1 entonces "k" vale 0, y viceversa. Cuanto mayor es el coeficiente
de alienacin tanto menor es la correlacin, y por tanto menos confiables sern las
predicciones que -anlisis de regresin mediante- se hagan sobre esa base.
3) Coeficiente de indeterminacin (k2): es el coeficiente "k" pero elevado al cuadrado. Mide
el grado en que la variacin de Y no est determinada por la variacin de X. La frmula del
coeficiente de indeterminacin es deducible de la anterior [1].
4) Coeficiente de eficiencia predictiva (E): suele utilizarse para, sabiendo "r", estimar
rpidamente el poder predictivo de la correlacin "r". Su frmula es:
E = 100 . (1 - 1-r2) donde 1-r2 debe elevarse a la raz cuadrada.
Por ejemplo si la correlacin "r" es de 0,50, la eficiencia predictiva ser del 13%. Pero
cuando "r" sube a 0,98, la eficiencia predictiva ser del 80%. La correlacin debe ser
entonces de 0.87 o ms para que la eficiencia predictiva sea mayor al 50%.

Matriz de correlaciones.- En muchas investigaciones se estudian muchas variables, y se


intenta cuantificar mediante el coeficiente r sus relaciones dos a dos, es decir, las relaciones
de cada variable con cada una de las dems (Botella, 1993:202). A los efectos de comparar
estos diferentes valores de r se traza una matriz de correlacin, que puede tener la
siguiente forma:

Variable X Variable Y Variable W Variable Z


Variable X r = -0.17 r = -0.11 r = -0.30
Variable Y r = +0.46 r = +0.17
Variable W r = +0.10
Variable Z

La matriz permite visualizar inmediatamente, entre otras cosas, cules son los coeficientes
de correlacin ms altos (en este caso, entre Y y W).
Ntese que no han sido llenados los casilleros donde se cruzan las mismas variables (por
ejemplo X con X), porque carece de sentido hacerlo y su correlacin es siempre perfecta y
positiva (r = +1).

b) Coeficiente de correlacin por rangos de Spearman

Se trata de un coeficiente de correlacin utilizado para estudiar la asociacin entre dos


variables ordinales. Se representa con la letra griega rho, y sus frmulas son las siguientes:

Frmula 1 Frmula 2
2 2 2 2
6 d x + y + d
= 1 - --------------------------- = --------------------------------
2 2
n (n + 1) (n 1) 2. x. y

La frmula para obtener x o y es la misma en ambos


2 2

casos, y es x = y = (n3 n) / 12
2 2

En el denominador, la raz cuadrada afecta a x . y


2 2

En ciertos casos conviene utilizar la primera frmula, y en otros casos la segunda. Por
ejemplo (Kohan, 1994:256), si no hay empates en los rangos o son muy pocos, se utilizar
la frmula 1, y si hay empates en los rangos, se utilizar la frmula 2. Para comprender esto,
se suministran a continuacin dos ejemplos diferentes: uno sin empates y otro con empates.

Ejemplo 1.- En este ejemplo (tomado de Kohan, 1994:256) se utiliza el coeficiente de


Spearman para evaluar el grado de asociacin entre dos variables ordinales: X
(autoritarismo) e Y (bsqueda de status). Por ejemplo, permitir averiguar si a medida que
aumenta el autoritarismo en las personas tiende tambin a aumentar la bsqueda de status
social.
Para ello se toma una muestra de 12 sujetos, y se obtienen los siguientes resultados:

Sujeto x (rango por y (rango por bsqueda de d d2


autoritarismo) status)
A 2 3 -1 1
B 6 4 2 4
C 5 2 3 9
D 1 1 0 0
E 10 8 2 4
F 9 11 -2 4
G 8 10 -2 4
H 3 6 -3 9
I 4 7 -3 9
J 12 12 0 0
K 7 5 2 4
L 11 9 2 4
d =
2
n = 12
52

Esta tabla indica, por ejemplo, que el sujeto A se situ en un segundo lugar en autoritarismo
y en un tercer lugar en bsqueda de estatus.
Aplicando la frmula 1, se obtiene un coeficiente de Spearman de 0.82, lo cual sugiere una
alta correlacin entre autoritarismo y bsqueda de status.

Ejemplo 2.- Aqu se trata de obtener el coeficiente de Spearman cuando hay empates en los
rangos. Los empates ocurren cuando dos o ms sujetos tienen el mismo rango en la misma
variable. Por ejemplo (ver tabla siguiente), los sujetos A y B obtuvieron el mismo puntaje en
la variable X (o sea, obtuvieron ambos cero). Otro tanto ocurri con los sujetos C y D y con
los sujetos J y K, siempre en relacin a la misma variable X. En el caso de la variable Y todos
los puntajes fueron diferentes, y por lo tanto no hubo empates.
Cuanto mayor es la cantidad de empates, ms conveniente resultar utilizar la frmula 2.

Sujeto x (rango por y (rango por bsqueda de d d2


autoritarismo) status)
Puntaje Rango Puntaje Rango
A 0 (1) 1.5 42 3 -1.5 2.25
B 0 (2) 1.5 46 4 -2.5 6.25
C 1 (3) 3.5 39 2 1.5 2.25
D 1 (4) 3.5 37 1 2.5 6.25
E 3 (5) 5 65 8 -3.5 9
F 4 (6) 6 88 11 -5 25
G 5 (7) 7 86 10 -3 9
H 6 (8) 8 56 6 2 4
I 7 (9) 9 62 7 2 4
J 8 (10) 10.5 92 12 -1.5 2.25
K 8 (11) 10.5 54 5 -5.5 30.25
L 12 (12) 12 81 9 3.5 9
d =
2
n = 12
109.5

Para hallar el coeficiente de Spearman en estos casos, puede procederse se acuerdo a tres
pasos:

a) Reasignacin de rangos.- En la columna de Puntaje de la variable X se ha agregado entre


parntesis el rango u orden que ocupara el sujeto. Este agregado sirve al nico efecto de
determinar el rango definitivo que se le asignar, y que aparece en la columna Rango, de la
misma variable.
La forma de calcular este rango definitivo es simple. Por ejemplo, si se consideran los sujetos
A y B, se suman los rangos 1 y 2, con lo cual se obtiene el valor 3. Este valor se divide por
la cantidad de empates, que en este caso es 2, y se obtiene el valor 1.5, que ser el rango
definitivo de ambos sujetos.

b) Correccin de la suma de los cuadrados.- Para poder aplicar la frmula 2, y puesto que
hay empates, deben modificarse los valores de x y de y es decir, las sumatorias de los
2 2

cuadrados de los valores de cada variable.


Para modificar dichos valores deben restarse a ellos E, cuyo valor se entiende a partir de la
siguiente frmula donde dicho factor se ha restado:
3 3 3 3 3
n n 12 12 2 2 2 2 2 -2
x = --------- - E = ------------ - ( --------- + --------- + --------- ) = 143 1.5 =
2

141.5
12 12 12 12 12

El valor 2 significa que hay sido dos los valores empatados. En este caso, los empates se han
dado en tres oportunidades (sujetos A-B, C-D y J-K), y por ello se suman los tres cocientes.
Como en la variable Y no se han verificado empates, el clculo no incluir el factor de
correccin:
3 3
n n 12 12
y = --------- = ------------ = 143
2

12 12

c) Aplicacin de la frmula 2.- Se aplica la frmula con los valores corregidos del siguiente
modo:
2 2 2
x + y + d 141.5 + 143 109.5
= -------------------------------- = ------------------------------ = 0.616
2 2
2. x. y 2 141.5 . 143

Si no se hubieran introducido las correcciones indicadas, el valor del coeficiente de Spearman


hubiera sido ms elevado, aunque en este caso la diferencia es poco importante y slo
conviene corregir cuando hay gran cantidad de empates (Kohan, 1994:258).

4.5 UN EJEMPLO: CONSTRUCCIN Y VALIDACIN DE TESTS

El anlisis de correlacin se aplica en muchos mbitos de la psicologa, como por ejemplo en


la teora factorialista de la inteligencia, en el anlisis de actitudes en psicologa social, y
tambin en la construccin de pruebas psicodiagnsticas (6).
Como ejemplo, a continuacin se inventar un test, no slo para ver como se realiza esta
tarea, sino tambin para ver el modo en que interviene en este proceso el anlisis de
correlacin.
La idea de construir un supuesto Test de personalidad de Prez pudo haber comenzado al
leer los diversos trastornos de personalidad del DSM-IV. Uno de ellos es el trastorno
narcisista, otro el trastorno esquizoide, y as sucesivamente. El DSM-IV propone diversos
criterios para identificarlos, pero aqu se ha elegido otro camino: tomar un test creado ad
hoc.
Pensando en la cuestin, cabe imaginarse que un individuo narcisista podra muy bien estar
cmodo con un dibujo como el esquema 6, donde aparece un gran punto rodeado de otros
ms pequeos que lo admiran, mientras que un esquizoide preferira el esquema 7,
representativo de un patrn de distanciamiento de las relaciones sociales.

Esquema 6 Esquema 7

Acto seguido, se eligen mil sujetos con diagnsticos diversos de personalidad y se les
pregunta qu dibujo les gusta ms. Aqu es donde interviene el anlisis de correlacin, que
permitir ver el grado de asociacin entre el diagnstico y el dibujo elegido. Una muy alta
correlacin aparecera, por ejemplo, si gran cantidad de sujetos con trastorno narcisista
eligen el esquema 6, con lo cual, en lo sucesivo se podr tomar este test sin necesidad de
explorar sus conductas y ver si cumplen los criterios del DSM-IV, un trmite que suele ser
arduo.
Desde ya, construir un test exige una gran cantidad de controles y precauciones que no
vienen al caso exponer aqu. Por ejemplo, debe determinarse su validez y su confiabilidad. El
anlisis de correlacin permite, precisamente, determinar por ejemplo un tipo especial de
validez: la validez predictiva, que pueden verse claramente en las pruebas de orientacin
vocacional.
As, por ejemplo, una forma de establecer si un test de este tipo evala la vocacin de un
sujeto, es esperar varios aos y ver si ese sujeto tuvo xito en la profesin sugerida por el
test. Como puede apreciarse, aqu se recurre nuevamente al anlisis de correlacin, al
compararse la profesin diagnosticada con la profesin elegida exitosamente. Una alta
correlacin entre ambas variables es indicador de la validez predictiva del test en cuestin.
El anlisis de correlacin permite tambin determinar otros tipos de validez como la validez
inter-test, que compara los resultados de un test vocacional con otro test vocacional. Si
ambos arrojan aproximadamente los mismos resultados en un conjunto de sujetos, entonces
tienen validez inter-test, comparacin que fue posible por un anlisis de correlacin.

4.6 EL ANLISIS DE REGRESIN

El objetivo del anlisis de regresin es establecer una prediccin acerca del comportamiento
de una variable Y conociendo el correspondiente valor de X (o viceversa) y el grado de
correlacin existente entre ambas variables.
Para ello es preciso conocer la llamada recta de regresin (7), que es la recta imaginaria que
mejor representa el conjunto de pares de valores de las variables X e Y. En el siguiente eje
de coordenadas, estn representados por ejemplo cinco de esos pares de valores, mediante
cinco puntos. La recta de regresin dibujada sera la que mejor representa esos puntos, por
cuanto la distancia de los puntos a la recta (representada con una lnea punteada) es la
mnima. Esta distancia recibe el nombre de regresin, de manera tal que cuanto menor es la
regresin de los puntos, mayor ser la correlacin entre ellos.

y Recta de regresin

La recta de regresin es, de muchas rectas posibles, la que mejor representa la correlacin
o, ms tcnicamente, es la nica que hace mnima la suma de los cuadrados de las
desviaciones o distancias de cada punto a la recta. Es, adems, la mejor manera de poder
hacer predicciones.
Las desviaciones de los puntos respecto de la recta se adjudican a factores no controlados
(que suelen ser particularmente importantes en las ciencias sociales), y se parte del
supuesto de que si no hubiera factores extraos que afecten la relacin entre X e Y, entonces
no habra desviaciones y la correlacin sera perfecta.
La recta de regresin puede trazarse a ojo, pero este procedimiento no tiene precisin. El
anlisis de regresin propone un mtodo mucho ms preciso, consistente en hallar la recta
de regresin por una va analtica.
Este clculo de la recta de regresin consiste en hallar la ecuacin de la recta de regresin, y
eventualmente luego dibujndola en un diagrama de coordenadas cartesianas. Una vez en
posesin de esta ecuacin, podrn hacerse predicciones a partir de la ecuacin misma o bien
a partir de la recta trazada en el diagrama de coordenadas.
Ambos procedimientos sern examinados a continuacin con los nombres de clculo analtico
de la regresin y clculo grfico de la regresin, respectivamente.

4.7 CLCULO ANALTICO DE LA REGRESIN


El clculo analtico de la regresin consiste en averiguar la ecuacin de la recta de regresin.
Ello permitir realizar predicciones en base a dicha ecuacin.
Una vez que se cuenta con un determinado conjunto de pares de valores obtenidos de la
realidad, puede determinarse la ecuacin de la recta que los representan por dos mtodos:
el mtodo de los cuadrados mnimos, y el mtodo de las desviaciones.
Antes de examinarlos, debe tenerse presente que la forma general de una ecuacin de una
recta es y = a + b.x (8). Determinar la ecuacin de la recta significa asignarle un valor al
parmetro a y otro valor al parmetro b. Los mtodos indicados tienen como fin
determinar el valor de ambos parmetros.

a) Mtodo de los cuadrados mnimos.-

La ecuacin de la recta que tiene la forma y1 = a + b . x1 se obtiene averiguando los valores


a y b. Una vez obtenidos ambos valores, puede realizarse una prediccin cualquiera: a partir
de x1 como el valor conocido, se puede predecir el valor de y1.
Las frmulas para el clculo de a y b son las siguientes:

n (x.y) x. y
b = ------------------------------
n x2 - ( x)2

a = Y - b . X (donde Y y X son las respectivas medias aritmticas)

Como puede apreciarse, primero debe calcularse b, ya que para calcular a se requiere
conocer b.

b) Mtodo de las desviaciones.-

La ecuacin de la recta se obtiene a partir de la siguiente expresin:

y = r . (Sy / Sx) . (x - X) + Y

En esta ecuacin de la recta, la expresin r . (Sy / Sx) se llama coeficiente de regresin.


Como puede apreciarse, la aplicacin del mtodo de las desviaciones requiere conocer las
medias aritmticas y los desvos estndar de X e Y. Tambin requiere conocer el coeficiente
de correlacin r, para lo cual resulta aqu recomendable utilizar la frmula nmero 1.

Ejemplo de prediccin en base a la ecuacin de la recta.- Si se dispone ya de una ecuacin


de la recta, ser muy sencillo hacer una prediccin del valor de y en funcin del valor de x.
En cambio, si debe hacerse esa prediccin a partir de una simple lista de pares de valores
correlacionados, primero deber obtenerse la ecuacin de la recta, para lo cual, a su vez si
la idea es aplicar el mtodo de las desviaciones- deben conocerse las medias aritmticas de x
e y, los desvos estndar de x e y, y la correlacin r entre x e y.
Considrese la siguiente lista de pares de valores ordenados:

Sujeto X (edad) Y (puntaje test)


A 2 55
B 3 60
C 5 65
D 6 80
E 6 85
F 8 75

A los efectos de poder obtener informacin sobre las medias aritmticas, los desvos
estndar y el coeficiente de correlacin (necesarios para calcular la ecuacin de la recta), se
ampla la tabla anterior de la siguiente manera:

Sujeto X (edad) Y (puntaje test) (X-X) (Y-Y) (X-X) (Y-Y)


A 2 55 -3 -15 45
B 3 60 -2 -10 20
C 5 65 0 -5 0
D 6 80 1 10 10
E 6 85 1 15 15
F 8 75 3 5 15
Total 30 420 --- --- 105

Aplicando la frmula correspondiente, se obtienen las medias aritmticas de X e Y (que son 5


y 70).
Aplicando la frmula correspondiente, se obtienen los desvos estndar de X e Y (que son 2 y
10.8).
Aplicando la frmula 1, se obtiene el coeficiente de correlacin (que es r = +0.81).
Finalmente, se obtiene la ecuacin de la recta utilizando el mtodo de loas desviaciones:

y = r . (Sy / Sx) . (x - X) + Y
y = 0.81 (10.8 / 2) . (x 5) + 70

Esta expresin se transforma de manera tal que adopte la forma tpica de la ecuacin de la
recta, con lo cual se obtiene:

y = 47.85 4.43 . x

Una vez que se cuenta con la ecuacin de la recta, ahora s pueden hacerse predicciones. Por
ejemplo, si a un nio que 10 aos se le toma el test, cul ser el puntaje ms probable que
obtendr?

y = 47.85 4.43 . x
y = 47.85 4.43 . 10 = 92.15
y = 92.15

4.8 CLCULO GRFICO DE LA REGRESIN

El clculo grfico de la regresin consiste en trazar la recta de regresin en base a la


ecuacin de la recta obtenida en el clculo analtico. Ello permitir realizar predicciones en
base a dicha recta trazada en el diagrama de coordenadas cartesianas.
La recta de regresin, como toda recta, puede determinarse por dos puntos. Un punto es la
ordenada al origen, y el otro punto es la interseccin de las medias aritmticas de x e y. Este
ltimo punto se llama baricentro.
Tomando el ejemplo anterior, la ordenada al origen es 47.85, mientras que el baricentro
queda determinado por las medias aritmticas 5 y 70, con lo cual la recta de regresin ser
la siguiente:

90
80
70
60
50
40
30
20
10
0

0 1 2 3 4 5 6 7 8 9 10 X

Ejemplo de prediccin en base a la recta del diagrama cartesiano.- Considerando solamente


la recta dibujada, puede hacerse una prediccin (mtodo grfico). Por ejemplo, si se sabe
que x = 7, puede predecirse que el valor de y ser 82 de la siguiente manera:
Y

90
80
70
60
50
40
30
20
10
0

0 1 2 3 4 5 6 7 8 9 10 X

Error estndar de la prediccin.- En el ejemplo anterior la prediccin realizada es slo


probable, lo que significa que se est cometiendo algn error en la estimacin del valor y.
Ello es as porque se ha calculado el coeficiente de correlacin r y la ecuacin de la recta de
regresin en base a una muestra (en este caso de apenas seis sujetos) y con esta
informacin se est intentando predecir un valor nuevo que no est en la muestra, es decir,
que pertenece a la poblacin. Adems, se est suponiendo (Kohan N, 1994:228) que la
muestra ha sido tomada al azar, y que ambas variables se distribuyen normalmente.
Es posible estimar el error estndar cometido en base a la siguiente expresin:
2
est y = y . 1r

Esto es, el error estndar es igual al desvo estndar poblacional multiplicado por la raz
cuadrada de la diferencia entre 1 y el cuadrado del coeficiente de correlacin.
En el ejemplo anterior, el desvo estndar vala 10.8 y el coeficiente de correlacin vala
0.82. Reemplazando, se obtiene:
2
est y = . 1 0.82 = 6.2

Esto significa que el valor de y predicho y = 82, estar en un 68% de los casos entre 82
6.2, es decir entre 88.2 y 75.8. O si se quiere, hay un 68% de probabilidades que el valor de
y se encuentre entre 88.2 y 75.8. Desde ya, tambin puede calcularse este intervalo de
confianza en base a un 95% o un 99% de probabilidades, en cuyo caso el intervalo de
confianza deber ser mayor.

NOTAS

(1) Una distribucin de frecuencias bivariada es un conjunto de pares de valores, correspondientes a dos
variables observadas conjuntamente, con sus respectivas frecuencias. Cuando la distribucin se registra
en una tabla de doble entrada se obtiene una tabla de contingencia. En cada celda de esta tabla se
indica la frecuencia con que se observ cada par de valores.
(2) Algunos autores (por ejemplo Botella, 1993:183), clasifican en tres los casos posibles de relacin
lineal entre variables. a) Relacin lineal directa: se dice que dos variables X e Y mantienen una relacin
lineal directa cuando los valores altos en Y tienden a emparejarse con valores altos en X, los valores
intermedios en Y tienden a emparejarse con valores intermedios en X, y los valores bajos en Y tienden a
emparejarse con valores bajos en X. Por ejemplo: la relacin entre inteligencia y rendimiento. b)
Relacin lineal inversa: se dice que dos variables X e Y mantienen una relacin lineal inversa cuando los
valores altos en Y tienden a emparejarse con valores bajos en X, los valores intermedios en Y tienden a
emparejarse con valores intermedios en X, y los valores bajos en Y tienden a emparejarse con valores
altos en X. Por ejemplo: la relacin entre tiempo y errores. c) Relacin lineal nula: se dice que hay
relacin lineal nula entre dos variables cuando no hay un emparejamiento sistemtico entre ellas en
funcin de sus valores. Por ejemplo: la relacin entre estatura e inteligencia.
(3) Otra forma de apreciar grficamente la correlacin es mediante el ngulo de correlacin: dadas las
dos rectas y1 = a + b . x1 y x1 = a + b . y1 , el punto donde se intersectan se llama centroide. El
ngulo entre ambas rectas se llama ngulo de correlacin. Cuanto menor es este ngulo, ms
correlacin hay (Kohan, 1994:224).
(4) Adems del clsico coeficiente "r" de Pearson, existen otros tambin destinados a medir el grado de
asociacin entre variables. En el esquema siguiente se resumen algunos ejemplos. No deben confundirse
los coeficientes derivados del coeficiente de Pearson, con estos otros coeficientes de correlacin, que en
general fueron diseados de manera diferente o para otros propsitos.

Nombre Condiciones de aplicacin


Coeficiente de Se aplica sobre variables cuantitativas (de intervalos iguales o de cocientes).
Pearson Adems, las variables deben estar distribuidas normalmente, o al menos
tratarse de distribuciones bastante simtricas respecto de la media.
Se llama tambin coeficiente de correlacin producto-momento de Pearson.
Coeficiente Q de Yule De fcil clculo e interpretacin como el anterior, pero su uso se limita a dos
variables nominales, con dos categoras cada una.
Coeficiente de Se utiliza sobre todo cuando son muchas observaciones y muy pocos valores
asociacin (gamma) ordinales alcanzados por ellas. Se busca computando las concordancias e
de Goodmann y inversiones en las ordenaciones que representan las dos variables y se aplica la
Kruskal frmula.
Coeficiente (Rho) de No es ms que el coeficiente de Pearson aplicado a variables ordinales.
Spearman
Coeficiente Etha Utilizado para variables cuantitativas (de intervalos iguales o de cocientes),
debe reunir dos requisitos: que la curva de distribuciones sea bastante simtrica
y unimodal, y que la asociacin de variacin sea al menos aproximadamente
rectilnea.
Coeficiente de Para correlacionar simultneamente ms de dos variables.
correlacin mltiple
Coeficiente Phi Para variables nominales.

Otros coeficientes son: el Coeficiente (Tau) de Kendall (Kohan, 1994:260), el Coeficiente de Wilcoxon, el
Coeficiente de Flanagan, el Coeficiente de correlacin multiserial de Jaspe, el Coeficiente T de
Tschuprow, el Coeficiente de correlacin tetracrica (Kohan, 1994:281), etc.
Todos los coeficientes de correlacin pueden aplicarse en psicologa, por ejemplo, en experimentos sobre
el aprendizaje, en la teora factorialista de Spearman, y en psicometra cuando por ejemplo debemos
establecer el grado de correlacin entre dos tests, o el grado de correlacin de un mismo test tomado en
dos momentos diferentes.
(5) En algunos textos de estadstica se describen frmulas abreviadas para facilitar los clculos cuando
se dispone de un nmero grande de pares de valores. La disponibilidad actual de calculadoras de mesa y
ordenadores personales hacen innecesarias estas frmulas (Botella, 1993:193).
(6) La construccin de tests puede llevarse a cabo para realizar una investigacin ad hoc para la cual no
hay instrumentos de medicin conocidos, o bien para crear una prueba que pueda ser utilizada por otros
en diferentes circunstancias, aunque esto ltimo es ms raro en un mercado sobresaturado de pruebas
psicomtricas y proyectivas donde es realmente muy difcil posicionar un test que pueda representar una
mejora respecto de los anteriores.
(7) Tambin puede ser una curva, pero en este artculo se describe solamente la regresin lineal, que se
representa mediante una recta.
(8) El valor a es la ordenada al origen, y el valor b es el coeficiente angular o pendiente de la recta,
que equivale a la tangente del ngulo alfa (formado por la recta y otra recta paralela a la absisa). La
ecuacin de la recta tambin puede representarse como x = a + b.y, en cuyo caso el parmetro a
significar la absisa al origen. En este artculo no se considerar esta segunda expresin por razones de
simplicidad, y por cuanto la idea es poder predecir un valor y en funcin de un valor x, y no un valor x
en funcin de un valor y. As, la ecuacin y = a + b.x permite predecir cunto valdr y en funcin de x,
mientras que la ecuacin x = a + b.y permite predecir cunto valdr x en funcin de y.
Ambas rectas de regresin se cortan en un punto llamado centroide, y la correlacin entre las dos
variables est dada por el ngulo entre las dos rectas: si este ngulo vale 0, la correlacin es 1 (Kohan
N, 1994:224).

CAPTULO 5: ESTADISTICA INFERENCIAL

5.1 INTRODUCCIN

A diferencia de la estadstica descriptiva, la estadstica inferencial va ms all de la mera


descripcin de la muestra por cuanto se propone, a partir del examen de sta ltima, inferir
una conclusin acerca de la poblacin, con un cierto nivel de confianza (o,
complementariamente, con un cierto nivel de error).
Las muestras de las cuales se ocupa la estadstica inferencial son muestras probabilsticas, es
decir, aquellas en las cuales es posible calcular el error cometido al estimar una
caracterstica poblacional (Kohan N, 1994:144) (1).
Clsicamente, la estadstica inferencial se ocupa de dos cuestiones: la estimacin de
parmetros y la prueba de hiptesis, aunque por lo general, la mayora de las aplicaciones
de la estadstica inferencial pertenecen al rea de la prueba de hiptesis (Pagano,
1998:209).
De acuerdo al mismo autor (1998:155), en la estimacin de parmetros el investigador
busca determinar una caracterstica de la poblacin a partir de los datos de la muestra. Por
ejemplo, tomando la variable edad, podra concluir que la probabilidad de que el intervalo
4050 contenga la media de la poblacin es de 0.95.
En cambio en la prueba de hiptesis, el investigador rene datos en una muestra para
validar cierta hiptesis relativa a una poblacin. Ejemplos: a) para validar la hiptesis de que
la media poblacional no tiene una diferencia significativa con la media muestral, toma ambas
medias y las compara estadsticamente mediante la prueba de la media; b) para validar la
hiptesis de que en la poblacin el mtodo de enseanza A es mejor que el B, el investigador
toma dos muestras de alumnos y a cada uno le aplica un mtodo de enseanza diferente. El
tipo de conclusin que se busca aqu podra ser que las mayores calificaciones en un grupo
que en otro se deben al mtodo de enseanza aplicado y no al azar, y, adems, que dicha
conclusin no se aplica slo a la muestra sino a toda la poblacin.
En la estadstica inferencial se pueden hacer inferencias espaciales e inferencias temporales.
Una inferencia espacial implica suponer, a partir de la muestra, cmo es la poblacin total.
Una inferencia temporal es un caso especial donde, a partir de ciertos datos actuales
podemos inferir o suponer ciertos otros datos que podamos obtener en el futuro, vale decir
una poblacin potencial.

5.2 ESTIMACIN DE PARMETROS

Esta tarea consiste en, partiendo de ciertos valores de la muestra llamados estadsticos o
estadgrafos (por ejemplo la media aritmtica muestral), inferir ciertos otros valores de la
poblacin llamados parmetros (por ejemplo la media aritmtica poblacional o esperanza).
Ello es as porque en general lo que interesa es la poblacin, no la muestra. Cuando un
investigador observa que en una muestra el 80% de las personas lee el diario, le interesar
averiguar a partir de all qu porcentaje o proporcin de la poblacin lee el diario, ya que por
ejemplo su inters es editar un nuevo peridico. De la misma forma, cuando un investigador
observa que la media aritmtica muestral de la frecuencia cardaca es 80 pulsaciones por
minuto, le interesar averiguar si ello se cumple tambin en la poblacin, ya que por ejemplo
su inters puede ser comparar la frecuencia cardaca de sus pacientes con toda la poblacin
para decidir sobre su salud en base a un criterio estadstico.
Como puede verse, lo ms habitual es inferir medias aritmticas (promedios) y proporciones
(porcentajes). As, a partir de la media aritmtica muestral se infiere la media aritmtica
poblacional, y a partir de la proporcin observada en la muestra se infiere la proporcin en la
poblacin.
Existen dos tipos de estimacin de parmetros: la estimacin puntual y la estimacin
intercalar (Pagano R, 1998:304).
La estimacin puntual consiste en inferir un determinado valor para el parmetro. Por
ejemplo, inferir que la poblacin debe tener puntualmente una media aritmtica de 80.
La estimacin intervalar consiste en inferir dentro de qu intervalo de valores estar el
parmetro con un determinado nivel de confianza. Por ejemplo, inferir que la poblacin debe
tener una media aritmtica entre 75 y 83, con un nivel de confianza de 0.95 (esto es, hay un
95% de probabilidades de que el parmetro poblacional se encuentre entre 75 y 93) o, si se
quiere, con un nivel de riesgo (4) de 0.05 (esto es, hay un 5% de probabilidades de que el
parmetro no se encuentre entre esos valores).
En general, resulta mucho ms riesgoso afirmar que el parmetro vale 80 que afirmar que
vale entre 75 y 83. Por esta razn, se prefiere bajar este riesgo y establecer un intervalo de
confianza, que podr ser de 0.90, 0.95, 0.99, etc, segn elija el investigador.
Hay diferentes procedimientos de estimacin de parmetros, segn se trate de estimar
medias o proporciones, o segn se trate de estimar parmetros de variables cualitativas (con
dos categoras o con ms de dos categoras) o cuantitativas. En lo que sigue se dan algunos
ejemplos combinados.

Estimacin de la media poblacional para variables cuantitativas.- Conociendo la media


muestral, es posible averiguar con un cierto nivel de confianza (por ejemplo 0.95), entre qu
valores de la variable estar la media poblacional. Estos valores se llaman lmite superior del
intervalo (Ls) y lmite inferior del intervalo (Li).
Para obtener ambos valores se utilizan las siguientes frmulas:

Ls = X + z . (S / Donde:
n)
Ls = Lmite superior del intervalo de confianza.
Li = X - z . (S/ Li = Lmite inferior del intervalo de confianza.
n) X = Media aritmtica muestral.
S = Desvo estndar muestral.
n = Tamao de la muestra. Si se trata de una muestra chica (menor a
30) se considera n-1.
(S / n) = Desvo estndar poblacional. Cuando no tenemos el desvo
estndar de la poblacin (hecho muy frecuente) se utiliza el desvo
muestral (Rodrguez Feijo N, 2003).
z . (S/ n) = Error muestral o estndar (error que puede cometerse al
inferir la media poblacional) (3).
z = Puntaje estandarizado que define el nivel de confianza. Si se desea
un nivel de confianza de 0.90, debe consignarse z = 1.64. Si se desea
un nivel de confianza de 0.95, debe consignarse z = 1.96. Si se desea
un nivel de confianza de 0.99, debe consignarse z = 2.58. Para valores
intermedios de nivel de confianza, pueden consultarse las tablas de
reas de z (ver captulo sobre probabilidad y curva normal).

Ejemplo (Rodrguez Feijo N, 2003).- En una muestra probabilstica de 600 nios de 10 aos
de Capital Federal el cociente intelectual promedio obtenido fue de 105 con una desviacin
estndar de 16. Con un intervalo de confianza del 95%, entre qu lmites oscilar el CI
promedio de los nios de 10 aos de Capital Federal?
Ls = X + z . (S / n) = 105 + 1.96 (16 / 600) = 106.27
Li = X - z . (S/ n) = 105 - 1.96 (16 / 600) = 103.73
Respuesta: con un riesgo de 5% de equivocarse en la estimacin, el CI promedio de los
nios de 10 aos de Capital Federal oscila entre 103.73 y 106.27 puntos.

Estimacin de proporciones para variables cualitativas de dos categoras (Kohan N,


1994:166).- Conociendo la proporcin muestral, es posible averiguar con cierto nivel de
confianza (por ejemplo 0.99) entre qu proporciones estar la proporcin poblacional.
Tngase presente que una variable con dos categoras es una variable que tiene solamente
dos posibilidades de variacin (por ejemplo: el sexo).
Para obtener los lmites superior e inferior del intervalo de confianza, se utilizan las
siguientes frmulas:

Ls = p + z . ( p . q / Donde:
n)
Ls = Lmite superior del intervalo de confianza.
Li = p - z . ( p . q / Li = Lmite inferior del intervalo de confianza.
n) p = Proporcin muestral
z = Puntaje estandarizado que define el nivel de confianza. Si se
Nota: La raz cuadrada desea un nivel de confianza de 0.90, debe consignarse z = 1.64. Si
afecta a p, q y n. se desea un nivel de confianza de 0.95, debe consignarse z = 1.96.
Si se desea un nivel de confianza de 0.99, debe consignarse z =
2.58. Para valores intermedios de nivel de confianza, pueden
consultarse las tablas de reas de z (ver captulo sobre probabilidad
y curva normal).
q = Proporcin que falta para llegar al 100%. Por ejemplo: si p es
65%, entonces q = 35%).
n = Tamao de la muestra. Si se trata de una muestra chica (menor
a 30) se considera n-1.

Ejemplo.- En una muestra probabilstica de 100 personas, el 20% son masculinos. Con un
intervalo de confianza del 99%, entre qu proporciones oscilar el porcentaje de masculinos
en la poblacin?
Ls = 20% + 2.58 . ( 20 . 80 / 100) = 30.3%
Li = 20% 2.58 . ( 20 . 80 / 100) = 9.7%
Respuesta: con un riesgo de 1% de equivocarse en la estimacin, la proporcin de
masculinos en la poblacin oscila entre el 9.7% y el 30.3%.

5.3 PRUEBA DE HIPTESIS

Las pruebas de hiptesis se utilizan para probar alguna hiptesis en investigacin cientfica
(10). Cuando el investigador propone una hiptesis, su deseo ser poder confirmarla (porque
l mismo la propuso o porque cree intuitivamente en ella). Si decide hacer una prueba
estadstica para salir de dudas, entonces realizar una prueba de hiptesis y establecer dos
hiptesis estadsticas: su propia hiptesis, a la que convertir en hiptesis alternativa, y la
opuesta, que llamar hiptesis nula, y la tarea consistir en intentar probar esta ltima. Si la
rechaza, aceptar la alternativa, y si la acepta, rechazar la alternativa (7).
Existe una gran variedad de pruebas de hiptesis, pero todas ellas tienen en comn una
determinada secuencia de operaciones, que son las siguientes:

1) Formulacin de la hiptesis de investigacin y obtencin de los datos.- El investigador


comienza formulando la hiptesis que pretende probar. Por ejemplo, que una determinada
droga cura una enfermedad. Luego, disea un experimento y lo ejecuta para obtener datos
que permitan aceptar o no la hiptesis. Por ejemplo, administra la droga a un grupo y al otro
no, para comparar los resultados.
Estrictamente, este primer paso no forma parte de la prueba estadstica de la hiptesis pero
es una condicin necesaria para realizarla, y ello por tres motivos: a) si no hay datos
empricos, no puede realizarse ningn estudio estadstico, del mismo modo que si no hay
combustible, el motor no funcionar; b) si los datos obtenidos en el experimento o en la
observacin son lo suficientemente convincentes como para aceptar o rechazar la hiptesis
de investigacin, no ser necesario emplear una prueba estadstica de hiptesis, con lo cual,
este primer paso permite decidir si cabe o no aplicarla, an cuando se sepa que en la
inmensa mayora de los casos s cabe hacerlo. Por ejemplo, si el 100% de los pacientes
tratados con una droga se cura, mientras que el 100% de los pacientes no tratados sigue
enfermo, es posible concluir, sin la ayuda de la estadstica, que cabe aceptar la hiptesis de
investigacin segn la cual la droga cura. Sin embargo, en la realidad no suelen obtenerse
datos tan auspiciosos, por lo que se requiere una prueba estadstica; y c) para obtener datos
se utiliza un determinado diseo de investigacin, y la eleccin de la prueba estadstica de
hiptesis ms adecuada depender del tipo de diseo de investigacin utilizado.
En suma, es importante saber qu diseo est usando el investigador, cules son las
variables que puede controlar y en funcin de esto buscar la prueba estadstica adecuada
(Kohan, 1994:357).

2) Formulacin de la hiptesis alternativa y la hiptesis nula.- Si la prueba estadstica resulta


necesaria, la hiptesis de investigacin es reformulada en trminos estadsticos,
obtenindose la hiptesis alternativa (Ha). A continuacin, se formula, en los mismos
trminos, la hiptesis nula (Ho), que es la opuesta de la alternativa. Ambas reformulaciones
incluyen consideraciones del tipo hay o no hay una diferencia significativa entre.
Por ejemplo, si la hiptesis de investigacin sostiene que la droga cura, la hiptesis
alternativa dir que hay una diferencia significativa entre los resultados del grupo de
pacientes tratado y el grupo de pacientes no tratado. Por lo tanto, la hiptesis nula sostendr
que no hay una diferencia significativa entre ambos grupos. En este caso, adems, la Ha
plantea un cambio (la droga cura), mientras que la Ho plantea la permanencia de un estado
(la droga no cura).

Lo que siempre se intentar probar es la hiptesis nula para un determinado nivel de


significacin o de riesgo. Si rechazamos la hiptesis nula aceptamos la alternativa, y si no
rechazamos la hiptesis nula, rechazamos la alternativa, ya que ambas son mutuamente
contradictorias (8).
Al estimar parmetros o probar hiptesis pueden cometerse errores. Suelen describirse dos
tipos de errores (Kohan N, 1994:178):
El error Tipo I consiste en rechazar la hiptesis nula cuando en realidad es verdadera. O sea,
creer que la muestra NO es representativa de la poblacin, cuando s lo es. Es el error del
desconfiado.
El error Tipo II consiste en aceptar la hiptesis nula cuando en realidad es falsa. O sea, creer
que la muestra SI es representativa de la poblacin, cuando no lo es. Es el error del ingenuo.
La probabilidad de cometer el error I se simboliza con la letra griega alfa ( ), y la
probabilidad de cometer el error II se simboliza con la letra griega beta ( ) (Kohan N,
1994:185).
Estos errores no son errores que cometan inadvertidamente los investigadores. Como la
hiptesis nula se rechaza o se acepta en base a determinado nivel de significacin o de
riesgo de equivocarse, siempre habr algn riesgo de error, que podr ser mayor o menor
segn el nivel de riesgo elegido, pero que no obliga necesariamente a invalidar los
resultados. Debe tenerse presente que siempre que se concluya algo sobre la poblacin a
partir de la muestra, el procedimiento estar teido de algn grado de incertidumbre, es
decir, siempre habr algn grado de probabilidad de cometer alguno de los dos tipos de
errores.
3) Seleccin de la prueba de hiptesis ms adecuada.- Qued dicho que hay una gran
cantidad de pruebas de hiptesis y su eleccin depende de la hiptesis alternativa que se
formule, del nmero de casos examinados, del nivel de medicin utilizado, etc (Kohan N,
1994:176). Por ejemplo, a) si la hiptesis es direccional (es decir, especifica una relacin de
mayor que o bien una relacin de menor que), se utilizar una prueba de hiptesis de una
cola, mientras que si la hiptesis es no direccional (indica una relacin de diferente a), se
utilizar una prueba de hiptesis de dos colas (11); b) si se conoce el desvo estndar
poblacional, puede aplicarse la prueba z, mientras que si solamente se conoce el desvo
estndar muestral, se aplicar la prueba t de Student; c) si se opera con variables medidas
en un nivel nominal, puede utilizarse la prueba de chi cuadrado; si se trabaja con muestras
muy pequeas (por ejemplo de 5 a 10 datos), la prueba t de Student es til. Seala
Vessereau que se trata de un aporte importante por cuanto durante mucho tiempo se ha
credo que era imposible sacar buen partido de las muestras muy pequeas (Vessereau A,
1962:33); d) La prueba ANOVA (anlisis de varianza): as como se pueden comparar las
medias de dos muestras, existen pruebas que permiten confrontar su variabilidad (varianza
o desviacin tpica). Estas pruebas sirven, entre otras, para resolver los problemas
siguientes: 1) Reconocer si un grupo de muestras es homogneo; y 2) determinar, en la
variabilidad de una poblacin de medidas, la parte que corresponde al azar y la que debe
atribuirse a causas de variacin sistemticas, llamadas causas controladas o asignadas
(Vessereau A, 1962:38).

4) Determinacin del nivel de significacin.- El nivel de significacin es la probabilidad de


rechazar Ho siendo esta verdadera (error tipo I). Cada investigador elige su nivel de
significacin, es decir, su probabilidad de equivocarse en el sentido indicado. Por ejemplo,
puede elegirse un 5% o un 1% de probabilidad de error (o, lo que es lo mismo, un 95% o un
99% de probabilidad de no equivocarse).
Seala Kohan (1994:177) que el nivel de significacin elegido depender de la importancia
prctica de la investigacin. Por ejemplo, para un estudio sobre los efectos de una droga en
el sistema nervioso se usar un nivel de significacin muy bajo, como por ejemplo un 0.01%,
lo que minimiza al extremo su probabilidad de producir intoxicacin.
Lo usual es especificar un nivel de significacin (probabilidad de cometer el error tipo I) y
no el nivel de significacin (probabilidad de cometer el error tipo II).
Una aclaracin ms detallada del concepto de significacin estadstica puede consultarse ms
adelante en este mismo captulo

5) Determinacin del tamao de la muestra.- En principio, el tamao de la muestra n ya fue


determinado en el momento de elegir y ejecutar el diseo de investigacin: cuanto mayor
haya sido el tamao de la muestra elegido, menor ser el error de (Kohan, 1994:178). Sin
embargo, tambin puede procederse al revs: si se elige un determinar nivel , puede
determinarse por medios matemticos el tamao de la muestra n adecuado a ese nivel
(Kohan N, 1994:181-185). As, por ejemplo, en general si el investigador desea un menor
margen de error, deber aumentar el tamao de la muestra.
Adems del tamao de la muestra, debern tambin determinarse la curva operativa
caracterstica (Kohan N, 1994:180) y el poder de eficiencia de la prueba (o tambin
potencia), definido este ltimo como la probabilidad de rechazar la hiptesis nula cuando es
realmente falsa. Por consiguiente, el poder de eficiencia se define como 1 - , es decir, 1
menos la probabilidad del error II (no rechazar la hiptesis nula cuando es realmente falsa)
(Kohan N, 1994:185). Tngase presente:

Nivel de error tipo I Es la probabilidad de cometer el error tipo I.


Probabilidad de rechazar la Ho cuando es verdadera.
1- Nivel de confianza Es la probabilidad de NO cometer el error tipo I.
Probabilidad de NO rechazar (aceptar) la Ho cuando es
verdadera.
Nivel de error tipo Es la probabilidad de cometer el error tipo II.
II Probabilidad de NO rechazar (aceptar) la Ho cuando es falsa.
1- Nivel de confianza Es la probabilidad de NO cometer el error tipo II.
Probabilidad de rechazar la Ho cuando es falsa. Se llama poder
de eficiencia o potencia de la prueba.

6) Determinacin de la distribucin muestral de la prueba estadstica para Ho.- Seala Kohan


(1994:186-187) que cuando un investigador eligi una prueba estadstica, necesita saber
cul es su distribucin muestral, que es una distribucin terica que se obtendra si se
sacaran al azar todas las muestras posibles del mismo tamao de una poblacin (12). El
conocimiento de esta distribucin muestral permite estimar la probabilidad de la ocurrencia
de ciertos valores.

7) Definicin de la zona de rechazo.- Sobre la base de los puntos 3, 4, 5 y 6 deber ahora


establecerse la zona de rechazo de la Ho. Para una mejor comprensin de este concepto, se
puede trazar una lnea horizontal sobre la cual se podrn definir las zonas de rechazo y de no
rechazo de la Ho. En esa lnea horizontal se indicarn valores que van desde -3 hasta +3,
pasando por el 0 (cero). Estos valores corresponden a puntajes estandarizados, como por
ejemplo z, si la prueba estadstica elegida es la prueba z, o t, si la prueba elegida es la
prueba t de Student:

z
-3 -2 -1 0 +1 +2 +3

t
-3 -2 -1 0 +1 +2 +3

Las zonas de rechazo se definirn segn se trate de pruebas de hiptesis de una cola
(hiptesis direccionales) o de dos colas (hiptesis no direccionales), segn el siguiente
esquema:

z Prueba de una cola a


la izquierda
Zona de rechazo Zona de aceptacin

z Prueba de una cola a


la derecha
Zona de aceptacin Zona de rechazo

z Prueba de dos colas

Zona de rechazo Z de aceptacin Zona de rechazo

Para determinar una zona de rechazo (o tambin zona crtica) es preciso indicar un
determinado valor de z (o de t) que sirva para delimitar la zona de rechazo ( ) de la zona de
aceptacin (1 - ). Ese valor recibe el nombre de z terico, z crtico o punto crtico, que se
calcula en base a una tabla de z (o de t) y en base al nivel de significacin elegido.
Existe una relacin bsica entre , y el tamao de muestra n. Puesto que es la
probabilidad de que la estadstica de prueba (por ejemplo el z emprico) caiga en la regin de
rechazo, un incremento en el tamao de esta regin aumenta , y simultneamente
disminuye , para un tamao de muestra fijo. El reducir el tamao de la regin de rechazo
disminuye y aumenta . Si se aumenta el tamao de muestra entonces, se tiene ms
informacin en la cual basar la decisin y ambas y decrecern.
8) Decisin final (6).- Si el dato emprico (llamado z emprico) obtenido cae dentro de la
zona de rechazo, se rechaza la Ho y por tanto se acepta la Ha. En cambio, si el dato cae
fuera de esta zona de rechazo, no se rechaza (se acepta) la Ho, siempre para un nivel de
significacin elegido (Kohan N, 1994:189). Por ejemplo:

z z terico = -1.65
-1.80 -1.65 z emprico = -1.80

Zona de rechazo Zona de aceptacin de la Ho


de la Ho

En este ejemplo, se puede apreciar que el z terico delimita las zonas de rechazo y
aceptacin de la Ho. Como de los datos del experimento result un z emprico ubicado dentro
de la zona de rechazo, se decide rechazar la Ho y, por lo tanto, se acepta la Ha.

5.4 EJEMPLOS DE PRUEBAS DE HIPTESIS

Existe una enorme cantidad de tipos de pruebas de hiptesis, adaptables a diversas


necesidades y objetivos. En lo que sigue se suministran ejemplos de algunas de las pruebas
ms frecuentes.

1) Prueba de la media.- Aqu no hay que estimar un intervalo para la media poblacional
(como en la estimacin de parmetros), sino probar la hiptesis segn la cual no hay
diferencia estadsticamente significativa entre la media poblacional y la muestral. Esta
prueba, llamada tambin prueba de la media, se entiende cabalmente a partir de un
conocimiento mnimo sobre distribucin muestral y teorema central del lmite (12).
Existe una gran diversidad de pruebas de la media, segn que se conozca o no se conozca el
desvo estndar poblacional (en cuyo caso se utiliza una prueba z o una prueba t,
respectivamente), segn que la hiptesis sea direccional (prueba de una cola) o no
direccional (prueba de dos colas), y segn se aplique a una sola muestra (Pagano R,
1998:293) o a dos muestras (Pagano R, 1998:317).

Ejemplo.- Se supone que la estatura media de la poblacin de alumnos de una universidad


es menor que 1.68 m, y su desvo estndar poblacional es de 0.10 m. Se cuenta con una
muestra de 36 alumnos, con una media muestral de 1.65 m. Probar la hiptesis con un nivel
de significacin o riesgo del 5%.

Resolucin.- a) En primer lugar convendr ordenar los datos que suministra el problema:

Tamao de la muestra (n) = 36. Media aritmtica de la poblacin ( ) =


1.68 m.
Media aritmtica de la muestra (X) = 1.65 m. Desvo estndar de la poblacin ( ) =
0.10 m.
Nivel de significacin ( ) = 5% = 0.05.

b) En segundo lugar, se establecen la hiptesis alternativa y la hiptesis nula.


La hiptesis alternativa (Ha) sostiene que la media poblacional es menor que 1.68 m, o sea
< 1.68 m.
Ntese que, primero, la Ha siempre se refiere a la poblacin, no a la muestra; segundo, es la
hiptesis deseable por el investigador y por tanto la que se quiere probar; tercero, en este
caso particular la hiptesis se refiere a una permanencia, no a un cambio, ya que sostiene
que la estatura media poblacional sigue siendo menor que 1.68 m. a pesar de la muestra,
que parece sugerir lo contrario; de esto ltimo se desprende, en cuarto lugar, que la muestra
no sera representativa de la poblacin, es decir, la diferencia entre muestra y poblacin
sera significativa y en este caso debida al azar.
La hiptesis nula (Ho) sostiene que la media poblacional es igual a 1.68 m, o sea = 1.68 m.
Estrictamente hablando la Ho, por ser la opuesta a la Ha, debera proponer > 1.68 m, pero
en la prctica se utiliza la igualdad.
La hiptesis nula (Ho) sostiene que la diferencia entre la media muestral y la media
poblacional no es estadsticamente significativa para el nivel de significacin del 5%, o sea,
la muestra es representativa de la poblacin.

2) Se calcula el z emprico mediante la siguiente frmula:

X - 1.65 1.68
ze = -------------- = ------------------ = - 1.8
/ n 0.10 / 36

3) Se calcula el z terico mediante la tabla de z para un nivel de significacin del 5%. Como
se trata de una hiptesis alternativa direccional que especifica una direccin de menor que,
se emplea la tabla de reas de z hacia la izquierda (ver apndice).
Puesto que se pide un nivel de significacin del 5%, traduciendo este valor a probabilidades
obtenemos 0.05. A continuacin, se busca el valor de z que corresponde aproximadamente a
esa probabilidad. Hay dos valores que se aproximan idnticamente: 0.0505 y 0.0495.
Eligiendo arbitrariamente el primero, se obtiene:

zt = -1.64

4) Se define la zona de rechazo mediante zt y se indica el valor de ze:

z z terico = -1.64
-1.8 -1.64 z emprico = -1.8

Zona de rechazo Zona de aceptacin de la Ho


de la Ho

5) Como ze cae dentro de la regin de rechazo o regin crtica, entonces se rechaza la Ho, y
por lo tanto, se acepta la Ha segn la cual la estatura media poblacional es menor que 1.68
m. En este caso se puede estar cometiendo un error tipo I, es decir, rechazar la Ho cuando
es verdadera, con una probabilidad de = 0.05 (o si se quiere, existe una probabilidad del
5% de estar rechazando la Ho cuando es verdadera).

2) Prueba de hiptesis de correlacin (13).- La prueba de hiptesis que permite estudiar la


significacin de una correlacin entre dos variables intenta probar la hiptesis nula que
sostiene que la correlacin entre las dos variables ser cero en la poblacin origen. Las
hiptesis estadsticas de esta prueba son:
Ho) = 0
Ha) 0
La significacin del coeficiente de correlacin se estudia por medio de la distribucin t de
Student. Para ello se obtiene el valor de:

que se sita bajo la distribucin t (n-2, ).

Ejemplo.- Sean, a efectos didcticos, las siguientes seis observaciones obtenidas en dos
variables X e Y:

X Y
10 13
10 16
12 12
12 17
14 15
16 15

Resolucin.- Aplicando la expresin del coeficiente de correlacin lineal de Pearson, se


obtiene r = 0.1225.
Si se quiere contrastar la hiptesis nula Ho) = 0, se deber estudiar la significacin del valor
r obtenido.
Para estudiar su significacin se debe transformar, en primer lugar, el valor de la correlacin
en un valor t (t emprico) y, en segundo lugar, comparar dicho valor con el valor de las
tablas de la t de Student (t terico) con n-2 grados de libertad (ver Tabla t en Anexo).

El valor proporcionado por las tablas es t (4, 0.05)= 2.776.


As, puesto que el valor obtenido es inferior al de las tablas se concluye que los datos no
aportan informacin para rechazar la hiptesis nula Ho en funcin de la cual las dos variables
no estn correlacionadas en la poblacin origen de la muestra.

5.5 EL CONCEPTO DE SIGNIFICACIN ESTADSTICA

En este tem se ofrecen mayores detalles este importante concepto de la estadstica


inferencial, con un tercer ejemplo de prueba de hiptesis.
Uno de los fines de la estadstica inferencial consiste en determinar si la diferencia entre dos
conjuntos de datos es o no significativa. En el contexto de la investigacin cientfica, ambos
conjuntos de datos pueden consistir en dos muestras (por ejemplo entre el grupo
experimental y el grupo de control), o bien entre una muestra y una poblacin de la que fue
extrada.

1) Diferencia entre muestras.- Cuando la investigacin incluye un diseo experimental, es


sabido que las muestras (entonces designadas como grupo experimental y grupo de control),
en general exigen un tratamiento estadstico antes y despus de la manipulacin, es decir,
antes y despus de su exposicin a la influencia de la variable experimental x.

a) Antes de aplicar x lo que se exige es que no haya diferencias significativas entre los
grupos experimental y de control, tanto en lo referente a x como en las variables de
control (es decir a las variables extraas relevantes que requieren ser controladas).
b) Despus de aplicar x, lo que se espera como deseable (para aceptar la hiptesis de
investigacin) es que haya diferencias significativas en cuanto a x entre ambos grupos.
La teora de las muestras (2) es til para poder determinar si las diferencias observadas
entre dos muestras son realmente debidas al azar o si son significativas, lo que puede
llevar a un proceso de toma de decisiones gracias a las pruebas de hiptesis y de
significacin que se pueden hacer (Kohan N, 1994:144).

2) Diferencia entre muestra y poblacin.- Queda, no obstante, otra tarea adicional para la
estadstica inferencial: establecer si las conclusiones obtenidas para la muestra experimental,
luego de la exposicin a x, pueden extenderse lcitamente a toda la poblacin, habida cuenta
de que la ciencia busca un conocimiento vlido y universal. Esta tarea es lo que Kohan
describe como probar hiptesis vlidas para la poblacin correspondiente, conociendo la
informacin de las muestras (Kohan N, 1994:144). La misma autora indica que para que las
conclusiones que se obtienen a partir de las muestras sean vlidas, stas deben ser
representativas de la poblacin.

El objetivo de este tem es explicar con un ejemplo de qu manera se puede alcanzar el


objetivo 1b, es decir, como se puede probar si hay o no diferencias significativas entre un
grupo experimental y un grupo de control.
Los resultados de un experimento requieren un tratamiento estadstico que permita orientar
al investigador acerca de si la hiptesis de investigacin debe ser rechazada o no rechazada,
para lo cual deber establecer convencionalmente un determinado nivel de significacin que
permita diferenciar resultados estadsticamente significativos de resultados estadsticamente
no significativos. Seguidamente se explica en detalle esta aseveracin.

En los informes de investigacin suelen aparecer expresiones del tipo "los resultados del
experimento son estadsticamente significativos". Seguidamente se aclarar en forma
intuitiva qu quiere decir esto, siguiendo los lineamientos didcticos de Len y Montero
(1995:105-130).
Supngase un sencillo experimento, donde se trata de probar si un choque emocional altera
o no el recuerdo de los sucesos inmediatamente anteriores al mismo.
Para ello, se tomaron dos grupos de estudiantes: el grupo experimental presenci una
pelcula donde haba una escena violenta, y el grupo de control presenci la misma pelcula
pero sin la escena violenta.
Los resultados fueron los siguientes: el grupo sometido al choque emocional lograba luego
recordar un promedio de 10, mientras que el grupo sin choque emocional lograba recordar
ms sobre las escenas del film: por ejemplo, un promedio de 15. Esquemticamente:

Grupo Choque Recuerdo


emocional
Grupo I (vieron escena violenta) SI 10
Grupo II (no vieron escena violenta) NO 15

Lo que debe ahora establecerse es si esta diferencia en los recuerdos entre 10 y 15 es o no


significativa, es decir, si va o no ms all del simple azar. Si se concluye que NO es
significativa, entonces las diferencias entre 10 y 15 se deben al azar, pero si se concluye que
SI es una diferencia significativa, entonces no debe descartarse la influencia del choque
emocional sobre la memoria. La expresin 'significativa' quiere decir una diferencia lo
suficientemente grande como para pensar que el choque emocional influye sobre los
recuerdos.
En principio, para averiguar si la diferencia es o no significativa, puede apelarse a dos
procedimientos, que podran llamarse el procedimiento intuitivo y el procedimiento
estadstico.
a) El procedimiento intuitivo es muy simple: se advierte que la diferencia entre ambos
grupos es 15-10=5, y entonces se piensa: "evidentemente, hay una diferencia significativa".
Si ambos grupos hubiesen obtenido 15, se pensara que no habra diferencia significativa y
entonces se concluira que el choque emocional no influye sobre el recuerdo.
Como puede notarse, este procedimiento intuitivo tiene el problema de la subjetividad en la
estimacin de los resultados. Tal vez para otro investigador no hubiese sido significativa la
diferencia de 5 sino una diferencia mayor, como por ejemplo 8. Ambos investigadores
polemizaran fundamentando sus argumentaciones sobre la base de simples impresiones o
creencias, es decir, jams llegaran a un acuerdo, y, en el mejor de los casos, acordaran
buscar un procedimiento ms objetivo. En este caso contrataran a un tcnico en estadstica
para que hiciera una estimacin como la que ahora se pasa a explicar.
b) El procedimiento estadstico es ms complejo que el anterior: en lugar de intentar
averiguar si la diferencia entre las promedios 15 y 10 es "intuitivamente significativa", lo que
intentar probar es si la diferencia es "estadsticamente significativa".
Cabe aqu anticipar algo que sealan Len y Montero: "Encontrar una diferencia de valores
que no es estadsticamente significativa equivale a decir que esa diferencia la hemos
encontrado por casualidad. O lo que es lo mismo, si repitiramos el proceso, el promedio de
diferencias encontradas sera cero".
Qu significa esta ltima expresin? Significa que si se hicieran otros experimentos con
otros grupos, puesto que las diferencias que se obtienen obedecen a la casualidad, una vez
se podra encontrar una diferencia de 5, otra vez una diferencia de 3, otra vez una diferencia
de -4, etc, es decir, saldran nmeros al azar cuyo promedio tendera a cero, puesto que si
dicho promedio tendiese a 5, entonces los resultados ya podran ser pensados como
significativos.

A partir del ejemplo, se puede ahora examinar el concepto de significacin estadstica,


central dentro de la teora de las muestras (5).
Len y Montero proponen imaginar por un momento una variante del experimento anterior,
donde ninguno de los dos grupos fue expuesto al choque emocional, es decir, ambos grupos
vieron la misma pelcula sin la escena violenta.
Desde ya, este experimento carece de sentido, porque lo que interesa es ver si hay o no
diferencias entre dos grupos en lo concerniente a capacidad de recordar, sometidos cada uno
a 'diferentes' condiciones experimentales (uno vio la escena violenta y el otro no). Sin
embargo, analizar lo que sucedera en este experimento imaginario resultar til para
entender la idea de significacin estadstica, como enseguida se ver.
En este experimento imaginario, puesto que ambos grupos no recibieron el estmulo violento,
es esperable que los rendimientos mnmicos sean iguales, o por lo menos aproximadamente
iguales, porque siempre cabe la posibilidad de la intervencin de pequeas variables no
controladas.
Repitiendo varias veces el experimento, una vez podramos obtener una diferencia de 0, otra
vez una diferencia de 0.5, otra vez una diferencia de -1, etc. Si el experimento se repitiese
diez mil veces, es razonable pensar que habra muy pocos casos donde la diferencia fuese
muy extrema (por ejemplo 7 o -7), y muchos casos prximos a una diferencia de 0. Las
diferencias obtenidas en los diez mil experimentos podran resumirse, segn este criterio, en
la tabla 1.

Tabla 1

Diferencias entre los 2 Cantidad de experimentos


grupos (frecuencias)
7 5
6 25
5 90
4 280
3 680
2 1200
1 1690
0 2000
-1 1700
-2 1190
-3 720
-4 290
-5 100
-6 26
-7 4
Total 10.000

Los resultados de la tabla 1 permiten ver, en efecto, que hay muy pocos experimentos donde
la diferencia entre grupos es muy grande (en apenas 5 experimentos la diferencia fue 7),
mientras que hay muchos experimentos donde la diferencia entre grupos es nula (hay 2000
experimentos donde la diferencia fue 0).
La tabla tambin informa sobre lo siguiente:
a) La cantidad de casos que obtuvieron como diferencia entre +1 y -1 fue de 5.390 casos
(que resulta de sumar 1690 + 2000 + 1700). Ello representa el 53,9% ms prximo a cero
del total de casos.
b) La cantidad de casos que obtuvieron como diferencia entre +3 y -3 fue de 9180 casos.
Esto representa el 91,8% ms prximo a cero del total de casos, y se puede graficar
mediante una curva normal tal como aparece en el grfico 1. En este grfico se puede
visualizar fcilmente que el 91,8% de los experimentos obtuvo una diferencia de -3 hasta
+3.

Grfico 1
2000
Frecuencias

91,8%

-7 -6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6
+7
Diferencias

Una vez hechos estos clculos, ahora cabe hacerse una pregunta fundamental: dentro de
qu intervalo de diferencias cabra admitir que las diferencias responden al simple azar?
Dentro del intervalo -1 y +1? Dentro del intervalos -3 y +3? Por las dudas, se considerar
convencionalmente este ltimo intervalo. Esto quiere decir, por ejemplo, que si en un
experimento se obtuvo una diferencia de 2, entonces se considerar que dicha diferencia se
debe al azar (pues 2 est entre -3 y +3), mientras que si en otro experimento se obtuvo una
diferencia de 6, entonces se considerar que dicha diferencia no se debe al azar (pues 6 est
fuera del intervalo entre -3 y +3), es decir, se considerar que la diferencia es
'estadsticamente significativa'.
Supngase ahora el experimento original, donde un grupo era sometido al estmulo violento
y el otro no, es decir, donde los grupos son sometidos a diferentes condiciones
experimentales.
En uno de dichos experimentos se ha obtenido, por ejemplo, una diferencia de 2.5; por lo
tanto, deber concluirse que esta diferencia no es 'estadsticamente significativa' porque est
comprendida dentro del 91,8% de los casos ms prximos a cero (o sea, entre -3 y +3),
segn la convencin propuesta.
En cambio, si la diferencia encontrada en otro experimento de este tipo hubiese sido de 5,
este valor cae fuera del intervalo entre -3 y +3, y por lo tanto es 'estadsticamente
significativo' (ver grfico 2). Desde ya, para decidir esto se ha considerado que el porcentaje
que permite discriminar lo que es significativo de lo que no lo es era 91,8%. Si se hubiese
elegido el 99%, una diferencia de 5 como resultado hubiese resultado estadsticamente no
significativa.
Sealan Len y Montero: "el investigador [es quien] determina el porcentaje que sirve para
discriminar la significacin de la no significacin. Este tanto por ciento se denomina 'nivel de
confianza', y tiene sus valores ms frecuentes entre 95% y 99%". Cuanto mayor es el
porcentaje elegido, ms exigente deber ser en cuanto a la tipificacin de un resultado como
estadsticamente significativo.
En los informes de investigacin, en vez de citarse el nivel de confianza, se suele citar su
complementario, que es el 'nivel de significacin' o 'nivel de riesgo'. En el caso del ejemplo,
si el nivel de confianza era del 91,8%, el nivel de significacin o de riesgo ser lo que falta
para completar 100%, es decir, el 8,2% (ver grfico 2). Ms an, inclusive, es frecuente
expresar este nivel de significacin no en trminos de porcentajes sino en trminos de
probabilidad, con lo cual, en vez de afirmarse 8,2%, se afirmar 0.082.

Grfico 2
Nivel de Nivel de Nivel de
significacin confianza significacin
(o de riesgo) 91,8% (o de riesgo)
4,1% 4,1%

z
-7 -6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6
+7
Resultados estadsticamente Resultados estadsticamente Resultados estadsticamente
significativos NO significativos significativos

Las expresiones 'confianza' y 'riesgo' resultan esclarecedoras para entender estos conceptos:
si un experimento cae dentro del nivel de confianza se puede decir con tranquilidad, con
'confianza', que los resultados no son estadsticamente significativos, pero si cae dentro del
nivel de riesgo, el investigador se estara 'arriesgando' a sostener que los resultados son
estadsticamente significativos, es decir, a aceptar la hiptesis segn la cual un choque
emocional efectivamente influye sobre los recuerdos.
Len y Montero indican que encontrar diferencias estadsticamente significativas no es el
propsito final del investigador, ni lo ms importante. Lo que el investigador persigue es en
realidad determinar la significacin terica, ms que la significacin estadstica que le sirve
como medio, es decir, si resulta o no relevante para alguna finalidad. As por ejemplo, si se
ha constatado que un tratamiento para adelgazar produce una prdida de 2 Kg, esto puede
ser estadsticamente significativo, pero mientras que para un investigador nutricionista ser
adems tambin importante desde el punto de vista terico, para un vendedor de esa dieta
no, porque 2 Kg. no le proporciona un buen argumento de venta.
Una ltima acotacin. Podra ocurrir que algunos investigadores que hicieran el experimento
del choque emocional hubiesen obtenido diferencias extremas, como por ejemplo -7 o +7,
mientras que otros hubiesen obtenido diferencias ms prximas a cero, con lo cual los
primeros hubiesen aceptado la hiptesis del choque emocional, mientras que los segundos la
hubiesen rechazado. Este desacuerdo entre investigaciones puede ocurrir, con lo cual deber
emprenderse lo que se llama un 'meta-anlisis', es decir, un procedimiento que permita
integrar los resultados acumulados de una serie de investigaciones.

NOTAS

(1) Las muestras no probabilsticas solo suelen usarse como primera aproximacin en trabajos piloto,
pero no puede saberse cun confiables son sus resultados (Kohan N, 1994:146).
(2) Toda teora de las muestras es una estadstica inferencial, pues se infieren a partir de los valores
estadsticos hallados en las muestras los valores paramtricos ms probables para las poblaciones de las
cuales hemos extrado las muestras (Kohan N, 1994:145).
(3) Cuanto mayor es el error estndar, mayor es el intervalo de confianza. El error estndar es mayor
cuando z es mayor, o sea, cuanto menor es el riesgo que se quiere correr; cuando n es menor (si se
quiere ms precisin se necesitar una muestra ms grande), y cuando S es mayor. En sntesis: cuanto
menor es el riesgo que se quiere correr, cuanto menor es el tamao de la muestra y cuanto mayor es el
S (desvo estndar muestral), mayor ser el intervalo de confianza.
(4) Este nivel de riesgo es tambin llamado nivel de significacin (Rodrguez Feijo N, 2003).
(5) "La teora sobre las muestras... es til [entre otras cosas] para poder determinar si las diferencias
observadas entre dos muestras son realmente debidas al azar o si son significativas, lo que puede llevar
a un proceso de toma de decisiones gracias a las pruebas de hiptesis y de significacin que se pueden
hacer" (Kohan N, 1994:144).
(6) La prueba de hiptesis tiende a ser denominada en la actualidad teora de la decisin (Kohan N,
1994:173). Con ello se quiere significar que la prueba de hiptesis se lleva a cabo sobre la base de una
teora llamada teora de la decisin.
(7) Un experimento clsico para probar la hiptesis del investigador es comparar dos muestras: el grupo
experimental y el grupo de control. Si hay diferencia significativa entre la muestra experimental y la
muestra de control, entonces NO hay diferencia significativa entre la muestra experimental y la
poblacin.
(8) Puede llamar la atencin que el investigador no pruebe directamente su hiptesis alternativa sino
que lo haga indirectamente, probando la hiptesis nula. Por qu proceder para apoyar una teora
mostrando que hay poca evidencia para apoyar la teora contraria? Por qu no apoyar directamente la
hiptesis alternativa o de investigacin? La respuesta est en los problemas para evaluar las
posibilidades de decisiones incorrectas.
El argumento que en general puede encontrarse en los textos de estadstica es el siguiente: Si la
hiptesis de investigacin es verdadera (por ejemplo una vacuna cura el resfriado), la prueba de la
hiptesis nula (la contraria a la hiptesis de investigacin) deber conducir a su rechazo. En este caso, la
probabilidad de tomar una decisin incorrecta corresponde a cuyo valor fue especificado al determinar
la regin de rechazo. Por lo tanto, si se rechaza la hiptesis nula (que es lo deseable) se conoce
inmediatamente la probabilidad de tomar una decisin incorrecta. Esto proporciona una medida de
confianza de la conclusin.
Supngase que se utiliza el razonamiento opuesto, probando la hiptesis alternativa (de investigacin)
de que la vacuna es efectiva. Si la hiptesis de investigacin es verdadera, la estadstica de prueba
probablemente caer en la regin de aceptacin (en lugar de la de rechazo). Ahora, para encontrar la
probabilidad de una decisin incorrecta de debe evaluar , la probabilidad de aceptar la hiptesis nula
cuando esta es falsa. A pesar de que esto no representa un gran esfuerzo para el problema de la vacuna
contra el resfriado, es un trabajo adicional que se debe hacer y en algunos casos es muy difcil calcular
.
As que, para resumir, es mucho ms fcil seguir el camino de la prueba por contradiccin. Por lo
tanto, el estadstico elegir la hiptesis contraria a la de la investigacin como hiptesis nula y su deseo
es que la prueba conduzca a su rechazo. Si es as, el estadstico conoce el valor de y tiene una medida
inmediata de la confianza que se puede depositar en esta conclusin.
(9) Autores como Hernndez Sampieri et al (1996:91) nos ofrecen una interesante tipologa de hiptesis
nulas que contemplan varias posibilidades. Concretamente, hacen referencia a: 1) hiptesis nulas
descriptivas de una variable que se va a observar en un contexto (por ejemplo la expectativa de ingreso
mensual de los trabajadores de la corporacin T no oscila entre 50.000 y 60.000 pesos colombianos);
2) hiptesis que niegan o contradicen la correlacin entre dos o ms variables (por ejemplo no hay
relacin entre la autoestima y el temor de logro); 3) hiptesis que niegan que haya diferencia entre
grupos (por ejemplo no existen diferencias en el contenido de sexo en las telenovelas S, L y M); y 4)
hiptesis que niegan la relacin de causalidad entre dos o ms variables (por ejemplo la percepcin de
la similitud en religin, valores y creencias no provoca mayor atraccin fsica).
A nuestro entender, una visin ms completa de las hiptesis nulas debera considerar al menos cuatro
sentidos, que podemos designar respectivamente en trminos de hiptesis nula de estimacin, hiptesis
nula de correlacin, de causalidad y de validez externa:
a) La hiptesis nula de estimacin vendra a afirmar que los estadsticos muestrales no son
representativos de los parmetros poblacionales.
b) La hiptesis nula de correlacin vendra a afirmar que no existe una correlacin significativa entre dos
o ms variables. El nivel de significacin es en estos casos el que establece a priori el investigador
cuando califica ciertos intervalos del coeficiente de correlacin como alto, medio, bajo, etc.
c) La hiptesis nula de causalidad vendra a afirmar que los cambios en la variable dependiente Y no son
adjudicables a los cambios de la variable independiente X. Pagano, por ejemplo, refiere que la hiptesis
nula indica que la variable independiente no influye sobre la variable dependiente (Pagano, 1998:212).
Este segundo sentido de hiptesis nula es el ms frecuentemente mencionado en los tratados sobre el
tema.
d) La hiptesis nula de validez externa vendra a indicar que las conclusiones obtenidas en la muestra no
son extensibles -con el nivel confianza requerido- a toda la poblacin. Este tipo de hiptesis vendra
entonces a negar la validez externa de un experimento, entendiendo aqu validez externa como
requisitos de los diseos experimentales tal como por aparecen en gran parte de la bibliografa sobre el
tema (por ejemplo Campbell D y Stanley J, 1995:16). Autores como Tamayo pareceran considerar este
sentido de hiptesis nula cuando la incluyen dentro de las hiptesis estadsticas, definiendo stas ltimas
como suposiciones sobre una poblacin que se realizan a partir de los datos observados, es decir, de una
muestra (Tamayo M, 1999:120).
La hiptesis nula de estimacin corresponde a la primera tarea de la estadstica inferencial: la estimacin
de parmetros. Las hiptesis nulas de correlacin y de causalidad corresponderan a la prueba de
hiptesis donde se busca establecer si y se debe a x y no al azar, y la hiptesis nula de validez externa
corresponderan a la prueba de hiptesis donde se busca generalizar los resultados a toda la poblacin.
(10) Debe diferenciarse la hiptesis de investigacin (H), la hiptesis alternativa (Ha) y la hiptesis nula
(Ho). La hiptesis de investigacin resulta, segn Vessereau (1962:28), de consideraciones tericas o
bien est sugerida por los datos mismos. A los efectos de probar la hiptesis de investigacin, deber
drsele una forma estadstica, con lo cual se convierte en la hiptesis alternativa (esta forma
estadstica significa que incluye por ejemplo alguna afirmacin acerca de si hay o no diferencias
significativas). A su vez para probar esta hiptesis alternativa deber probarse la hiptesis nula, que no
es otra cosa que la negacin de la hiptesis alternativa.
Ms concretamente, por lo general, la hiptesis de investigacin predice una relacin entre dos o ms
variables (por ejemplo, que los nios que tienen mayor dominio del ojo izquierdo obtendrn puntajes de
rendimiento en lectura bastante inferiores a los de los otros alumnos). Para probar esta hiptesis de
manera estadstica, el investigador debe transformarla en hiptesis alternativa y luego negarla mediante
la hiptesis nula. La hiptesis nula no siempre refleja las expectativas del investigador en relacin con el
resultado del experimento. Por lo general, se opone a la hiptesis de investigacin, pero se la utiliza
porque resulta ms apropiada para la aplicacin de los procedimientos estadsticos. La hiptesis nula
determina que no existe relacin entre las variables consideradas (por ejemplo, en lo que respecta al
rendimiento en la lectura, no hay ninguna diferencia entre los nios que poseen mayor dominio del ojo
izquierdo y los dems). Por lo general, cuando se formula una hiptesis nula, se espera que sea
rechazada. Si esto ltimo ocurre, se acepta la hiptesis de investigacin (Van Dalen: 189-190).
(11) Las pruebas de una cola y dos colas tambin se llaman pruebas de un extremo y dos extremos, o
tambin unilaterales y bilaterales, o tambin one tailed test o two tailed test.
(12) Dada una poblacin de la cual se conoce su media aritmtica, por ejemplo 70, su varianza, y su
tamao N, por ejemplo 4, puede llevarse a cabo el siguiente procedimiento: a) primero se sacan todas
las muestras posibles del mismo tamao. La cantidad de muestras posibles se puede calcular mediante
un nmero combinatorio, y as, por ejemplo, de una poblacin de N = 4, se pueden obtener un total de
6 muestras de n = 2. b) A continuacin se calculan las medias aritmticas de cada una de las muestras
posibles, con lo cual se obtiene una distribucin muestral de medias aritmticas. Por ejemplo, las medias
aritmticas de las 6 muestras pueden ser: 50, 60, 70, 80 y 90. c) Seguidamente se calcula la media
aritmtica de todas estas medias aritmticas, y se obtiene un valor de 70. Como puede apreciarse, esta
media de todas la medias muestrales coincide con la media poblacional.
La estadstica ha demostrado que esta distribucin de medias de todas las medias muestrales sigue el
modelo de la curva normal, y se ha establecido as el teorema central de lmite, que dice que si se sacan
repetidamente muestras de tamao n de una poblacin normal de cierta media y cierta varianza, la
distribucin de las medias muestrales ser normal con una media igual a la media poblacional y con una
varianza igual a la varianza poblacional dividido n. Desde ya, la precisin de la aproximacin mejora al
aumentar n.
De todo ello se desprende que si se selecciona una muestra cualquiera y sta tiene una determinada
varianza (o sea, un determinado desvo estndar respecto de la media de las medias), se habr
cometido un determinado error, llamado en este caso error estndar, por haber trabajado con una
muestra en lugar de haberlo hecho con la poblacin. La frmula del error estndar no es otra cosa que el
desvo estndar de la muestra en cuestin, lo que es igual al desvo estndar poblacional dividido por la
raz cuadrada del tamao n de la muestra (Rodrguez Feijo, 2003) (Kohan N, 1994:150-153).
(13) Extrado de http://www.bibliopsiquis.com/psicologiacom/vol5num1/2815/. Otro ejemplo de prueba
de hiptesis de correlacin puede encontrarse en Kohan (1994:234).

REFERENCIAS BIBLIOGRFICAS

Bancroft H (1960) Introduccin a la bioestadstica. Buenos Aires: Eudeba.


Botella R (1993) Anlisis de datos en psicologa I. Buenos Aires: Paids.
Campbell D y Stanley J (1995), Diseos experimentales y cuasiexperimentales en la investigacin social.
Buenos Aires: Amorrortu.
Hernndez Sampieri R, Fernndez Collado C y Baptista Lucio P (1996), Metodologa de la investigacin.
Mxico: McGraw-Hill.
Kohan N (1994) Diseo estadstico. Buenos Aires, Eudeba.
Lichtenthal S, Qu es la teora de la informacin. Buenos Aires, Revista Ciencia Nueva, N 3, 1970.
Len O y Montero I (1995) Diseo de investigaciones (Introduccin a la lgica de la investigacin en
Psicologa y Educacin), Madrid, McGraw-Hill.
Levin R y Rubin D (1996) Estadstica para administradores. Prentice Hall, 6 ed.
Pagano R (1998) Estadstica en las ciencias del comportamiento. Mxico: Internacional Thomson. 5
edicin.
Rodrguez Feijo N (2003) Estadstica social.
Tamayo M (1999), Diccionario de la investigacin cientfica. Mxico: Limusa.
Van Dalen D y Meyer W, Manual de tcnica de la investigacin educacional.
Vessereau A (1962) La estadstica. Buenos Aires: Eudeba.

OTRAS FUENTES CONSULTADAS

Ander-Egg E (1987) Tcnicas de Investigacin social. Buenos Aires: Hvmanitas, 21 edicin.


Cuidet C (1969) Nociones bsicas para el tratamiento estadstico en los tests mentales. Buenos Aires:
Opfyl.
Garrett H (1966) Estadstica en Psicologa y Educacin. Buenos Aires: Paids.

ANEXOS

ANEXO 1: NOMENCLATURA UTILIZADA EN ESTA GUA


Muchos de los smbolos que se emplean en estadstica no son universales. En la siguiente
lista se presentan los smbolos que se utilizan en esta Gua, y tambin se incluyen los
smbolos de las letras del alfabeto griego.
Hay ciertas reglas que suelen ser universales, como por ejemplo, las letras griegas siempre
se refieren a parmetros de la poblacin y las letras latinas se refieren a estadsticos de la
muestra (Levin y Rubin, 1996).

Smbolo Concepto
h Altura
CV Coeficiente de variacin
CV% Coeficiente de variacin porcentual
0
Q Cuartil de orden
Qt Cuartil t (ejemplo: Q3 = Cuartil 3)
0
D Decil de orden
Dt Decil t (ejemplo: D9 = Decil 9)
Dm Desviacin media
S Desvo estndar muestral
Desvo estndar poblacional
f Frecuencia absoluta
F Frecuencia acumulada
Fant Frecuencia acumulada anterior
F% Frecuencia acumulada porcentual
Fpos Frecuencia acumulada posterior
Fr Frecuencia acumulada relativa
fant Frecuencia del intervalo anterior
fpos Frecuencia del intervalo posterior
f Frecuencia expresada en grados
f% Frecuencia porcentual
fr Frecuencia relativa
As Indice de asimetra
Li Lmite inferior del intervalo
Ls Lmite superior del intervalo
xmay Mayor valor de la variable
X Media aritmtica muestral de x
Y Media aritmtica muestral de y
Media aritmtica poblacional (esperanza)
Mn Mediana
0
Mn Mediana de orden
xmen Menor valor de la variable
Mo Modo
t Nmero de decil o del percentil
0
P Percentil de orden
Pt Percentil t (ejemplo P99 = Percentil 99)
p Probabilidad
Z Puntaje estandarizada derivado
z Puntaje estandarizado reducido
xm Punto medio del intervalo
R Rango o amplitud
DQ Rango o desvo intercuartlico
Sumatoria
n Tamao de la muestra
N Tamao de la poblacin
a Tamao o amplitud del intervalo
| Valor absoluto
xn Variable (cualquier valor de una)
x1 Variable (determinado valor de una)
x, y Variables (letras que designan)
2
S Variancia muestral
Variancia poblacional
Ls Lmite superior del intervalo de confianza
Li Lmite inferior del intervalo de confianza
H Hiptesis de investigacin
Ho Hiptesis nula
Ha Hiptesis alternativa
Probabilidad de cometer un error Tipo I
Probabilidad de cometer un error Tipo II
1- Probabilidad de NO cometer el error tipo I
1- Probabilidad de NO cometer el error tipo II
ze z emprico
zt z terico o crtico

Alfabeto griego
Nombre Mayscula Minscula Nombre Mayscula Minscula Nombre Mayscula Minscula
alfa iota ro
beta kappa sigma
gamma lambda tau
delta mi psilon
psilon ni fi
dseta xi ji
eta micron psi
zeta pi omega

ANEXO 2: TABLA DE REAS BAJO LA CURVA NORMAL ESTANDARIZADA

Las siguientes tablas representan dos maneras diferentes de proporcionar una misma
informacin, a saber, la relacin entre el puntaje reducido z con la probabilidad p de
ocurrencia del valor z. El valor de esta probabilidad es proporcional al rea correspondiente
bajo la curva.
Por ejemplo, dado un valor z, las tablas permite conocer qu probabilidad tiene que darse
ese valor o ms o ese valor o menos, en un individuo elegido al azar. Desde ya, a la inversa,
tambin permite conocer qu valor z corresponde a una determinada probabilidad. Los
valores z figuran en la primera columna, mientras que los diferentes valores de probabilidad
figuran en las columnas restantes.

Por ejemplo:
a) Siguiendo la Tabla 1, un puntaje reducido z = +1.26 o menor tiene una probabilidad de
ocurrencia de p = 0.8962 (el rea bajo la curva normal corresponde al 89.62% de total del
rea).
b) Siguiendo la Tabla 2, un puntaje reducido z situado entre z = 0 y z = +1.26 tiene una
probabilidad de ocurrencia de p = 0.3962 (el rea bajo la curva normal corresponde al
39.62% del total del rea).

Arriba de cada tabla puede observarse un esquema de la curva normal. Las reas rayadas
indican las reas que cada tabla permite calcular. Por ejemplo, la Tabla 1 permite calcular
reas desde z hacia la izquierda, y la Tabla 2 calcula reas entre z y el centro de la
distribucin (z = 0).
Ntese que el ttulo asignado a la Tabla 2 es reas desde z = 0 hacia la izquierda o hacia la
derecha. Esto significa que, debido a la perfecta simetra de la curva normal, una distancia
entre z = +1.26 y 0 da la misma probabilidad que la distancia z = -1.26 y 0.

Tabla 1 reas desde z hacia la izquierda


Probabilidad (p)
z
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
-3.4 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0002
-3.3 .0005 .0005 .0005 .0004 .0004 .0004 .0004 .0004 .0004 .0003
-3.2 .0007 .0007 .0006 .0006 .0006 .0006 .0006 .0005 .0005 .0005
-3.1 .0010 .0009 .0009 .0009 .0008 .0008 .0008 .0008 .0007 .0007
-3.0 .0013 .0013 .0013 .0012 .0012 .0011 .0011 .0011 .0010 .0010
-2.9 .0019 .0018 .0017 .0017 0016. .0016 .0015 .0015 .0014 .0014
-2.8 .0026 .0025 .0024 .0023 .0023 .0022 .0021 .0021 .0020 .0019
-2.7 .0035 .0034 .0033 .0032 .0031 .0030 .0029 .0028 .0027 .0026
-2.6 .0047 .0045 .0044 .0043 .0041 .0040 .0039 .0038 .0037 .0036
-2.5 .0062 .0060 .0059 .0057 .0055 .0054 .0052 .0051 .0049 .0048
-2.4 .0082 .0080 .0078 .0075 .0073 .0071 .0069 .0068 .0066 .0064
-2.3 .0107 .0104 .0102 .0099 .0096 .0094 .0091 .0089 .0087 .0084
-2.2 .0139 .0136 .0132 .0129 .0125 .0122 .0119 .0116 .0113 .0110
-2.1 .0179 .0174 .0170 .0166 .0162 .0158 .0154 .0150 .0146 .0143
-2.0 .0228 .0222 .0217 .0212 .0207 .0202 .0197 .0192 .0188 .0183
-1.9 .0287 .0281 .0274 .0268 .0262 .0256 .0250 .0244 .0239 .0233
-1.8 .0359 .0352 .0344 .0336 .0329 .0322 .0314 .0307 .0301 .0294
-1.7 .0446 .0436 .0427 .0418 .0409 .0401 .0392 .0384 .0375 .0367
-1.6 .0548 .0537 .0526 .0516 .0505 .0495 .0485 .0475 .0465 .0455
-1.5 .0668 .0655 .0643 .0630 .0618 .0606 .0595 .0582 .0571 .0559
-1.4 .0808 .0793 .0778 .0764 .0749 .0735 .0722 .0708 .0694 .0681
-1.3 .0968 .0951 .0934 .0918 .0901 .0885 .0869 .0853 .0838 .0823
-1.2 .1151 .1131 .1112 .1093 .1075 .1056 .1038 .1020 .1003 .0985
-1.1 .1357 .1335 .1314 .1292 .1271 .1251 .1230 .1210 .1190 .1170
-1.0 .1587 .1562 .1539 .1515 .1492 .1469 .1446 .1423 .1401 .1379
-0.9 .1841 .1814 .1788 .1762 .1736 .1711 .1685 .1660 1635. 1611.
-0.8 .2119 .2090 .2061 .2033 .2005 .1977 .1949 .1922 .1894 .1867
-0.7 .2420 .2389 .2358 .2327 .2296 .2266 .2236 .2206 .2177 .2148
-0.6 .2743 .2709 .2676 .2643 .2611 .2578 .2546 .2514 .2483 .2451
-0.5 .3085 .3050 .3015 .2981 .2946 .2912 .2877 .2843 .2810 .2776
-0.4 .3446 .3409 .3372 .3336 .3300 .3264 .3228 .3192 .3156 .3121
-0.3 .3821 .3783 .3745 .3707 .3669 .3632 .3594 .3557 .3520 .3483
-0.2 .4207 .4168 .4129 .4090 .4052 .4013 .3974 .3936 .3897 .3859
-0.1 .4602 .4562 .4522 .4483 .4443 .4404 4364. 4325. 4286. 4247.
-0.0 .5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641
0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
0.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
0.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .4878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993
3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995
3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997
3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998

Tabla 2 reas desde z = 0 hacia la izquierda o hacia la derecha

z Probabilidad (p)
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359
0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0754
0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141
0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .1517
0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879
0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224
0.6 .2258 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2518 .2549
0.7 .2580 .2612 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852
0.8 .2881 .2910 .2939 .2967 .2996 .3023 .3051 .3078 .3106 .3133
0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389
1.0 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830
1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .4015
1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177
1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319
1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441
1.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545
1.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .4633
1.8 .4641 .4649 .4656 .4664 .4671 .4599 .4608 .4616 .4625 .4633
1.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4767
2.0 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817
2.1 .4821 .4826 .4830 .4834 .4838 .4842 .4846 .4850 .4854 .4857
2.2 .4961 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4887 .4890
2.3 .4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .4916
2.4 .4918 .4920 .4922 .4925 .4927 .4929 .4931 .4932 .4934 .4936
2.5 .4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 .4951 .4952
2.6 .4953 .4955 .4956 .4957 .4959 .4960 .4961 .4962 .4963 .4964
2.7 .4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .4973 .4974
2.8 .4974 .4975 .4976 .4977 .4977 .4978 .4979 .4979 .4980 .4981
2.9 .4981 .4982 .4982 .4983 .4984 .4984 .4985 .4985 .4986 .4986
3.0 .4987 .4987 .4987 .4988 .4988 .4989 .4989 .4989 .4990 .4990
3.1 .4990 .4991 .4991 .4991 .4992 .4992 .4992 .4992 .4993 .4993
3.2 .4993 .4993 .4994 .4994 .4994 .4994 .4994 .4995 .4995 .4995
3.3 .4995 .4995 .4995 .4996 .4996 .4996 .4996 .4996 4996. .4997
3.4 .4997 .4997 .4997 .4997 .4997 .4997 .4997 .4997 .4997 .4998

ANEXO 3

TABLA DE LA DISTRIBUCION t (Student)

Grado de libertad Nivel de probabilidad para pruebas de una cola


0.10 0.05 0.025 0.01 0.005 0.0005
Nivel de probabilidad para pruebas de dos colas
0.20 0.10 0.05 0.02 0.01 0.001
1 3.078 6.314 12.706 31.821 63.657 636.619
2 1.886 2.920 4.303 6.965 9.925 31.598
3 1.638 2.353 3.182 4.541 5.841 12.941
4 1.533 2.132 2.776 3.747 4.604 8.610
5 1.476 2.015 2.571 3.365 4.032 6.859
6 1.440 1.943 2.447 3.143 3.707 5.959
7 1.415 1.895 2.365 2.998 3.499 5.405
8 1.397 1.860 2.306 2.896 3.355 5.041
9 1.383 1.833 2.262 2.821 3.250 4.781
10 1.372 1.812 2.228 2.764 3.169 4.587
11 1.363 1.796 2.201 2.718 3.106 4.437
12 1.356 1.782 2.179 2.681 3.055 4.318
13 1.350 1.771 2.160 2.650 3.012 4.221
14 1.345 1.761 2.145 2.624 2.977 4.140
15 1.341 1.753 2.131 2.602 2.947 4.073
16 1.337 1.746 2.120 2.583 2.921 4.015
17 1.333 1.740 2.110 2.567 2.898 3.965
18 1.330 1.734 2.101 2.552 2.878 3.922
19 1.328 1.729 2.093 2.539 2.861 3.883
20 1.325 1.725 2.086 2.528 2.845 3.850
21 1.323 1.721 2.080 2.518 2.831 3.819
22 1.321 1.717 2.074 2.508 2.819 3.792
23 1.319 1.714 2.069 2.500 2.807 3.767
24 1.318 1.711 2.064 2.492 2.797 3.745
25 1.316 1.708 2.060 2.485 2.787 3.725
26 1.315 1.706 2.056 2.479 2.779 3.707
27 1.314 1.703 2.052 2.473 2.771 3.690
28 1.313 1.701 2.048 2.467 2.763 3.674
29 1.311 1.699 2.045 2.462 2.756 3.659
30 1.310 1.697 2.042 2.457 2.750 3.646
40 1.303 1.684 2.021 2.423 2.704 3.551
60 1.296 1.671 2.000 2.390 2.660 3.460
120 1.289 1.658 1.980 2.358 2.617 3.373
Infinito 1.282 1.645 1.960 2.326 2.576 3.291
(Fuente: Kohan, 1994:519).

Vous aimerez peut-être aussi