Vous êtes sur la page 1sur 43

ANLISIS DE DATOS

1. Concepto:
Anlisis de datos es la tcnica que consiste ene l estudio de los hechos y el
uso de sus expresiones en cifras para lograr informacin, la cual debe ser
vlida y confiable.
2. Objetivos que se proponen los investigadores cuando analizan
datos
En general, el anlisis pretende hacer explicitas las propiedades, notas y
rasgos de todo tipo que, en relacin a las variables estudiadas, se derivan de
las tablas en las que se condensa la clasificacin, mientras que en la
interpretacin intenta precisar la significacin y alcance de las propiedades y
rasgos.
Greenberg, Goldstucker y Bellenger sealaron con nfasis que pretenden
los investigadores cuando analizan datos:
Hallar lo que hay en los datos.
Conocer que variaciones ocurren en los datos.
Como estn distribuidos los datos.
Que relacin existe entre las variables.
Las estimaciones que resultan de los datos.
Describir las diferencias entre grupos y variables.
Determinar variables que causan variacin en otras variables.
3. Clases de anlisis de datos
Existen diversos ordenamientos de los anlisis de datos que dependen del
criterio de clasificacin de que se disponga. En efecto, de acuerdo al nmero
de variables, es decir si tenemos en cuenta cuantas variables se analizan
multivariables y multivariable.
De acuerdo al carcter del anlisis, puede ser: exploratorio, si se quiere
encontrar nuevas hiptesis; si se quiere verificar las que anteriormente se
formularon, entonces en este ltimo caso el anlisis ser confirmado.
Segn la naturaleza del anlisis, vale decir de acuerdo a lo que es el anlisis,
este puede ser cuantitativo si su naturaleza es formal (estadstico o
matemtico). Puede ser tambin cualitativo si su naturaleza es no formal: usa
precisiones conceptuales y entonces sera cualitativo.
Segn el objetivo que pretende el anlisis, este ser causal, cuando se quiere
llegar a las causas; ser un anlisis de cambios se pretende llegar a las
modificaciones de los fenmenos; de decisiones si lo que se logra conocer es
la adopcin de medidas; de grupos si se aspira a conocer determinados
conjuntos; y de sistemas si lo que se quiere conocer son estructuras:
conjuntos, ordenados en relaciones determinadas.
He aqu un cuadro sinttico de las clases de anlisis:Uso del anlisis
segn el nmero de variables
4. Usodel anlisis segn el nmero de variables
En la investigacin universitaria destacamos este anlisis puesto que permite
al investigador la ejecucin de las siguientes operaciones:
A. Sintetizar lo que se observa en una variable.
B. Comparar lo que se observa en dos variables.

C. Expresar la asociacin que existe entre dos o ms variables.


D. Inferir conocimientos a partir de los logros a), b) y c).
En la investigacin universitaria destacamos este anlisis puesto que permite
al investigador la ejecucin de las siguientes operaciones:
E. Sintetizar lo que se observa en una variable.
F. Comparar lo que se observa en dos variables.
G. Expresar la asociacin que existe entre dos o ms variables.
H. Inferir conocimientos a partir de los logros a), b) y c).
5. Importancia de la distincin de variables para usar las tcnicas
estadsticas
Precisar las clases de variables es importante en la instancia del anlisis de
datos, puesto que es segn el tipo de variable que se usaran las tcnicas
estadsticas. Las variables pueden clasificarse entonces segn su utilidad
para expresar clculos estadsticos:
I.
Variables nominales. Se caracterizan porque los nmeros se asignan a
las categoras se usan como smbolos o cdigos para su ulterior
clasificacin. Por ejemplo, se asigna a los alumnos el numero 1 para
la categora de aprobados y 2 para desaprobados.
II.
Variables ordinales. Son aquellas variables cuyos nmeros se asignan
a quienes tienen una caracterstica determinada, lo cual permite el
ordenamiento o el rango. As, por ejemplo queremos establecer un
orden entre los alumnos de un aula, de un ao escolar en un colegio, o
entre los alumnos de todas las aulas del tercer ao de secundaria de
Lima Metropolitana. Para cumplir con el objetivo planteado, asignamos
el numero 1 para alumnos que obtienen la clasificacin entre 17 y
20 en sus promedios de clasificacin anual, 2 para alumnos que
obtienen la clasificacin entre 14 y 16, etc. Como podemos apreciar,
1, 2, y otros nmeros solo permiten establecer un rango, un
orden, una clasificacin entre los alumnos.
III.
Variables intervalares. Son aquellas variables que se caracterizan
distancias iguales entre objetivos que se estudian tomando como
referencia una determinada propiedad. Por ejemplo, un estudiante
obtuvo de promedio de calificaciones 15, otro 13, otro 11 y otro 9. La
distancia entre 15 y 13 es igual entre 11 y 9, es decir, 2.
El cero (0) en las variables intervalares no es real, pues que un alumno
tenga 0 en u promedio no quiere decir que no sabe nada.
IV.
Variables proporcionales. Son variable que tienen las mismas
caractersticas que las variables intervalares, pero adems poseen el
cero real. Por ejemplo: la edad de las personas. En este caso existe n
cero real, al igual que en los aos de estudios (escolaridad) y en los
ingresos en un periodo de tiempo determinado.
6. Tcnicas estadsticas que se puede usar con las clases de
variables
Insistimos en nuestra afirmacin anterior. No todas las tcnicas estadsticas
se deben emplear usando cualquier variable. Guillermo Briones hizo emplear
con el uso de determinadas variables.Que con las variables nominales solo se
pueden usar las tcnicas estadsticas siguientes: distribucin de frecuencias,

el coeficiente de contingencia, la prueba de chi cuadrado y la moda como


medida de asociacin.
a) Que con tcnicas de estadsticas del anlisis univariado que puede
emplear quien elabora una tesis las variables nominales solo se
pueden usar la tcnicas estadsticas siguientes: distribucin de
frecuencia, el coeficiente de rango y mediana. Quiere decir que con
valores de este tipo de variables no se pueden calcular medias
aritmticas, varianza no desviaciones estndares.
b) Que con las variables proporcionales se pueden emplear todas las
tcnicas estadsticas.
c) Con las variables intervalares se pueden aplicar todas las tcnicas
estadsticas menos el coeficiente de variacin.
7. Tcnicas de estadsticas del anlisis univariado que puede
emplear quien elabora una tesis:
En el anlisis de una sola variable, tomando como recurso las tcnicas
estadsticas, el investigador universitario puede ofrecer medidas de
tendencia central: media aritmtica, mediana y modo. Tambin puede ofrecer
medidas de variabilidad: varianza, desviacin estndar y coeficiente de
variacin.
La interpretacin es posible para el investigador en tanto este pueda
comparar los resultados entre s o tambin compararlos con otros resultados
ofrecidos en otras circunstancias.
Es posible ofrecer un panorama del proceso que sigue el investigador cuando
lleva a cabo el anlisis e interpretacin de datos. He aqu una presentacin
de los pasos:
a) El investigador toma como punto de partida los resultados estadsticos
b) Ejecuta la normalizacin de los resultados, lo cual quiere decir que el
investigador formula las pautas para realizar comparaciones.
c) Hace la comparacin entre unos valores de la variable (comparacin
interna), correspondiente al mismo grupo poblacional y puede
tambin hacer comparaciones con valores de otra poblaciones
(comparacin externa).
d) Enuncia los estadsticos que reflejan las conclusiones del anlisis
estadstico.
e) Contrasta sus hallazgos con la teora existente respecto del os que
estudia.
8. Propiedad que se describen cuando se estudia una variable:
Cuando se estudia una variable se describen tres propiedades, llamadas
tambin caractersticas mayores:
Posicin
Dispersin
Forma
8.1) Medidas descriptivas con las que se representa las propiedades de
posicin, dispersin y forma.
El siguiente cuadro resume que propiedades de datos se describen cuando se
estudia una variable. Las medidas descriptivas que corresponden a cada una
de las tres propiedades (posicin, dispersin y forma), as como sus
expresiones.

Estudio de datos de una variable


Propiedad
Posicin

Dispersin

Forma

Tipo de medida
Medidas de
tendencia central
Medida de
tendencia no
central
Medidas de
dispersin o
variabilidad
Simetra

Modalidad
Curtosis

Expresiones
(estadsticos)
Media aritmtica
Mediana
Moda o modo
Cuantles

Recorrido
Varianza
Desviacin estndar
Coeficiente de variacin
Asimetra o sesgada
Simtrica o con
sesgamiento
Modos en una
distribucin
Razn de momentos de
Pearson

8.1) Conceptos de las propiedades o caractersticas mayores


Aqu ofrecemos las definiciones que permiten precisar los conceptos de las
propiedades o caractersticas mayores que corresponden al anlisis de datos
de una varianza.
Posicin : Caractersticas la mas importante que permite describir o
resumir la ubicacin de un grupo de datos, expresndola estadsticamente
con medidas de tendencia central (media aritmtica, mediana y modo) y con
medidas de tendencia no central: los cuantiles.
Dispersin: Propiedad o caracterstica que expresa la cantidad de variacin o
disminucin expresada en los datos. Las medidas que mas se usan para
expresar la magnitud de la dispersin son: el recorrido, la varianza, la
desviacin estndar y el coeficiente de variacin.
Forma: Propiedad o caracterstica mayor que expresa la manera en que se
distribuyen los datos. Los tipos de medida que se usa para expresar la forma
de los datos son la simetra, la modalidad y la curtosis.
9. Concepto de medidas de tendencia central
Se denomina medidas de tendencia central a aquellas medidas que describen
la localizacin de los valores de las variables que se estudian. La media
aritmtica, la mediana y el modo (o moda) son medidas de tendencia
central.
10. Concepto y reglas para el uso de cada una de las medidas de la
tendencia central
10.1. Media aritmtica (x)

Se denomina media aritmtica (x) a aquella medida que caracteriza a un


grupo de estudio con un solo valor y que se expresa como el cociente que
resulta de dividir la suma de todos los valores o puntajes entre el numero
total de los mismos.
El investigador sabe que para hallar la media aritmtica debe usar las
siguientes formulas:
a) Cuando se usa datos no agrupados

x =

x1
n

Donde:

= Media aritmtica

= Suma

x 1 = Valores individuales de la variable

= numero de valores o casos.

Ejemplo:
A seis estudiantes se les interroga: Cuntas veces a la semana acuden a
la biblioteca de la facultad a la que pertenecen? Y ellos respondieron de
la siguiente manera:
1 - 2 - 2 1 3 3 (seis respuestas, es decir, el primero respondi que
una vez a la semana acude a la biblioteca de su facultad, el segundo
contest que dos, el tercero que dos, le cuarto que una, el quinto que tres
y el sexto que tres), entonces, aplicando la formula anterior, es decir,
reemplazando las expresiones de la frmula pro sus valores respectivos,
tenemos:

x =

1+ 2+ 2+1+3+ 3 12
= =2
6
6

Segn el resultado, los alumnos acuden a la biblioteca de la facultad, en


promedio, dos veces a la semana.
b) Cuando se usa datos agrupados

x
f 1 ( 1)
n
x =

Donde:

x 1 = punto medio de la clase

f1

= frecuencia dela clase i de la distribucin

= suma de productos f1 x1

El investigador tendr presente que para aplicar la formula dela media


aritmtica usando datos agrupados se requiere que las categoras tengan

sus lmites claramente establecidos. No podr usar por tanto categoras


abiertas.
El investigador tiene presente que ha de cumplir con las siguientes
exigencias:

Establecer las categoras


Determinar el punto medio (P.M.) de cada clase de intervalo, que se
obtiene sumando el valor del intervalo y dividiendo entre dos.
Precisar las frecuencias en cada una de las categoras
Multiplicar la frecuencia por cada uno de los puntos medios
Obtener la sumatoria de las multiplicaciones anteriores
Lograr la media aritmtica de casos agrupados dividiendo la
sumatoria entre el nmero de casos.

Usar la media aritmtica en la investigacin universitaria sirve para:


I.
Expresar globalmente una informacin que frecen los datos
II.
Expresar una media estable
III.
Tener una media consistente
IV.
Obtener un dato fundamental para otros estadstico
Es importante observar que la primera ventaja sealada, que la media
aritmtica expresa globalmente una informacin, puede convertirse en una
desventaja cuando los datos estn mas cargados a un lado que a otro, lo cual
sera un caso de falsa localizacin da la distribucin.
10.2. La mediana (Mdn)
Es la medida de tendencia central que expresa el valor que ocupa el lugar
central entre los valores ordenados segn su magnitud.
Ejemplo de mediana:
La produccin diaria en una fbrica de calzado en la cual se trabaja los siete
das de la semana, expresada en docenas de calzado y presentada
ordenadamente, es como sigue:
40 42 43 47 48 50 51
Se observa fcilmente que el valor central es 47.
Vamos al siguiente cuadro en el cual se expresan los aos de estudio de un
grupo de trabajadores de una fbrica:
En este caso, como es un fenmeno acumulativo se tiene el siguiente cuadro
de frecuencias:
X1
11
6
16
18
19
Los valores obtenidos son los siguientes

F1
3
2
7
2
1

11 11 11 6 6 16 16 16 16
Al ordenar los valores seobtiene:
6 6 11 11 11 16 16 16 16
Al apreciar el valor central, se tiene 16

16

16

16

18

18

19

16

16

16

18

18

19

10.2.1. Proceso para obtener la mediana cuando el nmero de valores es par

En el caso en que el nmero de valores ordenados sea par, se considera el


promedio de los dos valores centrales. Por ejemplo: si el registro de los
valores fuera:
10 42 43 47 53 55 59 60 61 63
Los valores centrales son 53 y 55, para considerar su promedio se tiene:

53+ 55 108
=
=54
2
2

La mediana en este caso es 54


10.2.2 Cundo se usa la mediana?
Los investigadores usan la medida cuando los valores estn muy seguidos y
hay dato con valor extremo. La mediana no es afectada por el hecho de que
los valores apareados aparezcan cargados a un extremo, pues se trata de un
valor que esta entre 50% de unos y 50% de otros.
Como dicen Nuria Cortada y J. Manuel Carro, quienes reconociendo que la
mediana se usa la indicacin anterior, dicen enfticamente: sese la
mediana cuando:
a) Tenemos una escalera ordinal de intervalos iguales o de cocientes;
b) Cuando existen observaciones externas no compensadas;
c) Cuando existen clases de intervalo
10.2.3 La moda (Mo)
La moda o modo es el valor tpico o comn en un conjunto de datos, es decir,
el valor que mas se repite, el que se presenta con mayor frecuencia.
En el ejemplo de los aos de estudios de un grupo de trabajadores de una
fabrica, expuesta anteriormente:
x1
11
6
16
18
19

f1
3
2
7
2
1
15

El valor que ms se repite es 16.


10.3.1 Los datos bimodales
Cuando los datos presentan situaciones en las que son dos los valores que se
repiten con mas frecuencia, los datos se llaman bimodales.
Por ejemplo: Considrese que la seccin maestra de una escuela de
posgrado tiene 14 aulas. En cada aula hay diferentes nmeros de carpetas,
segn la siguiente tabla:
x1
20
25
26
28
30

f1
1
4
4
3
2
14

Tal como se puede observar fcilmente, los valores que hay mas se repiten
son dos: 25 y 26, los que se reconocen como datos bimodales.
Cuando no se repite ningn valor no hay moda.
10.3.2 Cuando usar la moda
Aunque la moda se puede usar con todas las escalas, se usa preferentemente
cuando se trabaja con escalas nominales. En realidad el uso de la moda la
restringe el investigador solo a los casos en los c pretende ofrecer una idea
aproximada acerca de donde esta la mayor concentracin de observaciones.
10.3.3 Aplicacin de la relacin de Pearson
La relacin de Pearson es una estimacin prctica del modo, siempre que la
distribucin no sea bimodal y se acerque bastante a la modal. Pearson
estableci una relacin que lleva su nombre y que se expresa
formalmente as:
11.

3 Mdn 2
Medidas de tendencia Mo
no =
central

11.1. Concepto
Son medidas tiles para una posicin no central, empleadas para resumir y
describir un conjunto de datos. Estas medidas de tendencia no central se
denominan cuantles.
11.2. Concepto de cuantles
Los cuantles o cuantilos, constituyen una clase de los (n-1) valores de
participacin de una aleatoria que dividen a la frecuencia total de una
poblacin o de una muestra dado n de partes iguales.
11.3. Clases de cuantles
Los cuantles dividen de una distribucin de n partes iguales. Cuando estas
partes son cuatro se denominan cuartiles. Si se divide en diez partes son
deciles y si se dividen en cien, percentiles.
Si s tiene una distribucin cuyo total de observaciones las dividimos en
cuatro partes iguales, para expresarla grficamente requerimos de tres
cuartiles, como lo muestra el siguiente grafico:
1er. Cuartil: Q1
2do. Cuartil: Q2
3er. Cuartil: Q3
Donde Q1 divide las observaciones en dos grupos: el 25% de las
observaciones son menores al valor del Q 1 y 75% de las observaciones son
mayores.
Q2 es la mediana: ya sabemos que el50% de las observaciones son menores
a la mediana (que en este caso coincide con el segundo cuartl) y 50% de las
observaciones son menores que ella.
Q3 divide a las observaciones en dos grupos: 75% de ellas son menores al Q 3
y el 25% son mayores.
11.4. Concepto de rango aplicado a los cuartiles

Se denomina rango de cuartiles a las posiciones que les corresponde a los


cuartiles les correspondern los siguientes rangos:

n+1
4

Rango del primer cuartl =

Rango del segundo cuartl

Rango del tercer cuartl

n+1
2
3 (n+1)
4

11.5. Obtencin de los deciles y percentiles


Para obtener los deciles se divide el total de frecuencias entre diez, mientras
que para la obtencin de los percentiles necesitamos dividir el total de
frecuencias entre 100.
11.6. Importancia de los percentiles
Trabajar con los percentiles es importancia para el investigador. Le permite
comparar unos datos con otros que participan en los mismos hechos. Como
dice Joan Welkowitz, en un ejemplo: si un estudiante universitario en un
examen obtiene una puntuacin de 41, con una prueba de 50 puntos,
necesita saber hasta que punto su clasificacin es buena: necesita sacar
conclusiones del hecho por ejemplo de que su clasificacin representa el
82 por ciento del total; pero necesitara comparar su clasificacin con las
dems del grupo especifico. En efecto, si el examen fue fcil para la mayor
pare de los estudiantes, su calificacin de 41 puede representar incluso un
rendimiento inferior a la media. Pero si el examen fue difcil para la mayora
de los estudiantes, su calificacin puede aparecer como de las ms altas.Los
percentiles como valores transformados resultan ser un valor que permite
pasar de la puntuacin original, llamada puntuacin directa, a otra a fin de
mostrar la situacin del individuo en comparacin con otros del mismo
conjunto. El papel del percentil es, pues, mostrar como un valor concreto se
compara con otros de un grupo determinado.
11.7. Concepto de rango del percentil
Se denomina el rango del percentil de un valor dado al numero que expresa
el tanto por ciento de casos en el grupo es pacifico de referencia y cuyo valor
es igual o inferior al dado. As, si al puntaje de 41 le corresponde un rango de
85, entonces esto significa que el 85% del grupo que dio examen obtuvo una
puntuacin igual o menor que 41 mientras que solo el15% obtuvo
calificaciones mas altas. Pero, si a 41 le corresponde un rango de 55, esto
significa que el 55% de los que dieron examen obtuvo puntuaciones iguales o
mas bajas, pero tambin significa que el 45% logro calificaciones mas altas, y
por tanto su calificacin de 85 no es alta como pareca al comienzo.
11.8. Calculo del grupo percentil cuando se conoce el valor bruto

Esta operacin estadstica consiste en determinar el rango del percentil


cuando se conoce el valor bruto, es decir, la puntuacin origina o puntuacin
directa.
Tomemos como referencia el ejemplo de Welkowitz. Para efecto de una
captacin ms inmediata hemos hecho modificaciones en la presentacin del
caso pero no en la naturaleza del conocimiento.
Las calificaciones de los estudiantes que conforman el grupo al que
pertenece nuestro personaje que obtuvo 41 puntos fueron las siguientes.
Intervalo de clase

Frecuencia (f)

48 50
45 47
42 44

1
3
4

LIR
(Lnea
del
interval
o
critico)

39 41
36
33
30
27
24
21
18
15
12
9

38
35
32
29
26
23
20
17
14
11

Intervalo
superior
6

7
9
14
8
10 71
8 Intervalo
4 .inferior
3
3
5

Frecuencia
acumulada (fa)
85
84
81

6 intervalo
71
64
55
41
33
23
15
11
8
5

Para obtener el rango del percentil se sigue el proceso que pasamos a


describir:
a) Se localiza el intervalo de clase al que pertenece la clasificacin. Para
una mejor ilustracin este intervalo aparece recuadrado: es la cuarta
lnea en el cuadro anterior.
b) Se clasifican las frecuencias (f) de las tres categoras, las que
corresponden a las tres clases de clasificaciones:
Calificaciones superiores al intervalo crtico.
Calificaciones del intervalo crtico.
Calificaciones inferiores al intervalo crtico.
c) Logro de porcentajes de intervalos. Para el logro del porcentaje de
intervalo de cada caso se divide la frecuencia del intervalo
correspondiente entre la frecuencia acumulada:
Por lo tanto, el proceso para hallar cada uno de los intervalos es el
siguiente:
Intervalos superiores:
f:8
8/85 9,4% (S%)
Intervalos critico: f:6
6/85 71,5%(C%)
Intervalos inferiores:
f:71 71/85 83,5%(I%)
En el cuadro puede apreciarse que:
8 persona obtuvieron puntajes superiores al intervalo crtico.
6 persona obtuvieron puntajes en el intervalo crtico.
71 persona obtuvieron puntajes inferiores al intervalo crtico.
(Esta cifra se obtiene siempre tomando nota de las frecuencias
acumuladas para el intervalo inmediatamente inferior al intervalo crtico)

S%, representa el porcentaje de persona con calificaciones superiores a


las del intervalo crtico y se lee porcentaje superior
C%, se lee porcentaje critico, representa el porcentaje de calificaciones
que puntan en el intervalo crtico.
I%, porcentaje de la suma de las frecuencias inferiores, representa el
porcentaje de la suma de calificaciones que puntan debajo del intervalo
inferior.
d) Determinacin del lmite del intervalo crtico. Es conveniente sealar
como podra creerse que el lmite del intervalo crtico no es 39. En
efecto, tenemos que ponernos en el caso de que alguien obtenga una
puntuacin decimal y en este caso habra una dificultad, puesto que l
intervalo crtico seria mas estrecho que el que le corresponde.
Fcilmente se aprecia que la puntuacin se cargara a favor del intervalo
inferior.
El lmite entre el intervalo que comprende los puntajes del 39 al 41- y
el intervalo que comprende los puntajes del 36 al 38 es el promedio
entre 38 y 39, es decir, 38,5. Por lo tanto, cualquier puntaje que se sea
inferior a 38,5 pertenece al intervalo inferior, y cualquier puntuacin
superior a 38,5 pero inferior a 41,5 pertenece al intervalo crtico.
e) Determinacin del tamao del intervalo. El tamao del intervalo es la
distancia existente entre los puntajes que comprende cada uno de los
intervalos. As, entre los puntajes 9 y 11 del primer intervalo inferior es
3, entre12 y 14, es 3, igualmente entre los otros restantes.
En el ejemplo, motivo del anlisis el tamao del intervalo es 3
11.9. Obtencin del rango del percentil
Para la obtencin del rango del percentil se suma el porcentaje de la suma de
las frecuencias inferiores con el producto del intervalo expresado en fraccin
por el porcentaje crtico (C%).
Como vimos, la suma del porcentaje de las frecuencias inferiores es 83,5; el
tamao del intervalo es 3, pero expresado en fraccin en el caso del
ejemplo- equivale a 2,5/3 puntos, o sea 0,83; y tambin, vimos que C% es
7,1, entonces el rango del percentil ser:
Rango del percentil
= 83,5%
(0,83)
(7,1%)
= 83,5
5,98%
= 89,4%
11.10. Formula abreviada para obtener el rango del percentil

Rango del percentil=I +(

Calificaci n obtenidaLIR
.C )
h

Donde:
I % = porcentaje de la suma de las frecuencias inferiores. Calificacin
obtenida = en
el ejemplo, 41.
LIR = limite de intervalo crtico. En este ejemplo (vase la tabla de
intervalos de

frecuencias) = 38,5
= porcentaje de calificaciones que se ubican en el intervalo

C%
crtico.
h
= tamao del intervalo.

Reemplazando las expresiones de la formula por cifras correspondientes


en el ejemplo, se tiene:

Rango del percentil=83,5+

.7,1 )
( 4138,5
3

( 2,53 .7,1 )

83,5+
83,5+5,89

Rango del percentil=89,4


12.

Las medidas de desviacin

12.1. Concepto de medidas de desviacin


Se denominan medidas de desviacin aquellas medidas que usa el
investigador para ofrecer informacin de la heterogeneidad u homogeneidad
de los datos, es decir, aquellas medidas que se refieren a las variaciones o
dispersiones de los datos en su conjunto.
El calculo de las medidas de desviacin es una tarea complementaria que no
puede eludir el investigador, sobre todo considerando que es posible que en
el anlisis de unos datos puede encontrarse que tiene una misma medida de
tendencia central pero distintas medidas de dispersin.
12.2. Medidas que se usan para medir la dispersin de datos
Las medidas que ms usan los investigadores para expresarla dispersin de
los datos son: el rango (denominado tambin recorrido), la varianza (o
variancia), la desviacin estndar y el coeficiente de variacin.
12.2.1. El rango o recorrido
Se denomina rango o recorrido a la diferencia entre el valor mximo y el
valor mnimo en un conjunto de datos ordenados.
Por ejemplo, si hay un grupo de alumnos que ingreso a la Facultad de
Estomatologa en 1995, y dentro de el hay seis que tienen la menor edad
(15 aos); hay uno que tiene la mayor edad (62 aos) y los otros tienen
diversas edades, pero mayores que 15 y menores que 62. En este caso el
valor mximo es 62 y el mnimo es 15.
El recorrido se obtendr por la diferencia: se resta el valor mnimo al valor
mximo.
Recorrido = 62 15 = 47
El recorrido o rango es fcil de obtener, pero la desventaja de esta
medida radica en el hecho de que no informa absolutamente nada acerca
de la distribucin de los datos entre los valores extremos.
12.2.2. La varianza o medida de lo cuadrados

La varianza o medida de cuadrados es la medida de la variabilidad mas


usada para apreciar las diferencias entre los hechos: expresa el grado de
dispersin o diseminacin de los valores respecto a los valores de una
serie con relacin a su media aritmtica.
La gran importancia de calcular la media y la varianza de grupos
experimentales esta en el hecho de que cumple con una tarea
fundamental en la investigacin: estudiar relaciones entre hechos.
Kerlinger afirma que la varianza es una medida de dispersin del
conjunto de puntuaciones.
Un caso de uso de varianza en la investigacin en el rea de educacin es
el siguiente:
Se estudia un grupo de alumnos por ejemplo el de un colegia X que
tiene rendimiento heterogneo en la asignaturas del rea de matemtica.
En este estudio nos servir la varianza para expresar las diferencias entre
puntajes con relacin a otro grupo que se considera homogneo en el
rendimiento en la misma rea.
12.2.2.1 Las clases de varianza
Segn el uso del investigador le da a la varianza en tanto medida de
variabilidad, suelen distinguirse diversos tipos de varianza. De acuerdo a
la extensin de la poblacin que estudia puede ser de poblacin y
varianza de muestra. Segn el conocimiento de las influencias: varianza
sistemtica (debidas a influencias conocidas) y de error (debida a la
casualidad). Entre las varianzas sistemticas se destaca la varianza entre
grupos o varianza experimental.
Haremos, a continuacin, algunas precisiones referentes a estas clases de
varianza
12.2.2.1.1. Varianzas segn la extensin de los grupos que se estudian
De acuerdo a la extensin de los grupos que se estudian, las varianzas
pueden ser de poblacin o de muestras.
a) Varianza de poblacin
Se denomina as a la varianza que estudia la dispersin de datos
correspondientes a una poblacin completa, es decir, a un universo.
Cuando se reconocen todas la medidas de un universo que se estudia,
entonces la varianza tambin es conocida. Tal hecho no ocurre siempre,
por lo que los investigadores se preocupan por estudiar y de aplicar otro
tipo de varianza: la varianza de muestras.
b) Varianza de muestras
La varianza de muestras es aquella varianza que se usa cuando no es
posible estudiar toda la poblacin o universo o no hay dificultades para
estudiar todo el universo o, tambin, cuando se prefiere no causar
problemas por las condiciones para poder estudiar toda una poblacin
completa, como el dinero requiere, el tiempo de dedicacin o la
paralizacin de una poblacin.
Veamos el siguiente ejemplo: se quiere estudiar la duracin de todo los
fluorescentes. Habra que paralizar todas las fbricas de fluorescentes?
Indudablemente que no. Habra que recurrir a las muestras.

12.2.2.1.2 Varianzas segn el conocimiento de las influencias


Segn el conocimiento de las influencias, las varianzas pueden ser
varianzas sistemticas o varianzas de error.
a) Varianza sistemtica
Se denomina varianza sistemtica a aquella variabilidad que encuentra
su explicacin en las influencias que se conocen.las influencias de
fenmenos naturales, as como las producidas por el hombre y que se
pueden predecir con influencias sistemtica.
Un ejemplo de varianza sistemtica es el siguiente: la variabilidad de las
puntuaciones obtenidas por los estudiantes que reciben entrenamiento
en comprensin de lectura, las cuales tienden a ser sistemticamente
ms altas que las puntuaciones de los estudiantes que no reciben la
misma clase de entrenamiento, y si el aprendizaje es repetitivo, con
mayor intensidad an.
b) La varianza entre grupos de medidas o experimental
La varianza entre grupos o varianza experimental es una clase de
varianza sistemtica, que se denomina as por expresar diferencias
sistemticas entre grupos de medida.
Las dispersiones de daros, como la cita diferencia de puntuaciones de
compresin de lectura, establecen diferencias entre grupos y
propiamente entre individuos de un grupo. Pero es posible hacer
distinciones respecto de puntajes de compresin de lectura entre
estudiantes de grupo distintos de procedencia: de universidades
nacionales y de universidades privadas. Cabe hablar de varianza
intragrupos, cuando se distingue subgrupos dentro de uno existente y
reconocido, y de varianza extragrupos, cuando se trata de variabilidad
entre grupos existentes y reconocidos. Tambin es posible estudiar las
varianzas entre individuos.
He aqu un ejemplo de cmo se puede aplicar la medida de desviacin
conocida como varianza al estudio de grupos:
La aplicacin de mtodos de ventas A y B a dos grupos de clientes: se
aplica el diseo clsico de investigacin, que dispone de grupos
experimentales y testigos, que control y manipula la variable
independiente y en el cual se hacen variar los resultados del grupo
experimental denominados medidas de criterios- tanto en el sentido
de acumulacin de puntuaciones como de su disminucin, en tanto que
las medidas del grupo se conservan en un mismo nivel. Aqu se da una
varianza entre grupos.
La apreciacin de varianza en estudios no experimentales no siempre
tiene la misma claridad que con los casos experimentales. En la medida
en que existen diferencias entre grupos, el investigador supone
racionalmente que la variable independiente ha operado o actuado; y a la
inversa, si hay poca diferencia entre los grupos, el investigador supondr
que hay variables independientes que no hicieron cambiar a la variable
dependiente, que los efectos que produce son muy dbiles, tanto que el
investigador no los percibe o que la influencia que ejerce fue neutralizada
por la accin de otras variables independientes.
c) La varianza de error

Se denomina varianza de error a la dispersin de datos medidos y que


obedecen a la causalidad, debido a hechos que ignora o no conocer bien
el investigador
Por ms providencias que tome el investigador ocurren dispersiones de
datos por hechos que el investigador no identifica cono controla. Lgico
es que si los conociera, sil os identificara, entonces adoptara una
estrategia.
12.2.3. La desviacin estndar
Se denomina desviacin estndar a la medida de dispersin de datos
relacionada con la varianza, pues en tanto que esta ultima se expresa en
unidades elevadas al cuadrado, y de acuerdo a las unidades de los
valores elevados al cuadrado (metros al cuadrado, dlares al cuadrado,
etc.), para hacer practico el enunciado, se usa la medida de desviacin
estndar, que por esta razn es la raz cuadrada positiva dela varianza.
La formula para hallar la desviacin estndar (S) es:

S=

f 1 (x i x )2
n

Donde: S = desviacin estndar


Xi = valores individuales

= media aritmtica

f1 =frecuencia del valor x


n = casos
12.2.4. El coeficiente de variacin
Es la medida de dispersin de datos que mide el grado de desviacin con
relacin a la media, de all que se le conciba como una medida de
dispersin relativa. Se expresa en trminos de porcentajes.
El coeficiente de variacin se usa en casos de que exista una diferencia
grande entre las medias de las diferentes muestras.
Para hallar el coeficiente de variacin se aplica la siguiente formula:

V=

S
x

Donde:
V = coeficiente de variacin
S = desviacin estndar

= Media Aritmtica

12.2.4.1. Importancia del uso de la desviacin estndar en


comparacin con otras
medidas de dispersin

La desviacin estndar resulta ms estable de un muestreo a otro


Sus propiedades permiten que los investigadores puedan hacer
interpretaciones que se aplican en las aferencias estadsticas.

13.

Se aplica en el anlisis de inversin y medio con de riesgos. Los


investigadores saben que a menor desviacin estndar, menor el
riesgo del proyecto.

La presentacin de datos:

13.1. Concepto
La presentacin de datos es la forma en que el investigador expone al jurado
calificador y a los lectores de su informe, los datos que encontr al aplicar sus
instrumentos de medicin.
13.2. Las formas posibles de presentar los datos
Un investigador que hace una tesis tiene un conjunto de posibilidades de
presentar los datos. Generalmente combina los diversos recursos,
esmerndose en alcanzar la informacin al jurado y sus lectores.
Entre las formas de presentacin de datos estn: las tablas de frecuencia y la
presentacin grfica.
Vemos seguidamente estos recursos.
13.2.1 La tabla de frecuencias
Consiste propiamente en un mtodo por el cual se clasifican y ordenan
los datos en clases o intervalos, de tal manera que quera claramente
definida la frecuencia con que se producen los hechos. El numero de
observaciones que registra, est tratando de tal manera que puede
manejarse con versatilidad aunque implique cantidades considerables
Para elaborar una tabla de frecuencia el investigador que hace una tesis
sigue las siguientes prescripciones.
a)
b)
c)
d)

El ttulo expresa las variables, de las cuales se ofrecen datos.


Seguidamente se establecen las clases o intervalos.
La tabla expresa el tamao del muestreo.
Hacer el conteo de cada clase o intervalo y presentarlo en forma de
frecuencia.
e) Se el investigador presenta datos secundarios, incluir una nota
indicando all las fuentes.
f) El nmero de clases o intervalos, as como su tamao debe definirse
de tal manera que cada uno de los nmeros pertenezca siempre slo
a una clase o intervalo.
13.2.2. Cmo establecer las clases de distribucin?
Para establecer las clases de distribucin se siguen los siguientes pasos:
a) Determinar el rango.

b) Se decide el numero de clases (para algunos autores, el numero de


clases no debe ser mayor de 15 ni menor de 5). Es recomendable el
siguiente criterio: extraer la raz cuadrada del tamao del muestreo.
c) Se establece la amplitud de la clase o intervalo. Se sugiere establecer
esta amplitud dividiendo el rango entre el nmero de clases.
d) Establecer los intervalos preliminares. Para lograr este paso se
considera un numero por debajo del valor mas pequeo del limite
inferior; para establecer el lmite inferior con la amplitud de clase.
e) Presentar claramente las clases, es decir, el investigador no puede dar
pie para que la distribucin que presente, admita la repeticin de un
mismo nmero en dos clases diferentes.
En este caso de que el investigador use nmeros continuos,
instrumentar el signo <, de tal manera que en las clases o
intervalos aparezcan expresiones como:
2a<5
5a<8
8 a < 11, etc.
Veamos un ejemplo que nos presenta Naghi. He aqu el registro de la
produccin mensual de una fbrica textil en los ltimos 28 meses:
Produccin de la fabrica textil X en millones de metros
121,1
14,4
90,7
54,8
13,5
66,5
77,3
Donde:

100,0
19,2
13,2
112,6
29,2
38,7
46,2

33,7
45,1
116,4
119,1
99,8
100,0
58,1

72,9
81,3
59,5
45,3
121,6
108,1
39,7

Rango: 10,4
Raz cuadrada del muestreo= 5,3 y se consideran 6 clases
Amplitud de clase: 108/6 = 18
Lmite inferior de la clase = 13
Lmite superior: 13 + 18 = 31

13.2.3. Distribucin de frecuencias


Es la frecuencia acumulada. Veamos al siguiente cuadro:
Cuadro de distribucin de frecuencias
Clase
13 a < 31
31 a < 49
49 a < 67
67 a < 85
85 a < 103
103 a <121

Frecuencia
5
6
4
3
4
6

13.2.4. Distribucin de frecuencias y determinacin de porcentajes.


Una vez que el investigador estableci las frecuencias, determina los
porcentajes correspondientes, pues busca tener criterio para comparar
categoras y para ello considera como si tuviera 100 elementos. Los
porcentajes hacen lo mismo que las frecuencias relativas, pero estas
ltimas suman 1, mientras que los porcentajes suman 100.
Cuando un presentador presenta tablas con porcentajes, debe indicar la
base numrica sobre la que descansa la tabla: nunca obtener porcentajes
basados en cifras menores que 20. La ley de los grandes nmeros
sustenta la estabilidad de los porcentajes y frecuencias relativas en cifras
mayores de 20 y no de cifras menores a ella. Es por esta razn que se
confa ms en 50% sustentando en 5000 que 50% sustentado en 6.
Para la precisin de los datos se prefiere usar nmeros enteros, sin
embargo, hay un peligro. Cuando se redondean cifras, el redondeo
puede hacer que se acumulen decimales que inmediatamente pueden
incomodar con la exactitud.
Ejemplo de distribucin de frecuencias de datos nominales: una empresa
de gaseosas discute el incremento de remuneraciones de sus
trabajadores: estudia un incremento por asignacin familiar a partir de
este ao. Pero la empresa necesita precisar el estado civil de sus
trabajadores. La averiguacin a esta fecha, arroj los siguientes
resultados.
14.

Anlisis e interpretacin bivariado

14.1. Ejemplo de correlacin de variables


En el mundo empresarial, los administradores saben que existen relaciones
que los hachos comparten. Por ejemplo, por su experiencia se puede afirmar
que mientras ms retroalimentacin del trabajo en las distinta fases del
trabajo, mejores resultados habr y mayor ser el logro de la calidad del
producto. Cierto es que podra darse el caso de que algunos apliquen la
retroalimentacin del trabajo y no siempre logren resultados positivos; es
decir, que a pesar de la aplicacin de la retroalimentacin no se consigue una
mejora de la calidad del producto. Pese a que se reconoce esto ltimo, hay
sin embargo una tendencia general que puede expresarse en estos trminos:
poca retroalimentacin o ausencia de ella en el trabajo traer consigo baja
calidad del producto, mientras que ms retroalimentacin producir el logro
mayor de la calidad. En este caso se afirma que, estadsticamente, la
retroalimentacin del trabajo y loro de mayor calidad estn correlacionados.
Segn la estadstica, mientras ms expresiva la correlacin entre dos
variables, mayor posibilidad de lograr una prediccin.
La vigencia de esta ltima expresin es lo que permite obtener logros en la
investigacin, cuando se aplican estadsticas.
14.2. Qu es correlacin? Qu es correlacin entre variables?

El Diccionario de trminos estadsticos dice: En su sentido general,


correlacin denota la independencia entre datos cuantitativos o cualitativos.
En este sentido, incluira la asociacin de atributos clasificados conforme a
mltiples caractersticas. El concepto es bastante general y puede ser
extendido a ms de dos variables aleatorias.
El empleo ms frecuente del concepto tiene un significado un tanto ms
limitado y se refiere a la relacin entre variables aleatorias medibles o entre
rangos. Los autores italianos distinguen estos dos sentidos mediante el
empleo de palabras diferentes para el ms restringido
Y respecto a la covarianza el mismo Diccionario de trminos estadsticos dice:
Correlacin de los rangos que mide la intensidad de correlacin entre o
conjuntos de ordenamientos y el grado de correspondencia entre ellos. Hay
dos coeficientes principales de correlacin de los rangos, de Kandall (1938) y
de Spearman (1904). En esta oportunidad nos preocupamos de la
correlacin entre variables.

14.3. Concepto de anlisis bivariado


El anlisis bivariado es un anlisis estadstico cuyo objetivo principal es el
hallazgo de una relacin posible entre dos variables, para lo cual se usa dos
tcnicas: la regresin lineal para efectos de la prediccin, y el anlisis de
correlacin lineal para medir la fortaleza de la asociacin entre dos variables.
El nombre de anlisis bivariado proviene del punto de vista matemtico: las
expresiones de datos bivariado son pares ordenados que se designan as: (x,
y) x es el valor de la primera variable e y es el valor de la segunda.
Se afirma que son pares porque se admite que hay un nexo tal entre ambas
variables que se enuncian conjuntamente, y que estn ordenados porque x
aparece primero e y despus.
14.4. Concepto de diagrama de dispersin
Diagrama de dispersin es una grfica en dos dimensiones (bidimensional)
en la cual es posible el registro simultneo de los valores de dos variables
que estn asociadas a un hecho o evento.
He aqu algunos ejemplos de relacin entre variables en un evento especfico
y que se puedan registrar simultneamente en el diagrama de dispersin:
El tiempo diario dedicado al estudio fuera del aula y las
calificaciones en promedio que obtienen los estudiantes.
El rendimiento en test de aptitud matemtica (de los alumnos Y) y
el rendimiento de una prueba de ciencias.
La temperatura del da y la venta de helados.
14.5. El cuadro de registro de datos de dos variables
El cuadro de registro de datos de dos variables es una presentacin segn el
registro de una variable que ocurre primero (x) y tambin, al lado de cada
uno de los datos correspondiente a la otra variable (y).

Conforme a su ordenamiento, que en general los alumnos que se dedican


ms horas a estudiar fuera de clase obtienen mayores calificaciones en
promedio. Pero tambin se observan excepciones. Por ejemplo, llama la
atencin que Ral, quien tiene el promedio ms alto solo le dedica 5 horas,
ocupando el cuarto lugar en la dedicacin al estudio adicional fuera de las
horas de clase, y a la inversa que el caso anterior, Lizette le dedica, ms
horas al estudio adicional fuera del aula y solo ocupa el tercer lugar en
rendimiento. Sin embargo, pese a los hechos y datos sealados, no
obstaculiza la formulacin general fuera del aula, mayor el rendimiento
promedio y, a la inversa, mientras menos horas adicionales de estudio fuera
del aula, el rendimiento es menor.

14.6. Para qu nos sirve el diagrama de dispersin?


Tal como se puede apreciar e el ejemplo anterior y la respectiva elaboracin
de su diagrama de dispersin, este permite como en todos los casos
registrar simultneamente los valores de dos variables: en el caso de Carlos,
se seala que l estudia dos horas y que a la vez su promedio es 12. As,
tambin Gaby estudia dos horas adicionales diarias y tiene un rendimiento
promedio de 13. Estos dos ltimos sucesos se registran de lado a lado en el
diagrama de dispersin.
Una utilidad prctica que presta al investigador el uso de diagramas de
dispersin es que permite visualizar rpidamente si existe relacin entre las
variables, cada una de las cuales se registra en sendas coordenadas
cartesianas. No olvidar que el eje horizontal de las ordenadas (x) se registr
la que ocurre primero y en el eje vertical de las abscisas se registra la
variable que ocurre despus (y).
Los puntos que obtenemos en el diagrama de dispersin nos permiten
visualizar una relacin lineal entre los valores que se registran en ambas
coordenadas.
14.7. Las clases de correlacin

Para los efectos de anlisis de datos de la tesis universitaria, seguiremos la


recomendacin de diccionario de trminos estadsticos. Evitaremos usar, y
as lo recomendamos en este manual, el termino correlacin lineal, que aun
se usa en manuales que circulan en nuestro medio. El diccionario dice al
respecto que correlacin lineal es una expresin fuera de uso empleada en su
tiempo para denotar (a) la correspondiente fueran lineales; (b) un coeficiente
de correlacin construido por medio de funciones lineales de las
observaciones. Es mejor evitar completamente la expresin.
Lo mismo vale para el caso: correlacin no lineal: expresin referida a la
correlacin entre variables aleatorias en las que la regresin no es lineal. En
estos trminos es una nomenclatura equivocada: la correlacin, siendo un
nmero puro, no puede ser no lineal. El empleo de la expresin no esta
recomendado.
Teniendo en cuenta el criterio del sentido de las modificaciones, las
correlaciones pueden ser: positivas, negativas y nulas.
14.8. La correlacin positiva
Existe correlacin positiva entre dos variables X e Y cuando la variacin es
directa, esto significa que si aumenta la variable X, entonces aumenta la
variable Y, y si disminuye la variable X, entonces disminuye la variable Y.
14.9. La correlacin negativa
Existe una correlacin negativa entre dos variables X y Y cuando hay una
relacin inversa, es decir, que al aumentar X disminuye Y, y al disminuir X
aumenta Y.
Ejemplos de correlacin negativa seran las siguientes:

A ms inasistencias menos rendimiento


A menores preocupaciones familiares, mayor concentracin y
aprovechamiento
A mayor desaseo en la practica de ingerir alimentos, mayor
adquisicin de enfermedades

14.10. Correlacin nula


Existe correlacin nula cuando las variables no estn relacionadas entre s.
Los siguientes son ejemplos de relacin nula:

La practica del tenis y el rendimiento en matemticas


El nmero de veces que se asiste al ao a la iglesia y el
rendimiento acadmico
Cantidad de llamadas que se hace diariamente por telfono y el
nmero de libros que posee en casa

A continuacin presentaos un cuadro en el cual no existe una relacin entre


variables:

N de
sujetos
1

1
2
3
4
5
6
7
8
9
10

Variable X

Variable Y

Cantidad de
llamadas diarias
por telfono
3
4
5
6
7
8
10
10
11
11

Nmeros de
libros que
posee
30
4
99
4
15
2
5
50
8
40

14.11. Coeficiente de correlacin


Se denomina coeficiente de correlacin o coeficiente de asociacin a los
ndices numricos obtenidos que se logra haciendo operaciones estadsticas
que expresan con exactitud el grado de correlacin que existe entre dos
variables.
El grado de correlacin entre dos variables oscila entre dos cifras numricas:
de 0 a 1 -1 a 1
14.11.1 Importancia de que el investigador use el coeficiente de
correlacin
La importancia de que un investigador haga uso del coeficiente de
correlacin est en el hecho de que as puede determinar el grado de
asociacin entre variables y establecer de esta manera en qu medida
corrobora la hiptesis que en un determinado momento formul.
14.11.2. Clasificacin de los tipos de coeficiente de correlacin
Restituto Sierra Bravo presenta las clasificaciones de los coeficientes de
correlacin que con ligeras modificaciones reproducimos a continuacin.
14.11.3. El coeficiente de correlacin de Pearson
Se denomina cuantitativa que se usa para detectar y medir la asociacin
entre variables intervalos o de razn. Los valores del coeficiente oscilan
entre 1 y -1. El valor 1 indica una relacin perfecta, en tanto que -1
expresa una relacin nula.
14.11.4. Frmula para hallar la correlacin entre variables intervalares

El coeficiente de correlacin entre variables intervalares supone que las


variables intervalares racionales ofrecen informacin como valores de
igualdad, rango y distancia. No slo ofrecen el valor de la relacin, es
decir, como la variable independiente influye en la variable dependiente.
La formula para hallar la correlacin de intervalos es:

V=

n ( xy )( x )( y )

n ( x )( x ) n ( y )( y )
2

Ejemplo: un mayorista distribuye una producto en 29 ciudades pero tiene


10 vendedores. Algunos vendedores viven cerca de su zona de venta y
otros no. El mayorista desea saber si existe una relacin con la distancia
a la que se encuentra el vendedor respecto de su zona de ventas.
Para resolver el problema planteado, nuestro mayorista hace una
estrategia: escoge un cliente minorista al azar, luego corresponde
registrar su ingreso de venta que obtiene as como la distancia respecto
de su zona de venta.
Como puede observarse, la solucin del ejercicio exige registrar los datos
de distancia de kilmetros y tambin del registro por ventas. Si a los
primeros datos designados por x y a los segundos por y, es posible
obtener datos secundarios x y y, acumulando los datos primarios. Pero
vemos que la formula nos pide tambin las cifras siguientes x 2, que se
obtiene elevando al cuadrado cada una de las cifras de x, y luego
sumndolas. La cifra y2, correspondientemente, se obtiene mediante la
misma operacin con y. La expresin xy se obtiene con la suma de todos
los productos de los elementos constitutivos de los respectivos pares
ordenados.
14.11.5 La prueba de significacin de coeficiente de correlacin (Z
calculada)
La formula es:

z calculada=

1.15131 log10

1+ r
0
1r

1
n3

Ho valor poblacional de r = 0
Hi valor poblacional de r 0
Se compara el valor de Z calculada con el valor de Z de la tabla.
En el caso de que: -Z critica Z calculada +Z crtica, no se rechaza H o
14.11.6 Correlacin entre dos variables nominales
Como lo afirma Galtung: puesto que en la escala nominal los valores son
completamente arbitrarios, no existe modo alguno en que se puedan usar

estos valores para definir coeficientes. Por lo tanto, todos los coeficientes
tienen que estar basados en una comparacin dencia permite rigorizar
la relacin entre las variables nominales. Existe solamente una
innovacin en el campo de la correlacin nominal, tambin expuesta por
Goodman y Kruskal. Ellos utilizan la idea de la ganancia en predecibilidad
si el valor es conocido.
Veamos un caso:
Un profesor estudia la prederencia de los mtodos de enseanza en las
universidades nacionales. Al estudiar la preferencia de los estudiantes de
Letras en las universidades nacionales se aboc a la Universidad de San
Marcos y hall lo siguiente:
Sexo de
estudiantes
Varones
Mujeres
total

Preferencia de mtodos
Pedaggicos
Dinmica de
Mtodo lectivo
grupos
20
980
320
280
340
1260

Total
1000
600
1600

Como se puede apreciar el total de entrevistas fue de 1600 alumnos, mil de


los cuales fueron varones y 600 mujeres. Los varones tienen una preferencia
significativa y muy predominante por el mtodo de la dinmica de grupos,
mientras que las mujeres prefieren el mtodo electivo per no tan
predominantemente. En conjunto, la preferencia por el mtodo de dinmica
de grupos es tambin alta debido a que la preferencia muy alta de los
varones permite tal fenmeno de preferencia
Veamos un cuadro con los mismos datos pero expresados con porcentajes:
Sexo de
estudiantes
Varones
Mujeres

Preferencia de mtodos
Pedaggicos
Dinmica de
Mtodo lectivo
grupos
2%
98%
53%
47%

Total
100%
100%

El cuadro anterior permite comprender el comportamiento de los grupos , as


como posibilita el conocimiento de la relacin entre hechos, por lo tanto, el
cuadro permite al investigador hacer afirmaciones y tambin algunas
predicciones. Por ejemplo, si se invitara a los alumnos sigue
simultneamente, el mtodo lectivo y el de dinmica de grupos, podemos
afirmar que probablemente el 98% de los varones asistir al reforzamiento
por el mtodo de dinmica de grupo, pero solo el 47% de las mujeres hara lo
mismo.
Es posible que se conciba que la preferencia por mtodos pedaggicos pueda
ser influido por variables distintas al sexo. Po ejemplo es sustentable que los
factores ideolgicos-poltico participen en el hecho providencias para

controlar las variables extraas. Veamos el siguiente cuadro para apreciar


como el investigador toma medidas para controlar la variable ideologicopolitica:
Estudiantes definidos ideolgica
Y politicamente
Preferencia de mtodos
pedaggicos
Dinmica de
Mtodo electivo
grupos
Varone
s
2.4%
97.6%
mujer
53,4%
46.6%
es
Estudiantes sin definicin
Ideolgica y poltica
Preferencia de mtodos
pedaggicos
Dinmica de
Mtodo electivo
grupos
Varone
s
2.5%
97.5%
mujer
53.2%
46.8%
es

Total
%

Casos
estudiados

100%
100%

Casos
estudiados

100%
100%

Comparar ambos cuadros es importante: se aprecia que la identificacin


ideolgicos-poltico no interfiere en la relacin sexo- preferencia por un
mtodo pedaggico. Queda, pues, confirmado el aserto anterior.
En el vocabulario estadstico, a la relacin entre dos variables se le denomina
relacin cero grados; cuando en la relacin entre dos variables hay una
variable de control se le llama relacin de primer grados; y si se sigue
aumentando otra variable de control, la relacin se denominar relacin en
segundo grado y as sucesivamente.

14.11.7. Medidas de la correlacin cuando los datos tienen dos y ms


categoras
Cuando las variables tienen slo dos categoras, es posible expresar tal
relacin con la correlacin (phi). Y cuando las variables nominales
tienen varias categoras se aplica la correlacin (lambda).
se halla con la siguiente frmula:

abbc
[ (a+bxc +d ) ] [ (a+ cxb+d )1/ 2 ]

Donde a, b, c y d son frecuencias. Veamos el siguiente cuadro esquemtico:

Los (+) y (-) sirven para ayudar al investigados en la interpretacin, as, si las
variables que se estudian son: sexo, cuya subvariables son varn y mujer, y
la otra variable es nivel de estudios, con dos subvariables: primaria y
secundaria, a representar (vase el cuadro) aquellos que son varones y a la
vez tiene nivel primario de estudios, mientras que b sern los varones que
tienen nivel secundario, y as sucesivamente.
14.11.8. Tabla de interpretacin de
Algunos autores consideran que como el rango de correlacin es de -1 a 1,
los extremos expresan una relacin perfecta mientras que el valor 0 indica
inexistencia de relacin. Es posible usar la tabla que sigue para efectos de
interpretacin:
Tabla de interpretacin de
Valor absoluto de
la correlacin

Interpretacin de
la relacin

Mas de 0,80
De 0,61 a 0,80
De 0,41 a 0,60
De 0,21 a 0,40
De 0,00 a 0,20

Muy fuerte
Mas o menos
fuerte
Dbil
Muy dbil
Imperfecta o baja

El valor cuadrado de la correlacin muestra la proporcin de la varianza de


las dos variables explicada por la otra.
14.11.9. Prueba de significancia de la correlacin
Teniendo en cuenta que la correlacin se calcula sobre la base de datos de
un muestreo, cuando el investigador use la medida de correlacin tendrs
que precisar la probabilidad de error muestral que produce la correlacin, por
lo que se aplica una prueba usando el chi cuadrado, aplicando la frmula:

(Oij Eij )2
x =
Eij
.
.
2

Donde:
R = nmero de categoras en las variables de regin
C = nmero de categoras en las variables de columna
Oij = frecuencia del valor observado en la celda ij
Eij = frecuencia del valor observado en la celda ij
14.11.10. Relacin entre variables ordinales
La relacin entre variables ordinales resulta ms compleja que la relacin
entre variables nominales. La complejidad deriva de las propiedades de

igualdad y ordenamiento. En efecto, en vez de ocurrir una relacin como en


la relacin entre variable, entonces, conjuntamente, ocurre otra categora,
usando la escala ordinal de medicin se establece que dos variables que
covaran (varan conjuntamente) en una direccin particular, es decir, que
bien una variable se incrementa cuando otra tambin se incrementa, o bien
se incrementa cuando la otra decrece: las variables cambian en un mismo
sentido o en sentido distinto.
14.11.11. El coeficiente de Spearman o correlacin por rangos (r) para medir
la relacin entre .
Variables ordinales
Un procedimiento para medir la asociacin entre variables ordinales es el
coeficiente (rho) propuesto en 1960 por Spearman, quien sostuvo que si los
ordenamientos son aibi y se define: di = ai - bi, con i = 1, 2, n, el coeficiente
est dado por:
n

6 d 2i
=1

i 1
2

n 1

Este coeficiente se usa para estudiar la relacin entre variables nominales


que se asocian siempre que el nmero de casos sea relativamente pequeo,
digamos hasta treinta casos.
El coeficiente de Spearman es fcil de calcular (en relacin, por ejemeplo, al
coeficiente de Pearson).
Consideramos cinco estudiantes y deseamos comparar su rendimiento
acadmico con sus inasistencias y luego establecer la relacin entre ambas
variables. Vemao el primer cuadro, es decir, como ha sido en cada uno de los
caoss, tanto su rendimiento como sus inasistencias:
Como lo que necesitamos conocer es la relacin entre las variables ordinales,
entonces necesitamos ordenar las puntuaciones por rangos: la ms elevada
ser el rango 1 y as sucesivamente. Entonces luego de ordenar, tenemos el
siguiente cuadro:
Estudiantes

Rendimiento

Inasistencias

Carlos
Rolando
Pedro
Percy
Ral

100
60
120
40
160

9
1
5
6
4

Una vez que el


determina los
cuadrado de las
los rangos nos
medida de las
entre los rangos.

Cuadros de resumen ordinal


Rangos
Rango en
Estudian en
Inasistenc
tes
rendimie
ias
nto
Carlos
3
1
Rolando
4
5
Pedro
2
3
Percy
5
2
Ral
1
4

D
2
1
1
3
3

D
2

investigador
rangos, el
diferencias de
ofrece la
divergencias

4
1
1
9
9
2
4

Al aplicar la formula de de Spearman se tiene:

( 6 ) ( 24 )
144
=1
=11,20=0,20
2
120
( 5 ) ( 5 1 )

Como se puede apreciar por el resultado y segn el cuadro de la tabla de


interpretacin de podemos afirmar que la asociacin entre las variables
(ordinales) encontrada es imperfecta o baja y negativa.
La aplicacin practica del coeficiente de de Spearman plantea un problema
al investigador cuando se presenta dos o ms casos que tienen la misma
puntuacin (unidades de observacin con la misma puntuacin en la misma
variable). La manera de resolverla es la siguiente: se saca el rango promedio
de los casos que tienen (u obtuvieron) los mismos valores.
14.11.12. Prueba de significancia de
Teniendo en cuenta que la correlacin se calcula sobre la base de los datos
de un muestreo, cuando el investigador usa la medida de correlacin ,
tendr que apreciar la probabilidad de error muestral que produce la
correlacin. Para llevar a efecto esta prueba el investigador supone:

Ho: el valor poblacional es = 0


Ha: el valor poblacional es

Entonces usar el estadstico Z para la estimacin de la significacin:

Z=

R H 0 0
1/ n1

Luego se compara el valor Z calculado con el valor Ho: el valor poblacional


es = 0 de la tabla. El investigador acepta H o cuando hay relacin y cando no
existe relacin se rechaza Ha
14.11.13. Limitacin del uso del coeficiente de
Una limitacin para usar el coeficiente de es la siguiente: los datos tienen
que se mayores de 10; adems, no debe hacer muchos pares.
15.Anlisis de varianza
15.1. Concepto
Se denomina anlisis de varianza ANOVA, de: analysis of variance al
procedimiento estadstico investigado por Ronald Fisher, que consiste en
descomponer la variacin total existente en un conjunto de datos en los
distintos elementos que lo componen. Cada elemento o componente se
identifica con un origen o causa de variacin conocida, a dems hay un
componente que represe4nta la variacin que obedece a factores
incontrolables (llamados errores).
El diccionario de trminos estadsticos define el anlisis de varianza como la
variacin total de un conjunto de observaciones, medida por la suma de los
cuadrados de las desviaciones con respecto a la media, (que) puede, en
ciertas circunstancias, ser separada en componentes asociados a fuentes
definidas de variacin utilizadas como criterio de clasificacin para las
observaciones. Una anlisis de este tipo es llamado anlisis de variancia
aunque, en rigor, es un anlisis de sumas de cuadrados. Son mltiples las
situaciones corrientes que pueden reducirse a la forma de anlisis de
varianza
En general, puede afirmarse que si aplicamos el anlisis de varianza cuando
se tiene n observaciones y su media y, entonces la variacin total con
respecto a la media queda comprendida en una suma de las desviaciones de
y al cuadrado, lo cual se denomina suma de cuadrados total (scr). El anlisis
de varianza descompone la suma de cuadrados en dos grupos: aquella que
es fuente de variaciones (tratamientos) y aquella que es debida al error.
15.2. Factores que intervienen en la varianza

Los factores que intervienen en la varianza son dos: los que se dan dentro de
los grupos (varianza intragrupos) y los que ocurren entre los grupos (varianza
intergrupos).
15.3. La varianza total
De acuerdo a la conceptualizacin de los factores que intervienen en la
varianza, la varianza total es la suma de la varianza intragrupos ms la
varianza intergrupos.

15.4. La varianza intergrupos


La varianza intergrupos es la modificacin que ocurre en cada uno de los
grupos cuando estos se someten a un tratamiento, es decir a una
manipulacin experimental. De acuerdo al tratamiento los frupos y sus
medias defieren: habr una varianza intergrupos.
15.4. La varianza intragrupos
Se define la varianza intragrupos como el error aleatorio. Es la varianza que
se da por equivocaion en el muestreo, por la divisin de los grupos, etc. Se
trata de una varianza de las mediciones.
La varianza intragrupos o interclase es la varianza que se da en el anlisis de
varianza de datos sujetos a clasificaron multiple. Esta varianza ocurre porque
hay fenmenos que no se pueden explicar debido a que no existe posibilidad
de identificar algunos hechos, por lo que el control no es posible.
15.6. Clculo de la variacin total
La variacin total se ogra disponiendo de la tabla de ANOVA, que se conoce
como tabla de anlisis de varianza de ANOVA y su calculo se obtiene
mediante la razn F (razn de Fisher)

F=

varianzaintergrupos
varianza intragrupos

Como vimos, la varianza intergrupos se debe a los tratamientos mientras que


la varianza intragrupos es por el error.
Se denomina tratamiento a la accin del investigador consistente en dividir la
variable total en variaciones intergrupos, y se llama error a la variacin
intragrupos. El error se divide en variaciones causadas por cada una de las
variables o factores y la variacin que responde a las interacciones de los
factores.
15.6.1 Tabla de ANOVA

La tabal de ANOVA es una elaboracin condensada den la cual se expresa el


conjunto de relaciones que se dan en el anlisis de varianza, tal como se
aprecia a continuacin:
Tabal de Anova
Fuente de
Variacin

Grado
de
libertad

Suma de
cuadrados

Cuadrados
medios

Tratamien
to

K-1

SCTR

CMTR

Error

n-k

total

n-k

SCE

CME

Fe

SCTR
K 1
SCE
nK

Ft

FnK1
K
CMTR
CME Con
=,
05

SCT

Donde:

SCTR = nj ( y j y )

SCE = - ( xij y , j)
2

SCT = ( yi j y )

F se puede obtener mediante la formula:

F=

SCT /k 1
SCE/n1

Lo cual puede obtener que el investigador obtiene k a partir de los datos


observados y compara los resultados con las tablas de distribucin F con
grado de libertad de tratamiento (k - 1) y grado de libertar de error (n k con
nivel de confianza ).
He aqu un cuadro en el cual se sintetiza el anlisis de varianza:
Tratamientos
Observaci
n
1
2

Y11
Y21

Y12
Y22

Y13
Y23

Y1K
Y2K

total

Y31

Y32

Y33

Y3K

n
Total
Media
N de
observ.

Yn1

Yn2

Yn3

YnK

Y.1
Y.1
n1

Y.2
Y.2
n2

Y.3
Y.3
n3

Y.K
Y.K
nk

Y
Y

15.6.2. El ANOVA de un solo factor


El anlisis de varianza de un solo factor (que en la literatura se conoce como
ANOVA de un solo factor), es el anlisis ms simple de varianza, que consiste
en analizar el efecto de un solo factor (variable independiente no mtrica)
que en trminos de posiniolidad influye en una variable dependiente.
En el anlisis de varianza de un solo factor la variable independiente puede
tener varios tratamientos.
15.7. El anlisis de varianza de dos variables 8diseo factorial)
En este tipo de anlisis de varianza se estudia el efecto de dos o ms
variables independientes no mtricas sobre una variable dependiente
mtrica. A este anlisis de lo denomina anlisi8s factorial. Puede ocurrir que
las variables independientes cambien cada una de ellas y acten sobre la
variable dependiente o interacten entre s y produzcan una variacin en la
variable dependiente.
Cuando el investigador plantea y despus analizar las interacciones
simultneamente de dos o ms variables, se obtiene un logro significativo en
el diseo experimental.
En el anlisis de varianza de dos factores existen cuatro fuentes de variacin.
1) Entre columnas
2) Entre reglones
3) Interacciones
4) El error (varianza de error)

La varianza de error es la varianza intragrupo mientras que las otras tres son
varianzas intergrupo. La varianza de error es varianza de factores
incontrolables y sirve como denominador en todas las razones F en la tabla
de ANOVA.
La prueba de significancia de las diferencias entre las medias de k columnas
y r renglones y las interacciones de los dos factores exige que se calcula tres
razones de F y se prueben los topos de hiptesis
El anlisis factorial (anlisis e varianza de dos factores) solo permite conocer
el efecto de dos factores conjunto acerca de cual es la relacin especifica.

16.Anlisis de regresin
16.1. Concento
La regresin es una tcnica estadstica que describe un relacin entre una
variable dependiente y una o ms variables independientes mediante una
lnea o ecuacin matemtica. Con el anlisis de regresin el investigador
determina la significacin estadstica de la relacin entre variable
dependiente y la variable independiente (variables independientes segn el
caso), su grado, as como la naturaleza y cuantificacin de su forma. El
termino regresin fue empleada por primera vez por Galton para indicar
ciertas relaciones en la teora de la herencia biolgica aunque con
posterioridad ha llegado a significar el mtodo estadstico desarrollado para
investigar tales relaciones
16.2. Qu concibe la regresin?
La regresin concibe si una variable es aleatoria y est formada por dos
componentes: una variable aleatoria y uun elemento sistematico F (x)
dependiente de la variable x, es decir, si
Y = f(x) +
Se dice que la regresin de y sobre x es la ecuacin
Y= f (x)
En la que se supone que la esperanza de es cero. Esta concepcin de la
regresin vale tambin para lo casos en que x es un conjunto de variables: x 1,
x2, etc.
la forma f(x) ms frecuentemente considerada es la de un polinomio,
particularmente una funcin lineal, resultando la regresin de y sobre x
Y = Bo + B1xo+ + Bpxp
Las expresiones anteriores se llaman ecuaciones de regresion en las cuales
x representa variables independientes o predictivas o predictoras o
regresoras, en tanto que y se denomina variable aleatoria, dependiente,
predicha o regresada
El anlisis de regresin expresa solo la relacin matemtica que existe y sirve
para predecir los valores futuros de una variable: como el incremento de
produccin de una empresa, en relacin con la cantidad de trabajadores; el
aumento del consumo de luz por el aumento de uso de focos prendidos
durante las horas de trabajo, etc.
16.3. Un ejemplo de anlisis de regresin simple
Se desea conocer la relacin entre las horas de trabajo de los obreros y el
nmero de decenas de sillas fabricadas en Stylo Lima. Se tiene los
siguientes datos:

Puede observar en el diagrama que los puntos de interseccin de las dos


variables originan una lnea.
El modelo de regresin lineal se formula as:
Y = bo + b1 x
boes la ordenada de origen bi es la pendiente de la lnea y es la variable
dependiente y x la variable independiente. Es posible graficar la relacin
entre las dos variables:
El modelo estadstico es el siguiente:
yi = bo + b1 x1 + i
teniendo en cuenta que i = 1, n
y donde:
y1 = variable dependiente i
bo = intercepcin
b1 = pendiente de la lnea
x1 = variable independiente
17.Anlisis de regresin mltiple
Se denomina regresin mltiple a las correlaciones de la variable
dependiente y de variable independiente tomadas por separado y
adems, a la interpretacin de las variables independientes entre s y a
su correlacin con la variable dependiente.
17.1. Cmo se observa la correlacin (r) entre variables dadas?
Tenemos un ejemplo que trata de estudiar una correlacin, la ms simple:
la correlacin entre una variable dependiente y dos variables
independientes. Veamos:
Variable independiente
1. Puntaje de una prueba de
aptitud
2. Edad

Variable dependiente
1. Cantidad de graduados

Mostremos los resultados de las mediciones de las variables y sus


respectivas representaciones graficas.
Notemos los resultados (mediciones) de las variables que nos llaman la
atencin. El bloque A nos impresiona puesto que es el puntaje ms bajo
(20 graduados); en sentido contrario, fcilmente, dirigimos la mirada a R
(70 graduados), ya que su diferencia es mayor que cualquier otro sentido
que se escoja, sea hilera o columna.

Adems, si observamos los bloques que van de izquierda a derecha (A, N,


P), nos percatamos de que el numero de graduados aumenta conforme
disminuye la edad (considerando la misma aptitud) y si los bloques H, I y
J, y despus los bloques P, Q, R. los primeros bloques tienen el mismo
nivel de edad (23 aos), y hay una relacin observable: el nmeros de
graduados aumenta segn la aptitud. Lo propio ocurre con cada uno de
los otros grupos de bloques que tienen otros niveles de edad, y lo que se
infiere es idntico: el nmero de graduados se incrementa segn la
aptitud.
De lo anterior podemos hacer una prediccin, teniendo en cuenta dos
variables conjuntas (independientes) y relacionados con otra
(dependiente). En este caso son variables independientes: puntaje en una
prueba de aptitud y edad, y variable dependiente: cantidad de
graduados.
Si se mantiene las condiciones que se dan en el fenmeno estudiado,
entonces, probablemente, habr en otros hechos a estudiar una relacin
que se cumple: a menor edad y ms aptitud de los egresados mayor
cantidad de graduados.
El anlisis de regresin nos permite hacer predicciones, entendiendo
que prediccin es el proceso de pronosticar la magnitud de variables
estadificas para algn tiempo futuro. En contextos estadsticos aparece
tambin la palabra con un sentido apenas diferente, G.g en una ecuacin
de regresin por la que se exprese4 una variable aleatoria y en funcin
de las variables independientes x, el valor de y para un conjunto
especifico de valores de las x es llamado valor predicho, aun cuando no
implique el proceso ningn elemento temporal.
17.2. Usos de la regresin mltiple en la investigacin cientfica
La regresin mltiple tiene varios usos
a) Como un modelo descriptivo para hacer predicciones, en tanto
permite hallar la mejor ecuacin lineal especfica o conjunto de
variables
b) Como modelo de inferencias para probar hiptesis, puesto que evala
valores poblacionales mediante datos muestrales. Por ejemplo, se
desea saber (prever, predecir) la condicin de liquidez de una
empresa luego de una devaluacin de 100%. Se aprecia entonces que
la variable independiente est constituida por deuda externa
contrada por la empresa, deuda interna, costo fijo y participacin del
mercado. Es posible conocer la ecuacin que indica como evaluar las
puntuaciones de las variables independientes para predecir la

condicin de la empresa despus de establecida la relacin. Tambin


puede usarse la regresin mltiple para pronosticar puntajes.
Otro uso inferencial es determinar influencias. Por ejemplo, como las
deudas (internas, externas) ejercen una influencia en la condicin de
liquidez de la empresa.
c) Como un modelo estadstico en la prueba de hiptesis estadsticas
especficas: el investigador trata de probar la hiptesis nula H o, (cuyo
valor es 0) contra la Ha (hiptesis alterna) cuyo valor es mayor o
menor que 0.
En el anlisis de regresin, las hiptesis que se plantean los
investigadores tienen las siguientes formas:
a) No existe relacin lineal entre la variable dependiente y un conjunto
de variables independientes. Por ejemplo: el rendimiento promedio de
los alumnos de primaria no depende de la cantidad de libro que tienen
los padres, del nivel de escolaridad de los padres, de la distancia que
hay entre el colegio y la vivienda del escolar.
b) Una variable independiente no tiene relacin lineal con la variable
dependiente: liquidez y deuda externa tienen ms bien una relacin
por fluctuaciones muestrales.
El modelo de regresin mltiple se expresa con la siguiente frmula:
Y= a + b1 x1 + b2 x2+ + bnxn
Donde:
a = valor de y cuando os x son ceros
b1 = coeficiente de regresin asociada con cada unidad de x 1
17.3. Cmo interpretar el coeficiente de regresin?
La ecuacin Y= a + b1 x1 + b2 x2 + + bnxn expresa el cambio
esperado en y con un cambio de unidades determinadas en x, siempre
que x2 est sujeto al control.
Es posible una interpretacin combinada, la cual se sustenta en la
relacin existente entre las variables y lo que en ellas ocurre: y sufre una
modificacin cuando se dan modifica iones. Si x 1 y x2 cambian una
unidad, entonces el cambio que se espera en y sera b 1 + b2
17.4. Evaluacin de la significacin de regresin
Luego de que se ha establecido la relacin entre las variables
independientes y dependientes se impone probar el modelo de regresin.
Para cumplir con la tarea de evaluar del significado de regresin se usa el
coeficiente de correlacin mltiple R.
17.5. Uso del coeficiente de correlacin mltiple R
Para usar el coeficiente de correlacin mltiple R se tiene en cuenta que
la suma cuadrada de y es igual a la suma cuadrada de la regresin ms la
suma cuadrada del residual.
En trminos formales sera:

( y y )

= ( y y )

+ ( y y )

La proporcin de la variacin y que da cuenta del modelo de regresin en


su totalidad se examina por el cuadrado del coeficiente de correlacin
mltiple:
R2 =

suma cuadrada ysuma cuadrada residual


suma cuadrada y

suma cuadrada de regresi n


suma cuadrada y

var . en y explicadas con lainfluencia lineal combinada de var .ind


variaicon total de y

El coeficiente de correlacin mltiple R, como tambin el coeficiente de


determinacin R2 tienen un rango que va de 0 a 1,0.
Las hiptesis especficas que son susceptibles de prueba de significancia
estadstica son:
Ho: b1 = b2 bk = 0
Ha: no todos los bs son = 0
Para este caso se usa la estadstica F, que se puede calcular como la
razn de los cuadrados de las variables, asocindose cada variable con el
grado de libertad que le corresponde.
F

x 21 (grado de libertar 1)

x 21 (grado de libertad 2)

La regla de decisin para la prueba de significancia es:


Si F calculado F (valor crtico segn tabla) aceptamos H 0
Si F calculado > F (valor crtico segn tabla) rechazamos H 0
Es posible calcular F teniendo en cuenta la siguiente frmula:

F=

suma cuadrada de regresion/k


suma cuadrada residual/(nk 1)

F=

R2 / k
( 1R2 ) /( nk1)

Donde:
K = nmero de variables independientes
N = tamao de la muestra
El investigador tiene en cuenta que F no proporciona informacin acerca
de la significancia tampoco informa acerca del grado de relacin entre las
variables.
17.6. Determinacin del grado de relacin entre variables (determinacin del
grado de _______
significancia
sustantivas del modelo de regresin)

Para evaluar la significacin sustantiva del modelo de regresin el


investigador toma en cuenta la relacin entre el nmero de variables y el
tamao del muestreo. Si la relacin entre el nmero de variables y el
tamao del muestreo. Si el nmero de variables (k) se acerca al tamao
del muestreo n, entonces R2 se acerca a 1,0. Quiere decir que si el
nmero de variables es igual al nmero de casos, entonces es R 2 1,0,
dndose una relacin perfecta. Por lo tanto, para k variables y n tamao
de muestreo, el R2 esperado es:
2

R esperado =

k1
n1

El investigador tiene en cuenta que R2 exagera la relacin cuando la tasa


del numero de variables al examinar el numero de casos es relativamente
grande, razn por la cual R2 tienen que ajustarse.
17.7. Cmo ajustar la R2
La formula ms divulgada para ajustar R 2 es la siguiente:

2=1 ( 1R2 ) n1
R
(nk )
Donde:
R2 Es el coeficiente de determinacin ajustada, a fin de minimizar el
efecto de exageracin de R2.
Para este caso, debe tenerse cuatro veces ms casos que variables. En
otros trminos, el investigador debe disponer de un muestreo cuatro
veces mayor que el nmero de variables.
18.Prueba de hiptesis
18.1 Superacin de la estadstica clsica en el tratamiento de las
investigaciones de la conducta
La obra de SidneySiegel Estadstica no paramtrica para la ciencia de la
conducta, publicada en 1956, produjo una renovacin en las
investigaciones de la conducta. En efecto, la estadstica clsica,
desarrollada por la escuela inglesa, en ela cual destacaron Galton,
Pearson, Gosset, Yule, Kendall, Fisher, se sustent en gran medida en los
supuestos de la escala intervalar y universos uniformemente distribuidos
y desarrollo una abundante e impresionante estadstica disponiendo de
ka matemtica clsica, aplicndose con xito en ciencias como la
biologa. No exista motivacin en las disciplinas cuantitativas
probabilsticas, porque era necesario concebir parmetros que no
exigieran los requisitos de la escala intervalar (pues no paramtrico
designa paramtrico de escala intervalar) y universos no distribuidos
normalmente. La estadstica no paramtrica y de la distribucin libre se
ha desarrollado rpidamente, superando los supuestos de la estadstica
clsica.

18.2. La inferencia estadstica y su importancia en la prueba de hiptesis


La inferencia estadstica es una de las categoras con que se designa un
conjunto de procedimientos que se usan para estudiar las estimaciones
de la poblacin, basados en el muestreo, que vimos anteriormente, y que
conducen a la prueba de hiptesis.
18.3. El procedimiento estratgico que sigue la prueba de hiptesis
Al probar hiptesis el investigador sigue criterios estadsticos, esto quiere
decir que dispone de modelos estadsticos consistentes.
Si un investigador desea probar que los que estudian mayor cantidad de
horas obtienen mejor rendimiento acadmico, siento este el objetivo, la
formulacin hipottica podra ser:
a) Existe una relacin positiva entre la cantidad de horas de estudio y el
rendimiento acadmico
b) siempre que se mida a un estudiante con ms cantidad de horas de
estudio, tal medicin se corresponder con otra en rendimiento
acadmico que ser siempre mayor que la de los estudiantes con
menos horas de estudio.
En los casos precedentes las hiptesis estn formuladas en trminos de
estadstica descriptiva, es decir, como correlacin o media.
La hiptesis estadstica siempre incluye a la poblacin en estudio. En
efecto, no se requiere hacer estadsticas cuando accedemos
directamente a la poblacin. Hacemos inferencias cuando muestreamos a
la poblacin. Una hiptesis es falsa cuando los valores de ella son
distintos a los valores de la poblacin.
Los valores o resultados del muestreo no se interpretan directamente
porque se necesita seguir reglas de decisin para aceptar o rechazar la
hiptesis de la poblacin que se estudia, cindose a los resultados
obtenidos en la muestra.
El procedimiento estratgico que sigue el investigador en la prueba de
hiptesis le permite afirmar si el resultado del muestreo est en un rango
de causalidad o si no lo est
18.4 Etapas del procedimiento estratgico en la prueba de hiptesis
El investigador sigue los siguientes pasos cuando procede a probar sus
hiptesis:
a)
b)
c)
d)

formula sus hiptesis nulas y alternas


escoge la distribucin muestral y los procedimientos estadsticos
especifica el nivel de significancia () y define el rea de rechazo
hace el calculo para rechazar (o no rechazar) las hiptesis nulas,
haciendo uso de pruebas estadsticas

El investigador se preocupa por determinar si la diferencia en el promedio


muestral ocurre por casualidad o por fluctuaciones muestrales (error
muestral). Hay dos formas o maneras de realizar la prueba de
significancia:

1) haciendo una comparacin del estadstico (valor muestral) con el


parmetro (valor poblacional)
2) comparando dos a ms muestras
18.6. Hiptesis que se distinguen en la prueba de hiptesis
En un proceso de prueba de hiptesis se distinguen dos tipos:
a) la hiptesis nula (H0), que afirma que no existe diferencia entre el
valor muestral (estadstico) y el valor poblacional (parmetro) y que
cualquier diferencia entre el estadstico y el parmetro depende de la
causalidad de las fluctuaciones muestrales.
Se formula en el proceso de prueba para se posiblemente rechazada.
b) La hiptesis alterna (Ha), que afirma operacionalmente lo que el
investigador desea conocer y se opone a la afirmacin de la H 0, En
teora de la prueba de hiptesis: cualquier hiptesis admisible,
alternativa a otra sometida a pruebas.
Veamos el siguiente ejemplo ilustrativo
En una empresa se tiene cuentas por cobrar en sucursales. Se toman
muestras de los clientes por cobrar en tres sucursales: en la sucursal
A el promedio es de 49 das, en la sucursal B la muestra de las
cuentas por cobrar tiene un promedio de 52 das; y en la otra sucursal
C, el promedio es de 55 das. Los promedios son indicadores de
diferencia en vigilancia de polticas de la empresa con respecto a las
cuentas por cobrar.
Veamos como seran las hiptesis. La hiptesis nula se puede expresar
as:
H0: NO HAY CAMBIOS EN LA POLTICA DE COBRANZA DE 50 DAS
La hiptesis alterna se puede expresar, se3gun la definicin sus
crticas arriba, de diversas maneras. Por ejemplo la hiptesis
alterna puede ser la siguiente:
H: la poltica de cobranza cambi: ya no es de 50 das
H: la poltica de cobranza actual es mayor que la poltica inicial
En smbolos, las hiptesis pueden formularse de la siguiente
manera:
H0: = 50 das
Ha: 50 das
O tambin
H0: = 50 das
Ha: > 50 das
18.6 Por qu la necesidad de formular dos hiptesis?
La necesidad de formular dos hiptesis deriva del hecho de que la
hiptesis nula esta basada en una inferencia negativa para evitar la
consecuencia afirmativa, razn por la cual se debe eliminar la hiptesis
falsa en lugar de aceptar la hiptesis verdadera. (no olvidar el criterio
siguiente: si un hecho contradice la hiptesis, esta es falsa; en cambio, si
un hecho es concertante con la hiptesis, sta es falsa; en cambio, si un
hecho es concordante co0n la hiptesis sta tan slo sigue o se
confirma).
18.7. Mecanismo de la prueba de hiptesis

El mecanismo de la prueba consiste en que el investigador confronta las


hiptesis con los resultados de la muestra H 0: 1 = 2, para lo cual el
investigador toma una muestra al azar de cada una de las poblaciones;
en el ejemplo anterior, las muestras al azar fueron las que
correspondieron a las sucursales.
El investigador compara las dos medias muestrales (

x 1 y x2 ), y luego

hace la inferencia a las sucursales


Tiene en cuenta el investigador que el resultado del muestreo est sujeto
a errores muestrales, lo cual quiere decir que no siempre expresa como
es la realidad. Al tomar muestras del mismo tamao en dos poblaciones,
los resultados casi siempre difieren.
Para determinar la precisin de los valores muestrales, se compara los
valores de la muestra con los modelos estadsticos que son conocidos
como distribucin muestral.

Para obtener la distribucin muestral de un estadstico ( X o P ) se

toman varias muestras (del mismo tamao de una poblacin definida por
el investigador). Se procede a calcular la media de cada una de las
muestras; luego se compara la distribucin normal para verificar la
significancia estadstica: cuando la distribucin es normal no se rechaza
la Ho.
18.8. El nivel de significancia y los tipos de error
Se denomina niveles de significancia a la suma de probabilidades de que
los resultados de las muestras estn en la zona de rechazo. Los niveles de
significancia se expresan con porcentajes, por ejemplo 5%, y sus valores
que se atribuyen son arbitrarios. Los valores ms comunes son 5, 1 y 0,1
por ciento. Que el nivel de significancia sea 0.05 0.01 significa que la
hiptesis nula es rechazada.
18.9. Reglas para probar las hiptesis
Para probar una hiptesis se siguen las siguientes normas:
1) Si el anlisis muestra que no se puede rechazar la H o, se acepta y
por lo tanto no se pueden tomar acciones correctivas.
2) Si hay diferencias significativas, entonces se rechaza la H o, y se
acepta la hiptesis alterna, y entonces se adoptan las acciones
convenientes. Al adoptar las medidas, existe el peligro de tomar las
medidas en forma indebida, pues se puede aceptar la H o cuando
debera rechazarla, o rechazarla cuando se deba aceptarla.
Existe por lo tanto un problema decisional pues la H o se puede rechazar o
se puede aceptar, y por otro lado la hiptesis es correcta o es falsa.
Luego hay dos decisiones que son correctas y dos decisiones que son
incorrectas.
Veamos el problema decisional en la prueba de hiptesis.
Problema decisional en la prueba de hiptesis
Rechazar la

Planteamientos hipotticos
La hiptesis es
La hiptesis es falsa

Ho
Aceptar la Ho

correcta
Error de tipo I ()
Decisin correcta

Decisin correcta
Error tipo II ()

El error tipo I () consiste en rechazar la hiptesis correcta. El valor de


es el nivel de significancia, o sea la probabilidad de rechazar la H o.
En el error tipo II () se acepta la H o que es falsa.
18.10. Anlisis de un ejemplo de error
Si, considerando el ejemplo anterior, la poltica de cobranzas ha
cambiado y suponiendo que:
a) El promedio poblacional es de 50 das (poltica inicial)
b) La desviacin estndar es de 10 das
c) Las muestras son las cuentas por cobrar (de clientes): n = 25
Con estos datos se calcula el error estndar del promedio

( X ) , es decir

la desviacin estndar del promedio muestral, que es dos das:

x=

10
=
=2 d as
n 25

19.Uso del computador para utilizar tcnicas estadsticas


19.1. Usos del SPSS
Se usan paquetes estadsticos especializados para resolver los problemas
estadsticos del investigador. Uno de ellos es el SPSS que es la
abreviatura en ingls de Paquete Estadstico para las Ciencias Sociales.
A continuacin mencionamos, a manera de motivacin solamente, los
usos que puede tener el SPSS. Contiene programas estadsticos que
permiten hacer lo siguiente:
a) Operaciones de estadstica descriptiva. Medidas de tendencia central,
y distribucin de frecuencias, usando el subprograma Breakdown.
b) Elaboracin de tablas de contingencia y tabulaciones cruzadas,
abreviando as tiempo y esfuerzo, aparte de la calidad de la
presentacin; se logra disponiendo del subprograma Crosstabs.
c) Correlaciones entre dos variables. Permite establecer si existe o no
relacin entre dos variables; se consigue estos conocimientos
acudiendo el subprograma Crosstabs.
d) Regresiones mltiples. El investigador puede llegar a saber si existe
una relacin (o no) entre una variable independiente que se estudia y
propone en una investigacin y una o ms variables dependientes;
manejando el subprograma Regression.
e) Anlisis de varianza, para estudiar la significancia de diferencias
existentes dentro de los grupos como las diferencias entre grupos.
Permite determinar la significancia de las diferencias entre las medias
de las poblaciones en el vector correspondiente. Para disponer de
estos conocimientos se acude al subprograma ANOVA y tambin
Oneway.
f) Anlisis discriminatorios, que permiten la obtencin de muestras
representativas de varias poblaciones, as como la obtencin de un

perfil distintivo de las poblaciones considerando sus variables. Con


este anlisis es posible obtener una combinacin de variables entre
muestras, facilitando los criterios de ubicacin de los individuos en
una clasificacin. Para este anlisis se dispone del subprograma
Discriminant.
g) Anlisis factorial, til para hacer taxonomas de diversas variables,
cuantificar cada una de las variables en un constructo, as como
proporcionar valores cuantitativos a cada uno de los constructos
obtenidos. Se puede aplicar este anlisis acudiendo al subprograma
Factor que es tan potente que puede incluso hacer correlacione
cannicas: caso de regresin mltiple en el que se relaciona una
variable independiente con varias variables dependientes.
h) Anlisis de escalograma. Con esta tcnica se logra apreciar y medir la
coherencia entre las actitudes de las personas y otros aspectos o
variables. Para esta clase de estudios se remite al subprograma
GuttmanScale.
19.2. Uso del STATPAC
El StatisticalAnalysisPackage dispone de un conjunto de programas
aplicables a la investigacin cientfica. El conjunto de operaciones de las
que puede disponer el investigador con el uso de este paquete
estadstico es el siguiente:
a) Parmetros: permite conocer una cantidad que el planteamiento de un
problema aparece como desconocida y que varia de acuerdo a un
conjunto de valores
b) Distribucin de frecuencias, que permite especificar la manera en la
que se distribuye una poblacin segn los valores de las variables
aleatorias que le corresponden.
c) Estadsticas descriptivas: medidas de tendencia central, medidas de
dispersin y varianza.
d) Tabulacin cruzada y (chi cuadrado) que permite comparar los
resultados empricos con formulaciones tericas, segn alguna
distribucin o hiptesis terica. De este modo se conoce el nivel de
probabilidad (significacin) establecindose si los resultados se
espera.
e) Correlaciones: se establecen relaciones entre variables. tiles para
determinar si existe real y efectivamente una relacin entre variables
que se estudia o formula.
f) Regresiones: es posible conocer la relacin entre una variable
independiente y otra dependiente (anlisis lineal) o entre una variable
independiente y ms de una variable dependiente (regresin).
g) Anlisis de varianza: permite conocer las variaciones e influencias
entre grupos.