Académique Documents
Professionnel Documents
Culture Documents
Anlisis de Datos II
(SOL 106 y SOL - )
PROFESRAS: BEATRIZ FERNNDEZ, DANIELLA LEAL,
PAMELA AYALA.
ANDRS GONZLEZ
ndice
Investigacin cuantitativa y operacionalizacin.....................................................................2
Objetivos, hiptesis, modelos.................................................................................................4
Tipos de variables, niveles de medicin.................................................................................7
Indicadores compuestos........................................................................................................10
Proporciones, porcentajes y tasas..........................................................................................10
Creacin de Tablas de Contingencia I...................................................................................12
Creacin de Tablas de Contingencia II.................................................................................14
Problemtica y Teora de la Probabilidad I...........................................................................16
Reglas de Probabilidades......................................................................................................18
Estandarizacin de Variables y Distribucin de Probabilidad Normal.................................21
Anlisis de Datos I
7 de Marzo.
14 de Marzo1.
Para distinguir entre un estudio descriptivo y otro explicativo hay que ver si el estudio
establece una relacin entre conceptos. Si en el objetivo no se busca determinar una
relacin ser descriptivo; no busca explicar el fenmeno, sino que describirlo.
(Cuando se analizan percepciones, es decir, opiniones, comentarios que los sujetos
pueden tener sobre ciertos hechos. Estos estudios no son restrictivos de las investigaciones
cualitativas; a nivel cuantitativo tambin se encuentran investigaciones en base a
opiniones.)
Cuando se logra dilucidar los objetivos de una investigacin es posible desprender
algunas hiptesis. En el caso de ser un objetivo descriptivo la hiptesis ser de tipo
descriptiva (una idea tentativa de lo que pasa de manera descriptiva. Se da un estado de
situacin; es un yo creo que se da esto); si la investigacin busca explicar el fenmeno, la
hiptesis ser de tipo explicativa (una explicacin tentativa de la direccionalidad de los
conceptos de tipo tentativa. Hipotetisa sobre las razones del porqu se da un fenmeno).
Hay dos niveles de hiptesis explicativa: a
a) Nivel terico: la hiptesis relaciona conceptos tericos, por lo tanto no es
verificable empricamente.
b) Nivel emprico: la hiptesis relaciona conceptos empricos, medibles y
observables. Es deducida de la hiptesis terica, y debe ser confirmada o
refutada de manera emprica.
Las hiptesis nacen de la revisin de la literatura. De ah nace una hiptesis terica, luego,
en funcin de la operacionalizacin de los conceptos contenidos en la hiptesis nacer la
hiptesis emprica.
Como ya se dijo, las hiptesis son explicaciones tentativas que no necesariamente se
adaptan a la verdad. En el caso de las hiptesis explicativas se plantean relaciones entre dos
o ms conceptos, y propone una respuesta a la pregunta de investigacin. Estas relaciones
deben ser propuestas de manera clara y plausible; pueden ser de dos tipos:
a) Causal: es una relacin entre conceptos con una determinada direccionalidad.
b) Relacional: dir que dos conceptos estn relacionados pero no dice cul de los
dos afecta al otro.
Evidentemente, una hiptesis tiene que estar sustentada en la literatura. Una buena hiptesis
debe referirse a una situacin social real, con conceptos comprensibles, precisos y
concretos; as mismo, los conceptos deben ser observables y medibles. Finalmente, una
hiptesis debe especificar una direccin entre los conceptos y precisar la unidad de anlisis.
21 de Marzo2.
Por ejemplo:
Variable y atributos
Nivel de medicin
Edad.
Cuantitativa, de intervalo y continua.
Con qu tendencia poltica usted se Cualitativa y ordinal.
identifica? a. Extrema derecha b. Derecha
c.
Centro
d.
Izquierda
e.
Extrema
izquierda.
De razn.
De intervalo.
Ordinal.
1. Sin estudios
2. Ed. Bsica incompleta
3. Ed. Bsica completa
4. Ed. Media incompleta
5. Ed. Media completa
6. Ed. IP o CFT incompleta
7. Ed. IP o CFT completa
8. Ed. Universitaria incompleta
9. Ed. Universitaria completa
10. Post-grado incompleto
11. Post-grado completo
Aos de escolaridad aprobados.
Asisti a cursos de capacitacin.
De razn.
Nominal.
a. S
b. No
28 de Marzo3.
Indicadores compuestos.
Cmo se pueden sintetizar distintos indicadores en uno solo? El indicador compuesto es
un indicador formado a partir de la combinacin, suma, multiplicacin, etc. de otros
indicadores en mi base de datos, en la encuesta. En l se puede resumir la informacin de
varios indicadores en uno solo, en una sola variable. Este tipo de indicador permite dar
cuenta de conceptos de mejor forma en la medida que puede comunicar un concepto de
caractersticas ms abstractas; permiten resumir informacin de mejor forma.
Hay dos tipos de indicadores compuestos:
3 Falta clase anterior.
9
6 de Abril4.
II.
contingencia.
Estadstica inferencial: lo que se busca establecer es a tratar de establecer a
partir de los datos de una muestra un parmetro poblacional; busca
generalizar. Tambin se divide en dos: univariada y multivariado.
La gran diferencia es que las conclusiones del anlisis se refieren a la muestra, en el caso
del anlisis descriptivo; en el caso de la estadstica inferencial se hacen generalizaciones a
la poblacin.
La frecuencia corresponde a cul fue el nmero de veces que es observada una variable en
la muestra; es el nmero de casos asociados a los atributos de una variable. Por lo general
son expresados en porcentajes o en trminos de proporciones, ello para poder hacer ms
comunicables los datos obtenidos. La proporcin establece la relacin entre un cierto
nmero de casos contra el total de casos; ahora bien, ella tampoco es muy cercana, de ah
que se estandarice en trminos de porcentajes. La mayora de las investigaciones trabajan
con porcentajes.
Dicho lo anterior, se ver qu es una tabla de frecuencia. Ella se compone de cuatro
columnas:
I.
II.
III.
valores perdidos.
Porcentaje vlido: ya que en la columna de porcentajes se incluyen los casos
perdidos, se tiende a trabajar con esta columna, ya que slo considera los
casos que efectivamente respondieron a la pregunta, es decir, es un
IV.
Las tablas de frecuencia se usan para casos en los cuales hay pocas categoras, pocas
opciones en las variables; por ejemplo, en el caso de una pregunta por edad no se puede
usar una tabla de frecuencia, ah se utiliza un grfico de histograma. Este grafico se
compone por dos ejes:
I.
II.
Eje X
Eje Y
11
Es una forma simple de ver cmo se comporta una variable; de manera grfica se muestran
barras que muestran la cantidad de veces que se repite un valor. A su vez permite ver de
mejor manera si existe algn sesgo en los resultados de la muestra.
11 de Abril.
Variable sociodemogrfica.
Variable
de % de columna
inters.
Variable
de
inters
base de la
II.
III.
bidireccional.
Asimtricas: slo una de las variables influencia causalmente a la otra, es
una causalidad unidireccional. Ello se puede dar por una anterioridad
temporal, anterioridad estructural, etc.
13
13 de Abril.
Alto
Medio
Bajo
Total
Hombre
Mujer
Total
70
100
30
100
50
100
Lo primero es leer el marginal, es decir, los totales, en especial aquellos que sean ms
importantes de mencionar. Lo importante es que se den conclusiones sustantivas, la
hiptesis va a permitir saber qu es lo que se quiere observar. Una vez que se han
observado los totales se ve la relacin entre las variables. Uno se ubica en las variables
dependientes y se concentra en una de las categoras. En el ejemplo, se ver que hay una
relacin entre el sexo y el compromiso religioso: hay comportamientos distintos entre
hombres y mujeres para el caso del compromiso religioso.
Para el caso del porcentaje de las filas, pensando en el mismo ejemplo
Alto
Hombre
Mujer
Total
Medio
Bajo
70
30
50
Total
100
100
100
14
Anlisis de Datos II
3 de Agosto.
15
medida que es imposible o muy difcil capturar a la poblacin en distintos periodos del
tiempo. Se trabaja con una porcin de la poblacin para sacar conclusiones respecto a ella.
Ahora bien, no es trivial el cmo se llega a la muestra 6. Es importante la manera en
la cual se seleccionan los sujetos. Y la forma para seleccionar a los sujetos para poder hacer
una inferencia tiene que ser al azar, dado que es la nica posibilidad mediante la cual los
sujetos de la poblacin tengan la misma probabilidad de ser seleccionados: si se elige a una
poblacin determinada de manera intencional, el resto de la poblacin tiene cero
posibilidades de ser elegida. El azar permite que todos tengan la misma probabilidad de ser
seleccionados para la muestra. As mismo, el azar se encarga de mantener, ms o menos, la
estructura de cmo se comporta la poblacin en general: si la poblacin tiene ms sujetos
con una determinada caracterstica, mi muestra va a estar ms cargada a los sujetos con
estas caractersticas, mas no sern todos los sujetos con esa caracterstica.
Ahora bien, en la prctica es muy difcil llegar a este esquema de seleccin aleatoria.
Si uno tiene que resumir los desafos que tiene el seleccionar una muestra para
poder hacer una inferencia estadstica, se puede decir que son7:
1. Cobertura: si se pudiera visibilizar a la poblacin en su conjunto, no se necesitara
una muestra. Es decir, la muestra surge porque es imposible acceder a toda la
poblacin. Esta poblacin a la que se puede acceder se entiende como Marco
Muestral: esta es una primera diferencia.
2. Seleccin: ahora, del Marco Muestral, no se va a ir a todos ellos, de esta manera,
hay una segunda brecha o diferencia entre los elementos a los que puedo acceder y
la seleccin terica o Muestra Terica. As, el segundo desafo es cmo se
selecciona la muestra terica a partir del Marco Muestral, y ello se consigue por
medio del azar. Ahora, esto no es tan simple: para poder hacer aquello se necesita
individualizar a cada elemento del Marco Muestral; se necesita saber dnde est la
persona en cuestin. Es decir, el Marco Muestral, tiene que estar compuesto por
elementos identificables. Ahora bien, como no existe una base de datos de todos los
6 Ver pgina 6, apunte 1.
7 Pgina 4 Apunte 1
16
17
8 de Agosto.
Reglas de Probabilidades.
Todas las probabilidades que son calculadas tienen un rango de valoracin que no puede ser
ni menor a cero ni mayor a 1. Es decir, las probabilidades son valores que se mueven entre
cero y 1. Y la suma de las probabilidades de un evento tienen que sumar 1. En este sentido,
la suma de las posibilidades es una suma simple, siempre y cuando ambas posibilidades
sean independientes. Por otro lado, puede haber sucesos complementarios, es decir, si se
conoce una probabilidad, se puede conocer la probabilidad complementaria.
As, se va a revisar lo que son los sucesos complementarios y probabilidades
binomiales, es decir, experimentos donde slo hay dos tipos de resultados. Pero tambin
pueden haber experimentos en donde el rango de respuestas, sean ms amplios, por
ejemplo, el ser socilogo o no serlo: estas otras posibilidades se constituyen como sucesos
complementarios. As, la probabilidad de xito ser el nmero de xito o las observaciones
exitosas, dividido por el n total. Ahora, si solo hay dos resultados posibles, la suma de las
probabilidades de ambas opciones tiene que ser 1, en una probabilidad binomial.
Las variables que se construyen sobre la base de la teora de la probabilidad se
llaman variables aleatorias, y los valores van a ser en funcin de todos lo calores posibles
del espacio muestral. Es la caracterstica que queremos observar y su valor oscila segn los
resultados en el espacio muestral. El evento definido corresponde a un valor posible de la
variable aleatoria. Por ejemplo: si se sacan al azar 15 personas de un curso y se observa el
nmero de personas de 21 aos, se tendr que la variable aleatoria X es el nmero de
personas con 21 aos posibles de obtener, mientras que los valores que la variable aleatoria
puede asumir son entre los 0 y 15. Y los casos extremos es que, de las 15 personas, todas
tengan 21 aos, o ninguna los tenga. As, la variable aleatoria es la caracterstica de inters
de la poblacin cuyo valor es determinado por el azar entre los valores posibles del espacio
muestral del experimento. Para saber cul es la probabilidad asociada a cada uno de los
valores posibles de la variable aleatoria y compararlos se utiliza la distribucin de la
probabilidad, es decir, un listado que relaciona cada valor de una variable aleatoria con su
frecuencia relativa terica, es decir, se probabilidad de ocurrencia en la poblacin. Las
18
P(X)
0,25
0,5
0,25
1
10 de Agosto.
22 de Agosto.
Distribuciones Normales I.
El espacio muestral son todas las posibilidades a las cuales se puede acceder en funcin de
un experimento; en la teora de la probabilidad ello equivale a la poblacin. En un espacio
muesral conocido se puede conocer las variables aleatorias, las cuales se pueden resumir o
mostrar a partir de distribuciones de probabilidad, las cuales pueden ser discretas,
21
22
Como toda distribucin, se pueden calcular estadsticos: una media, y una medida
de dispersin; que tanto se separan las distintas medias de la media. La media se consigue
sumando todas las medias, dividiendo por la cantidad de muestras. La dispersin ser qu
tan heterogneas estn las distintas medias respecto a la media; es similar a la desviacin
estndar, pero se conoce como error estndar. El error estndar se calcula en funcin de la
desviacin estndar poblacional, dividido por la raz de n, la raz del tamao de la muestra.
Ello permite saber qu tan lejos estn las distintas medias de la media.
24 de Agosto.
con muestras.
A mayor error de muestreo o menor tamao de la muestra, menor es la precisin
La variabilidad entre los elementos de muestreo tambin afecta el error muestral:
mientras mayor es la varianza de una poblacin, menor es la precisin de los datos
para una muestra de un determinado tamao.
23
El sesgo sistemtico tiene que ver con la manera como se realiza el diseo muestral, como
se levanta la informacin. Son factores no relacionados con el muestreo que afectan los
resultados de un sesgo sistemtico o no aleatorio. Un primer sesgo es el de visibilidad o de
cobertura (se cubre la totalidad de la poblacin objetiva o no?); el sesgo de accesibilidad
tiene que ver que, si bien se tienen marcos muestrales que abarcan a toda la poblacin de
inters, hay elementos a los cuales no se puede llegar. Otro sesgo es el de afinidad: en
ocasiones hay elementos del marco muestral con los cuales se tiene menos afinidad que con
otros que no estn en el marco muestral; se puede tener ciertas preferencias respecto a
unidades que no necesariamente estn en la muestra. El sesgo de autoseleccin es cuando
las personas se seleccionan a s mismas para ser parte de una muestra: las personas que
llegan al instrumento tienen una caracterstica diferente respecto al resto de la poblacin.
Finalmente hay un sesgo de no respuesta: tiene que ver con que las personas que no
contestan una pregunta o parte del instrumento tienen caractersticas particulares que no es
posible observar a travs del instrumento.
El error estndar, dada su frmula, va a generar lo que se conoce como la ley de los
grandes nmeros. Si se dice que, a mayor tamao de la muestra, menor ser el error
estndar, es la ley de los grandes nmeros: va a haber un menor rango de error en la
distribucin muestral. Como toda distribucin, los puntajes de la distribucin muestral
pueden ser estandarizadas. Las variables que son cuantitativas, para poder ser
estandarizadas, son tratadas de igual manera a cunado se trata de estandarizar cualquier
variable, es decir, se divide la distancia a la media de la distribucin, y se divide por el error
estndar. La estandarizacin es la misma, pero los datos son diferentes. Dado que la
distribucin muestral es estandarizable, se puede emplear la tabla z para ubicar
probabilidades al interior de la distribucin. Sin embargo, el problema de estandarizar la
distribucin muestral es que no se conoce la dispersin poblacional, pero s la variable de la
muestra, entonces el error estndar que se puede calcular es el muestral, y no el
poblacional.
El efecto que tiene usar la desviacin estndar muestral es que tiene consecuencias
respecto a la forma de la distribucin. Los grados de libertad: para cada grado de libertad se
va a generar una curva nueva, a diferencia de la curva normal. Mientras menor sean los
24
grados de libertad, mayor ser la variabilidad, y por lo tanto la curva ser ms achatada
dado que tiene ms dispersin. Al aumentar los grados de libertad, la distribucin se va
normalizando. Este tipo de distribucin, que tiene una curva segn los distintos grados de
libertad, se llama T de Student. Del mismo modo, t es estandarizable de la misma manera
en la cual es estandarizable z.
25