Vous êtes sur la page 1sur 26

Anlisis de Datos I y

Anlisis de Datos II
(SOL 106 y SOL - )
PROFESRAS: BEATRIZ FERNNDEZ, DANIELLA LEAL,
PAMELA AYALA.
ANDRS GONZLEZ

ndice
Investigacin cuantitativa y operacionalizacin.....................................................................2
Objetivos, hiptesis, modelos.................................................................................................4
Tipos de variables, niveles de medicin.................................................................................7
Indicadores compuestos........................................................................................................10
Proporciones, porcentajes y tasas..........................................................................................10
Creacin de Tablas de Contingencia I...................................................................................12
Creacin de Tablas de Contingencia II.................................................................................14
Problemtica y Teora de la Probabilidad I...........................................................................16
Reglas de Probabilidades......................................................................................................18
Estandarizacin de Variables y Distribucin de Probabilidad Normal.................................21

Anlisis de Datos I
7 de Marzo.

Investigacin cuantitativa y operacionalizacin.


El punto de partida de una investigacin est en funcin de un problema de investigacin.
Para poder definir uno hay que tener clara la temtica y lo que se pretende de responder con
la investigacin. Lo que est contenido en los objetivos es lo que se pretende conseguir con
la investigacin. Estos objetivos se ven alimentados por la teora; de ah la relevancia de la
revisin bibliogrfica. La teora retroalimenta la temtica y los objetivos de investigacin.
El conjunto de todo ello impulsar el planteamiento de ciertas hiptesis, las que se pueden
cumplir o no. (Si bien es cierto que autores han investigado, hay elementos de la
contingencia, ya sean formas de medicin o adopcin de conceptos, en la unidad de anlisis
utilizada, por ejemplo, que hagan que una hiptesis en un contexto sea verdadera y en otro
falso; la diferencia puede estar en el levantamiento de datos, en la adopcin de ciertos
conceptos, etc. Esto se puede dar particularmente en estudios de vida de las personas, por
ejemplo. Esto es lo que se conoce como limitaciones metodolgicas.) La hiptesis es la
relacin entre determinados conceptos. El punto es de dnde salen esos conceptos, cmo
tomo una idea y se plantea en un set de preguntas en un cuestionario. Luego viene la
observacin de los datos recogidos. Luego, una vez que se tienen los datos recogidos se
pasa al anlisis de tipo descriptivo; cmo se responde a la pregunta de investigacin a partir
de un instrumento.
El proceso de operacionalizacin parte de la definicin de un concepto: qu se va a
entender por La definicin de un concepto proviene de una concepcin (imagen mental
que surge de la percepcin intuitiva de una regularidad entre diversos eventos empricos:
esto ocurre), a partir de ah aparece el concepto (cmo coloco lmites a la concepcin; es
la seleccin de un nombre para indicar la concepcin sobre algo); el nombre debe estar
relacionado con una definicin (poder decir yo entiendo por A, esto). La
operacionalizacin parte con esta conceptualizacin. A partir de ella, para poder llegar a la
2

medicin hay que pasar por la identificacin de dimensiones, sub-dimensiones, indicadores


y cmo estos indicadores se traducen en preguntas que me permitan la medicin. El
concepto para ser medido necesita ser traducido en indicadores y preguntas.
(Ejemplo: Las personas atendidas en el centro de salud estn molestas por el alto
nivel de espera, eso es lo que se observa. Y el concepto a partir de la observacin ser el
nivel de satisfaccin con el tiempo de espera y la definicin ser nivel de satisfaccin
manifestado por los usuarios del centro de salud respecto al tiempo de espera para recibir la
prestacin de salud. Este sera un ejemplo unidimensional, en la medida que existe una
sola dimensin del concepto. Ahora, pensando en un concepto multidimensional puede ser
la accesibilidad a los servicios de salud, siendo su definicin la posibilidad de acceder al
servicio de salud y beneficiarse de sus prestaciones, pero segn la concepcin se pueden
ver distintas dimensiones de la accesibilidad: geogrfica, econmica y cultural; cada uno de
los cuales puede dividirse en sub-dimensiones. Si estuvieran dentro de una misma
dimensin se estara diciendo que el problema de accesibilidad financiero es igual al
problema de accesibilidad geogrfica; al separarlos se est diciendo que la una y la otra no
se condicionan: tener accesibilidad econmica no significa tener accesibilidad geogrfica,
es decir, cada dimensin se comporta de manera distinta. Una dimensin es independiente
de otra dimensin, una respuesta a una dimensin es distinta a la de otra dimensin.)
Las variables tericas son aquellas asociadas al concepto en s, los indicadores son
las variables empricas. Este paso es importante en la medida en que no se puede preguntar
a partir de variables tericas (Cul es tu nivel de vulnerabilidad social? es distinto a
preguntar Cul es tu edad?). La operacionalizacin vincula la conceptualizacin con la
medicin, es decir, es el proceso que permite vincular un concepto abstracto con su
medicin emprica, por medio de indicadores. Un indicador indica la presencia o ausencia
de una dimensin del concepto que se pretende observar. Un indicador debe ser:
a) Exhaustivo: abarcan todo el rango de significados contenidos en la definicin
nominal,
b) Mutuamente excluyente: no se superponen entre s en la dimensin del concepto
que estn midiendo,
c) Confiable: permiten que lo observado corresponda a la realidad y no al azar de
la medicin,
3

d) Vlidos: reflejan el significado real del concepto o su dimensin, (un indicador


no valido puede ser uno que pretende preguntar por temor, pero pregunta por
victimizacin).
Ahora bien, los indicadores se relacionan de forma probable con la dimensin que
miden. No hay una nica forma de medir un fenmeno. Hay distintos caminos para llegar a
la medicin de un concepto. Los indicadores permiten saber cmo se pretende trabajar una
pregunta.
La pregunta puede ser transformada en una pregunta distinta con indicadores
distintos; puede ser recodificada, por eso se tiene que distinguir entre el atributo con el cual
se va a trabajar y la pregunta de la encuesta.
Cmo se trabaje con cada uno de los indicadores ser en funcin de la hiptesis que
se busque responder.
Las categoras NS/NR es lo que se conoce como una categora residual; ello le
permite dar exhaustividad al indicador: al encuestado no se le puede obligar que me
conteste S o No, se tiene que dar la posibilidad a la persona que No Sabe que pueda
responder, al igual que a quien no quiera responder.

14 de Marzo1.

Objetivos, hiptesis, modelos.


La hiptesis es un punto intermedio entre la teora y la observacin; sera un universo de
posibilidades de las cosas que ocurren en la realidad, aunque no necesariamente ocurran en
la realidad. Los objetivos estn ntimamente relacionados con el problema de investigacin;
ayudan a delimitar el campo de accin para acercarse al problema de investigacin,
responden a la pregunta de qu se pretende conseguir con la investigacin. Las hiptesis
son potenciales respuestas de lo que uno se plantea en los objetivos con una determinada
posicin.
1 La clase pasada fue terminar de ver operacionalizacin (ltimo caso de un concepto
multidimensional), y hacer la Gua N1.
4

Las hiptesis pueden ser de dos tipos:


a) Descriptivas: enuncia cul es el estado de un determinado fenmeno, no
relaciona ningn concepto con otro, slo describe un escenario potencial.
b) Explicativas: relaciona conceptos entre s.
Una hiptesis explicativa se puede traducir o esquematizar a travs de un modelo
explicativo, que es la relacin que se establece entre cada concepto. Pero antes de pasar al
modelo explicativo veremos la diferencia entre unidad de anlisis y unidad de observacin:
a) Unidad de anlisis: sobre quien voy a realizar el anlisis. Es la unidad de inters
analtico de la investigacin, sobre la cual se contrastan las hiptesis. Es el
alcance del estudio, a quien represento en mi estudio.
b) Unidad de observacin: sobre quien aplico el instrumento de medicin. La
obtencin de datos est en funcin de ella.
Dentro de una investigacin se puede tener ms de una unidad de observacin y, al mismo
tiempo, ms de una unidad de anlisis, no es lo habitual, pero puede darse en
investigaciones ms complejas.
Ahora bien, los objetivos definen los lmites de la investigacin, permiten fijar
propsitos (por ejemplo, analizar, explicar, describir, etc.) Tienen que ser claros,
susceptibles de alcanzar; en ese sentido los objetivos estn en directa relacin con las
herramientas analticas que se poseen y el carcter de la investigacin misma; y
congruentes entre s, es decir, tienen que tener una secuencia lgica entre ellos al interior de
una investigacin. Los objetivos se pueden clasificar como:
a) Exploratorios: se busca un mnimo grado de familiaridad con un fenmeno.
Generalmente se destinan a fenmenos con poca bibliografa. (Se tiende a usar
una metodologa ms cualitativa, dado que el tipo de aproximacin es ms
enriquecedora.)
b) Descriptivos: se busca medir cierta regularidad que se da algn fenmeno. Se
busca caracterizar cmo es un determinado atributo en la poblacin.
c) Explicativos: busca explicar el por qu se dan determinados fenmenos o por
qu se observan determinados atributos en la realidad. Apunta directamente a la
relacin entre conceptos, a diferencia del objetivo descriptivo.
5

Para distinguir entre un estudio descriptivo y otro explicativo hay que ver si el estudio
establece una relacin entre conceptos. Si en el objetivo no se busca determinar una
relacin ser descriptivo; no busca explicar el fenmeno, sino que describirlo.
(Cuando se analizan percepciones, es decir, opiniones, comentarios que los sujetos
pueden tener sobre ciertos hechos. Estos estudios no son restrictivos de las investigaciones
cualitativas; a nivel cuantitativo tambin se encuentran investigaciones en base a
opiniones.)
Cuando se logra dilucidar los objetivos de una investigacin es posible desprender
algunas hiptesis. En el caso de ser un objetivo descriptivo la hiptesis ser de tipo
descriptiva (una idea tentativa de lo que pasa de manera descriptiva. Se da un estado de
situacin; es un yo creo que se da esto); si la investigacin busca explicar el fenmeno, la
hiptesis ser de tipo explicativa (una explicacin tentativa de la direccionalidad de los
conceptos de tipo tentativa. Hipotetisa sobre las razones del porqu se da un fenmeno).
Hay dos niveles de hiptesis explicativa: a
a) Nivel terico: la hiptesis relaciona conceptos tericos, por lo tanto no es
verificable empricamente.
b) Nivel emprico: la hiptesis relaciona conceptos empricos, medibles y
observables. Es deducida de la hiptesis terica, y debe ser confirmada o
refutada de manera emprica.
Las hiptesis nacen de la revisin de la literatura. De ah nace una hiptesis terica, luego,
en funcin de la operacionalizacin de los conceptos contenidos en la hiptesis nacer la
hiptesis emprica.
Como ya se dijo, las hiptesis son explicaciones tentativas que no necesariamente se
adaptan a la verdad. En el caso de las hiptesis explicativas se plantean relaciones entre dos
o ms conceptos, y propone una respuesta a la pregunta de investigacin. Estas relaciones
deben ser propuestas de manera clara y plausible; pueden ser de dos tipos:
a) Causal: es una relacin entre conceptos con una determinada direccionalidad.
b) Relacional: dir que dos conceptos estn relacionados pero no dice cul de los
dos afecta al otro.

Evidentemente, una hiptesis tiene que estar sustentada en la literatura. Una buena hiptesis
debe referirse a una situacin social real, con conceptos comprensibles, precisos y
concretos; as mismo, los conceptos deben ser observables y medibles. Finalmente, una
hiptesis debe especificar una direccin entre los conceptos y precisar la unidad de anlisis.

21 de Marzo2.

Tipos de variables, niveles de medicin.


Dependiendo del tipo de variable se van a realizar distintas operaciones matemticas.
Las variables son los indicadores que se miden; es el equivalente del indicador pero a nivel
de anlisis de dato. La variable es bsicamente un conjunto lgico de atributos: los distintos
elementos que se pueden medir en una encuesta son variables. Lo importante en el anlisis
de datos es que las variables tengan cierta variabilidad: es decir, que se tengan distintos
estados de respuesta; hay que evitar las variables con poca heterogeneidad. Adems de la
variabilidad, para tener una buena variable, los atributos que la componen deben ser:
a) Exhaustivos: las respuestas a las variables deben permitir que toda persona se
pueda clasificar; se deben anotar todas las posibles respuestas. Por ejemplo, la
variable Estado civil debe tener las opciones de: 1. Casado, 2. Conviviente, 3.
Soltero, 4. Viudo, 5. Divorciado, 6. Unin civil.
b) Mutuamente excluyentes: Por ejemplo, se pregunta Cul es su estado de salud?
1. Muy bueno, 2. Buensimo, 3. Regular, 4. Muy malo, 5. Malsimo. Entre 1 y 2;
4 y 5 no est clara la diferencia.
c) Precisos: Se tiene que ser detallado en el listado de atributos, tanto para quien
responde como para el anlisis. Hay que desagregar detalladamente el listado de
atributos.
Lo siguiente que se ver ser la clasificacin de las variables dependiendo de distintos
criterios:
a) Segn funcin en la investigacin:
2 La clase pasada fue terminar de ver el planteamiento de las hiptesis y los modelos
explicativos.
7

1. Independiente: aquellas que hacen cambiar la variable de inters, es


decir, la dependiente.
2. Dependiente: aquella que es afectada por la variable independiente.
3. De control: aquellas que regulan la relacin entre la variable dependiente
e independiente.
b) Segn escala de medicin: Slo se aplica a las variables cuantitativas.
1. Continuas: las escalas se miden en decimales. Por ejemplo, Nmero de
horas vistas de TV.
2. Discretas: slo se mide en nmeros enteros. Por ejemplo, nmero de
hijos; no se tiene 1,2 hijos.
c) Segn nivel de medicin:
1. Nominales: son variables cualitativas; permiten caracterizar, pero sin
ordenar. Un ejemplo puede ser La Religin.
2. Ordinales: se pueden ordenar, aunque no numricamente, sino que
cualitativamente; no slo permite clasificar. Por ejemplo, las Escalas de
Likert la cual se puede aplicar a los atributos Bueno, Malo, Regular.
3. De intervalo: no existe el cero como cero. Por ejemplo, la temperatura:
cuando se dice que hubo 0C no implica ausencia de temperatura.
4. De Razn: el cero s implica la ausencia del atributo. Por ejemplo, el
Nmero de hijos.
5. Escalar: la unin entre las variables de intervalo y las de razn.
d) Segn tipo de variable:
1. Cualitativas (no-mtricas): las categoras de respuestas no son
numricas, son cualitativas, cualidades. Por ejemplo, Estado civil.
2. Cuantitativas (mtricas): las categoras de respuesta son numricas. Por
ejemplo, Nmero de hijos.

Por ejemplo:
Variable y atributos
Nivel de medicin
Edad.
Cuantitativa, de intervalo y continua.
Con qu tendencia poltica usted se Cualitativa y ordinal.
identifica? a. Extrema derecha b. Derecha
c.

Centro

d.

Izquierda

e.

Extrema

izquierda.

En una escala de 1 a 10, donde 1 representa Cualitativa y ordinal.


ms de izquierda, y 10 representa ms de
derecha, en qu posicin se encuentra
usted?
1 2 3 4 5 6 7 8 9 10
Izquierda
Derecha
Cantidad de hijos nacidos vivos.
Puntaje PSU.
Nivel educativo:

De razn.
De intervalo.
Ordinal.

1. Sin estudios
2. Ed. Bsica incompleta
3. Ed. Bsica completa
4. Ed. Media incompleta
5. Ed. Media completa
6. Ed. IP o CFT incompleta
7. Ed. IP o CFT completa
8. Ed. Universitaria incompleta
9. Ed. Universitaria completa
10. Post-grado incompleto
11. Post-grado completo
Aos de escolaridad aprobados.
Asisti a cursos de capacitacin.

De razn.
Nominal.

a. S

b. No

28 de Marzo3.

Indicadores compuestos.
Cmo se pueden sintetizar distintos indicadores en uno solo? El indicador compuesto es
un indicador formado a partir de la combinacin, suma, multiplicacin, etc. de otros
indicadores en mi base de datos, en la encuesta. En l se puede resumir la informacin de
varios indicadores en uno solo, en una sola variable. Este tipo de indicador permite dar
cuenta de conceptos de mejor forma en la medida que puede comunicar un concepto de
caractersticas ms abstractas; permiten resumir informacin de mejor forma.
Hay dos tipos de indicadores compuestos:
3 Falta clase anterior.
9

a) Sumativo: simplifican dos o ms variables a travs de una operacin


matemtica. Le atribuyen el mismo peso a todos los indicadores simples; no
diferencia entre los distintos elementos considerados en el indicador. Es un
indicador ms simple en trminos de construccin en la medida que se basa en
una operacin matemtica.
b) Combinado: no implican una operacin matemtica de ningn tipo; se basa en la
interseccin de dos o ms indicadores, que deben representar dos o ms
dimensiones de un concepto. As, lo que hacen es resumir informacin
proveniente de dos o ms dimensiones.

6 de Abril4.

Proporciones, porcentajes y tasas.


Se pueden diferenciar entre dos tipos de anlisis.
I.

Anlisis descriptivo5: busca el anlisis de la puntuacin de una muestra.


Puede ser viendo las variables por s solas, o por variables combinadas; cada
una se conoce como univariada y bivariada, respectivamente. En el caso de
un anlisis univariado se tienden a ocupar tablas de frecuencias, histogramas,
etc. en cambio, en el caso de un anlisis bivariado se utilizan tablas de

II.

contingencia.
Estadstica inferencial: lo que se busca establecer es a tratar de establecer a
partir de los datos de una muestra un parmetro poblacional; busca
generalizar. Tambin se divide en dos: univariada y multivariado.

La gran diferencia es que las conclusiones del anlisis se refieren a la muestra, en el caso
del anlisis descriptivo; en el caso de la estadstica inferencial se hacen generalizaciones a
la poblacin.

4 Faltan las clases correspondientes al 23, 28 de Marzo y 3 de Abril.


5 A esto corresponde el curso de Datos I.
10

La frecuencia corresponde a cul fue el nmero de veces que es observada una variable en
la muestra; es el nmero de casos asociados a los atributos de una variable. Por lo general
son expresados en porcentajes o en trminos de proporciones, ello para poder hacer ms
comunicables los datos obtenidos. La proporcin establece la relacin entre un cierto
nmero de casos contra el total de casos; ahora bien, ella tampoco es muy cercana, de ah
que se estandarice en trminos de porcentajes. La mayora de las investigaciones trabajan
con porcentajes.
Dicho lo anterior, se ver qu es una tabla de frecuencia. Ella se compone de cuatro
columnas:
I.

Frecuencia absoluta: son nmero brutos de casos que respondieron


determinada alternativa. Y la suma de ellos dice cuntas personas
respondieron algunas de esas alternativas. En algunas tablas de frecuencia
existen los casos perdidos, es decir, aquellos que no respondieron a la
pregunta debido a algn filtro; en el ejemplo de la gua, los menores de 15

II.

aos. Y el total que incluye a estos casos perdidos es el total de la muestra.


Porcentaje: refiere a la operacin estadstica correspondiente a la
transformacin de los nmeros brutos de cada variable en porcentajes. Es la
frecuencia relativa en la relacin con el total de casos, incluyendo los

III.

valores perdidos.
Porcentaje vlido: ya que en la columna de porcentajes se incluyen los casos
perdidos, se tiende a trabajar con esta columna, ya que slo considera los
casos que efectivamente respondieron a la pregunta, es decir, es un

IV.

porcentaje que se calcula en funcin del total de casos vlidos.


Porcentaje acumulado: es la suma consecutiva de cada uno de los atributos
en funcin del porcentaje vlido.

Las tablas de frecuencia se usan para casos en los cuales hay pocas categoras, pocas
opciones en las variables; por ejemplo, en el caso de una pregunta por edad no se puede
usar una tabla de frecuencia, ah se utiliza un grfico de histograma. Este grafico se
compone por dos ejes:
I.
II.

Eje X
Eje Y
11

Es una forma simple de ver cmo se comporta una variable; de manera grfica se muestran
barras que muestran la cantidad de veces que se repite un valor. A su vez permite ver de
mejor manera si existe algn sesgo en los resultados de la muestra.

11 de Abril.

Creacin de Tablas de Contingencia I.


Existen dos tipos de estadsticas: las descriptivas y las inferenciales. La primera se puede
dividir en dos tipos de anlisis: univariado y bivariado. En este ltimo conjunto se ubican
las tablas de contingencia.
(De ahora en adelante, cada vez que se analicen variables ser importante saber qu
variable se est analizando. El tipo de tcnica va a variar dependiendo de si se trata de
tcnicas cualitativas o cuantitativas. Si se quiere probar cmo se relacionan dos variables
cuantitativas, por ejemplo: aos de escolaridad e ingresos, la tcnica de anlisis a utilizar es
una correlacin o un anlisis de dispersin. Luego, se puede estar interesado en analizar una
variable cuantitativa con otra cualitativa, por ejemplo: la relacin existente entre sexo e
ingreso, se va a trabajar con lo que se conoce con estadsticos descriptivos y grficos boxplot. Finalmente, cuando se tienen dos variables cualitativas, por ejemplo: la relacin entre
sexo y grado de acuerdo con alguna frase, se utilizan las tablas de contingencia y los
grficos de barra.)
Las tablas de contingencia van a ser utilizada cada vez que se quiere estudiar dos
variables cualitativas.
Una primera finalidad de las tablas de contingencia es la descripcin, busca
describir los datos segn grupos de variables; una segunda finalidad es su rol explicativo, es
decir, busca comprobar una hiptesis. La diferencia entre una y la otra es que en la primera
no se plantea una hiptesis; slo se busca describir cmo funciona en ciertos grupos una
variable, no hay una causalidad.
En la construccin de las tablas es importante tener claro la diferencia entre las filas
y las columnas, en funcin de dnde se ubique la variable de inters.
12

Variable sociodemogrfica.

Variable

de % de columna

inters.

Variable

de

inters

Variable socio- % de fila


demogrfica
En

el primer caso, el 100% se ubica en la

base de la

tabla. En el segundo caso el 100% se

ubica al extremo derecho de la tabla.


Si se construye una tabla con porcentaje de columna, se comparan las filas; si se
construye una tabla con porcentaje de filas, se comparan las columnas.
Cuando el objetivo es explicativo, es importante definir cul es la variable
dependiente y cual la independiente. En trminos estrictos, lo que va a pasar es que, si la
variable independiente se ubica en las columnas, se calcula el porcentaje de columnas;
ahora, si se ubica en las filas, se calcula el porcentaje de filas.
Al minuto de hacer un anlisis de datos, hay que tener presente que existen distintos
tipos de relaciones entre variables:
I.

Simtricas: al hacer un anlisis de datos se observa que dos variables se


mueven conjuntamente, pero que de sentido lgico no estn asociadas, es
decir, existe una relacin espuria: existe una tercera variable que no se logra

II.

observar, pero que explica la variacin de las otras dos.


Recprocas: ambas variables se influencian mutuamente, es una relacin

III.

bidireccional.
Asimtricas: slo una de las variables influencia causalmente a la otra, es
una causalidad unidireccional. Ello se puede dar por una anterioridad
temporal, anterioridad estructural, etc.

13

13 de Abril.

Creacin de Tablas de Contingencia II.


Cmo leer una Tabla de Contingencia? Supongamos un ejemplo entre sexo y compromiso
religioso, leyendo el porcentaje de columna:

Alto
Medio
Bajo
Total

Hombre

Mujer

Total

70
100

30
100

50
100

Lo primero es leer el marginal, es decir, los totales, en especial aquellos que sean ms
importantes de mencionar. Lo importante es que se den conclusiones sustantivas, la
hiptesis va a permitir saber qu es lo que se quiere observar. Una vez que se han
observado los totales se ve la relacin entre las variables. Uno se ubica en las variables
dependientes y se concentra en una de las categoras. En el ejemplo, se ver que hay una
relacin entre el sexo y el compromiso religioso: hay comportamientos distintos entre
hombres y mujeres para el caso del compromiso religioso.
Para el caso del porcentaje de las filas, pensando en el mismo ejemplo
Alto
Hombre
Mujer
Total

Medio

Bajo
70
30
50

Total
100
100
100

Se lee el total, y luego se elige una categora de la variable dependiente.


Ahora, el tamao de significacin va a depender del tamao de la muestra. Entre
mayor sea el tamao de la muestra, el tamao de significacin tiene que ser menor. Si se
trabaja con muchos nmeros, un porcentaje del 2 o 3% puede ser significativo.

14

Anlisis de Datos II
3 de Agosto.

Problemtica y Teora de la Probabilidad I.


Una distincin importante es la existente entre muestra y poblacin: la primera es una
porcin de la ltima. La poblacin no remite slo a los habitantes: tambin puede entendida
como una unidad de anlisis, es decir, puede ser mujeres, jvenes, adultos mayores, etc. Es
decir, existe una diferencia entre muestra y poblacin.
Lo que se va a revisar es qu es la estadstica inferencial: es lo que nos permite, a
partir de una muestra, decir algo respecto a una poblacin. Uno de los problemas de la
estadstica inferencial es el trabajar con muestras. Al momento de trabajar con una muestra
es importante entender cmo se obtiene una muestra, que sea representativa. En funcin de
la muestra se saca una conclusin que se trata de llevar a un nivel poblacional. En fin,
existe la poblacin y la muestra, la cual es un subconjunto de la poblacin; que existe en la

15

medida que es imposible o muy difcil capturar a la poblacin en distintos periodos del
tiempo. Se trabaja con una porcin de la poblacin para sacar conclusiones respecto a ella.
Ahora bien, no es trivial el cmo se llega a la muestra 6. Es importante la manera en
la cual se seleccionan los sujetos. Y la forma para seleccionar a los sujetos para poder hacer
una inferencia tiene que ser al azar, dado que es la nica posibilidad mediante la cual los
sujetos de la poblacin tengan la misma probabilidad de ser seleccionados: si se elige a una
poblacin determinada de manera intencional, el resto de la poblacin tiene cero
posibilidades de ser elegida. El azar permite que todos tengan la misma probabilidad de ser
seleccionados para la muestra. As mismo, el azar se encarga de mantener, ms o menos, la
estructura de cmo se comporta la poblacin en general: si la poblacin tiene ms sujetos
con una determinada caracterstica, mi muestra va a estar ms cargada a los sujetos con
estas caractersticas, mas no sern todos los sujetos con esa caracterstica.
Ahora bien, en la prctica es muy difcil llegar a este esquema de seleccin aleatoria.
Si uno tiene que resumir los desafos que tiene el seleccionar una muestra para
poder hacer una inferencia estadstica, se puede decir que son7:
1. Cobertura: si se pudiera visibilizar a la poblacin en su conjunto, no se necesitara
una muestra. Es decir, la muestra surge porque es imposible acceder a toda la
poblacin. Esta poblacin a la que se puede acceder se entiende como Marco
Muestral: esta es una primera diferencia.
2. Seleccin: ahora, del Marco Muestral, no se va a ir a todos ellos, de esta manera,
hay una segunda brecha o diferencia entre los elementos a los que puedo acceder y
la seleccin terica o Muestra Terica. As, el segundo desafo es cmo se
selecciona la muestra terica a partir del Marco Muestral, y ello se consigue por
medio del azar. Ahora, esto no es tan simple: para poder hacer aquello se necesita
individualizar a cada elemento del Marco Muestral; se necesita saber dnde est la
persona en cuestin. Es decir, el Marco Muestral, tiene que estar compuesto por
elementos identificables. Ahora bien, como no existe una base de datos de todos los
6 Ver pgina 6, apunte 1.
7 Pgina 4 Apunte 1
16

chilenos y sus caractersticas, en la prctica, el mecanismo baja de manera


escalonada: se van haciendo etapas de seleccin de lo ms grande a lo ms pequeo.
3. Logro: Cuando se habla de la Muestra Terica, se apunta a lo que tericamente se
quiere lograr. Pero en la prctica, no todos quieren contestar la encuesta. Lo que se
puede hacer, es sobredimensionar la Muestra Terica, para cubrir una no-respuesta.
Finalmente, con la Muestra Efectiva, es decir, aquellos que respondieron la encuesta
es sobre la cual se realiza la inferencia.
Para que la muestra sea un reflejo lo ms cercano posible a la poblacin se necesita que el
Marco Muestral comprenda a la poblacin los ms fiel posible; y adems debe tener
asociado un grado de error conocido, pero nunca eliminado, es decir, dado que la poblacin
no es igual que la muestra, se pueden tener diferencias entre una y la otra; se admite el
hecho de que poblacin y muestra no son iguales. Pero lo importante es conocer el grado de
error de la muestra, cunto se aleja la muestra de la poblacin. Para poder dimensionar el
grado de error se necesita un mecanismo de aleatoriedad de seleccin de la muestra.
La teora de la probabilidad ayuda a estimar el error entre muestra y poblacin. Existen tres
tipos de probabilidades.
1. Probabilidad terica, la cual conoce el espacio muestral. Por lo tanto, si se busca
saber la probabilidad de sacar una mujer de una sala de espera, se sabe tanto la
cantidad de mujeres que hay en ella, como el total de personas que hay en la sala de
espera.
2. Probabilidad emprica, en la cual se determina el espacio muestral de manera
experimental. Es decir, se desconoce la poblacin y la muestra. As, se define la
probabilidad en funcin de un experimento. De este modo, siguiendo el ejemplo
anterior, se saca de una sala de espera a una persona, se ve si es hombre o mujer, y
se devuelve a la persona a la sala de espera; este procedimiento se repite unas
cuantas veces. As, la probabilidad de extraer una mujer de la sala de espera ser el
nmero de mujeres extradas, sobre el nmero de veces que se extrajo una persona.
3. Probabilidad subjetiva, en donde el nico dato que se sabe es que hay una
determinada cantidad de personas, y en base a supuestos se busca determinar tanto
la muestra como la poblacin.

17

8 de Agosto.

Reglas de Probabilidades.
Todas las probabilidades que son calculadas tienen un rango de valoracin que no puede ser
ni menor a cero ni mayor a 1. Es decir, las probabilidades son valores que se mueven entre
cero y 1. Y la suma de las probabilidades de un evento tienen que sumar 1. En este sentido,
la suma de las posibilidades es una suma simple, siempre y cuando ambas posibilidades
sean independientes. Por otro lado, puede haber sucesos complementarios, es decir, si se
conoce una probabilidad, se puede conocer la probabilidad complementaria.
As, se va a revisar lo que son los sucesos complementarios y probabilidades
binomiales, es decir, experimentos donde slo hay dos tipos de resultados. Pero tambin
pueden haber experimentos en donde el rango de respuestas, sean ms amplios, por
ejemplo, el ser socilogo o no serlo: estas otras posibilidades se constituyen como sucesos
complementarios. As, la probabilidad de xito ser el nmero de xito o las observaciones
exitosas, dividido por el n total. Ahora, si solo hay dos resultados posibles, la suma de las
probabilidades de ambas opciones tiene que ser 1, en una probabilidad binomial.
Las variables que se construyen sobre la base de la teora de la probabilidad se
llaman variables aleatorias, y los valores van a ser en funcin de todos lo calores posibles
del espacio muestral. Es la caracterstica que queremos observar y su valor oscila segn los
resultados en el espacio muestral. El evento definido corresponde a un valor posible de la
variable aleatoria. Por ejemplo: si se sacan al azar 15 personas de un curso y se observa el
nmero de personas de 21 aos, se tendr que la variable aleatoria X es el nmero de
personas con 21 aos posibles de obtener, mientras que los valores que la variable aleatoria
puede asumir son entre los 0 y 15. Y los casos extremos es que, de las 15 personas, todas
tengan 21 aos, o ninguna los tenga. As, la variable aleatoria es la caracterstica de inters
de la poblacin cuyo valor es determinado por el azar entre los valores posibles del espacio
muestral del experimento. Para saber cul es la probabilidad asociada a cada uno de los
valores posibles de la variable aleatoria y compararlos se utiliza la distribucin de la
probabilidad, es decir, un listado que relaciona cada valor de una variable aleatoria con su
frecuencia relativa terica, es decir, se probabilidad de ocurrencia en la poblacin. Las

18

distribuciones de probabilidad se pueden clasificar en funcin de si las variables son


discretas o si son continuas.
Un ejemplo de distribucin de probabilidad con variable discreta: si en el
lanzamiento de una moneda en dos momentos se define como la probabilidad aleatoria el
nmero de caras observadas, cul es la distribucin de probabilidad? El espacio muestral
ser (cara; cara), (cara; sello), (sello; cara), (sello; sello); estas son todas las posibilidades
del experimento. La variable aleatoria ser el nmero de caras observadas al momento de
realizar el experimento, en funcin del espacio muestral, es decir, el espacio muestral
tomar los valores de 0 cara, 1 cara, 2 cara. Ahora, la probabilidad de que aparezca ninguna
cara es de 0,25; de que aparezca una cara ser 0,5; y que el valor sea de 2 caras es de 0,25.
Por lo tanto se puede resumir el clculo en una distribucin de probabilidad.
X
0 Cara
1 Cara
2 Cara
Total

P(X)
0,25
0,5
0,25
1

Dada las caractersticas de la distribucin de probabilidad, existen distribuciones que son


ms complejas. Las distribuciones binomiales, para su clculo, contempla las
probabilidades de xito y de fracaso de un experimento.
En el caso de las variables continuas, es decir, variables en la cual los valores son
nmeros decimales.
Las distribuciones de frecuencia es un listado que relaciona cada valor de una
variable con su frecuencia; as mismo, un listado de frecuencia relativa est en relacin con
el total, mientras que la primera est en nmeros absolutos. La frecuencia relativa es una
proporcin en funcin del nmero de casos. Ahora bien, una distribucin de frecuencia no
es lo mismo que una distribucin de probabilidad, ya que la ltima se basa en datos que se
obtienen de la poblacin: para ello hay que saber todas las posibilidades; se basan en datos
de una poblacin, as, si se desconocen los datos que se van a obtener, no se puede calcular
la probabilidad de lo que va a pasar. No obstante, las distribuciones de frecuencia se basan
en datos de la muestra, y en funcin de ello se calcula la frecuencia, el porcentaje
19

acumulado, etc. En otras palabras, se diferencian en que la distribucin de probabilidad se


basa en datos de la poblacin, mientras que la de frecuencia se basa en datos de la muestra.
Ahora, el que ambas distribuciones se parezcan servir como punto de contacto entre
poblacin y muestra. Una distribucin de probabilidad, sea como sea, puede llegar a tener
algn elemento parecido a lo que se conoce como una distribucin de frecuencia, pero para
ello se necesita un elemento adicional que se ver en la siguiente clase.

10 de Agosto.

Estandarizacin de Variables y Distribucin de Probabilidad


Normal.
El elemento faltante para conectar la distribucin de frecuencia y la de probabilidad es la
Estandarizacin de Variable.
El dilema de la E.V es independiente de dnde se obtengan los datos, es decir, si son
obtenidos por muestra o poblacin, sino que su dilema est en que las escalas sean o no
comparables en su origen. Cmo se pueden comparar dos cosas que estn en escalas
diferentes, elementos que en su origen no son comparables? Para ello se necesita un mtodo
para llevar a un denominador comn ambos puntajes; para lo cual se necesitar informacin
adicional: desviacin estndar y la media. La media, como punto de equilibrio, da una
posicin relativa; ahora, no es lo mismo estar cerca de la media en un escenario en el cual
todos estn ms cerca o ms lejos de la media. El hecho de acercarse a la media vara en
funcin de la posicin de los dems; respecto al resto un tambin puede estar mejor o peor,
y eso capta la estandarizacin.
El problema de la estandarizacin es su interpretacin. Lo que se tiene es la resta
entre puntos y la divisin entre puntos; y la unidad de medida mediante la cual se est
controlando deja de ser el puntaje: ya que se est controlando por la desviacin estndar. Al
controlar por la desviacin estndar la nueva unidad de medida se llama desvo estndar.
As, 0,5 se leer como 0,5 desvos estndar respecto a la media. Y al llevar ambas
puntuaciones a desvos estndar, las puntuaciones ya se pueden comparar. El puntaje
20

estandarizado, la media estandarizada para las puntuaciones es 0, y las puntuaciones se


pueden poner en una misma escala. La estandarizacin permite la comparacin respecto a
la posicin relativa de los valores respecto de su punto de equilibrio (media) controlado
por la dispersin de los datos (desviacin estndar). El puntaje Z, lleva a una escala
comn, elementos que en un principio no se podran comparar.
Cuando cambia la dispersin, cambian los puntajes estandarizados para la misma
puntuacin. (La desviacin estndar ya controla el tamao de la muestra, por el nmero de
casos. Ahora, controlar el tamao del grupo, no significa reducir la dispersin: por ejemplo,
si se tiene puntajes muy alejados entre s, pero una gran cantidad de casos en valores
centrales, habiendo una muestra amplia, la desviacin estndar ser reducida.)
Es posible estandarizar lo que sea, y de manera independiente de donde se obtenga
la informacin, es decir, si viene de una muestra o una poblacin. Ahora, para una variable
de intervalo o de razn que se presupone que se distribuye normalmente en la poblacin, se
puede calcular su valor estandarizado (Z) y utilizarlos para determinar la proporcin (p) de
valores de una poblacin que caen entre cualquier par de valores de la distribucin
(distribucin continua), es decir, es posible saber cunta gente de una poblacin obtuvo
determinado puntaje, dado que es posible estandarizar los puntajes. Para ello, se utiliza una
tabla estadstica, en la que ya estn calculadas las probabilidades para el rea de la curva
normal que est sobre cada uno de los posibles puntajes Z. As, las reas bajo la curva
normal representan las probabilidades de ocurrencia para todos los posibles rangos de
valores de X, dirn cul es la probabilidad de que ocurra tal o cual rango de valores.

22 de Agosto.

Distribuciones Normales I.
El espacio muestral son todas las posibilidades a las cuales se puede acceder en funcin de
un experimento; en la teora de la probabilidad ello equivale a la poblacin. En un espacio
muesral conocido se puede conocer las variables aleatorias, las cuales se pueden resumir o
mostrar a partir de distribuciones de probabilidad, las cuales pueden ser discretas,

21

continuas; binomiales, etc. Hay tantas distribuciones de probabilidad como variables


aleatorias se pueden construir.
Al mezclar la estandarizacin con la distribucin de probabilidad se obtiene una
distribucin muestral; lo cual permite conecta poblacin con muestra.
La distribucin de la muestra es para una muestra en particular; la distribucin
muestral es la distribucin de varias muestras al mismo tiempo. La distribucin muestral
refiere a los datos de varias muestras y del mismo tamao; mientras que la distribucin de
la muestra refiere a los datos de una sola muestra. Una distribucin muestral tiene una
menor dispersin en relacin a la distribucin de la poblacin, en la medida que se sacan
muestras de una misma poblacin: mientras ms se aumentan la cantidad de observaciones,
mayor es la probabilidad de tener una media muestral cercana a la media poblacional, ya
que se est hablando de una misma poblacin, y se estn sacando muestras de una misma
poblacin. As, la distribucin muestral se parecera a la poblacin.
La distribucin muestral demuestra que la media de una distribucin muestral
equivale al valor del parmetro, a la media del parmetro. Entonces, faltara resolver la
brecha entre la media de la muestra y la media de la distribucin muestral. Permite saber
qu tan parecida es la media de la muestra respecto a la media de la distribucin muestral;
siendo este un aproximado de la media de la poblacin, sin conocer esta ultima de manera
estricta. No se necesita saber el valor del parmetro, de la poblacin si es posible estimar
como se comporta el valor muestral.

Distribuciones Muestrales II.


Da lo mismo la forma de la distribucin de la poblacin; si se distribuye de forma normal o
no, en la medida que la distribucin muestral de esa poblacin va a ser normal, mientras
mayor sea el tamao de la muestra. Mientras ms grande es la muestra de la distribucin
normal, la distribucin muestral se va a ir normalizando (no la distribucin poblacional, ella
puede adoptar cualquier forma). Del mismo modo, si la distribucin poblacional ya es
normal, la distribucin muestral ya ser normal.

22

Como toda distribucin, se pueden calcular estadsticos: una media, y una medida
de dispersin; que tanto se separan las distintas medias de la media. La media se consigue
sumando todas las medias, dividiendo por la cantidad de muestras. La dispersin ser qu
tan heterogneas estn las distintas medias respecto a la media; es similar a la desviacin
estndar, pero se conoce como error estndar. El error estndar se calcula en funcin de la
desviacin estndar poblacional, dividido por la raz de n, la raz del tamao de la muestra.
Ello permite saber qu tan lejos estn las distintas medias de la media.

24 de Agosto.

Error de Muestreo y Sesgo Sistemtico.


La distribucin muestral, dada su forma normal, es posible emplear en ella los recursos de
la teora de la probabilidad para sacar conclusiones sobre dicha distribucin. Las
distribuciones muestrales se pueden resumir en indicadores como la media, pero tambin se
puede calcular una medida de dispersin: una medida que diga que tanto estn alejadas las
distintas medias de la gran media; es lo que se conoce como error estndar, y se asemeja a
la desviacin estndar. El error estndar se puede plantear de dos maneras, dependiendo de
que se trate de una variable cuantitativa o de una variable cualitativa.
El error de muestreo son diferencias que hay en los datos de una muestra y los datos
de la poblacin, dado que ya se homologo la distribucin muestral al comportamiento de la
poblacin. Es decir, conecta el mundo de la poblacin con el mundo de la muestra. Dado un
error estandar se puede decir que:
-

Muestras pequeas tienen mayor probabilidad de ser diferentes a la poblacin, por


lo que tienen un mayor error de muestreo. Esto viene adosado al hecho de trabajar

con muestras.
A mayor error de muestreo o menor tamao de la muestra, menor es la precisin
La variabilidad entre los elementos de muestreo tambin afecta el error muestral:
mientras mayor es la varianza de una poblacin, menor es la precisin de los datos
para una muestra de un determinado tamao.

23

El sesgo sistemtico tiene que ver con la manera como se realiza el diseo muestral, como
se levanta la informacin. Son factores no relacionados con el muestreo que afectan los
resultados de un sesgo sistemtico o no aleatorio. Un primer sesgo es el de visibilidad o de
cobertura (se cubre la totalidad de la poblacin objetiva o no?); el sesgo de accesibilidad
tiene que ver que, si bien se tienen marcos muestrales que abarcan a toda la poblacin de
inters, hay elementos a los cuales no se puede llegar. Otro sesgo es el de afinidad: en
ocasiones hay elementos del marco muestral con los cuales se tiene menos afinidad que con
otros que no estn en el marco muestral; se puede tener ciertas preferencias respecto a
unidades que no necesariamente estn en la muestra. El sesgo de autoseleccin es cuando
las personas se seleccionan a s mismas para ser parte de una muestra: las personas que
llegan al instrumento tienen una caracterstica diferente respecto al resto de la poblacin.
Finalmente hay un sesgo de no respuesta: tiene que ver con que las personas que no
contestan una pregunta o parte del instrumento tienen caractersticas particulares que no es
posible observar a travs del instrumento.
El error estndar, dada su frmula, va a generar lo que se conoce como la ley de los
grandes nmeros. Si se dice que, a mayor tamao de la muestra, menor ser el error
estndar, es la ley de los grandes nmeros: va a haber un menor rango de error en la
distribucin muestral. Como toda distribucin, los puntajes de la distribucin muestral
pueden ser estandarizadas. Las variables que son cuantitativas, para poder ser
estandarizadas, son tratadas de igual manera a cunado se trata de estandarizar cualquier
variable, es decir, se divide la distancia a la media de la distribucin, y se divide por el error
estndar. La estandarizacin es la misma, pero los datos son diferentes. Dado que la
distribucin muestral es estandarizable, se puede emplear la tabla z para ubicar
probabilidades al interior de la distribucin. Sin embargo, el problema de estandarizar la
distribucin muestral es que no se conoce la dispersin poblacional, pero s la variable de la
muestra, entonces el error estndar que se puede calcular es el muestral, y no el
poblacional.
El efecto que tiene usar la desviacin estndar muestral es que tiene consecuencias
respecto a la forma de la distribucin. Los grados de libertad: para cada grado de libertad se
va a generar una curva nueva, a diferencia de la curva normal. Mientras menor sean los
24

grados de libertad, mayor ser la variabilidad, y por lo tanto la curva ser ms achatada
dado que tiene ms dispersin. Al aumentar los grados de libertad, la distribucin se va
normalizando. Este tipo de distribucin, que tiene una curva segn los distintos grados de
libertad, se llama T de Student. Del mismo modo, t es estandarizable de la misma manera
en la cual es estandarizable z.

25

Vous aimerez peut-être aussi