Introducción Al Análisis de Datos

Introducción al Análisis de Datos
01. Conceptos básicos y organización de datos
Contenidos
1. 1 Introducción
2. 2 La investigación en psicología
3. 3 Concepto y funciones de la estadística descriptiva e inferencial
4. 4 La medición y escalas de medida
5. 5 Variables: clasificación y notación
6. 6 Distribución de frecuencias
7. 7 Representaciones gráficas
8. 8 Representación gráfica de una variable
1. 8.1 Diagrama de Barras
2. 8.2 Diagrama de Sectores
3. 8.3 Pictograma
4. 8.4 Histograma
5. 8.5 Polígono de Frecuencias
9. 9 Representación gráfica de dos variables
1. 9.1 Diagrama de barras conjunto
2. 9.2 Diagrama de dispersión o Nube de Puntos
10. 10 Propiedades de la distribución de frecuencias
1. 10.1 Tendencia central
2. 10.2 Variabilidad
3. 10.3 Asimetría o sesgo
Introducción
Debemos diferenciar dos tipos de estadística:
• Estadística teórica que se ocupa de aspectos formales y educativos.

• Estadística aplicada que constituye la aplicación a un campo concreto. Ha tenido
distintos nombres, entre ellos “Análisis de Datos”.
La investigación en psicología
Utiliza el método científico, que se caracteriza por ser sistemático (sigue un sistema) y
replicable.
Sus fases son:
1. Definición del problema.

2. Deducción de hipótesis contrastables.
3. Establecimiento de un procedimiento de recogida de datos.
4. Análisis de los resultados obtenidos (de este punto se ocupa la asignatura).
5. Discusión de dichos resultados y búsqueda de conclusiones.
6. Elaboración de un informe de investigación.
Concepto y funciones de la estadística descriptiva e
inferencial
La estadística se ocupa de la sistematización, recogida, ordenación y representación de los
datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio
metódico, con objeto de hacer previsiones sobre los mismos, tomar decisiones u obtener
conclusiones. Teniendo en cuenta las funciones podemos considerar dos grandes áreas:
• Estadística descriptiva: se organizan y resumen conjuntos de observaciones

procedentes de una muestra o de la población total, en forma cuantitativa. Los
procedimientos para una variable: índices de tendencia general, estadísticos de
variabilidad y estadísticos de asimetría; y para dos variables: coeficientes de
correlación y ecuaciones de regresión.
• Estadística inferencial: se realizan inferencias acerca de una población basándose en
los datos obtenidos a partir de una muestra. Los procedimientos: el cálculo de
probabilidades.
Conceptos importantes: población es el conjunto de todos los elementos que cumplen una
determinada característica objeto de estudio. Muestra es un subconjunto de una población.
Parámetro es una propiedad descriptiva (medida) de una población. Estadístico es una

propiedad descriptiva (medida) de una muestra.
Las conclusiones obtenidas de una muestra sólo servirán para el total de una población si la
muestra es representativa. Para asegurarnos que la muestra es representativa se utilizan
métodos de muestreo probabilístico.
También existes las muestras no probabilísticas como por ejemplo la muestra de conveniencia
o incidental.
La medición y escalas de medida

• Medición: Es el proceso por el cual se asignan números a objetos o características
según determinadas reglas
• Característica: Cualquier propiedad de objetos o personas que deseamos estudiar.
• Modalidad: Distintas formas de presentarse esta característica. (Se le asina un número
a cada una de las modalidades de una característica).
• Escala Nominal: asignación de números o símbolos. Por lo tanto la única relación que
obtenemos es la de igualdad o desigualdad. (Ej: católicos: (1) praticantes, (2) no
praticantes).
• Escala Ordinal: aparte de decirnos la igualdad o la diferenciación, también nos indica
el orden de las posiciones de lo que está clasificado. Nos permite establecer relaciones
del tipo “mayor que” o “menor que”. (Ej: Estatus socioconómico, bajo (1), medio (2),
alto (3). Los números no solo indican diferencia de modalidades sino también orden
entre ellas).
• Escala de Intervalo: Además de las características de la escala nominal (igualdad o
desigualdad) y de la escala ordinal (orden), la escala de intervalo se identifica porque
cada número es una unidad de medición, podemos sumarlos o restarlos obteniendo
resultados coherentes, a diferencia de la escala nominal. Es importante señalar que en
la escala de intervalo el origen es arbitrario. (Ej: En el conocido test de inteligencia, la
escala comienza en 0, pero este 0 es arbitrario ya que si alguien lo obtiene no significa
que no tenga absolutamente nada de inteligencia. Esta arbitrariedad indica que aunque
una persona obtenga un coeficiente de 80 y otra 160, no significa que la segunda
persona sea el doble de inteligente que la primera).
• Escala de Razón: Además de todas las características de las 3 escalas diferentes,
supera a las demás en que se puede establecer un punto de origen verdadero de valor
0, a diferencia del 0 arbitrario de la escala de intervalo. Es lo que se conoce como
valor absoluto. (Ej: el peso o la altura).
Variables: clasificación y notación

Variable: Representación numérica de una característica que presenta más de una modalidad
(valor) de un conjunto determinado. Si una característica tiene una única modalidad se llama
constante.
Tipos de variables:
• Cualitativa (nominal): clasificadas en; Dicotómica: 2 categorías (por ej: sexo) y

Politómica: más de dos categorías (por ej: nacionalidad).
• Casicuantitativa (ordinal).
• Cuantitativa (de intervalos, de razón): clasificadas en; Discreta: valores fijos (por ej:
número de hijos, no pueden haber 1,5) y Continua: puede haber medidas intermedias
entre los valores (por ej: el peso, 85,5kg).
Aparte de esta clasificación existen más clasificaciones:
• Variable independiente: Cualquier suceso que sospechamos es la causa de otro

• Variable dependiente: Medida utilizada para estudiar la variable independiente
• Variable extraña: Aquellas que pueden influir sobre la variable dependiente pero no
nos interesa estudiar sus efectos.
Para referirnos a un valor cualquiera de la variable X se utiliza el subindice i (Xi ), siendo n el

número de elementos que componen la muestra: Xi siendo i = 1, 2, 3 ... n
Distribución de frecuencias
Una distribución de frecuencias es una representación de la relación entre un conjunto de
medidas exhaustivas y mutuamente influyentes y la frecuencia de cada una de ellas.
Funciones:
• Ofrecer la información necesaria para realizar representaciones gráficas

• Facilitar los datos para obtener los estadísticos muestrales
Conceptos:
• Frecuencia absoluta (ni): Número de veces que se repite cada uno de los valores de
una variable. La suma de todas las frecuencias absolutas representa el total de la
muestra (n)
• Proporción o frecuencia relativa (pi): Cociente entre la frecuencia absoluta de cada
valor de la variable (ni) y el número total de observaciones (n). pi = ni /n
• Porcentaje (Pi): Valor de la frecuencia relativa (pi) multiplicado por cien: Pi = pi x
100
• Frecuencia absoluta acumulada (na): Número de veces que se repita cada modalidad o
cualquiera de las modalidades inferiores.
• Proporción acumulada o frecuencia relativa acumulada (pa): Cociente entre la
frecuencia absoluta acumulada de cada clase y el total de observaciones. pa = na / n
Porcentaje acumulado (Pa): Valor de la frecuencia relativa acumulada multiplicado por cien.
Pa= pax 100
Distribución de frecuencias:
• Si la variable cuantitativa es reducida (número de hijos) no hay problema, la

utilizamos tal cual. Pero si ocurre que puede ser muy amplia (edad) debemos recurrir a
la agrupación en intervalos.
• La Amplitud de los Intervalos representa al número de unidades que tenemos dentro
de cada intervalo. (No es lo mismo tener una amplitud de intervalos de 10 en 10 (11-
20) (21- 30) (31-40) que de 5 en 5 (15-19) (20-24) (25-29)).
• Obviamente al establecer intervalos siempre se pierde información. Por lo tanto hay
que buscar equilibrio entre la precisión que buscamos y lo cómodo que sea trabajar
con esos datos (si no estableciésemos intervalos podríamos encontrarnos con tablas de
100 filas).
• Aunque tengamos un intervalo de edad (25-35) (36-45) no significa que no pueda
haber personas con 35,5 años. Por lo tanto los intervalos (25-35) y (36-45) reciben el
nombre de limites informados o aparentes. (aparentan ser lo que no son) ya que en
realidad los límites verdaderos son (25,5-35,5) y (35,5-45,5). El límite superior exacto
del primer intervalo (35,5) coincide con el límite inferior exacto del siguiente (35,5)
Distribución de frecuencias con los datos agrupados en intervalos de la variable edad:
• Cálculo de límites exactos: Límite exacto = Valor informado (el que nos han dado) +-
0,5 x I
• I = Instrumento de medida. (en el caso de las edades I = 1)
• Punto Medio se haya sumando los dos valores del intervalo y dividiendo el resultado
entre 2. (Ej: Tomemos el intervalo (26-35) = 26 + 35 = 61/2 = 35,5)
• Intervalo abierto: Son los intervalos finales que se utilizan para no tener frecuencia
nula. (Ej de edad: 76 años o más)
Representaciones gráficas
El Sistema de Coordenadas más habitual esta formado por:
• Eje vertical (ordenada o eje Y), Eje horizontal (abscisa o eje X), Origen (punto donde
se juntan ambos ejes).
Representación gráfica de una variable
Diagrama de Barras
• Se utiliza para variables nominales, ordinales y cuantitativas discretas.

• En el eje X se colocan los valores y en el Y las frecuencias. Sobre cada valor de la
variable se dibuja un rectángulo o barra perpendicular cuya altura debe ser igual a la
frecuencia.
• Diagrama de barras acumulativo: Variedad del diagrama de barras que se utiliza en
variables ordinales y cuantitativas discretas. En el eje X se sitúan los valores de la
variable y en el eje Y las frecuencias acumuladas.
Diagrama de Sectores
• Se utiliza para variables cualitativas y cuasicuantitativas

• Representación en forma de círculo. El círculo se divide en secciones cuya superficie
es proporcional a la frecuencia de la modalidad correspondiente. Para determinar el
ángulo de los sectores de cada modalidad se multiplica la frecuencia relativa por 360,
que es el número de grados de una circunferencia.
• X ni pi Pi Grados Hombre 24 0,6 60 216 Mujer 16 0,4 40 144 n=40 1 100 360
Pictograma
• Se utiliza para variables cualitativas.

• Son dibujos alusivos al objeto de estudio. Son escalas que deben ser proporcionales al
valor que representan.
Histograma
• Se utiliza para variables cuantitativas continuas con datos agrupados en intervalos

• En el eje X se colocan los límites exactos de los intervalos y en el eje Y la frecuencia.
(Parecido al diagrama de barras pero no hay espacio entre los rectángulos)
Polígono de Frecuencias
• Se utiliza para variables discretas.

• La forma que obtenemos es una línea poligonal cuya figura se obtiene a partir de una
diagrama de barras o de un histograma.
• También se puede utilizar en frecuencias acumuladas.
Representación gráfica de dos variables

Diagrama de barras conjunto
• Se utiliza cuando al menos una de las dos variables es cualitativa

• Los datos se organizan en una tabla de doble entrada. Se sitúan los valores de una
variable en las filas y los valores de la otra variable en las columnas.
• Una vez construida la tabla, se procede a dibujar los gráficos por columnas.
Diagrama de dispersión o Nube de Puntos
• Se utiliza en el caso de dos variables cuantitativas

• Una variable se sitúa en el eje X y la otra en el eje Y. Para cada par de datos se
localiza la intersección entre ambas variables y se marca con un punto.
• Es una manera rápida de hallar relaciones lineales entre las dos variables.
Propiedades de la distribución de frecuencias

Tendencia central
Se refiere al lugar donde se centra una distribución particular en la escala de valores.
Variabilidad
Se refiere al grado de concentración de las observaciones en torno al promedio.
Una distribución de frecuencias será:
• Homogénea (tiene poca variabilidad). Si los valores de distribución están cercanos al

promedio. (Cuando hay pocos rectángulos alrededor del central)
• Heterogénea (tiene mucha variabilidad). Si los valores se dispersan mucho en torno al
promedio. (cuando hay muchos rectángulos alrededor del central)
Asimetría o sesgo
Se refiere al grado en que los datos se reparten equilibradamente por encima y por debajo de
la tendencia central.
Diremos que una distribución será simétrica cuando al dividirla en dos a la altura de la media,
las dos mitades se superponen. Si esto no ocurre decimos que se produce asimetría. Hay dos
tipos de asimetría:
• Asimetría positiva: Cuando la mayor concentración de puntuaciones se produce en la

parte baja de la escala.
• Asimetría negativa: Cuando la mayor parte de puntuaciones se sitúa en la parte alta de
la escala.
02. Medidas de tendencia central y posición
Contenidos
1. 1 Medidas de tendencia central

2. 2 Medidas de posición
1. 2.1 Percentiles
2. 2.2 Cuartiles y deciles
Medidas de tendencia central

De la tendencia central de la distribución, nos interesa calcular un valor central que actúe
como resumen numérico para representar al conjunto de datos. Estos valores son las medidas
o índices de tendencia central. Los índices de tendencia central permiten representar la
distribución con un único valor y facilitan la comparación de otros conjuntos de puntuaciones
de una variable.
Las medidas más utilizadas en el análisis de datos son:

La media aritmética
También se llama promedio o media es la medida de tendencia central más conocida y usada
en la práctica, por su sencillez de cálculo y es el fundamento de un gran número de técnicas
estadísticas. Indica la tendencia general de una distribución de frecuencias de una variable y
es el valor central de las observaciones “centro de gravedad”. Sin embargo se limita para
calcular variables cuantitativas. La media aritmética de una variable X, denotada por X, se
define:
X = ∑Xi / n
donde:
Xi es el valor que toma la variable u observación del sujeto i.
n es el número total de observaciones.
Cuando el número de observaciones es elevado, los datos se presentan en tablas de

distribución de frecuencias agrupados o no en intervalos; en este caso se puede calcular a
partir de:
1. Media aritmética a partir de una distribución de frecuencias absolutas:
X= ∑ni Xi / n
donde:
n es el número total de observaciones.
Xi es el valor i en la variable X i o el punto medio del intervalo.
ni es la frecuencia absoluta del valor o intervalo i.
2. Media aritmética a partir de una distribución de frecuencias relativas:
X = ∑pi Xi
donde:
pi es la frecuencia relativa o proporción de observaciones del valor o del intervalo i.
La media aritmética aprovecha toda la información disponible en los datos, pues requiere de
todas las puntuaciones de los sujetos. Así, la media aritmética presenta las siguientes
propiedades:
• En una distribución, la suma de las desviaciones de cada valor con respecto a su media
es igual a cero.
o i=1∑n(Xi – X) = 0
• Si a los valores de la variable X les aplicamos la siguiente transformación lineal Y =
bX + a, la media de los nuevos valores Y será Y = bX + a.
A la hora de utilizar la media aritmética conviene tener en cuenta las siguientes limitaciones:
• Cuando los datos están agrupados en intervalos, la media no se puede calcular si el

intervalo máximo no tiene límite superior y/o el mínimo no lo tiene inferior.
• En distribuciones asimétricas no es recomendable su uso debido a que afecta a su
representatividad como valor central de la distribución. Estos valores extremos pueden
ser producto de errores en la recogida o grabación de datos, o valores que aportan
información relevante de la variable. En el primer caso se eliminan estas
observaciones, volviendo la distribución más simétrica. Y en el caso dos, se
recomienda aplicar otros índices de tendencia central menos sensibles a los valores
extremos como la mediana.
La mediana
Es el índice empleado cuando la distribución es asimétrica y no es posible aplicar la media

aritmética. La mediana no se ve afectada por los valores extremos que en su cálculo ocupan
las posiciones centrales. Por lo tanto, la mediana es un valor apropiado para representar la
tendencia central de la distribución y se puede obtener todo tipo de variables excepto en
variables cualitativas. La mediana de una variable X, representada por Md, se define como el
valor de la variable que divide la distribución de frecuencias en dos partes iguales,
conteniendo cada una el 50% de las observaciones.
Para el cálculo de la mediana con pocos casos se procede de la siguiente manera:
1. Se ordenan las n puntuaciones de menor a mayor.

2. Se observa si el número de observaciones n es impar o par. Si es impar, el valor de la
mediana es el de la observación que ocupa la posición central, dentro de ese conjunto
de observaciones ya ordenadas. Si es par, la mediana es la media aritmética de los dos
valores centrales de la distribución.
Lo normal es que el número n de observaciones no sea pequeño; incluso aparecerán repetidos

y, por ello, los datos se presentarán en tablas de distribución de frecuencias agrupados o no en
intervalos.
Cuando los datos están en intervalos se denomina intervalo crítico y se corresponde con el que
la frecuencia absoluta acumulada na es igual o superior a n/2.
Cuando los datos no están agrupados en intervalos, el cálculo es un caso particular de la

fórmula anterior en la que la amplitud de los intervalos es igual a uno (I = 1).
La mediana se puede calcular en cualquier distribución excepto cuando los datos están
agrupados y existe uno abierto en el que se encuentra la mediana.
La moda
La moda es otro índice de tendencia central que se puede obtener tanto en variables
cualitativas como en cuantitativas. Se representa por Mo, y se define como el valor o
categoría de la variable con mayor frecuencia absoluta.
Si se da en una variable cuantitativa con los datos no agrupados en intervalos, la moda es el

valor con la mayor frecuencia absoluta.
Si se da en una distribución de una variable cuantitativa en intervalos, se localiza el intervalo
modal que es el intervalo con la frecuencia máxima y la moda es el medio de dicho intervalo.
Una frecuencia es unimodal cuando existe un único valor con la frecuencia máxima. Si
presenta varios valores con la frecuencia más alta, ésta será bimodal, trimodal, ...
Sus principales características son:
• es un índice de cálculo sencillo y de fácil interpretación.

• Es el único que, además de aplicarse a variables cuantitativas, se puede calcular en
variables cualitativas.
• Sólo se excluye su cálculo en el supuesto de que coincida con el intervalo abierto.
La elección de una medida de tendencia central
Para seleccionar un valor que resuma adecuadamente la tendencia central de la distribución de

frecuencias,se recomienda como primera opción la media aritmética, por que en ella basan su
importancia muchos estadísticos. Únicamente se desaconseja su uso con pocos valores
extremos, cuando el nivel de medida de la variable es nominal u ordinal y/o en datos
agrupados en los que existen intervalos abiertos en los extremos de la distribución.
Cuando la media no es aplicable, se recomienda la mediana. Y por último, si ésta no es

posible, se aconseja tomar la moda. Resaltar que si una variable cuantitativa es simétrica y
unimodal, coinciden todos los valores de la media, mediana y moda.
Medidas de posición
Las medidas o índices de posición, también llamados cuantiles, informan acerca de la
posición relativa de un sujeto con respecto a su grupo de referencia, dentro de la distribución
de frecuencias de la variable. Para ello debemos dividir la distribución en un número de partes
o secciones iguales entre sí en cuanto al número de observaciones. Trataremos tres medidas
de posición o cuantiles:
Percentiles
Los también llamados centiles, son los 99 valores de la variable que dividen en 100 la
distribución de frecuencias. Representado por Pk , es un valor de la variable de interés que
deja por debajo de sí un porcentaje k de sujetos, donde k = 1,2....99- El cálculo de los
percentiles se realiza utilizando una extensión del método expuesto para la mediana. La
diferencia está en que para la mediana se traba de localizar la posición de n/2; mientras los
percentiles se hace en base al número n.k/100 . Este número es igual a n/2 cundo calculamos
el percentil 50. entonces si k = 50; n.50/100 = n/2.
Al igual que con la mediana, cuando en la distribución de frecuencias los datos no están en
intervalos, se aplica I = 1.
Sin embargo lo que queremos calcular es qué percentil ocupa un valor X debemos de despejar
k i para Xi.
A veces el resultado puede darnos un valor con decimales; en este caso, tomamos la cantidad
entera más próxima.
Cuartiles y deciles
Son medidas de posición en las que las secciones son muchas menos que en los percentiles.
Los cuartiles son tres valores de la distribución que se dividen en cuatro partes. El primer
cuartil se representa por Q1 , deja por debajo de sí el 25%, correspondiendo con el percentil
25. El segundo cuartil Q2 , deja por debajo el 50%, equivalente al percentil 50 y a la mediana
de la distribución. El tercero Q3 , deja por debajo de sí el 75%, equivalente al percentil 75.
Para calcular los cuartiles emplearemos las mismas fórmulas que para los percentiles en su
equivalencia.
Los deciles son nueve valores que dividen en diez partes iguales a la distribución. Se
representa por D i , donde i = 1,2,...9.
El primer decil, deja por debajo de sí al 10% de los sujetos, el segundo el 20% y así hasta el
90%; pudiendo emplear nuevamente los percentiles correspondientes para su cálculo.
03. Medidas de variabilidad y asimetría
Contenidos
1. 1 Medidas de variabilidad
1. 1.1 Amplitud total o rango
2. 1.2 Varianza y desviación típica
2. 2 Índice de asimetría de Pearson
Medidas de variabilidad
La variabilidad o dispersión hace referencia al grado de variación que hay en un conjunto de
puntuaciones. Por ejemplo: “entre dos distribuciones que presentan la misma media
aritmética, difieren en la variabilidad de sus puntuaciones”. Así, cuanto menor es la
variabilidad, más homogénea es la muestra de sujetos en la variable. En el caso de máxima
homogeneidad, todos los valores de la variable serán iguales. De otro modo, cuanto más o
menos dispersión en los datos, la muestra es más o menos heterogénea y las puntuaciones
difieren entre sí.
Para cuantificar la dispersión de los datos, se pueden distinguir dos tipos de índices: los que
miden el grado de semejanza y diferencia de las puntuaciones entre sí (amplitud total o rango
y la amplitud semi-intercuartil), y los que la dispersión se mide a alguna medida de tendencia
central como la media aritmética (varianza y la desviación típica).
Amplitud total o rango
La amplitud total o rango ( AT ), de un conjunto de puntuaciones es la distancia que hay en la

escala numérica entre los valores que representan la puntuación máxima y la puntuación
mínima.
AT = Xmáx - Xmín Uno de los inconvenientes de la amplitud total es su limitación al utilizar
únicamente los valores extremos de la distribución; de esta forma, no recoge la poca o mucha
dispersión que pueda existir entre los restantes valores, que son la mayoría de las
puntuaciones. Aún así se recomienda incluir éste valor como complementario de otras
medidas de dispersión.
Varianza y desviación típica
La variabilidad se puede basar en la distancia observada entre las puntuaciones y un valor

central de la distribución como la media aritmética. De modo que, una distribución con poca
variabilidad es en la que la mayoría de las puntuaciones están próximas a la media, mientras
que con mucha variabilidad, las puntuaciones se alejan del valor medio de la variable.
Un primer índice podría ser el promedio de las desviaciones o diferencias de cada puntuación
con su media.
∑di ∑(Xi - X) Xd = n = n
El problema de este índice es que el sumatorio del numerador ∑(Xi - X) , siempre es igual a
cero; para ello se han propuesto dos soluciones. La primera consiste en calcular el valor
absoluto de cada desviación antes de realizar la suma “desviación suma”:
Índice de asimetría de Pearson

La asimetría de una distribución nos indica el grado en el que las puntuaciones de los sujetos
se reparten por debajo y por encima de la medida de tendencia central. De entre numerosos
indicadores se ha elegido el índice de asimetría de Pearson que se basa en la relación entre la
media y la moda.
04. Análisis conjunto de dos variables
Contenidos
1. 1 Asociación entre dos variables cualitativas

2. 2 Correlación entre dos variables cuantitativas
3. 3 Regresión lineal
Asociación y /o relación entre dos variables: dos variables están relacionadas entre sí, cuando
ciertos valores de una de las variables, se asocian con ciertos valores de la otra.
Asociación entre dos variables cualitativas

Los valores positivos indican una relación entre ambas variables. Los negativos indican una
relación negativa entre ambas variables.
Chi cuadrado: uno de los inconvenientes es su difícil interpretación puesto que desconocemos
su límite superior. Sólo sabemos que tiene valor cero, cuando no hay relación entre las dos
variables.
Para resolver este problema, de acuerdo al valor obtenido de X2, se ha definido el índice o
Coeficiente de Contingencia, C. Esté índice toma los valores 0<C<1 Características del
coeficiente de contingencia, C :
• puede asumir valores mayores o iguales a cero y menores que 1.

• El valor 0 lo alcanza cuando X2 = 0 -> indica que las dos variables no tienen relación
y, además, las frecuencias empíricas coinciden con las teóricas
• El valor 1 sólo lo consigue si n = 0, lo que implica que no hay observaciones
• Cuanto mayor es el valor de C, mayor es la relación
• Otro aspecto más complejo de fundamentar es la causalidad en un C. Cuando existe un
valor elevado en nuestro coeficiente de contingencia, no se puede afirmar que una de
las variables es causa de la otra.
• Se puede estimar, en casos en que la tabla de contingencia tenga igual número de filas
que de columnas, un valor máximo que puede alcanzar C.
Correlación entre dos variables cuantitativas

Covarianza: hace referencia a la variación conjunta de dos variables y nos permite estudiar la
posible relación entre X e Y. El signo positivo o negativo indica si la relación lineal entre
ambas es directa o inversa:
• Relación lineal directa: a mayores valores de una variable, mayores de la otra

• Relación lineal inversa: a mayores valores de una variable, menores de la otra
Inconvenientes: desconocemos el rango de la covarianza. Para evitar este problema
disponemos del Coeficiente de Correlación de Pearson, rxy.
Propiedades de la correlación de Pearson:
• Toma valores comprendidos entre –1 y 1.

• Vale 0 cuando no existe relación lineal entre ambas variables
• rxy = ± 1 si una variable es la transformación lineal de la otra.
Para interpretar los resultados hay que tener en cuenta en primer lugar el valor absoluto,
cuanto mayor es nos indica que la relación lineal es más fuerte. En segundo lugar, el signo: si
es positivo es relación directa, si es negativo, inversa.
El coeficiente de correlación lineal sólo detecta relaciones lineales entre dos variables.
Por tanto, un coeficiente de correlación lineal cercano a cero, indica que no existe relación
lineal entre las variables, pero no excluye la posibilidad de que las variables tengan otras
relaciones entre sí de carácter no lineal.
Cuando tenemos un valor intermedio como por ejemplo 0, 55 es difícil afirmar si la

correlación es alta o baja. Un número grande de sujetos en la muesta pueden tender a bajar el
valor de los coeficientes que se obtienen. El coeficiente de correlación evaluado por nosotros
será bajo, si los coeficientes de correlación que obtienen otros investigadores en
circunstancias similares, son mucho más altos.
Cuando existe un Coeficiente de correlación elevado entre dos variables, no se puede afirmar
que una de las variables es causa de la otra. Hay que ser muy cuidadoso en este aspecto.
Regresión lineal
Cuando existe una relación lineal podemos usar la denominada recta de regresión.
Yi’ = a + bXi
Donde b es la pendiente y a es la ordenada de origen
05. Nociones básicas de probabilidad
Contenidos
1. 1 Nociones básicas de probabilidad

1. 1.1 Experimento aleatorio
2. 2 Probabilidad condicionada
3. 3 La regla del producto y el teorema de Bayes
1. 3.1 Regla o teorema del producto
Nociones básicas de probabilidad

Experimento aleatorio
Definición:
• Experimento: proceso mediante el cual podemos obtener un resultado

• Aleatorio: interviene el azar.
Características:
• Todos los resultados posibles son conocidos con anterioridad

• No se puede predecir con certeza el resultado
• El experimento puede repetirse todas las veces que se quiera
Un experimento aleatorio es un proceso que se puede repetir indefinidamente en las mismas

condiciones, cuyo resultado no se puede predecir
Conceptos relacionados:
• Espacio muestral: resultados posibles de un experimento aleatorio

• Suceso: resultado de un experimento aleatorio, o subconjunto del espacio muestral
Tipos:
• Simple o elemental: consta de un solo resultado

• Compuesto: consta de dos o más resultados
• Seguro: todo el espacio muestral, porque siempre ocurre
• Imposible: suceso que no puede ocurrir nunca
Cálculos:
• Unión: A U B
• Intersección A ∩ B
• Complementario: |A
Definición de probabilidad
Clásica: la probabilidad de un suceso es igual al cociente entre el número de casos favorables

de que ocurra ese suceso y el número de casos posibles en el supuesto de que todos los casos
tengan la misma probabilidad de ocurrir.
Número de casos favorables
• Probabilidad de suceso = Número de casos posibles
Ej: P (A) = 1/6
Problema: requiere que los sucesos sean equiprobables (no siempre ocurre) y, en muchos
casos, puede resultar difícil la clasificación de los sucesos como favorables y posibles.
Estadística: límite al que tienen la frecuencia relativa de aparición de un suceso A cuando el

número de ensayos, n, tiende al infinito
Problema: muchas veces no es posible repetir un experimento un gran número de veces y, si

lo es, no es práctico
Axiomática: dado un espacio muestral E, llamamos probabilidad de un suceso A, definido en

el espacio muestral E y que designamos por P (A), a un número real que asignamos al suceso
A, tal que cumple las siguientes propiedades:
• 0 < P(A) < 1

• P(E) = 1
• P(A) =1 – (A)
Teorema de la suma: la probabilidad de que ocurra el suceso A o el suceso B es igual a la

probabilidad de que ocurra A más la probabilidad de que ocurran ambos:
P (A U B) = P (A) + P(B) – P (A ∩ B)
Cuando los sucesos A y B son incompatibles:
P (A U B) = P (A) + P(B)
Probabilidad condicionada
Hay situaciones donde la aparición de un suceso A depende de la aparición d otro suceso B.
Diremos, en estos casos, que los sucesos A y B son dependientes.
Para dos sucesos, A y B, la probabilidad de A condicionado a B es igual a la probabilidad de

la intersección dividido por la probabilidad de la condición de B
P (A ∩ B)
• P (A B) = P(B)
P (B ∩ A)
• P (B A) = P(A)
Si los sucesos son independientes:
• P (A B) = P(A)
• P (B A) = P(B)
La regla del producto y el teorema de Bayes

Regla o teorema del producto
Si de la probabilidad condicionada
P (A ∩ B)
• P (A B) = P(B)
despejamos P (A ∩ B), nos queda:
P (A ∩ B) = P(A) · P (A B)
Cuando los sucesos A y B son independientes:
P (A ∩ B) = P(A) · P (B)
Teorema de Bayes:
P(A) · P (B A)
• P (A B) = P(B)
06. Distribuciones discretas de probabilidad
Contenidos
1. 1 Variable aleatoria: definición y tipos

2. 2 Variables aleatorias discretas
1. 2.1 Función de probabilidad
2. 2.2 Función de distribución
3. 3 Media y varianza de una variable aleatoria
4. 4 Distribuciones discretas de probabilidad
1. 4.1 La distribución binomial
Variable aleatoria: definición y tipos

Una variable aleatoria es una función que asigna un número real, y sólo uno, a cada uno de los
resultados de un experimento aleatorio. Las variables aleatorias se representan por letras
mayúsculas de nuestro alfabeto latino y utilizaremos las minúsculas con subíndices, para los
valores concretos de las variables.
Las variables aleatorias pueden ser discretas o continuas. Discreta cuando la variable sólo
puede tomar un conjunto infinito y numerable de valores (los números naturales) o finito de
valores (número de sucesos). Y continua cuando puede tomar infinitos valores o un conjunto
de valores no numerable.
Variables aleatorias discretas

Función de probabilidad
Se llama función de probabilidad de una variable aleatoria discreta, X, y se representa por

f(x), a aquella función que asocia a cada valor de la variable la probabilidad de que ésta
adopte ese valor. Es decir:
f(x) = P (X=x)
La función de probabilidad de una variable aleatoria discreta puede representarse mediante un

diagrama de barras.
Las dos propiedades que debe cumplir la función de probabilidad son:
1. Para cualquier valor de x, siempre toma valores positivos o nulos:

o x ε X f(x) > 0
2. La suma de todas las probabilidades correspondientes a cada valor de x es igual a uno:
o ∑ f(x) = f(x1)+f(x2)+...+f(xn) = 1
Función de distribución
La función de distribución de una variable aleatoria X, se representa igual que la de

probabilidad pero en mayúscula: F(x); y es aquella función que asocia a cada valor de la
variable la probabilidad de que ésta adopte ese valor o cualquier otro inferior.
F(x) = P (X < x)
De la misma forma:
F(x) = P (X < x) = f(x1)+f(x2)+...+f(x)
Retomando el ejemplo anterior calculamos F(0), F(1), F(2) y F(3):
F(0) = P(X < 0) = P(X = 0) = 0,125
F(1) = P (X < 1) = P (X = 0) + P (X = 1) = f(0) + f(1) = 0,125 + 0,375 = 0,5
F(2) = P (X < 2) = P (X = 0) + P (X = 1) + P (X = 2) = f(0) + f(1) + f(2) = 0,125 + 0,375 +

0,375 = 0,875
F(3) = P (X < 3) = P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) = f(0) + f(1) + f(2) + f(3)=
0,125 + 0,375 + 0,375 +0,125 = 1
Las Propiedades que debe cumplir son:
1. Todos los valores que toma la función de distribución de probabilidad son positivos o
nulos:
o x F(x) > 0
2. F(x) es nula, vale 0, para todo valor inferior al menor valor de la variable aleatoria, x1:
o F(x) = 0 si x < x1
3. F(x) es igual a uno para todo valor igual o superior al mayor valor de la variable
aleatoria, llamando a éste “xk”:
o F(x) = 1 si x > xk
4. La función F(x) es no decreciente ya que es una acumulación o suma de
probabilidades que son siempre positivas o nulas.
5. La probabilidad, P, de que la variable aleatoria X tome valores x comprendidos entre
x1 y x2 (x1 < x < x2) es la diferencia entre los valores de la función de distribución
correspondientes a su valor superior menos su valor inferior.
o P (x1 < x < x2) = F(x2) – F(x1)
Media y varianza de una variable aleatoria

La media, μ, de una variable aleatoria discreta X viene definida por la siguiente expresión:
μ = ∑ x.f(x)
La media de una variable X, también se le conoce por esperanza matemática o valor esperado
de X y se representa por E(X).
μ = E(X) = ∑x.f(x) =x0.f(x0) + x1.f(x1) + x2.f(x2)+ x3.f(x3) = 0.0,125 + 1.0,375 + 2.0,750 +

3.0,375 = 1,5
La varianza σ2 de una variable aleatoria discreta X viene definida por:
σ2 = ∑ (x – μ)2. f(x)
Otra alternativa; a veces muy útil, es:
σ2 = E(X 2) - [E(X)]
donde: E(X ) = ∑ x 2.f(x) y [E(X)] es la media elevada al cuadrado.
De la misma forma la desviación típica será la raíz cuadrada de la varianza:
Distribuciones discretas de probabilidad

Para algunas distribuciones discretas se emplean una serie de tablas que facilitan su aplicación
a unos problemas en concreto.
En Ciencias Sociales y de la Salud se trabajan con variables que toman sólo dos valores
(dicotómicas 1 – 0); En este caso se utiliza la distribución binomial.
La distribución binomial
El ensayo anterior de la moneda al aire se denomina Bernouilli, autor de éste. Un experimento

binomial consiste en repetir “n” veces un ensayo Bernouilli. Una variable aleatoria X sigue
una distribución binomial (con parámetros n y p) si expresa el número de realizaciones
independientes “n” con la probabilidad “p” y por tanto (1 – p) de obtener fracaso. Se
representa por B(n, p); donde B indica binomial, n el número de ensayos y p la probabilidad
de éxito.
Ejemplo:
Si tiramos tres veces la moneda al aire y definimos X como el número de caras, esta variable
seguirá los parámetros n = 3 y p = 0,5. Lo mismo que B(3; 0,5).
Las características fundamentales son:
1. Función de probabilidad:
o f(x) = P(X = x) = x p xq n-x
2. Función de distribución:
o F(x) = P (X < x) =∑ x p x q n-x
3. Media: μ = np
4. Varianza : σ 2 = npq;
donde x es el numero de aciertos, n el número de ensayos, p la probabilidad de éxito de cada

ensayo, q la probabilidad de fracaso (1-p) y el número combinatorio x , que se lee “n sobre x”
es igual a n! / x! (n - x)!
Otras distribuciones discretas:
Existen otros modelos de distribuciones discretas. El modelo Poisson de los “sucesos raros”,
que se utilizan en condiciones similares a las binomiales pero con un elevado número de
ensayos y un valor p muy pequeño.
07. Distribuciones continuas de probabilidad
Contenidos
1. 1 La distribución normal
2. 2 Histograma y distribución normal
3. 3 Aproximación de la binomial a la normal
4. 4 La distribución “Chi cuadrado” de Pearson
5. 5 La distribución de "F" de Snedecor
La distribución normal
La distribución normal, campana de Gauss o, curva normal, también definida por De Moivre.
Características y propiedades:
Si una variable X le aplicamos una transformación lineal Y = bX+a, la nueva variable se

distribuirá normalmente pero con media bμ x + a y la desviación típica |b|σx . Si restamos la
media y dividimos por la desviación típica obtenemos una nueva variable “z”.
Una distribución normal es simétrica a su media, μ, coincide con su mediana y su moda.
La curva normal tiene dos puntos de inflexión; dos puntos donde la curva pasa de ser cóncava
a convexa. Estos puntos están a la distancia de una desviación típica de la media.
Es asintótica en el eje de abscisas, se extiende desde - ∞ hasta + ∞ sin tocar nunca el eje.
Casos de utilización de las tablas:
En el supuesto que la tabla no recoja el valor, podemos utilizar el más próximo.
1. Cálculo de la probabilidad para valores menores o iguales que una determinada

puntuación típica: En este caso se mira directamente en la tabla.
2. Cálculo de la probabilidad para valores mayores que una determinada puntuación: En
este supuesto se mira en la tabla la probabilidad que esa puntuación deja por debajo y
se resta a 1.
3. Cálculo de la probabilidad entre dos puntuaciones determinadas: Aquí se restan las
probabilidades que dejan por debajo de sí las dos puntuaciones típicas.
Histograma y distribución normal

Si disponemos de los datos originales de una variable X, y su distribución es
normal,utilizaremos las tablas III y IV, pero anteriormente transformaremos las puntuaciones
directas en puntuaciones típicas:
Aproximación de la binomial a la normal

Cuando las distribuciones binomiales superan sus valores de 20, se puede aproximar a la
binomial normal. Teniendo una variable X, con distribución binomial, su media es μ = np y su
desviación típica σ = npq.
Para aproximar la distribución binomial a la normal establecemos un intervalo entre 0,5 a la

izquierda y a la derecha:
P [(12-0,5) < x < (12+0,5)]
Sumar y restar el valor 0,5 se llama corrección por continuidad, permitiendo utilizar las
puntuaciones discretas como continuas.
La distribución “Chi cuadrado” de Pearson

En la distribución de Chi cuadrado de Pearson una variable X con distribución X21, X22, ...,
X2n pasa a ser X = X2n. Su media y varianza valdrán μ = n y, σ2 = 2n.
Esta distribución se usa para contrastar si la distribución de una variable se ajusta a una
distribución determinada.
Entre sus propiedades señalamos:
1. Nunca adopta valores menores de 0.

2. Es asimétrica positiva pero a medida que aumentan sus grados de libertad se va
aproximando a la distribución normal.
3. Para n > 30 la podemos aproximar a una distribución N(n, 2n).
Una distribución “t” es el cociente entre una variable N(0,1) y la raíz cuadrada de X dividida
por sus grados de libertad.
Sus características son:
1. Es simétrica, con μ = 0. Su forma es muy parecida a la N(0,1), aunque menos

apuntada.
2. Puede tomar cualquier valor (-∞ +∞).
3. A medida que aumentan los grados de libertad, la distribución se aproxima más a una
distribución normal.
4. La curva es asintótica al eje de abscisas.
Se emplea en estadística inferencial en contrastes. En la tabla VI se muestran los valores de

esta distribución.
La distribución de "F" de Snedecor

Sigue una distribución F con n1 y n2 grados de libertad (Fn1,n2). Siendo “n 1”los grados del
numerador y “n2” los del denominador; su media y varianza se definen:
Se caracteriza por:
1. Es asimétrica positiva por lo que nunca toma valores menores que 0.

2. Si X es variable con distribución F con n1 y n2 grados de libertad, la variable Y = 1/X
es también una distribución F (propiedad recíproca)
08. Estimación
Contenidos
1. 1 Conceptos previos
1. 1.1 Población y muestra
2. 1.2 Muestreo
2. 2 Inferencia estadística
3. 3 Estimación de la media
4. 4 Distribución muestral de la media
5. 5 Error tipico de la media
1. 5.1 La media como estimador
2. 5.2 Estimación de la proporción
3. 5.3 Distribución muestral de la proporción
6. 6 Error típico de la proporción
1. 6.1 La proporción como estimador
7. 7 Intervalos de confianza
1. 7.1 Concepto
2. 7.2 Tamaño de la muestra
3. 7.3 Aplicaciones
4. 7.4 Intervalo de confianza para la media
Conceptos previos
Población y muestra
Población se refiere al conjunto total de elementos que se quieren estudiar una o más
características. Debe estar bien definida. Llamaremos N al número total de elementos de una
población. También se suelen utilizar los términos individuos, sujetos y casos para referirnos
a los elementos de la población.
Cuando se dispone de un censo (listado) de la población, se puede estudiar a todos ellos.
No siempre es factible estudiar a la totalidad de una población; por lo que se estudia un

subconjunto de los elementos totales; es decir, un muestra.
Llamaremos n al número de los elementos de una muestra.
Muestreo
El muestreo es un proceso de selección con el fin de obtener una muestra lo más semejante
posible a la población y así obtener estimaciones precisas. El tamaño es una característica
esencial; ya que debe ser lo suficientemente amplia para representar adecuadamente las
propiedades de la población y reducida para que pueda ser examinada en la práctica.
El muestreo probabilístico se conoce la probabilidad asociada a una muestra y cada elemento

de la población tiene una probabilidad conocida de pertenecer a la muestra. El no-
probabilístico se desconoce, o no se tiene en cuenta, la probabilidad asociada a cada muestra y
se selecciona la que más le parezca representativa al investigador.
Una forma de obtener una muestra de una población homogénea es utilizar:
El muestreo aleatorio simple; por el cual se garantiza que cada elemento de la población tenga
la misma probabilidad de formar parte de la muestra. Primero se asigna un número a cada
elemento y después mediante algún medio (sorteo, papeletas,...) se elijen tantos elementos
como sea necesario para la muestra.
Cuando los elementos están ordenados o pueden ordenarse se utiliza el muestreo sistemático.
Se selecciona al azar entre los que ocupan los lugares N . Ejemplo: N = 100; n = 5; 100/5= 20;
escogeríamos los n elementos situados en las posiciones 20. El riesgo de este muestreo es la
falta de representación; que se pudiese dar, del total de los elementos.
Cuando topamos con una población heterogénea, utilizamos el muestreo estratificado. Se
emplea cuando disponemos de información suficiente sobre alguna característica y podemos
elegir una muestra en función del número de elementos según estas características o estratos.
Ante poblaciones desordenadas y conglomeradas en grupos, se emplea el muestreo por

conglomerados; donde se van seleccionando de todos los grupos, subgrupos, clases, ... y
finalmente de los elementos restantes la muestra.
De la unión del estratificado y del conglomerado, surge otro muestreo el polietápico.
En ocasiones el muestreo es muy costoso y se recurre a métodos no probabilísticos:
• El muestreo por cuotas (accidental) se basa en un buen conocimiento de los estratos o

individuos más representativos para la investigación. Similar al estratificado pero
carente del carácter aleatorio.
• El muestreo opinático (intencional) muestra el interés por incluir en la muestra a
grupos supuestamente típicos.
• El causal (incidental) selección de los individuos de fácil acceso.
• Bola de nieve; donde un elemento seleccionado lleva a otro y éste a otro y así
sucesivamente hasta completar la muestra.
Una muestra es representativa si exhibe internamente el mismo grado de diversidad que la

población y es aleatoria si los elementos han sido extraídos al azar de la población.
Inferencia estadística
El valor estadístico obtenido de una muestra (como media) no será igual al valor del
parámetro de población. Para inferir un parámetro a partir de un estadístico hay que aplicar
herramientas estadísticas de tipo inferencial como la estimación por intervalo (intervalos de
confianza) o contraste de hipótesis.
Estimación de la media
La media muestral es una variable aleatoria que toma un valor según la muestra concreta que
se obtenga. Se denomina distribución muestral de la media a su función de probabilidad.
La distribución muestral de un estadístico es un concepto central, tanto de la estimación como

del contraste de hipótesis.
Distribución muestral de la media

Una función de probabilidad queda caracterizada por su forma, su media y su varianza. La
media de la distribución muestral de la media (μx) es igual a la media de la población (μ). La
varianza de la distribución muestral de σ la media es n y la desviación típica de la distribución
muestral de la media, denominada error típico de la media, es σx= σ = σ 2 .
La forma de la distribución original de la media se parece a una distribución normal aunque la

distribución original de la variable en la población no es normal.
Si la distribución de X en la población no es normal con media μ y desviación típica σ,
entonces la distribución muestral de la X tiende a la normal a medida que n crece (Teorema
Central del Límite), siendo la aproximación buena para n > 30.
Media, varianza y desviación típica de la variable cuantitativa X en la población y en la

muestra, y de la distribución muestral de la media (X).
Error tipico de la media

La media como estimador
Un estimador es un estadístico que se utiliza para estimar un parámetro.
Por lo que la media de la muestra es un estimador de la media poblacional; y el valor del

estimador en una muestra se denomina estimación o estimación puntual.
La media muestral X es un estimador insesgado de la media poblacional (μ). El error típico de

la media es un indicador de la precisión de la estimación de la media; cuanto menor es el error
típico, mayor es la precisión. Dependiendo de la desviación típica de la población y del
tamaño de la muestra.
Estimación de la proporción
Para la obtención de la distribución muestral de la proporción se puede hacer como la media.
Distribución muestral de la proporción
Sea X una variable que sólo toma valores 0 y 1, la proporción de la muestra P se define como:
-Ver archivo adjunto-.
Como P es la media de los valores de X en la muestra, según el Teorema Central del Límite, a
medida que el tamaño crece, la distribución muestral dela proporción tiende a la normal con
media π y varianza π (1 - π) .
Cuanto más alejado esté π de 0,5, más elementos debe tener la muestra para realizar la
aproximación a la normal.
Media, varianza y desviación típica de la variable dicotómica o dicotomizada (X) en la

población y en la muestra, y de la distribución muestral de la proporción (P):
Error típico de la proporción

La proporción como estimador
La proporción muestral (p) es un estimador insesgado de la proporción poblacional (π).
El error típico de la proporción, es un indicador de la precisión de la estimación de la

proporción. Cuanto menor es el error típico, mayor es la precisión.
Intervalos de confianza
Concepto
La finalidad de un intervalo de confianza es estimar un parámetro desconocido de una

población a partir de una muestra. Al estimar la media de la población a partir de una muestra,
podemos cometer un error de estimación |X- μ|.
La estimación por intervalo consiste en acotar el error con una alta probabilidad 1 – α (nivel
de confianza) de forma que |X- μ| no sea superior a un estimado máximo (Emáx).
El error de estimación máximo (Emáx) es función de la variabilidad de la variable en la

población, del nivel de confianza (n.c.) y del tamaño de la muestra:
El n.c. o probabilidad 1 – α significa que si extrajésemos todas las muestras posibles de una
población, calculásemos la media en cada una de ellas y el intervalo de confianza, una
proporción 1 – α de todos los intervalos de confianza contendrá la media poblacional y una
proporción α no lo contendrá.
Tamaño de la muestra
Interesa que un intervalo sea lo más estrecho posible y con alta probabilidad. A mayor nivel
de confianza mayor es el error de estimación máximo, por lo que más amplio será el intervalo
y menos precisa será la estimación. Una forma de mantener y reducir el error de estimación
máximo dado y aumentar el n.c., es aumentando n.
Otro factor que interviene es la variabilidad de la variable, cuanto mayor sea la desviación
típica de la población, mayor debe ser n para alcanzar una misma precisión.
Para calcular el tamaño de la muestra desconociendo σ, hay que sustituir en la ecuación, la

desviación típica por la cuasidesviación típica (Sn-1) y z1- α/2 por tn-1, 1-α/2 (tabla VI).
Aplicaciones
Los pasos para aplicar un intervalo de confianza son los siguientes:
• Establecer un error de estimación máximo para un nivel de confianza 1 – α.

• Obtener el tamaño de la muestra n para el error de estimación máximo especificado.
• Extraer una muestra aleatoria de tamaño n y medir la variable.
• Calcular el estadístico (es estimador del parámetro) con las medidas obtenidas.
• Calcular los límites del intervalo de confianza.
Intervalo de confianza para la media
Límites de los intervalos de confianza y supuestos para la estimación de la media:
π es la proporción de la población que no es conocida.
n es el tamaño de la muestra y se debe cumplir nπ(1-π) > 5 para la aproximación a la normal.

Los límites inferior y superior del intervalo de confianza se obtienen a partir del error de
estimación máximo. Como desconocemos π, que es lo que precisamente queremos estimar,
operamos con la proporción muestral P. Así, si en Emáx sustituimos π por la proporción
muestral P, los límites inferior y superior del intervalo de confianza son: -Ver archivo
adjunto-.

Introducción Al Análisis de Datos

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Introducción Al Análisis de Datos

Transféré par

Droits d'auteur :

Formats disponibles

Introducción al Análisis de Datos

01. Conceptos básicos y organización de datos

• Estadística teórica que se ocupa de aspectos formales y educativos.

Sus fases son:

1. Definición del problema.

• Estadística descriptiva: se organizan y resumen conjuntos de observaciones

Parámetro es una propiedad descriptiva (medida) de una población. Estadístico es una

La medición y escalas de medida

Variables: clasificación y notación

• Cualitativa (nominal): clasificadas en; Dicotómica: 2 categorías (por ej: sexo) y

Aparte de esta clasificación existen más clasificaciones:

• Variable independiente: Cualquier suceso que sospechamos es la causa de otro

Para referirnos a un valor cualquiera de la variable X se utiliza el subindice i (Xi ), siendo n el

• Ofrecer la información necesaria para realizar representaciones gráficas

• Si la variable cuantitativa es reducida (número de hijos) no hay problema, la

Distribución de frecuencias con los datos agrupados en intervalos de la variable edad:

• Se utiliza para variables nominales, ordinales y cuantitativas discretas.

• Se utiliza para variables cualitativas y cuasicuantitativas

• Se utiliza para variables cualitativas.

• Se utiliza para variables cuantitativas continuas con datos agrupados en intervalos

• Se utiliza para variables discretas.

Representación gráfica de dos variables

• Se utiliza cuando al menos una de las dos variables es cualitativa

• Se utiliza en el caso de dos variables cuantitativas

Propiedades de la distribución de frecuencias

Se refiere al lugar donde se centra una distribución particular en la escala de valores.

Se refiere al grado de concentración de las observaciones en torno al promedio.

Una distribución de frecuencias será:

• Homogénea (tiene poca variabilidad). Si los valores de distribución están cercanos al

• Asimetría positiva: Cuando la mayor concentración de puntuaciones se produce en la

02. Medidas de tendencia central y posición

1. 1 Medidas de tendencia central

Medidas de tendencia central

Las medidas más utilizadas en el análisis de datos son:

Xi es el valor que toma la variable u observación del sujeto i.

n es el número total de observaciones.

Cuando el número de observaciones es elevado, los datos se presentan en tablas de

1. Media aritmética a partir de una distribución de frecuencias absolutas:

n es el número total de observaciones.

Xi es el valor i en la variable X i o el punto medio del intervalo.

ni es la frecuencia absoluta del valor o intervalo i.

2. Media aritmética a partir de una distribución de frecuencias relativas:

pi es la frecuencia relativa o proporción de observaciones del valor o del intervalo i.

• Cuando los datos están agrupados en intervalos, la media no se puede calcular si el

Es el índice empleado cuando la distribución es asimétrica y no es posible aplicar la media

Para el cálculo de la mediana con pocos casos se procede de la siguiente manera:

1. Se ordenan las n puntuaciones de menor a mayor.

Lo normal es que el número n de observaciones no sea pequeño; incluso aparecerán repetidos

Cuando los datos no están agrupados en intervalos, el cálculo es un caso particular de la

Si se da en una variable cuantitativa con los datos no agrupados en intervalos, la moda es el

Sus principales características son:

• es un índice de cálculo sencillo y de fácil interpretación.

La elección de una medida de tendencia central

Para seleccionar un valor que resuma adecuadamente la tendencia central de la distribución de

Cuando la media no es aplicable, se recomienda la mediana. Y por último, si ésta no es

03. Medidas de variabilidad y asimetría

Amplitud total o rango

La amplitud total o rango ( AT ), de un conjunto de puntuaciones es la distancia que hay en la

Varianza y desviación típica

La variabilidad se puede basar en la distancia observada entre las puntuaciones y un valor

Índice de asimetría de Pearson

04. Análisis conjunto de dos variables

1. 1 Asociación entre dos variables cualitativas

Asociación entre dos variables cualitativas