Académique Documents
Professionnel Documents
Culture Documents
Contenidos
1. 1 Introducción
2. 2 La investigación en psicología
3. 3 Concepto y funciones de la estadística descriptiva e inferencial
4. 4 La medición y escalas de medida
5. 5 Variables: clasificación y notación
6. 6 Distribución de frecuencias
7. 7 Representaciones gráficas
8. 8 Representación gráfica de una variable
1. 8.1 Diagrama de Barras
2. 8.2 Diagrama de Sectores
3. 8.3 Pictograma
4. 8.4 Histograma
5. 8.5 Polígono de Frecuencias
9. 9 Representación gráfica de dos variables
1. 9.1 Diagrama de barras conjunto
2. 9.2 Diagrama de dispersión o Nube de Puntos
10. 10 Propiedades de la distribución de frecuencias
1. 10.1 Tendencia central
2. 10.2 Variabilidad
3. 10.3 Asimetría o sesgo
Introducción
Debemos diferenciar dos tipos de estadística:
La investigación en psicología
Utiliza el método científico, que se caracteriza por ser sistemático (sigue un sistema) y
replicable.
Conceptos importantes: población es el conjunto de todos los elementos que cumplen una
determinada característica objeto de estudio. Muestra es un subconjunto de una población.
Las conclusiones obtenidas de una muestra sólo servirán para el total de una población si la
muestra es representativa. Para asegurarnos que la muestra es representativa se utilizan
métodos de muestreo probabilístico.
También existes las muestras no probabilísticas como por ejemplo la muestra de conveniencia
o incidental.
Tipos de variables:
Distribución de frecuencias
Una distribución de frecuencias es una representación de la relación entre un conjunto de
medidas exhaustivas y mutuamente influyentes y la frecuencia de cada una de ellas.
Funciones:
Conceptos:
• Frecuencia absoluta (ni): Número de veces que se repite cada uno de los valores de
una variable. La suma de todas las frecuencias absolutas representa el total de la
muestra (n)
• Proporción o frecuencia relativa (pi): Cociente entre la frecuencia absoluta de cada
valor de la variable (ni) y el número total de observaciones (n). pi = ni /n
• Porcentaje (Pi): Valor de la frecuencia relativa (pi) multiplicado por cien: Pi = pi x
100
• Frecuencia absoluta acumulada (na): Número de veces que se repita cada modalidad o
cualquiera de las modalidades inferiores.
• Proporción acumulada o frecuencia relativa acumulada (pa): Cociente entre la
frecuencia absoluta acumulada de cada clase y el total de observaciones. pa = na / n
Porcentaje acumulado (Pa): Valor de la frecuencia relativa acumulada multiplicado por cien.
Pa= pax 100
Distribución de frecuencias:
• Cálculo de límites exactos: Límite exacto = Valor informado (el que nos han dado) +-
0,5 x I
• I = Instrumento de medida. (en el caso de las edades I = 1)
• Punto Medio se haya sumando los dos valores del intervalo y dividiendo el resultado
entre 2. (Ej: Tomemos el intervalo (26-35) = 26 + 35 = 61/2 = 35,5)
• Intervalo abierto: Son los intervalos finales que se utilizan para no tener frecuencia
nula. (Ej de edad: 76 años o más)
Representaciones gráficas
El Sistema de Coordenadas más habitual esta formado por:
• Eje vertical (ordenada o eje Y), Eje horizontal (abscisa o eje X), Origen (punto donde
se juntan ambos ejes).
Representación gráfica de una variable
Diagrama de Barras
Pictograma
Histograma
Variabilidad
Asimetría o sesgo
Se refiere al grado en que los datos se reparten equilibradamente por encima y por debajo de
la tendencia central.
Diremos que una distribución será simétrica cuando al dividirla en dos a la altura de la media,
las dos mitades se superponen. Si esto no ocurre decimos que se produce asimetría. Hay dos
tipos de asimetría:
Contenidos
También se llama promedio o media es la medida de tendencia central más conocida y usada
en la práctica, por su sencillez de cálculo y es el fundamento de un gran número de técnicas
estadísticas. Indica la tendencia general de una distribución de frecuencias de una variable y
es el valor central de las observaciones “centro de gravedad”. Sin embargo se limita para
calcular variables cuantitativas. La media aritmética de una variable X, denotada por X, se
define:
X = ∑Xi / n
donde:
X= ∑ni Xi / n
donde:
X = ∑pi Xi
donde:
La media aritmética aprovecha toda la información disponible en los datos, pues requiere de
todas las puntuaciones de los sujetos. Así, la media aritmética presenta las siguientes
propiedades:
• En una distribución, la suma de las desviaciones de cada valor con respecto a su media
es igual a cero.
o i=1∑n(Xi – X) = 0
• Si a los valores de la variable X les aplicamos la siguiente transformación lineal Y =
bX + a, la media de los nuevos valores Y será Y = bX + a.
A la hora de utilizar la media aritmética conviene tener en cuenta las siguientes limitaciones:
La mediana
Cuando los datos están en intervalos se denomina intervalo crítico y se corresponde con el que
la frecuencia absoluta acumulada na es igual o superior a n/2.
La mediana se puede calcular en cualquier distribución excepto cuando los datos están
agrupados y existe uno abierto en el que se encuentra la mediana.
La moda
La moda es otro índice de tendencia central que se puede obtener tanto en variables
cualitativas como en cuantitativas. Se representa por Mo, y se define como el valor o
categoría de la variable con mayor frecuencia absoluta.
Una frecuencia es unimodal cuando existe un único valor con la frecuencia máxima. Si
presenta varios valores con la frecuencia más alta, ésta será bimodal, trimodal, ...
Medidas de posición
Las medidas o índices de posición, también llamados cuantiles, informan acerca de la
posición relativa de un sujeto con respecto a su grupo de referencia, dentro de la distribución
de frecuencias de la variable. Para ello debemos dividir la distribución en un número de partes
o secciones iguales entre sí en cuanto al número de observaciones. Trataremos tres medidas
de posición o cuantiles:
Percentiles
Los también llamados centiles, son los 99 valores de la variable que dividen en 100 la
distribución de frecuencias. Representado por Pk , es un valor de la variable de interés que
deja por debajo de sí un porcentaje k de sujetos, donde k = 1,2....99- El cálculo de los
percentiles se realiza utilizando una extensión del método expuesto para la mediana. La
diferencia está en que para la mediana se traba de localizar la posición de n/2; mientras los
percentiles se hace en base al número n.k/100 . Este número es igual a n/2 cundo calculamos
el percentil 50. entonces si k = 50; n.50/100 = n/2.
Al igual que con la mediana, cuando en la distribución de frecuencias los datos no están en
intervalos, se aplica I = 1.
Sin embargo lo que queremos calcular es qué percentil ocupa un valor X debemos de despejar
k i para Xi.
A veces el resultado puede darnos un valor con decimales; en este caso, tomamos la cantidad
entera más próxima.
Cuartiles y deciles
Son medidas de posición en las que las secciones son muchas menos que en los percentiles.
Los cuartiles son tres valores de la distribución que se dividen en cuatro partes. El primer
cuartil se representa por Q1 , deja por debajo de sí el 25%, correspondiendo con el percentil
25. El segundo cuartil Q2 , deja por debajo el 50%, equivalente al percentil 50 y a la mediana
de la distribución. El tercero Q3 , deja por debajo de sí el 75%, equivalente al percentil 75.
Para calcular los cuartiles emplearemos las mismas fórmulas que para los percentiles en su
equivalencia.
Los deciles son nueve valores que dividen en diez partes iguales a la distribución. Se
representa por D i , donde i = 1,2,...9.
El primer decil, deja por debajo de sí al 10% de los sujetos, el segundo el 20% y así hasta el
90%; pudiendo emplear nuevamente los percentiles correspondientes para su cálculo.
Contenidos
1. 1 Medidas de variabilidad
1. 1.1 Amplitud total o rango
2. 1.2 Varianza y desviación típica
2. 2 Índice de asimetría de Pearson
Medidas de variabilidad
La variabilidad o dispersión hace referencia al grado de variación que hay en un conjunto de
puntuaciones. Por ejemplo: “entre dos distribuciones que presentan la misma media
aritmética, difieren en la variabilidad de sus puntuaciones”. Así, cuanto menor es la
variabilidad, más homogénea es la muestra de sujetos en la variable. En el caso de máxima
homogeneidad, todos los valores de la variable serán iguales. De otro modo, cuanto más o
menos dispersión en los datos, la muestra es más o menos heterogénea y las puntuaciones
difieren entre sí.
Para cuantificar la dispersión de los datos, se pueden distinguir dos tipos de índices: los que
miden el grado de semejanza y diferencia de las puntuaciones entre sí (amplitud total o rango
y la amplitud semi-intercuartil), y los que la dispersión se mide a alguna medida de tendencia
central como la media aritmética (varianza y la desviación típica).
Un primer índice podría ser el promedio de las desviaciones o diferencias de cada puntuación
con su media.
∑di ∑(Xi - X) Xd = n = n
El problema de este índice es que el sumatorio del numerador ∑(Xi - X) , siempre es igual a
cero; para ello se han propuesto dos soluciones. La primera consiste en calcular el valor
absoluto de cada desviación antes de realizar la suma “desviación suma”:
Contenidos
Asociación y /o relación entre dos variables: dos variables están relacionadas entre sí, cuando
ciertos valores de una de las variables, se asocian con ciertos valores de la otra.
Chi cuadrado: uno de los inconvenientes es su difícil interpretación puesto que desconocemos
su límite superior. Sólo sabemos que tiene valor cero, cuando no hay relación entre las dos
variables.
Para resolver este problema, de acuerdo al valor obtenido de X2, se ha definido el índice o
Coeficiente de Contingencia, C. Esté índice toma los valores 0<C<1 Características del
coeficiente de contingencia, C :
Para interpretar los resultados hay que tener en cuenta en primer lugar el valor absoluto,
cuanto mayor es nos indica que la relación lineal es más fuerte. En segundo lugar, el signo: si
es positivo es relación directa, si es negativo, inversa.
El coeficiente de correlación lineal sólo detecta relaciones lineales entre dos variables.
Por tanto, un coeficiente de correlación lineal cercano a cero, indica que no existe relación
lineal entre las variables, pero no excluye la posibilidad de que las variables tengan otras
relaciones entre sí de carácter no lineal.
Cuando existe un Coeficiente de correlación elevado entre dos variables, no se puede afirmar
que una de las variables es causa de la otra. Hay que ser muy cuidadoso en este aspecto.
Regresión lineal
Cuando existe una relación lineal podemos usar la denominada recta de regresión.
Yi’ = a + bXi
Contenidos
Definición:
Características:
Conceptos relacionados:
Tipos:
Cálculos:
• Unión: A U B
• Intersección A ∩ B
• Complementario: |A
Definición de probabilidad
Problema: requiere que los sucesos sean equiprobables (no siempre ocurre) y, en muchos
casos, puede resultar difícil la clasificación de los sucesos como favorables y posibles.
P (A U B) = P (A) + P(B) – P (A ∩ B)
P (A U B) = P (A) + P(B)
Probabilidad condicionada
Hay situaciones donde la aparición de un suceso A depende de la aparición d otro suceso B.
Diremos, en estos casos, que los sucesos A y B son dependientes.
P (A ∩ B)
• P (A B) = P(B)
P (B ∩ A)
• P (B A) = P(A)
• P (A B) = P(A)
• P (B A) = P(B)
Si de la probabilidad condicionada
P (A ∩ B)
• P (A B) = P(B)
P (A ∩ B) = P(A) · P (A B)
P (A ∩ B) = P(A) · P (B)
Teorema de Bayes:
P(A) · P (B A)
• P (A B) = P(B)
Contenidos
Las variables aleatorias pueden ser discretas o continuas. Discreta cuando la variable sólo
puede tomar un conjunto infinito y numerable de valores (los números naturales) o finito de
valores (número de sucesos). Y continua cuando puede tomar infinitos valores o un conjunto
de valores no numerable.
f(x) = P (X=x)
Función de distribución
F(x) = P (X < x)
De la misma forma:
1. Todos los valores que toma la función de distribución de probabilidad son positivos o
nulos:
o x F(x) > 0
2. F(x) es nula, vale 0, para todo valor inferior al menor valor de la variable aleatoria, x1:
o F(x) = 0 si x < x1
3. F(x) es igual a uno para todo valor igual o superior al mayor valor de la variable
aleatoria, llamando a éste “xk”:
o F(x) = 1 si x > xk
4. La función F(x) es no decreciente ya que es una acumulación o suma de
probabilidades que son siempre positivas o nulas.
5. La probabilidad, P, de que la variable aleatoria X tome valores x comprendidos entre
x1 y x2 (x1 < x < x2) es la diferencia entre los valores de la función de distribución
correspondientes a su valor superior menos su valor inferior.
o P (x1 < x < x2) = F(x2) – F(x1)
μ = ∑ x.f(x)
La media de una variable X, también se le conoce por esperanza matemática o valor esperado
de X y se representa por E(X).
σ2 = ∑ (x – μ)2. f(x)
σ2 = E(X 2) - [E(X)]
La distribución binomial
Ejemplo:
Si tiramos tres veces la moneda al aire y definimos X como el número de caras, esta variable
seguirá los parámetros n = 3 y p = 0,5. Lo mismo que B(3; 0,5).
1. Función de probabilidad:
o f(x) = P(X = x) = x p xq n-x
2. Función de distribución:
o F(x) = P (X < x) =∑ x p x q n-x
3. Media: μ = np
4. Varianza : σ 2 = npq;
Existen otros modelos de distribuciones discretas. El modelo Poisson de los “sucesos raros”,
que se utilizan en condiciones similares a las binomiales pero con un elevado número de
ensayos y un valor p muy pequeño.
Contenidos
1. 1 La distribución normal
2. 2 Histograma y distribución normal
3. 3 Aproximación de la binomial a la normal
4. 4 La distribución “Chi cuadrado” de Pearson
5. 5 La distribución de "F" de Snedecor
La distribución normal
La distribución normal, campana de Gauss o, curva normal, también definida por De Moivre.
Características y propiedades:
La curva normal tiene dos puntos de inflexión; dos puntos donde la curva pasa de ser cóncava
a convexa. Estos puntos están a la distancia de una desviación típica de la media.
Es asintótica en el eje de abscisas, se extiende desde - ∞ hasta + ∞ sin tocar nunca el eje.
Sumar y restar el valor 0,5 se llama corrección por continuidad, permitiendo utilizar las
puntuaciones discretas como continuas.
Una distribución “t” es el cociente entre una variable N(0,1) y la raíz cuadrada de X dividida
por sus grados de libertad.
Se caracteriza por:
08. Estimación
Contenidos
1. 1 Conceptos previos
1. 1.1 Población y muestra
2. 1.2 Muestreo
2. 2 Inferencia estadística
3. 3 Estimación de la media
4. 4 Distribución muestral de la media
5. 5 Error tipico de la media
1. 5.1 La media como estimador
2. 5.2 Estimación de la proporción
3. 5.3 Distribución muestral de la proporción
6. 6 Error típico de la proporción
1. 6.1 La proporción como estimador
7. 7 Intervalos de confianza
1. 7.1 Concepto
2. 7.2 Tamaño de la muestra
3. 7.3 Aplicaciones
4. 7.4 Intervalo de confianza para la media
Conceptos previos
Población y muestra
Población se refiere al conjunto total de elementos que se quieren estudiar una o más
características. Debe estar bien definida. Llamaremos N al número total de elementos de una
población. También se suelen utilizar los términos individuos, sujetos y casos para referirnos
a los elementos de la población.
Muestreo
El muestreo es un proceso de selección con el fin de obtener una muestra lo más semejante
posible a la población y así obtener estimaciones precisas. El tamaño es una característica
esencial; ya que debe ser lo suficientemente amplia para representar adecuadamente las
propiedades de la población y reducida para que pueda ser examinada en la práctica.
El muestreo aleatorio simple; por el cual se garantiza que cada elemento de la población tenga
la misma probabilidad de formar parte de la muestra. Primero se asigna un número a cada
elemento y después mediante algún medio (sorteo, papeletas,...) se elijen tantos elementos
como sea necesario para la muestra.
Cuando los elementos están ordenados o pueden ordenarse se utiliza el muestreo sistemático.
Se selecciona al azar entre los que ocupan los lugares N . Ejemplo: N = 100; n = 5; 100/5= 20;
escogeríamos los n elementos situados en las posiciones 20. El riesgo de este muestreo es la
falta de representación; que se pudiese dar, del total de los elementos.
Cuando topamos con una población heterogénea, utilizamos el muestreo estratificado. Se
emplea cuando disponemos de información suficiente sobre alguna característica y podemos
elegir una muestra en función del número de elementos según estas características o estratos.
Inferencia estadística
El valor estadístico obtenido de una muestra (como media) no será igual al valor del
parámetro de población. Para inferir un parámetro a partir de un estadístico hay que aplicar
herramientas estadísticas de tipo inferencial como la estimación por intervalo (intervalos de
confianza) o contraste de hipótesis.
Estimación de la media
La media muestral es una variable aleatoria que toma un valor según la muestra concreta que
se obtenga. Se denomina distribución muestral de la media a su función de probabilidad.
Estimación de la proporción
Sea X una variable que sólo toma valores 0 y 1, la proporción de la muestra P se define como:
-Ver archivo adjunto-.
Como P es la media de los valores de X en la muestra, según el Teorema Central del Límite, a
medida que el tamaño crece, la distribución muestral dela proporción tiende a la normal con
media π y varianza π (1 - π) .
Cuanto más alejado esté π de 0,5, más elementos debe tener la muestra para realizar la
aproximación a la normal.
La estimación por intervalo consiste en acotar el error con una alta probabilidad 1 – α (nivel
de confianza) de forma que |X- μ| no sea superior a un estimado máximo (Emáx).
El n.c. o probabilidad 1 – α significa que si extrajésemos todas las muestras posibles de una
población, calculásemos la media en cada una de ellas y el intervalo de confianza, una
proporción 1 – α de todos los intervalos de confianza contendrá la media poblacional y una
proporción α no lo contendrá.
Tamaño de la muestra
Interesa que un intervalo sea lo más estrecho posible y con alta probabilidad. A mayor nivel
de confianza mayor es el error de estimación máximo, por lo que más amplio será el intervalo
y menos precisa será la estimación. Una forma de mantener y reducir el error de estimación
máximo dado y aumentar el n.c., es aumentando n.
Otro factor que interviene es la variabilidad de la variable, cuanto mayor sea la desviación
típica de la población, mayor debe ser n para alcanzar una misma precisión.
Aplicaciones