Vous êtes sur la page 1sur 6

FORMULARIO DE ESTADSTICA

Conceptos bsicos
Poblacin: conjunto de todos los elementos objeto de nuestro estudio Muestra: subconjunto, extrado de la poblacin,(mediante tcnicas de muestreo) cuyo estudio sirve para inferir caractersticas de toda la poblacin Individuo: cada uno de los elementos que forman la poblacin o la muestra Variable estadstica: caracterstica objeto de estudio - Discreta: Es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar - Continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores Notaciones y frecuencias: Variables discretas X : x1 ,..., xk con frecuencias f1 ,..., fk fi = nmero de veces que aparece el dato xi frecuencia absoluta de xi N = nmero total de datos Fi = f j frecuencia absoluta acumulada de xi
j i

hi =

fi frecuencia relativa de xi N H i = h j frecuencia relativa acumulada de xi


j i

Variables continuas X : I1,..., I k (intervalos) xi = punto medio del intervalo I i marca de clase de I i xi fi Fi hi Hi

Tablas de frecuencias:

Grficos estadsticos Diagrama de barras o columnas

Diagrama de sectores

Histogramas

Polgonos de frecuencias

Diagrama de dispersin

Medidas de tendencia central:


Media (aritmtica): f i xi x= n Mediana: Se ordenan los datos. Si hay un nmero par de datos la mediana es la media de los dos datos centrales; si el nmero de datos es impar, la mediana es justamente el dato central. Clculo: Datos sin agrupar: F j -1 = F j -1 < x j -1 + x j n < Fj Me = 2 2 n < Fj Me = x j 2 Datos agrupados: Fj = n Me = x j 2

n - Fj - 1 n 2 Fj -1 < < Fj Me = x j -1 + ( x j - x j -1 ) 2 fj 2

Moda: Valor ms frecuente de la variable. Interpretacin: anlisis de los datos Supongamos que estamos estudiando el nmero de vuelos semanales que realizan 10 pilotos. Los datos obtenidos son los siguientes: N de vuelos 0 1 2 3 Frecuencia absoluta 2 4 3 1 La media es 1,3, y nos indica, que por trmino medio, el nmero de vuelos es de 1,3, es decir, que por trmino medio estos pilotos vuelan entre 1 y 2 veces por semana. La moda es 1, lo que nos indica que lo ms frecuente es que vuelen 2 veces por semana. Y por ltimo, la mediana es 1, lo que nos dice que hay tantos pilotos que vuelan 1 o ms veces, como pilotos que lo hacen 1 vez o menos.

Medidas de posicin no central:


Cuantiles: El cuantil pr / k , r = 1,..., k - 1 , se define como aquel valor de la variable que divide la distribucin r de frecuencias, previamente ordenada de forma creciente, en dos partes, estando el 100 % de sta k formado por valores menores que pr / k . Si k = 4 los (tres) cuantiles reciben el nombre de cuartiles. Si k = 10 los (nueve) cuantiles reciben, en este caso, el nombre de deciles. Por ltimo, si k = 100 los (noventa y nueve) cuantiles reciben el nombre de centiles. Clculo: Datos sin agrupar: Fj -1 = x + xj r n < Fj pr / k = j -1 k 2 r n < Fj pr / k = x j k Datos agrupados: Fj = r n pr / k = x j k

Fj -1 <

r n - Fj -1 r Fj -1 < n < Fj pr / k = x j -1 + k ( x j - x j -1 ) k fj

Interpretacin: anlisis de los datos Para comprar zapatillas a los miembros de una pea de bolos, se les he preguntado por la talla de calzado que usan y los resultados son los siguientes: N de calzado 35 36 37 38 39 40 41 42 Frecuencia absoluta 7 13 20 37 42 50 23 8 El primer cuartil es Q1 = 38 y lo que nos dice es que el 25 % de los miembros de la pea utilizan una talla de calzado menor o igual que 38. El segundo cuartil es Q2 = 39 (que coincide con la mediana) y lo que nos dice es que el 50 % de miembros usa una talla de calzado menor o igual que 39 y el otro 50 % mayor o igual. El tercer cuartil es Q3 = 40 que nos dice que el 75 % de los miembros del club de bolos usa una talla de calzado menor o igual que 40. 3

Medidas de dispersin:
Varianza:

f (x =
i

-x

) fx s =
2 2

2 i i

- x2

Desviacin tpica:

s =+ s2

(Raz cuadrada positiva de la varianza)

Interpretacin: anlisis de los datos Supongamos que estamos estudiando el nmero de aciertos de 100 alumnos en una prueba de 30 preguntas. Los resultados obtenidos se recogen en la siguiente tabla: Aciertos [0,5 )

[5,10 ) [10,15 ) [15, 20 ) [20,25 ) [25, 30 ]


Total

xi 2,5 7,5 12,5 17,5


22,5 27,5

fi 3 10 25 38
16 8 100

En este caso el rango es 30, y por tanto, no nos proporciona ninguna informacin. La varianza es s 2 = 33, 79 y la desviacin tpica es s = 5,81, que son relativamente grandes, lo que nos dice que los datos presentan una agrupacin relativamente pequea respecto de la media. Coeficiente de variacin: (Se utiliza para comparar distribuciones) s CV = x Si CVX < CVY entonces la distribucin de X es ms homognea que la de Y Si CV = 0 s = 0 x tiene mxima representatividad Si x < s x no tiene representatividad alguna Interpretacin: anlisis de los datos Vamos a comparar las siguientes distribuciones de datos: 7 3 2 8 0 3 2 5 6 2 2 4 6 3 1 4 9 5 4 5 5 8 4 0 6 1 1 7 9 4 8 0 1 2 3 6 2 3 5 5 1 4 0 7 2 5 1 5 4 3

Al calcular los coeficientes de variacin obtenemos: CV1 = 0,57 y CV2 = 0, 70 Esto lo que nos dice es que la primera distribucin de datos est menos dispersa que la segunda.

Covarianza: (Es una medida de dispersin conjunta de las variables X e Y) f ij xi y j - x y s ( X ,Y ) = n

Rectas de regresin:
Determina la estructura de dependencia (en nuestro caso una recta) que mejor expresa el tipo de relacin entre las variables. s ( X ,Y ) 1) de Y / X : y - y = 2 ( x - x ) s X s ( X ,Y ) 2) de X / Y : x - x = 2 ( y - y ) s Y

ndices de correlacin:
Es frecuente que estudiemos sobre una misma poblacin los valores de dos variables estadsticas distintas, con el fin de ver si existe alguna relacin entre ellas, es decir, si los cambios en una de ellas influyen en los valores de la otra. Si ocurre esto decimos que las variables estn correlacionadas o bien que hay correlacin entre ellas. 1) Razn de correlacin: r =
2 2 s( X ,Y ) 2 s2 X sY

2) Coeficiente de correlacin lineal de Pearson: r =

s (X ,Y ) s X sY

El coeficiente de correlacin lineal es un nmero real comprendido entre 1 y 1: 1 ! r ! 1 Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte e inversa, y ser tanto ms fuerte cuanto ms se aproxime r a 1. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte y directa, y ser tanto ms fuerte cuanto ms se aproxime r a 1. Si el coeficiente de correlacin lineal toma valores cercanos a 0, la correlacin es dbil. Si r = 1 1, los puntos de la nube estn sobre la recta creciente o decreciente. Entre ambas variables hay dependencia funcional. Ejemplo: Una compaa de seguros considera que el nmero de vehculos (Y) que circulan por una determinada autopista a ms de 120 km/h, puede ponerse en funcin del nmero de accidentes (X) que ocurren en ella. Durante 5 das obtuvo los siguientes resultados: X 5 7 2 1 9 Y 15 18 10 8 20 a) Calcula el coeficiente de correlacin lineal. b) Si ayer se produjeron 6 accidentes, cuntos vehculos podemos suponer que circulaban por la autopista a ms de 120 kms/h? c) Es buena la prediccin?

Solucin: Disponemos los clculos de la siguiente forma: (Accidentes) Vehculos xi yi 5 15 7 18 2 10 1 8 9 20 24 71

xi2 25 49 4 1 81 160

yi2 225 324 100 64 400 1113

xiyi 75 126 20 8 180 409

x x=
N

24 = = 4,8 ; 5
2 i

y y=
N

71 = = 14,2 ; 5

2 x

x =
N

2 i

-x =

160 - 4,8 2 = 8, 96 5

2 y

y =
N

-y =

1113 - 14, 2 2 = 20, 96 ; s xy = 5

x y
N

i i

- x.y =

409 - 4, 8.14, 2 =13,64 5

a) Coeficiente de correlacin lineal de Pearson: r = b) Recta de regresin de y sobre x: y - 14,2 = y-y=

s xy s x s y

13, 64 = 0, 996 8, 96. 20,96

s xy
2 sx

(x - x)

13,64 ( x - 4,8) ; y - 14,2 = 1,53( x - 4,8) 8,96 Para x = 6, y - 14,2 = 1,53(6 - 4,8) , es decir, y = 16,04. Podemos suponer que ayer circulaban 16 vehculos por la autopista a ms de 120 kms/h. c) La prediccin hecha es buena ya que el coeficiente de correlacin est muy prximo a 1.

Vous aimerez peut-être aussi