Vous êtes sur la page 1sur 17

Tema 1.1.

1 Concepto y clasificacin de la estadstica: La metodologa estadstica est en numerosas ciencias, lo que dificulta en cierto grado acotar las caractersticas propias de esta como ciencia independiente. La estadstica se conforma, en la actualidad como una ciencia autnoma que ha tenido su propio desarrollo histrico y dista enormemente de ser un mero instrumento metodolgico de las dems ciencias. A este respecto, tenemos los siguientes dos comentarios: Kendall considera que la estadstica es la rama del mtodo cientfico que trata datos obtenidos contando o midiendo las propiedades (la regularidad en un hecho) de un conjunto de fenmenos naturales. Punto de vista descriptivo. Barnett la considera como la ciencia que estudia cmo debe emplearse la informacin y cmo dar una gua de accin en situaciones practicas que entraan incertidumbre. Esa incertidumbre es lo que vamos a expresar en forma de probabilidad. Etimolgicamente estadstica significa el estudio del Estado, y este fue sin dudas el primitivo concepto de esta ciencia. En el Diccionario de la RAE se encuentran tres acepciones distintas de la palabra Estadstica: Censo o recuento de la poblacin, de los recursos naturales e industriales, del trafico o de cualquier otra manifestacin de un Estado, provincia, pueblo, clase... Estudio de los hechos morales o fsicos que se prestan a numeracin o recuento y a comparacin de las cifras a las que se refieren. Ciencia que utiliza conjuntos de datos numricos para obtener inferencias basadas en el clculo de probabilidades. (Inferenciar es a travs de un conjunto de datos representativos extrapolar esa informacin al conjunto del que han sido obtenidos. Yo no puedo medir cual es la opinin de todos los espaoles, as que obtengo una muestra de la poblacin y esa muestra que tendr que ser representativa podr ser inferenciada. Conclusiones a partir de una pequea muestra. Pero yo puedo estar equivocado y ese margen de error se mide con la estadstica)

1.2.- Fenmenos: clasificacin y descripcin: En ciencias sociales el investigador intenta captar de toda la realidad que le rodea una serie de fenmenos, estos generalmente dan lugar a observaciones de tipo cuantitativo o cualitativo. Fenmenos de naturaleza cuantitativa: son aquellos cuyas observaciones vienen expresadas en forma cuantitativa, como la concrecin del fenmeno: peso de una persona edad en aos la estatura Fenmenos de naturaleza cualitativa: son aquellos cuyas observaciones no tienen carcter numrico, como la concrecin del fenmeno: color de los ojos profesin 1.3.- Poblacin, muestra y dato estadstico: Poblacin: llamaremos poblacin, colectivo o universo, a todo el conjunto de individuos o elementos que tienen caractersticas comunes. Muestra: llamaremos muestra a todo subconjunto representativo de la poblacin. Dato estadstico: cuando hemos obtenido una informacin de la realidad y la intentamos analizar, necesitamos aplicar un modelo matemtico, para lo cual necesitamos utilizar dos conceptos: 1.- El concepto de variable que le hacemos corresponder la idea de fenmeno. 2.- El concepto de dato que le hacemos corresponder la concrecin de ese fenmeno. Cuando el fenmeno es de naturaleza cualitativa, la idea de atributo sustituye a la de variable. Tambin a los atributos se les llama variables cualitativas. 1.4.- Etapas del anlisis estadstico: 1) La recogida de datos ha de estar bien organizada y se har de forma minuciosa, para que no se ocasionen sesgos iniciales sobre la informacin a obtener. 2) La observacin y presentacin de datos requiere un proceso de depuracin de anomalas y la elaboracin de unas tablas. 2

3) Elaboracin de medidas o parmetros: sirven para que nos resuman la cantidad de informacin obtenida y podamos hacer una descripcin inicial de las caractersticas ms relevantes. La gran mayora son medidas de sntesis porque si tenemos una nube de datos, los datos en si mismos no nos dicen nada, pero si sintetizamos una medida, como por ejemplo la media, y esa medida la comparamos con otra, s que nos estar dando informacin. 4) Anlisis estadstico formal: a travs del empleo de modelos estadsticos matemticos, nos permite modificar las hiptesis sobre las regularidades que en principio, puedan detectarse en las etapas previas. 1.5.- Clasificacin de la estadstica: La Estadstica se configura como la tecnologa del mtodo cientfico que proporciona instrumentos para la toma de decisiones cuanto estas se adoptan en ambiente de incertidumbre, siempre, que esta incertidumbre pueda ser medida en trminos de probabilidad. Por ello, la estadstica se preocupa de los mtodos de recogida y descripcin de datos, as como de generar tcnicas para el anlisis de esta informacin. Estadstica descriptiva: El objeto de sta es el estudio, clasificacin o interpretacin de datos estadsticos sobre fenmenos empricos, cuando se realiza con el objeto exclusivo de describir propiedades del colectivo formado por esos datos. (Observamos fenmenos de tipo emprico y los datos recogidos me dan una informacin, yo obtengo conclusiones para los datos que tengo). Estadstica inductiva o inferencia estadstica: El objeto de sta es pretender obtener conclusiones a partir de un colectivo que transciende a los datos de partida y respecto del cual estos solo pueden considerarse como una muestra o parte representativa. As el anlisis transciende a colectivos ms amplios que el investigado. Este anlisis inferencial es de aplicacin exclusiva a las muestras aleatorias. (Elijo una muestra de forma aleatoria, pero no para obtener conclusiones para la muestra, sino para extrapolarlas a toda la poblacin o colectivo). 1.6.- Clasificacin de los datos: Cualquier coleccin de datos estadsticos, debidamente presentados, se les denomina estadstica o serie estadstica. Estos pueden clasificarse en: a) Cualitativas, ordinales y cuantitativas b) Unidimensionales y multidimensionales c) Atemporales y temporales

Los resultados obtenidos al medir u observar variables se denominan valores o datos y los correspondientes o atributos, modalidades. 1.6.1.- Cualitativas, ordinales y cuantitativas: Cualitativas (atributos): diremos que una serie estadstica es cualitativa cuando los datos que la constituyen solo pueden clasificarse segn una relacin de igualdad - desigualdad, esto hace que solo nos permita saber si los datos son iguales o distintos. Ordinales: diremos que una serie estadstica es ordinal si con los datos que la constituye adems de poder definirse de una relacin de igualdaddesigualdad, se puede definir otra de orden, por la que puede atribuirse a los datos la ordenacin. Cuantitativas (variables): diremos que una serie estadstica es cuantitativa, cuando con los datos, adems de una relacin de igualdad-desigualdad y otra de orden, tiene sentido realizar clculos y operaciones matemticas. 1.6.2.- Unidimensionales y multidimensionales: Tanto se trate de atributos, como de ordenaciones, como de variables, las series estadsticas y los datos pueden ser: Unidimensionales: cuando slo se consideren sobre los elementos de una nica caracterstica. Por ejemplo: la edad. Multidimensionales: cuando se consideran simultneamente conjuntamente varias caractersticas. Por ejemplo: la edad y la estatura. o

De esta manera existirn series de naturaleza mixta: variable y atributos y ordenacin. 1.6.3.- Atemporales y temporales: Atemporales o cross-section: los datos estadsticos no estn referidos al momento o periodo de tiempo en que fueron obtenidos. Corte transversal en el tiempo. Temporales o cronolgicos: los datos estadsticos estn referidos al momento o periodo de tiempo en que fueron obtenidos, lo que permitir estudiar la evolucin de la caracterstica a lo largo del tiempo.

1.7.- Tipos de variables: Variable discreta: es aquella variable que entre dos valores prximos puede tomar a lo sumo un nmero finito de valores. Por ejemplo, los alumnos de esta clase (nunca habr una persona y media, o tres cuartos de coche). Variable continua: es aquella que puede tomar los infinitos valores de un intervalo, ya que para cada dos valores puede tomar los infinitos intermedios que existan entre ambos. Por ejemplo, la estatura o el peso (hay infinitos valores dentro de un intervalo)

2.1.- Distribuciones de frecuencias 2.1.1.- Frecuencia absoluta y relativa 2.1.1.1.- Frecuencia absoluta u ordinaria Es el nmero de veces que se repite cada valor o dato de la variable, la representamos . 2.1.1.2.- Frecuencia relativa Es igual a la frecuencia absoluta dividida por el nmero total de datos. = / N 2.1.2.- Frecuencias acumuladas 2.1.2.1.- Frecuencia absoluta acumulada Nos indica el nmero de datos que hay igual al considerado e inferiores a l, lo representamos por . 2.1.2.2.- Frecuencia relativa acumulada Es el resultado de dividir cada frecuencia acumulada por el nmero total de datos. = / N 2.1.3.- Distribucin de frecuencias unidimensional: Llamaremos distribucin de frecuencias al conjunto de valores que ha tomado una variable con sus frecuencias correspondientes. Representamos una distribucin de frecuencias como los diferentes valores que en cada caso toma el par ( , ). Distinguimos fundamentalmente dos tipos de distribucin de frecuencias.

2.1.3.1.- Las no agrupadas en intervalos: En este caso hacemos corresponder a cada valor su frecuencia. Si todas las frecuencias son iguales a uno, la distribucin se denominar de frecuencias unitarias. 2.1.3.2.- Agrupadas en intervalos: La representamos por el par (1 , ), donde Li es el extremo superior del intervalo y 1 su extremo inferior.

Para agrupar los datos en intervalos, debemos empezar por obtener el recorrido de la variable, que se define como la diferencia entre el mayor y el menos valor de la variable.

Re = mx mn
Una vez obtenido el recorrido lo dividimos en intervalos. Denominamos amplitud del intervalo a la diferencia entre los extremos superiores e inferiores del mismo:

i=

Denominamos marca de clase, al representante de cada intervalo, que es un punto medio. As el intervalo i-simo de la marca de clase ser:

m.c.= =

(1 + ) 2

2.2.- Caractersticas generales de las distintas medidas: El anlisis de las distribuciones de una variable en general consiste en una reduccin de los datos estadsticos a unos pocos eficientes o parmetros que permitan una interpretacin de las regularidades o leyes estadsticas del colectivo analizado. Toda serie de una distribucin se considerar operativa si: Interviene en su determinacin todos y cada uno de los valores de la distribucin. Es nica para cada distribucin de frecuencias.

2.3.- Momentos y sus propiedades 2.3.1.- Momento ordinario respecto del origen 6

Momento ordinario respecto del origen y de orden h, de una distribucin en frecuencias de una variable X, es la expresin:

ah (x) =

1( )

Esta es la suma de todos los valores de la variable X elevada a la potencia h-sima multiplicada por sus respectivas frecuencias y dividido por el nmero total de datos. Dos particularidades:

1.- a0 =

1( )

1 1

=1

2.- a1

1( )1

= = media aritmtica

2.3.2.- Momento central o respecto a la media: Se denomina momento central o respecto a la media, de una distribucin de frecuencias de una variable x, es la siguiente expresin:

mh =

1( )

Los momento mh (momento central o con respecto a la media) los podemos poner en funcin de los momentos con respecto al origen.

mh (x) = 1( ) = (a () )h

2.3.3.- Momento respecto a un punto cualquiera X0 Para estos momentos la expresin viene dada por:

a(h, x0)=

1( )

Dos particularidades: a) Si x0 =0 ; estamos en el caso de los momentos ordinarios. b) Si xo = ; estamos en el caso de los momentos centrales.

2.3.4.- Cambios de origen o de unidad Para la simplificacin de los clculos, se utilizan transformaciones lineales, siendo de gran utilidad en los momentos centrales. As:

mh (ax+b) = 1[(
= =

) ( ]h
=

)]h

1[

h 1[ ( )]

= ah 1[( )]h

= ah mh (x)

Esto quiere decir que los momentos centrales son independientes del origen pero proporcionarles al cambio de unidad elevado al orden del momento.

2.4.- Medidas de posicin: 2.4.1.- Media aritmtica: Se define como la suma de todos los valores de la distribucin dividida por el nmero total de datos, la simbolizamos por

. As ser

1( )

Propiedades: a) La media aritmtica de una transformacin lineal Z = ax + b es igual

1( )

1( + )

= a + b

Por lo tanto, depender del origen y es proporcional al cambio de unidad o escala. b) La media aritmtica no variar si todas las frecuencias se multiplican o dividen por un mismo nmero. c) La suma aritmtica de las desviaciones de los valores de la variable respecto a su media es cero.

1( ) =
1

- = - = 0

d) Establecemos la distribucin de la siguiente forma: xi x1 x2 ... xj xj+1 ... xI ni n1 n2 ... nj nj+1 ... nI

Las medias aritmticas de dos series de datos

x1, x2, xj, xj+1, , xI

N1 + N2 = N

1 =

1
1

2
9

La media aritmtica de todo el conjunto se relaciona con las medias aritmticas de las dos series, y existe la siguiente relacin.

1 +

1 1 + 1

1 1 +

2.4.1.1.- Variable estadstica centrada Una variable estadstica est centrada si su media es cero.

2.4.5.- Mediana Para esta medida de posicin no tenemos una definicin matemtica exacta, por lo tanto aceptamos estas dos ideas. a) Aquel valor de la distribucin, (suponiendo que previamente est ordenada), que deja a su izquierda y a su derecha el mismo nmero de frecuencias. La mediana nos hace referencia al valor que ocupa el lugar medio o central. b) Se puede definir como aquel valor de la distribucin cuya frecuencia acumulada es N/2. - Formas de calcularla: a) En las distribuciones de frecuencias unitarias, y con un n impar de datos, la mediana es el valor de la distribucin que ocupa el lugar medio. b) En las distribuciones de frecuencias con datos sin agrupar y n distinto de 1 utilizamos lo siguiente:

10

Me= {
2

2 2

c) En las distribuciones de frecuencias con datos agrupados, la calculamos mediante la siguiente expresin:

Me = Li -1 + bi = Li -1 + Ii

1
1

2.4.6.- Los cuantiles Son valores de la distribucin que la dividen en partes iguales, lo que es lo mismo, en intervalos que comprenden el mismo nmero de valores.

2.4.6.1.- Los cuartiles Dividimos la distribucin en cuatro partes iguales, dentro de cada intervalo estn incluidos el 25% de los valores de la distribucin. 2.4.6.2.- Los deciles Dividimos en diez partes iguales, 10% 2.4.6.3.- Los centiles o porcentiles Dividimos la distribucin en cien partes, 1%. Para calcularlos obtenemos el valor que ocupa el lugar (r/K) N de la distribucin, teniendo en cuenta que:

K= 4 cuartiles

K= 10 deciles

K=100 centiles

r= ??

11

Q = Li 1 + Ii

1
1

2.4.7.- La moda Por definicin es el valor de la distribucin que ms veces se repite. Para una distribucin con datos agrupados, se calcula mediante la siguiente expresin:

Mo= Li 1 + bi = Li 1 + Ii

1 1 + 1

En el caso de que todos los intervalos sean iguales y como ni= Ij + hj

Mo = Li 1 + Ii
2.5.- Medidas de dispersin:

( + 1 )

= Li 1 + Ii

1 ( 1 1 )

2.5.1.- Introduccin Determinadas las medidas de posicin, necesitamos saber si estas medidas son representativas como sntesis de toda la informacin, esto significa cuantificar la separacin de los valores de la distribucin respecto a dicha medida. A la mayor o menos separacin de los valores respecto a la que pretende ser una sntesis, se le llama dispersin o variabilidad. 2.5.2.- La varianza Es la ms importante, es una medida de dispersin absoluta respecto a la media aritmtica. La definimos como el momento de segundo orden respecto a la media aritmtica. FRMULA Propiedades: 1.- La varianza nunca puede ser negativa: S2 0

12

2.-Es independiente del origen proporcional al cambio de unidad elevado al cuadrado. S2 (b+cu) = c2 S2u 3.- Es igual al momento de segundo orden respecto del origen menos el de primer orden elevado al cuadrado. Frmula 4.- La varianza con respecto a los momentos generales o con respecto a un punto cualquiera X0 de segundo orden, es el menor entre ellos. 2.5.3.- La desviacin tpica La desviacin tpica es la raz cuadrada de la varianza, con signo positivo. Viene dada en las mismas unidades que los valores de la variable y no como la varianza que las expresaba al cuadrado, lo que hace a la desviacin tpica una medida ms apta para medir la dispersin. Es independiente del origen y depende del mdulo o valor absoluto del cambio de unidad. Formula 2.5.4.- La cuasivarianza Es una medida de dispersin con respecto a la media. Formula 2.5.5.- Coeficiente de variacin Es una medida de dispersin relativa con respecto a la media aritmtica, nos expresa el tanto por uno que representa la desviacin tpica respecto a la media. Formula g0 = Es adimensional (al efectuar el cociente eliminamos las unidades), g 0 expresa el nmero de veces que S contiene a la media. Es independiente del cambio de unidad y no del origen. Formula Nos permite hacer comparaciones entre distintas distribuciones an cuando los valores de las variables vengan expresadas en distintas unidades de medida.

13

2.5.6.- Recorrido y recorrido intercuantlico 2.5.6.1.- Recorrido Es la diferencia entre el mayor valor y el menor valor de la distribucin para todas las medidas de posicin: R = mx. Xi mn. Xi 2.5.6.2.- Recorrido intercuantlico La diferencia entre cualquier tipo de cuantil. Por ejemplo, si fuese entre el 3 y el 9 decil: R (d3 d9) = (d9 - d3) 2.5.7.- Variable estadstica tipificada Una variable estadstica se denomina tipificada, estandarizada o reducida, si su media es cero y su varianza (o desviacin tpica) es 1. Teniendo una variable X con una media y varianza Sx2, la variable formula Por lo tanto, siempre podremos expresar la diferencia entre la media y un valor individual en trminos de desviacin tpica. Es entonces cuando decimos que la desviacin Xi - la hemos tipificado. La distribucin de frecuencias correspondiente tambin se denomina distribucin tipificada. 2.6.- Medidas de forma 2.6.1.- Introduccin La forma de una distribucin de frecuencias, ms deseable es la campaniforme simtrica en la que coinciden la media, la mediana y la moda; y que el eje de simetra sea perpendicular al de abscisas y los intercepte en dicho punto. Seguimos como modelo una curva continua, que es la curva de Gauss o campana perfecta, cuyas propiedades ms importantes son: 1) Ser no negativa. 2) El rea que abarca dicha curva respecto al eje de abscisas es uno. 3) Tener un mximo en el punto X= , as como el eje de simetra perpendicular al eje de abscisas en dicho punto. 4) Tener por puntos de inflexin X = , siendo una cantidad positiva. 5) Ser asinttica respecto al eje de abscisas.

2.6.2.- Medidas de simetra- asimetra Las medidas de simetra-asimetria permiten establecer el grado de simetraasimetria que representa la distribucin sin necesidad de llevar a cabo su representacin 14

grafica. Para ello tomamos como indicador el momento m3. Si: m3 > 0 La distribucin es asimtrica positiva o por la derecha m3 = 0 La distribucin es simtrica m3 0 La distribucin es asimtrica negativa o por la izquierda Para conseguir un indicador adimensional necesitamos dividir el anterior m 3 por una cantidad que venga expresada en las mismas unidades de medidas, sta es el cubo de la desviacin tpica. De esta forma construimos el coeficiente de simetra-asimetra o de R.A. Fisher. Formula Es independiente de las transformaciones lineales X = cu + b Formula Tenemos otro coeficiente que nos indica el grado de simetra-asimetra: Formula La moda se puede poner en funcin de la Mediana, formula 2.6.3.- Medidas de apuntamiento-aplastamiento o curtosis Estas tratan de estudiar la distribucin de frecuencias en la zona central de la distribucin. La mayor o menor concentracin de frecuencias alrededor de la media y en a zona central de la distribucin, nos indica si est ms o menos apuntada. El coeficiente de curtosis:

g2 =

4 4

1( 4 ) ) ( 1( ) 4

Si g2 > Leptokrtica o con exceso Si g2 = 3 Mesokrtica o sin exceso Si g2 Plantikrtica o achatada Es independiente de transformaciones lineales, x= cu+b formula Este coeficiente tambin nos permite saber si una distribucin es campaniforme o en forma de U. 15

Si g2 > 18 es campaniforme Si g2 18 es de tipo en forma de U La curva de Lorenz: La curva de Lorenz es una forma grfica por ejemplo, de mostrar la distribucin de la renta en una poblacin. En ella se relacionan los porcentajes acumulados de poblacin con porcentajes acumulados de la renta que esta poblacin recibe. En el eje de abscisas se representa la poblacin ordenada de forma que los percentiles de renta ms baja quedan a la izquierda y los de renta ms alta quedan a la derecha. El eje de ordenadas representa las rentas. En la grafica se muestran como ejemplo la representacin de dos pases imaginarios, uno en azul y otro en rojo. La distribucin de la renta en el pas azul es ms desigual que en el pas rojo. En el caso del pas azul, el cuarenta por ciento ms pobre de la poblacin recibe una renta inferior al veinte por ciento del total del pas. En cambio, en el pas rojo, el cuarenta por ciento ms pobre recibe ms del veinte por ciento de la renta. La lnea diagonal negra muestra la situacin de un pas en el que todos y cada uno de los individuos obtuviese exactamente la misma renta; seria la equidad absoluta. Cuanto ms prxima est la curva de Lorenz de la diagonal, ms equitativa ser la distribucin de la renta de ese pas. Imaginemos que tenemos una distribucin (X) de salarios de una empresa. Donde la expresin: 1 nos indica la masa salarial total pagada por la empresa, que se distribuir entre los N trabajadores de manera ms o menos uniforme. La uniformidad de este reparto es lo que estudia la curva de Lorenz. Definimos Pi= 100, que es la frecuencia acumulada relativa expresada en tantos por ciento y correspondiente al valor i-esimo. Representa el porcentaje de individuos a quienes corresponde un valor de la variable a xi Definimos qi =
1 1

100, que es el porcentaje que sobre el total del fenmeno, tienen

aquellos individuos que los valores de una variable son a xi. Dibujamos un cuadrado cuyos lados estn divididos en una escala de 1 a 100. En el vrtice inferior izquierdo est el origen de coordenadas, en el eje de abscisas representamos a pi y en el de ordenadas a qi. La representacin cartesiana de los pares (pi, qi) y la poligonal que las une es la curva de Lorenz. La diagonal del cuadrado nos indica pi=qi lo que significa mxima uniformidad ya que un porcentaje de individuos de la muestra o poblacin, ocupan igual porcentaje del total de fenmeno. Por ejemplo: el 10% de trabajadores tienen el 10% de masa salarial. Cuando la curva de Lorenz coincide con los lados del cuadrado, existe mxima concentracin, esto significa que un solo individuo acumula el total del fenmeno. Otra forma de interpretarlo: - Ms prxima la curva a la diagonal: mayor uniformidad, menor concentracin. - Ms prxima la curva al cuadrado: menor uniformidad, mayor concentracin. 16

3.2.- Indice de Gini: En ndice de Gini es el valor del cociente entre el rea que determine la curva de Lorenz con la diagonal y el rea del triangulo que delimita la diagonal con los lados del cuadrado. Lo que es lo mismo, el cociente entre el rea de concentracin y el rea del triangulo. Como el triangulo tiene por lados la unidad, su rea es .

C=

1/2

= 2

Una formula (aritmtica) aproximada para calcular C sin tener que recurrir al clculo de las reas es: Si c= 0 la curva es la diagonal o la superficie rayada es nula.

C=

1( ) 1 1 1

Si c= 1 la curva son los lados del triangulo o la superficie rayada es 1/2

C 0 > uniformidad, menor concentracin, menor desigualdad y mayor equidad. C 1 uniformidad, mayor concentracin, mayor desigualdad y menor equidad.

17

Vous aimerez peut-être aussi