Académique Documents
Professionnel Documents
Culture Documents
Capitulo 6:Nmeros Indice En esta leccin evaluativa se revisan conceptos de la unidad 2 del curso Estadstica Descriptiva que el estudiante debi estudiar previamente. Encontrar sntesis de los conceptos ms importantes y seguidamente algunas preguntas relacionadas. Esta actividad es EVALUATIVA, por lo tanto recuerde que debe leer cuidadosamente y posteriormente responder preguntas para seguir adelante. Esta leccin tiene DOS (2) INTENTOS, una vez iniciada deber finalizarse. NO TIENE LIMITE DE TIEMPO. Animo y adelante con su proceso de aprendizaje.
Medidas de dispersin
La informacin que arrojan las medidas de tendencia central no siempre proporcionan conclusiones contundentes frente al conjunto de datos. El conjunto de datos, adems de tener una tendencia de agruparse hacia el centro, en ocasiones suelen estar bastante alejados de esa tendencia central. Medir esa variacin respecto a los promedios es un clculo importante en el tratamiento estadstico de datos, medidas a las que se les denomina de dispersin o de variacin. Entre las medidas de dispersin ms comunes estn:
Rango o recorrido Varianza Desviacin tpica o estndar Coeficiente de variacin Desviacin media Puntaje tpico o estandarizado
Varianza
Es una de las medidas ms usadas en estadstica, ella a su vez da origen a otra mucho ms significativa: la desviacin tpica o estndar. Se define como
la media aritmtica de los cuadrados de las desviaciones respecto a la media aritmtica. Se simboliza s2para la varianza muestral y ?2para la varianza poblacional. Para datos no agrupados:
La varianza indica la desviacin de los datos respecto a la media. Para comparar dos distribuciones, en cuanto a su variabilidad absoluta, se pueden utilizar sus varianzas de manera que el resultado indique cul de ellas es ms homognea o cul es ms heterognea.
La desviacin estndar es una medida de variacin de todos los valores con respecto a la media. El valor de la desviacin estndar siempre es positivo y slo es igual a cero cuando los valores de los datos son iguales. Si el valor de la desviacin estndar es muy grande, este indica mayor variacin en el grupo de datos. El valor de la desviacin estndar puede incrementarse drsticamente cuando se incluye uno o ms datos distantes. Las unidades de la desviacin estndar son las mismas de los datos originales (pulgadas, centmetros, etc.)
Se define como la media aritmtica de los cuadrados de las desviaciones respecto al pomedio.
Cuando el coeficiente de variacin es muy alto se dice que la media aritmtica no es lo suficientemente representativa en la distribucin. Una de las siguientes medidas NO es medida de dispersin absoluta:
En las distribuciones asimtricas la media se corre en el sentido del alargamiento o sesgo por efecto de las frecuencias y de los valores extremos de la variable; la mediana tambin se corre pero menos que la media ya que en ella slo influyen las frecuencias; en tanto que la moda no es influenciada ni por las frecuencias ni por los valores extremos. Los datos sesgados a la derecha (sesgo positivo) poseen una cola derecha ms larga y su mediana y media estn a la derecha de la moda. La distribucin es asimtrica positiva y:
Los datos sesgados a la izquierda (sesgo negativo) presentan una cola izquierda ms larga y su media y mediana se encuentran a la izquierda de la moda. Ser asimtrica negativa y:
Figura Distribuciones sesgadas (a) Sesgada a la derecha; (b) Sesgada a la izquierda; (c) Simtrica
Las asimetras positivas son las ms frecuentes que las sesgadas hacia la izquierda, porque con frecuencia es ms fcil obtener valores excepcionalmente grandes que valores excepcionalmente pequeos. Ejemplo de ello es la distribucin de valores en los consumos de servicios pblicos, las calificaciones en pruebas, los sueldos, etc.
Si Ap = 3 la distribucin es normal o mesocrtica. Si Ap > 3 la distribucin es apuntada o leptocrtica. Si Ap < 3 la distribucin es achatada o platicrtica.
Cuando en una distribucin, la moda es mayor que la mediana y esta mayor que la media, se puede decir que la distribucin es:
Donde: Variable dependiente (la que se va a predecir) a:Intercepto de la variable Y X: Variable independiente b: Pendiente de la recta En esta ecuacin hay dos valores desconocidas: ay b, que deben determinarse aplicando el criterio de los mnimos cuadrados, buscando as la mejor recta que se ajuste a los datos. Se tiene entonces:
a: Intercepto de la variable Y X: Valores de la variable independiente Y: Valores de la variable dependiente n: Tamao de la muestra
Correlacin
La correlacin entre dos variables busca determinar el grado de relacin que existe entre ellas dos. Ella se calcula con los coeficientes de correlacin. Los coeficientes de correlacin son nmeros que varan entre +1 y -1. Su magnitud indica el grado de asociacin entre las variables, si es 0 indica que no existe relacin alguna y los valores extremos +1 y -1 indican una correlacin perfecta positiva o negativa respectivamente. Se dice que existe una correlacin lineal positiva entre dos variables, si al aumentar o disminuir los valores de la variable independiente aumentan o disminuyen los de la variable dependiente. En un grfico de dispersin, la nube de puntos tiene forma ascendente y por tanto la recta que se ajusta tendr una pendiente positiva. En cambio, cuando al aumentar los valores de la variable independiente disminuyen los valores de la variable dependiente, o viceversa, se dice que la correlacin lineal es negativa. En este caso la nube de puntos descender de izquierda a derecha y la pendiente de la recta ajustada ser negativa. Figura Grficas de dispersin lineal (a) positiva; (b) negativa
(a) (b)
Coeficiente de correlacin
Para determinar el coeficiente de correlacin, es necesario conocer primero
el error estndar del estimado de la recta ajustada. Se trata pues de medir el grado de confiabilidad de la ecuacin de la recta estimada. El error estndar indicar la dispersin o la variabilidad de los valores observados alrededor de la lnea de regresin y se calcula a partir de la siguiente ecuacin:
Donde: Se: Error estndar del estimado Y: Valores de la variable dependiente X: Valores de la variable independiente n: Tamao de la muestra Una vez obtenido el error estndar del estimado, es necesario medir qu porcentaje de la informacin es recogida o explicada por el modelo de regresin escogido. Se trata pues, de determinar las variaciones de la variable dependiente mediante el coeficiente de determinacin (R 2 ) .
Donde: R2: Coeficiente de determinacin, 0 ? R2 ? 1 o\:* {behavior:url(#default#VML);} w\:* {behavior:url(#default#VML);} .shape {behavior:url(#default#VML);}
<V:SHAPETYPE id="_x0000_t75" coordsize="21600,21600" o:preferrelative="t" path="m@4@5l@4@11@9@11@9@5xe" filled="f" o:title=""/><!--[if <!--[endif]-->
Se2: Varianza del error estimado S2y: Varianza de la variable dependiente Y . Cuando el R2es cercano a 1, se dice que el modelo de regresin lineal ajustado tiene un alto grado de confiabilidad, si al contrario este se acerca a 0 su grado de confiabilidad es muy bajo y se recomienda no utilizar el modelo
de regresin estimado. En la prctica es ms frecuente usar r, denominado el coeficiente de correlacin lineal. Siendo .
Una distribucin bidimensional o bivariante puede representarse grficamente en un plano cartesiano, ubicando en el eje horizontal o abscisa los valores de la primera variable denominada X y en el eje vertical u ordenada, los valores de la segunda variable, Y . De manera pues que se grafican tantas parejas ordenadas como observaciones hayan de las variables. A este conjunto de puntos o nube de puntos se le denomina:
La relacin entre dos variables dependientes cuantitativas y dos variables independientes cualitativas. La relacin entre dos variables cualitativas dependientes y una cuantitativa independiente. La relacin entre dos variables dependientes cuantitativas y una o ms variables independiente cualitativas. La relacin entre una variable dependiente cuantitativa y
Indica la dispersin o variabilidad de los valores observados alrededor de la lnea de regresin. Es el promedio de los cuadrados de las diferencias entre los valores estimados y la media. Es el grado de asociacin que existe entre las variables. Es el porcentaje de la informacin que es recogida o explicada por el modelo de regresin escogido.
Teniendo en cuenta el intervalo en el que se mueve la correlacin entre dos variables, cul de los siguientes valores para ese coeficiente NO puede ser posible?
r = 1.0 r = 0.8 r = -0.8 r = 2.0 Asi es!!! El intervalo en el que se mueve la correlacin entre dos variables es entre -1.0 y 1.0
Al estimar la relacin entre dos variables se encontr que el coeficiente de determinacin es igual a 0.93, esto se interpreta como:
Es mayor la variacin de la variable dependiente. El modelo explica en un 7% la variacin de los datos. El modelo explica en un 93% la variacin de los datos. NUMEROS INDICE
Los nmeros ndice son cifras relativas expresadas en trminos porcentuales, que sirven para indicar las variaciones que sufre una serie de valores respecto a una de ellas, tomada como punto de referencia y a la cual se le denomina base. Los nmeros ndices no son una medida cuantificable, se trata de un indicador de variacin en la variable observada. Son indicadores muy utilizados en el sector econmico por ejemplo, la variacin en los precios de un producto respecto al ao anterior, la cantidad de unidades vendidas de un producto respecto al mes anterior, el costo de produccin por unidad de este trimestre comparado con el inmediatamente anterior, etc. Si se trata de una serie corta, el perodo base seleccionado ser el primer valor de la serie; pero si la serie es extensa se debe seleccionar cono perodo base aquel que haya sido ms estable, es decir, que no presente cambios muy bruscos debido a factores internos y/o externos. Sin embargo, la seleccin de la serie base depender de los anlisis que el investigador requiera hacer para sus variables. Los nmeros ndice se pueden construir para una sola observacin o para un conjunto de ellas; en el primer caso, se hablar de ndices simples y para un conjunto de datos dados, se hablar de ndices compuestos. Estos ltimos se clasifican a su vez en agregativos y de promedios. Los promedios se clasifican en aritmticos, geomtricos, medianos, etc., pero en la prctica los ms utilizados son los aritmticos.
INDICES COMPUESTOS
Se construyen a partir de un grupo de series de tiempo, concernientes a varios artculos. Se trata de examinar el valor no de un artculo, sino de un grupo de ellos respecto a otro considerado de ms importancia. Los ndices compuestos determinan una condicin
particular, por ejemplo el costo de vida relativo a transporte, vivienda, alimentacin, etc. Se habla entonces de calcular un ndice agregado ponderado. Son muchas las frmulas para calcular ndices ponderados, los ms conocidos son los de Laspeyres, Paashe, Fisher, Keynes, Marshall, Edgeworth, Walsh, Drobisch y Sidgwick. Generalmente en ellos las ponderaciones son las cantidades o precios. Cuando se van a calcular los ndices de precios en un grupo de artculos, las ponderaciones son las cantidades, y en el clculo de los ndices de cantidad las ponderaciones son los precios.
Una de las siguientes respuestas NO interviene en la construccin de un nmero ndice simple de precios para un solo producto o variable:
Porcentaje de desvalorizacin. Precio del perodo base. Periodo base. Precio del perodo que se analiza.
El ndice de precios que se calcula como la relacin entre los precios actuales de una canasta de bienes o servicios del perodo, y los precios de esos mismos artculos o servicios en el periodo base, mantenindose constante como ponderacin las cantidades del perodo base se le denomina: