Vous êtes sur la page 1sur 18

Clase 1 3 partes del curso: Estadstica descriptiva -> Probabilidad (modelos) -> estadstica inferencial Estadstica descriptiva: lo que

se lee en peridicos, lo que se ve en la tv. Aca se describen los datos. Ejm: sueldos de todos en el saln. Trabajar con los datos de la mano -> se describen. Histogramas, pipe. Complicado tomar muestra de todo lima, entonces se toma una muestra. Esa muestra se trabaja. Si la infiero a toda la poblacin -> estadstica inferencial. Para hacer eso, se necesitan ciertos mtodos, modelos -> eso lo da la probabilidad (puente para llegar a la estadstica inferencial). Ejm: encuesta, de una muestra. Si se quede ah es descriptiva. Un censo, se tiene toda la data, por lo tanto. La estadstica es una ciencia aplicada. Probabilidad: te da los modelos que ayudan a la estadstica. Te da los instrumentos, para que la estadstica los use. Se puede saber probabilidades sin saber estadstica. Solo da los modelos, no la certeza de sacarte la tinka. Empresa competitiva: mejores decisiones. Necesita de informacin (no solo experiencia). No son los datos. Estadstica ayuda para que un dato sea informacin -> mejores decisiones. Te ayuda a tomar decisiones. Wong obtiene miles de datos. Ejm: en la caja al pagar. Pero, datos -> informacin (aqu ayuda la estadstica). A veces con esta informacin se toman decisiones. Informacin -> conocimiento (aqu tambin ayuda la estadstica inteligencia de negocios: dato->informacin->conocimiento). La estadstica no es un proceso numrico, es un proceso. Es todo el proceso (dato-informacinconocimiento)-> pensamiento estadstico. La estadstica estudia datos pero con variabilidad (no tendra sentido estudiar si todos tenemos 25 aos). En la mayora de datos existe este concepto. Se analiza este concepto Cambiar esa variabilidad (cambiar el proceso: ejm: atencin en banco) Reducirla Controlarla

La calidad tiene que ver con la variabilidad. Ejm: caja de tiza, tamao estndar. Las tizas tienen q ser de este tamao estndar. Calidad. Reducir la variabilidad (en este ejemplo). Del grafico de la pag 4: casi todos caen entre 28+30. Esto puede caer en un modelo: Tiempo usado = 30 +- algo T = 30 + E (este modelo lo lee cualquier persona en el mundo)

Poblacion (en el ejemplo pag 4): clientes del banco (la poblacin no es solo de personas). Habia 56 clientes, pero del banco. Todos los usuarios del banco es la poblacin. Estos 56 son una muestra. Cada uno es una unidad de anlisis. Variable: tiempo que pasaba en internet. Variable T (tiempo). Cuando se le asigna un valor a la variable, se le da una escala (es una medicin, en este ejemplo se us la escala del tiempo). Cuando se le asigna un nmero, se dice que se ha establecido una escala de medida, que se realiz una medicin. En el saln: variable sexo. Pero hay que codificar. Sex: 1. H 2. M Todo se pasa a nmeros. Ese 2 es solo una etiqueta, no dice nada aca. Pero tambin hay nmeros que si dicen algo (en el ejm de la pag 4): 32 minutos dice el tiempo que paso, que es mas que 31 min Ejm: variable tiempo que se demora en ventanilla Para describir a la muestra se usan estadsticos (medidas caractersticas) Para describir a la poblacin se usan parmetros (medidas caractersticas) Caractersticas de ambas: media, mediana, moda, desviacin estndar, rango

Escala nominal: todos los nmeros que conocemos caen en la categora de: reales (R) Cuando tenga carcter de etiqueta es nominal. Ejm: variable gnero, variable marca (poblacin autos que circulan en lima: se codifican 1. Toyota 2.mazda (los nmeros solos no dicen nada) Escala ordinal: si el orden que tienen los nmeros me sirven en la realidad. Ejm: rankin empleados segun ventas propuestas. Poblacin: empleados de la empresa, variable ranking: 1. __ 2.__ 3. ___4. Aca si importa el orden de los nmeros. 4-2 = 3-1 aca no tiene sentido. Ejm: encuesta de satisfaccin: 3 5 , 4 6, la diferencia de 2 no dice nada. Escala intervalar. Aca si tiene sentido 4-2 = 3-1. Ejm: variable edad. Datos: 1. 30 2. 40 3. 50 4. 60 El orden tiene sentido (la edad tb es ordinal). 40-30=10 / 60-50=10 la diferencia tiene sentido en la realidad. Edad es ordinal pero tambin intervalar. Las diferentes aca tienen sentido. Ejm: escala de Fahrenheit y de celcius. La diferencia tiene sentido (el 0 no indica ausencia de propiedad). Escala de razn Si el cociente tiene sentido, es de razn. Ejm: edad. 40 , 20. Tiene sentido xq el de 40 vivi el doble que el de 20. El 0 implica ausencia de la propiedad. (edad). Ejm: ingresos, 0 implica ausencia de ingreso 0 indica ausencia de la propiedad en la de razn 0 no indica la ausencia de la propiedad en intervalar Nomimal Ordinal Intervalar Razn etiquetas (marca de auto) orden de nmeros tiene sentido en realidad (ranking ventas) si deferencias de nmeros tiene sentido en realidad (escalas temperatura) cociente de los nmeros tiene sentido en la realidad (sueldo)

Escala Likert (escala ordinal) la democracia es la madre del desarrollo (se pone siempre una frase). Y luego se dibuja el grafico (pag 10)

Variables (clasificacin): Cualitativas (categricas): solo nominal u ordinal: sexo, marca carro, satisfaccin cliente, tipo de empresa, estado civil, ocupacion Cuantitativas: (ejm: unidad de anlisis: organizacin). Disccreto: si cuentan algo: numero de empleados, numero de quejas, numero hijos Continua: si miden algo: participacin de mercado, ventas anuales, salario, peso Siempre revisar si se habla de poblacin, o de una unidad de anlisis El sueldo de bill gates puede ser un dato aberrante, fuera de lo comn, outlier.El sueldo tiene un modelo establecido (el modelo es igual en todo el mundo).

Todo esto se estudia para analizar la variabilidad de los datos!!!! Herramientas de anlisis. Ejm: MBA TC 16. Variable discreta: # empleos que ha desempeado Tabla de frecuencia Diagrama sectores circulares (pie chart) - generalmente cualitativas (pag 16) Grafico de barras cualitativas y cuantitativas discretas (pag 17) Diagrama de Pareto cualitativas (pag 18) Grafico de bastones cuantitativa discreta (pag 20) Histograma cuantitativas continuas (pag 23,26) Diagrama de tallos y hojas cuantitativa continua (pag 27) Serie de tiempo: ejm la bolsa de valores, precio oro (tiempo eje x). Es comn. Que pasa con una variable a los largo del tiempo. Diagrama de dispersin. Estudio variable por variable (univariable). Estudio relacionando variables (multivariado). Ejm: edad y sueldo juntos, para ver si estn relacionados. En un mismo grafico las 2 variables -> Diagrama de dispersin (se usan 2 variables a la vez). No se pueden deducir (concluir) cosas de los grficos. Los grficos te muestra una situacin, pero de esa data. Si quieres validar, se puede comprobar. No todo es causal Frecuencia en porcentaje -> frecuencia relativa (suma 100%) Sesgo a la derecha / izquierda ???? Como se lee? Al revs de lo que se ve

Si la muestra esta bien tomada, se puede ampliar al total de la poblacin. Cuando se considera una muestra bien representativa? Cuando cada elemento ha tenido igual posibilidad de ser elegido. Analisis exploratorio de datos -> patrones. Hay que conocer a los clientes CRM

Clase 2 Resumen numrico de los datos: Medidas de tendencia central: moda, media aritmtica, media geomtrica, mediana. Medidas de dispersin: desviacin estndar, varianza, coeficiente de variacin, rango y rango intercuartil.

La media vale cuando es representativa y cuando no hay mucha dispersin. La media aplica para una poblacin o para una muestra. El corazn de la informacin, es la dispersin (la desviacin estndar marca la dispersin). Edad = media +- algo -> suma (algo) =0 (propiedad) Media geomtrica. Cuando quiero ver la variacin de los valores de una variable a lo largo del tiempo. Ejm: inflacin mensual. Calculo de inflacin mensual (ejm: pag 55). La mediana depende del nmero de datos. Si hay frecuencia en los datos, va en la formula. Si en la 1ra fila la media es 30, y en la 2da fila del saln es de 32 no es tan simple de 30+32, se debera considerar cuantos hay en la 1ra fila y en la 2da (frecuencia -> ponderacin). La mediana es el valor debajo del cual hay 50% de datos (por encima esta el otro 50%). La mediana no esta necesariamente en el centro. Ejm: las notas van de 0 a 20. Si el 50% saco mas de 18, la mediana es 18. Varianza: 1ro se calcula la media Dice si hay mucha o poca dispersin respecto de la media. Si es 0, no hay dispersion. A mayor varianza, mayor dispersin. La desviacin estndar indica la dispersin sobre la media. A mayor desviacin estndar, mayor dispersin. El coeficiente de variacin tambin marca dispersin, en terminos de la media, en %. Se usa para comparar dispersiones. Ejm: si quiero comparar donde son mas dispersos los sueldos, si en peru o en usa, tengo que sacar los coeficientes de variacin en peru y en usa, y comparar. El que tenga mayor coeficiente, tendr mas dispersin. En un conjunto de datos, si el coeficiente de variacin es > 10%, hay alta dispersin. Datos normales. Chebyshev. Datos estndares. Percentiles Relacion entre variables Diagrama de dispersin. Relacin entre sueldo y gasto > relacin lineal. Se tiene que hallar el ndice de correlacion de Pearson. -1 <= R >= 1, mientras mas cerca al 1, mayor relacin (medidas de correlacion para numericas u ordinales y medidas de asociacin si son nominales). Relacin lineal que podra existir entre variables: modelo de regresin lineal.

Clase 3 Regresin lineal simple. Se trata de ver pruebas. Cuando buscamos relaciones con las variables (se puede jugar con varias variables) -> regresin lineal simple. En el curso se vera de 2 variables. Ejm: relacin entre peso y altura. Existe alguna relacin lineal entre la edad X y el sueldo Y? Para responder: 1. Grafico de dispersin (ejm: pag 84). El grafico dira si estn mas o menos alineados. Para ver que tan fuerte es la relacion, se calcula el ndice de correlacin lineal 2. Indice de correlacin lineal. El R se calcula en base a la data. -1<= R >= 1 (pag 84). El R es bueno, depende de lo que se quiera hacer. 3. Existe alguna recta que ajuste a los puntos? (que este cerca a los puntos). Para encontrar esa recta de mejor ajuste, se usa el mtodo de mnimos cuadrados. Ejm: y = 500 + 7X (x edad , y sueldo). Con esta recta puedo predecir cosas. X es variable independiente. EL coeficiente del X, significa la variacin del Y cuando X aumente una unidad (en el ejemplo, por cada ao el sueldo aumenta 7 unidades).

Series de tiempo. Valores de una variable recogidos a lo largo del tiempo. Ejm: precio del dlar en el tiempo T. Variable Xt. Ejm: en los 30 dias de junio. Ejm: pag 104 Los valores se pueden escribir en funcin de tendencia, estacionalidad y parte aleatoria. Ejm: de un sismgrafo, solo hay parte aleatorio. Ejm: en la venta de helados si hay estacionalidad. Nos va a interesar analizar la tendencia ahora. Ejm: precio del dlar. Puedo predecir que va a pasar maana. Ejm: Y=2.50 + 0.4t (para t 31, el precio tendr otro valor). Hay varias formas de aproximar tendencia. Mtodo de promedios mviles. Ejm (pag 110-11). Es un mtodo de suavizacin. Va a ser una nueva serie, suavizando la serie. Haremos promedio mviles de orden 3: 3 valores, de 3 en 3. Puedo usar de orden 1,2. Depende de mi. En el ejm de la pag 110-111, si es orden 1 el grafico ser el mismo, si es de 6, ser un solo punto (una lnea).

Clase 4 Probabilidad: medir la posibilidad que ocurra un hecho (eventos). Ejm: probabilidad que gane argentina. Va entre 0-100%. Ejm: argentina le gana a bolivia. 90%, en base a un histrico. No siempre es asi, puedo ser subjetivo (probabilidad frecuencial (histrico) vs probabilidad subjetiva). Si digo tu reloj esta funcionando, es casi un hecho, no doy informacin. Informacin tiene que ver con probabilidades. Experimento aleatorio: Ejm1: lanzamiento de la moneda, entrar a un negocio (no sabes que va a pasar). El espacio muestral son los resultados del experimento (experiencia): {xito, fracaso, 0}. Ejm 2: elegir una persona para conocer su sueldo. El espacio muestral de 0 a . Ejm 3: ofrecer un producto 5 veces para venta. Espacio muestral: 0,1,2,3,4 5 Del ejm1: cualquier subconjunto es un evento. Evento: cualquier subconjunto del espacio muestral. Espacio muestral de 1 {E}, {F}, {E,F}, . Espacio muestral de 2: cualquier partecita es un evento. Que posibilidad hay que se realice el evento? -> Probilidad P({E}) = 0.7 , P({F})= 0.3, P(E,F) =1, P() = 0 Del ejercicio del ppt # 8: P(TV) = 320 / 800 = 0.4 P(telf) = 280 / 800 = 0.35 P(telf. Y TV) = 200 / 800 P(A B) = 0.25 P(telf o TV) = 280/800+320/800-200/800 propiedad: P(A U B) = P(A) + P(B) P(A B) = 0.8 Probabilidad condicional P(fumar) = P(A) = 0.4 P(fuma sabiendo q es mujer)= P(A|B) = 0.5 P(A)= 0.4 P(A|B) = 0.5 -> este es condicional (ac ser mujer incrementa la posibilidad) P(xito) = 0.8 P(xito | mujer) = 0.8 (eventos independientes porque aca el xito es igual para hombre y mujer). Ejm: Lanzar dado 1ra vez, es independiente del resultado de la 2da vez La probabilidad condicional se calcula : P(A|B) = P(AB) / P(B) Si A y B son independientes -> P(A|B) = P(A) Si A y B son independientes -> P(AB) = P(A)*P(B)

Del ejercicio del ppt # 12: P(D) = 280 / 500 P(TV) = 190 / 500 P(D y TV) = 150 / 500 P(D | TV) = P (D TV) / P (TV) = (150/500) / (190/500) = 150/190 (otra forma, veo solo tv) D y TV sin independientes? P(D | TV) =! P(D) -> No son independientes
Formatted: English (U.S.)

Formatted: English (U.S.)

Del ejercicio ppt # 13: C: consumidor - NC: no consumido

P (+) =0.98*0.02 + 0.98*0.02 P(C) =? Teorema de Bayes Se calcula probabilidades agregando informacin que se tiene. P(pasar curso): ? -> tomar decisiones. Siempre es en base con el conocimiento que tienes. A priori: 0.9 -> En base a experiencia P() = -> Posteriori =? ( te calcula esta probabilidad) Variables aleatorias Espacio aleatorio -> X variable aleatorio: Ejm: # ventas de un vendedor al ofrecer un producto 5 veces al dia. Valores: 0,1,2,3,4,5 Cual es el patrn de X? -> Distribucin de X (cual valor se da con mayor o menos posibilidad) P(x=0), P(x=1), P(x=2), P(x=3), P(x=4), P(x=5)

Si siempre vende algo P(x=0) = 0. Si en un 80% vende 4 P(x=4) = 0.8 (siempre suma 1) Eso es modelo empirico (en base a experiencia), pero tambin esta el modelo terico. Modelo teorico P(x=k) = formula en ppt 25 (binomial es un modelo terico) El binomial, sirve para este ejemplo. Que probabilidad que venda 1, reemplazo k=1 en la formula. Ac sirve, porque quiero saber cuantas veces sali favorecido en 5 veces. El modelo binomial en los parmetros n y p, proporciona el patrn de los valores de una variable que cuenta el numero de xitos en n ensayos (en este ejemplo n=5) Se escribe: X ~B(n,p). Si n=5, y p=0.2 usando Excel (este es el ejemplo). P(x=0) = 0.32768 (ver Excel modelo binomial.xls).

El que tiene mas peso, es para X=1 (el 1 tiene mayor probabilidad de aparecer) Esperanza de X, E(X) = n*p = 5*0.2 = 1 (es el valor esperado de una variable). Este es el punto de equilibrio. Varianza x, V(X) = n*p*q = 5*0.2*0.8 = 0.8 (q complemeto de p?) Desv Estandar: es la raz de 0.8 Para calcular P(X<=3) = P(x=0) + (P(x=1) + P(x=2) + P(x=3) = 0.99

Ejercicio en clase (resuelto en Excel modelo binomial.xls) Una prueba consta de 10 preguntas, verdadero (V) y falso (F), , la probabilidad de que un alumno conteste bien cada pregunta es 0.4 Hallar: a) La probabilidad de que se desaprueba el examen b) La probabilidad de que obtenga 20 c) La probabilidad que obtenga entre 10 y 16 (incluidos) X= # respuestas correctas de las 10 planteadas X~B(n=10, p=0.4) a) P(X<=5) = 0.83. 83% sale desaprobado.

b) P(X=10) = 0.0001. Hay poca posibilidad que alguien saque 20 c) P(5<=x<=8)= P(x=5) + P(x=6) + P(x=7) + P(x=8) = 0.365 E(X) = n*p = 10*0.4 = 4. En promedio contestan 4 correctamente (a la larga) Asignacin de probabilidades: Clasico de Laplace. Ejm: dado. 1-2-3-4-5-6 . P(par) = 3/6, la probabilidad que salga par es . Esto siempre y cuando la moneda este equilibrada. P(xito en estudios). Si tengo el sgte dato: de 800, antes pasaron 700. La probabilidad es 7/8. Clase 5 Variable aleatoria. 2 tipos Discretas (cuentan algo). Continuas (miden algo)

Interesa estudiar los patrones de los valores de la variable. Equivale a conocer P(x=k) para todos los valores de k / patrn = distribucin

Para las variables discretas se usan para describirlas (se puede hacer diagrama de baston) a) b) Modelos empricos Modelos tericos: (depende de la situacin para usar uno o el otro) Binomial -> se usa para contar xitos en n realizaciones Poisson -> se usa para contar ejemplo numero de accidentes en una interseccin de 2 calles entre 8am y 10am, ejm numero de gente q entro al banco entre 8am y 10am -> cuenta el numero de eventos que sucedi en un intervalo Geomtrica -> ejm: estudiar el numero de repeticiones hasta tener xito.

Para las variables continuas (se hacen histogramas primero) Ejm: sueldo, retorno de una inversin, tiempo que un cliente pasa en el banco, ventas mensuales, participacin mercado, etc. Para estudiar la variable: 1. 2. 3. 4. Recoger la data x1, x2, .. xn Construir el histograma Suavizo el histograma (se le llamar: funcin de densidad emprica) Comparar las funciones de densidad emprica con las que corresponde a modelos tericos

Algunos modelos tericos: a) Distribucion normal (campana de gauss) pg 183 -> se estudiar en el curso b) Exponencial pag 183

c) d) e) f)

Uniforme pag 183 Chi cuadrad pag 183 T-student pag 183 Log normal

Distribucion normal pg 185 A partir de la curva, se puede calcular probabilidades pg 185

Ejercicio: distribucin normal.xls Se ha determinado que el retorno R de una inversin se puede ajustar a una distribucin normal de media u= 100 dolares y desv estndar = 10 dolares *** Esos datos (100 y 10) es una informacin que se obtuvo de la informacin recogida). El 100 se lee que de toda la informacin que se tuvo, en su mayora de veces (media) se tiene como retorno de inversion 100. En este problema, la desviacin estandar mide el riesgo. A mayor desviacin, mayor riesgo. Por lo tanto, el u mide el retorno a la larga y la desv mide el riesgo. Como le decimos que es una normal, en el 68% de las veces, el retorno estar entre 90 y 110. Con este modelo, nunca pierdo. Por eso es importante elegir bien el modelo teorico. a) Hallar el % de veces donde el retorno es menor que 95. X = retorno. Se pide P( X <=95) -> tengo que hallar una rea, esa rea ser la probabilidad. En Excel X=95. El rea calculado es todo lo de la izquierda. Es acumulado siempre (verdadero). Obervacion. En continuas P(X<=95) = P(X<95) Rpta: 30% (distribucin normal.xls)

b) Hallar el porcentaje de retorno que esta entre 90 y 110. P(X<110) P(X<90) -> Rpta: 68.26 % c) En una empresa los empleados hacen una tarea cuyo tiempo promedio de ejecucin es 15 minutos y con desv estndar 2 minuto. Se ajust el modelo normal. Se desea dar un premio

aproximadamente al 5% a los mas, de los empleados mas eficientes. Indique la regla para dar el premio (cual es el criterio). Rpta: 11.7, se les da el premio a los que lo hacen en menos tiempo de 11.7

Busque que el resultad salga lo que quera (manualmente hall el 11.71) Otra forma: funcin INVERSA NORMAL (Excel)

Entonces, dada el ABSCICA para hallar el area -> DIST NOM dada el AREA (prob) para hallar el asbcisa -> INVERSA NORMAL

*** En la distrib normal estndar, la media es 0 y la desv vale 1. X~N(0,1). Se usa Z Ejercicio: Tiempo de atencin a clientes. Ppt 30 - distribucin normal.xls X = tiempo en minutos en realizar trmites u=12, varianza = 9, desv = 3 se escribe asi -> X~N(12,9) (media, VARIANZA) 1. % de clientes que duran en el servicio mas de 14 min P(X>14) = 0.25 (25%) 2. % de clientes que estn insatisfechos cuando la varianza es 4 (no 9 como dice el ppt) X~N(12,4), desv =2 P(X>14) = 16% (bajan los insatisfechos, lo cual es lgico xq bajo el desviacin estndar, entonces la calidad del servicio es mejor). 3. Las causas inherentes son las que se pueden corregir. Piden que de 25% pase a 12.5% (50%). Hallar valor de la varianza para que los insatisfechos pasen de 25% a 12.5% P(X>14) = 0.125 P(X<=14) = 0.875

La desviacin estndar debera ser 1.74 (calculado tanteando con desv estndar). La varianza seria 3.02 Estandarizacin: una gaus es achatada cuando tiene datos muy dispersos. Si queremos que sea puntiaguada (convertirlo en Z, que tiene u=0 y desv 1) -> se estandariza. Es una formula. Tambin se puede hacer con Excel. Valor en riesgo (VaR) usando la normal .. averiguar que es

Estimacin de parmetros parmetro. Ejm: la media, la proporcin. Se trata de estimar!!! 1. Normalmente no se conocen. Ejm: la media de los sueldos en lima. Ejm: proporcin que leen el comercio. 2. Como la podemos conocer: mediante censos, por muestreo. Censo es averiguar en toda la poblacin: es caro, toma tiempo. Generalmente se recurre a muestras aleatorias (muestra representativa). Con lo que encuentre en la muestra, estimar mi parmetro. Por muestreo se estimar el parmetro. Estimacion por muestreo de la media u. Ejm: media sueldos en lima 1. Puntualmente. ConDoy un solo valor. Ejm: 1000. Tomo muestra de tamao n Calculo la media muestral u Esa media muestral es el estimador de u (u es poblacional) Ejm. parmetro importante es la proporcin. Ejm: que proporcin (p) llega tarde. Tomo muestra de tamao n Calculo la proporcin muestral Esa proporcin es el estimador puntual de p, con esa estimo para todos (p es poblacional)

Formatted: Indent: Left: 0.5", No bullets or numbering

Formatted: Indent: Left: 0.5", No bullets or numbering

Ejm. Otro parmetro es la desviacin estndar Tomo muestra tamaa n Calcular s= formula Ese es el estimador ( es poblacional) Entonces: Media u X (estimacin puntual) Proporcin p p (estimacin puntual) Desv estandar s (estimacin puntal)

Formatted: Default Paragraph Font, Font: (Default) +Body (Calibri), Font color: Auto Formatted: Indent: Left: 0.5", No bullets or numbering

Formatted: Default Paragraph Font, Font: (Default) +Body (Calibri), Font color: Auto

2. Por intervalos de confianza. Cuando tenga un rango de valores. Si se da un rango de valores (un intervalo) que con cierta probabilidad contiene al parmetro. 2. Ejm: la media de sueldos esta entre 3000 y 5000 con probabilidad x La media de los sueldos esta en [A,B] con probabilidad 0.95 (el 0.95 es el nivel de confianza). Ejm: Si se dice que el promedio de los sueldos en lima esta entre 500 y 2000 con nivel de conf 0.95 -> En la mitad del intervalo (1250) se le conoce como margen de error. La verdadera media puede estar en otro lado. Mientras la verdadera media este mas lejos del margen de error, mas grande ser el error.El margen de error es la longitud del semi intervalo. Se puede escribir 1250 +- margen de error. Al 95% Ejm: el intervalo de confianza al nivel 95% para la media de los sueldos en lima es (3000,5000) -> la verdadera media esta entre 3000 y 5000, pero con 95% de certeza. En la mitad esta 3500. Se escribe 3500 +- 1500; la mita de rango se llama margen de error. En este ejemplo 1500 es el margen de error. 3500 es la media muestral. Pero la verdadera media ser otro valor cerca -> el mximo error que se comente al estimar u (media poblacional) con x (media muestral). El margen de error tendr la misma unidad de la media (en el ejemplo de los sueldos, ser los nuevos soles).

Formatted: Indent: Left: 0.5", No bullets or numbering

Formatted: Centered

Clase 6 Inferencia Estimacin de parmetros Pruebas de hiptesis

Formatted: Font: Bold, Underline

Formatted: List Paragraph, Bulleted + Level: 1 + Aligned at: 0.25" + Indent at: 0.5"

Estimacin de parmetros 2 formas de estimar a) Puntualmente b) Por intervalo de confianza Como hallar un intervalo de confianza para estimar la media de una poblacin normal? Caso 1: desviacin estndar conocida Al 95% (aca el riesgo es 5%) 1. Se saca una muestra n 2. Hallo la media muestral X 3. Intervalo de confianza a 95% ser: [X 1.96*/raz n , X + 1.96*/raz n ] X +- 1.96 /raz n (lo ultimo es margen de error) n es tamao de la muestra *** El 1.96 viene de la Z N(9,1), (normal estndar)

Formatted: Font: Bold Formatted: Font: Bold

Formatted: List Paragraph, Numbered + Level: 1 + Numbering Style: a, b, c, + Start at: 1 + Alignment: Left + Aligned at: 0.25" + Indent at: 0.5" Formatted: Underline Formatted: Font: Bold Formatted: Default Paragraph Font, Font: (Default) +Body (Calibri), Font color: Auto Formatted: List Paragraph, Numbered + Level: 1 + Numbering Style: 1, 2, 3, + Start at: 1 + Alignment: Left + Aligned at: 0.25" + Indent at: 0.5" Formatted: Default Paragraph Font, Font: (Default) +Body (Calibri), Font color: Auto Formatted: Default Paragraph Font, Font: (Default) +Body (Calibri), Font color: Auto Formatted: List Paragraph

Al 99% seria, X +- 2.58 /raz n (pag 449 estan los valores que se toman) Para que el intervalo sea mas precioso, el intervalo debera ser menor. Precision: quiere decir pequeo. Pero tengo mas posibilidades de equivocarme. El del 95% es mas preciso. En el de 99% hay menos probabilides que me equivoque, pero menos precisin. Para aumentar precisin -> aumentar tamao de muestra. La heterogeneidad y la homegeneidad se mide con la desv estndar . Cuanto mas grande sea la varianza, mas grande ser el margen de error. Cuando hay mucha heteregeonidad es muy alta(ejm sueldos en lima) -> tcnicas de muestreo: estratos , encuestas en cada estrato, y luego se hace esto en cada estrato y se junta. Caso 2: desv estndar no conocida
Formatted: Font: Bold

Al 95% (aca el riesgo es 5%) 1. Se saca una muestra n 2. Hallo la media muestral X 3. Intervalo de confianza a 95% ser: [X ? *s/raz n , X + ?*s/raz n ] La normal se parece a la t-student. El valor de t reemplaza al ?

Formatted: English (U.S.) Formatted: Indent: Left: 0.5", No bullets or numbering

Lo halla el excel

Ejercicio ppt 17 (estimacin .xls) Poblacin: clientes del banco Parmetros no conocidos: u: media de los ahorros p: % de personas que tienen tarjeta

Formatted: Font: Bold

Formatted: List Paragraph, Bulleted + Level: 1 + Aligned at: 0.25" + Indent at: 0.5"

Muestra n= 81 x (media muestral) estima puntualmente u= 248.51. Puntual. No se que error estoy cometiendo, porque estoy haciendo puntualmente. Con esto estimamos u (media de ahorros) p (1 tiene tarjeta, 0 no tiene): 14% tambin es estimados puntal a) Encuentra el intervalo de confianza para la media u de lo que ahorran todos los clientes del banco al 95% No se conoce desv estndar. Entonces, X - ? /raz n , x + ? /raz n X = 248.51 S = desv estndar = 17.73 N= 81
Formatted: List Paragraph, Numbered + Level: 1 + Numbering Style: a, b, c, + Start at: 1 + Alignment: Left + Aligned at: 0.25" + Indent at: 0.5" Formatted: List Paragraph, Bulleted + Level: 1 + Aligned at: 0.5" + Indent at: 0.75" Formatted: List Paragraph

X 1.99 /raz n , x + 1.99 /raz n

Formatted: List Paragraph

b) Intervalo de confianza para p Al 95% P +- 1.96 raiz ( (p(1-p) /n ) (aca es pura normal) c) Encuentre el porcentaje de confianza del porcentaje de personas que tiene tarjeta, al 95% P - 1.96 raiz ( (p(1-p) /n ) , P + 1.96 raiz ( (p(1-p) /n ) Aca p es porcentaje 0.1481 +- 0.0773

Formatted: List Paragraph, Numbered + Level: 1 + Numbering Style: a, b, c, + Start at: 1 + Alignment: Left + Aligned at: 0.25" + Indent at: 0.5" Formatted: List Paragraph Formatted: List Paragraph, Numbered + Level: 1 + Numbering Style: a, b, c, + Start at: 1 + Alignment: Left + Aligned at: 0.25" + Indent at: 0.5" Formatted: Indent: Left: 0.5", No bullets or numbering Formatted: List Paragraph

???? Hay un excel que simplifica todo esto estimacion resumen1.xls Pruebas de hiptesis Hipotesis: cualquier conjetura respecto de un parmetro. Ejm: puede ser respecto a la media (edad) uds en promedio tienen mas de 40 aos, u >=40. Puede aparecer otra hiptesis u<40. La u >=40 ser hiptesis nula (Ho). La otra (la que se superpuso) es la hiptesis alternativa, la u<40 (Ha). Ejm: x = salario Ho u <= 2000 , Ha u>2000 En la nula va la igualdad siempre. >= <=. En la alternativa debera ser lo que se sospecha que va a pasar, o lo que se quiere validar. Lo que debe ser va en la alternativa. El salario debe ser mas de 2000 por eso la pongo como alternativa. Ejm: X cantidad de medicamento ABC en pastillas que hace el laboratior farmax. Si la pastilla dice 5mg. En promedio tiene 5mg. Eso dice el lab. Si algo anda mal, suponemos que debera ser diferente a 5. U =! 5 Como probar una hiptesis? Procedimiento: prueba de hiptesis Caso 1: desviacin estndar conocida 1. 2. 3. 4. Tomar una muestra de tamao n Calcular media muestral x Comparar lo hallado en la muesra vs Ho (hiptesis nula) comparar con el estadisitca de prueba Z= X 40 (lo que dice Ho) / ( /raz n )
Formatted: Font: Bold Formatted: Font: Bold Formatted: Numbered + Level: 1 + Numbering Style: 1, 2, 3, + Start at: 1 + Alignment: Left + Aligned at: 0.25" + Indent at: 0.5" Formatted: Spanish (Mexico) Formatted: Indent: Left: 0.5", No bullets or numbering Formatted: Font: Bold Formatted: Font: Bold Formatted: Normal, Indent: Left: 0" Formatted: Normal Formatted: Font: Bold Formatted: Font: Bold

5. Si el valor de comparacin es significativamente grande pero negativo , se rechaza Ho y aceptar Ha. De otro modo, no rechazar (que no significa aceptar). grande negativamente -> vamos a la normal estndar Z (N (0,1)) Si cae en la cola izquierda (zona de rechazo) -> rechazo Ho y me quedo con Ha

Formatted: Numbered + Level: 1 + Numbering Style: 1, 2, 3, + Start at: 1 + Alignment: Left + Aligned at: 0.25" + Indent at: 0.5" Formatted: Indent: Left: 0.5"

Con el nivel de significacin (pequeo que generalmente es 0.05 o 0.01). La zona de rechazo se calcula el dado (Excel).

Formatted: Font: Bold Formatted: Default Paragraph Font, Font: (Default) +Body (Calibri), Font color: Auto Formatted: Indent: Left: 0.49"

Decisin: Si el valor del estadstico de prueba cae en la zona de rechazo: rechazar Ho y aceptar Ha, de otro modo NO aceptar Ho Ejm: El gerente de una empresa indica que los obreros hacen una tarea en un promedio de por lo menos 15 minutos. Para probar esto, el sindicato tomo una muestra de 16 tareas y hallo que en promedio se hacia en 12 minutos. Use un nivel de significacin de 0.05 para probar lo dicho por el gerente suponiendo que desv est de todos los tiempo es 2 minutos Poblacin: tareas o o o o o o X = tiempo de realizacin de la tarea U= promedio de X. No se conoce Desv est = 2 = 0.05 Ho u >= 15 (del gerente) u0 Ha u < 15 (del sindicato) 1. n=16 2. X (media muestral) = 12 3. Comparar con estadstico de prueba Z = x u0 / (/raz n) = 12-15 / (2 /raz 16) = -6 Usando normal estndar inversa (INV.NORM.ESTAND).

Formatted: Default Paragraph Font, Font: (Default) +Body (Calibri), Font color: Auto

Formatted: List Paragraph, Bulleted + Level: 1 + Aligned at: 0.5" + Indent at: 0.75"

Formatted: List Paragraph, Indent: Left: 0.75" Formatted: List Paragraph, Numbered + Level: 1 + Numbering Style: 1, 2, 3, + Start at: 1 + Alignment: Left + Aligned at: 0.75" + Indent at: 1" Formatted: List Paragraph, Indent: Left: 1"

La zona de rechazo esta a la izquierda, antes del -1.645 Como el valor del estadstico de prueba cae en la zona de rechazo (es -6), se rechaza Ho (del gerente). Se acepta la hiptesis del sindicato.

Me puedo equivocar pero en 5% (nivel de significacin). El nivel de significacin es el riesgo (la probabilidad) de equivocarse al rechazar la hiptesis nula siendo esta verdadera.

Ejercicios sobre estimacin 1. Es intervalos de confianza Resuelto en hojas

Formatted: Indent: Left: 0.49"

Vous aimerez peut-être aussi