Vous êtes sur la page 1sur 75

ndice Contenido Pg.

INTRODUCCIN ........................................................................................................................ 4 OBJETIVOS ............................................................................................................................... 5

PRINCIPALES MEDIDAS DE VALOR CENTRAL .............................................................................. 6 1. Estadstica Descriptiva ....................................................................................................... 7

2. Medidas de tendencia central ............................................................................................... 7 3. Medidas de dispersin ...................................................................................................... 8

4. Ejercicios ............................................................................................................................ 11 4.1. Ejercicio 1 ............................................................................................................................... 11 4.2. Ejercicio 2 ............................................................................................................................... 14 Clculo de la Moda y mediana .................................................................................................. 14 4.3. Ejercicio 3 ............................................................................................................................... 15 4.4. Ejercicio 4 ............................................................................................................................... 16 4.5 Ejercicio 5 ................................................................................................................................ 17 Conclusiones .......................................................................................................................... 19 Recomendaciones .................................................................................................................. 19

MEDIDAS DE POSICIN Y VARIABILIDAD ................................................................................. 20 Medidas de posicin ............................................................................................................... 21 CUANTILES ..................................................................................................................................... 22 CUARTILES ..................................................................................................................................... 22 DECILES .......................................................................................................................................... 25 CENTILES O PERCENTILES .............................................................................................................. 27 Ejemplo de clculo de medidas de posicin. ............................................................................ 28 Medidas de Variabilidad ......................................................................................................... 30 Rango estadstico .......................................................................................................................... 30 Medio rango .................................................................................................................................. 31 Varianza ......................................................................................................................................... 31 1

Desviacin tpica............................................................................................................................ 32 Covarianza ..................................................................................................................................... 32 Coeficiente de Correlacin de Pearson ......................................................................................... 33

DISTRIBUCIONES DE PROBABILIDAD........................................................................................ 35 Distribucin de probabilidad ................................................................................................... 36 Definicin de funcin de distribucin ...................................................................................... 36 Distribuciones de variable discreta .......................................................................................... 37 Distribuciones de variable discreta ms importantes ................................................................... 37 Distribucin binomial ................................................................................................................ 38 Distribucin de Poisson ............................................................................................................. 40 Distribucin geomtrica ............................................................................................................ 43 Distribucin hipergeomtrica ................................................................................................... 45 Distribucin de Bernoulli ........................................................................................................... 46 Distribuciones de variable contina ........................................................................................ 49 Distribuciones de variable continua ms importantes ................................................................. 49 Distribucin ........................................................................................................................... 50 Distribucin exponencial ........................................................................................................... 51 Distribucin t de Student .......................................................................................................... 52 Distribucin normal ................................................................................................................... 55

TCNICAS DE MUESTREO ALEATORIO ...................................................................................... 58 Muestreo en estadstica.......................................................................................................... 59 Tcnicas de muestreo ................................................................................................................... 59 Muestreo probabilstico ................................................................................................................ 59 Sin reposicin de los elementos ................................................................................................ 59 Con reposicin de los elementos .............................................................................................. 60 Con reposicin mltiple ............................................................................................................ 60 Muestreo estratificado.................................................................................................................. 60 Asignacin proporcional............................................................................................................ 60 Asignacin ptima ..................................................................................................................... 60 2

Muestreo sistemtico ................................................................................................................... 60 Muestreo por estadios mltiples .............................................................................................. 61 Muestreo por conglomerados................................................................................................... 61 Homogeneidad de las poblaciones o sus subgrupos ................................................................ 62 Muestreo de juicio ........................................................................................................................ 62 Muestreo por cuotas ................................................................................................................. 62 Muestreo de bola de nieve ....................................................................................................... 63 Muestreo subjetivo por decisin razonada............................................................................... 63 Ejemplos de clculo de Muestreo. ........................................................................................... 63

GLOSARIO TCNICO ................................................................................................................ 67 BIBLIOGRAFA......................................................................................................................... 75

INTRODUCCIN
En este documento se presenta una compilacin de los contenidos estudiados en la ctedra de Estadstica, abarcando las Principales Medidas de Tendencia Central, Medidas de Posicin y Variabilidad, Principales Distribuciones de Probabilidad, y Tcnicas de Muestreo. La estadstica generalmente es definida como la rama de las matemticas que se ocupa de reunir, organizar y analizar datos numricos y as mismo que ayuda a resolver problemas como el diseo de experimentos y la toma de decisiones. En estadstica descriptiva, las medidas de posicin no central permiten conocer otros puntos caractersticos de la distribucin que no son los valores centrales. Entre las medidas de posicin no central ms importantes estn los cuantiles. En estadstica se conoce como muestreo a la tcnica para la seleccin de una muestra a partir de una poblacin. Al elegir una muestra se espera conseguir que sus propiedades sean extrapolables a la poblacin. Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzaran si se realizase un estudio de toda la poblacin. Todos estos contenidos son de gran utilidad y se presentan como una herramienta utilizada por las dems ramas de la ciencia, para la obtencin de datos, en sus diversos estudios, como una forma de medir, cuantificar, predecir y estimar valores que nos den una visin mas segura de la realidad.

OBJETIVOS
Conocer los conceptos y teora acerca de las Principales Medidas de Tendencia Central, Medidas de Posicin y Variabilidad, Principales Distribuciones de Probabilidad, y Tcnicas de Muestreo.

Especficos - Estudiar las principales medidas de tendencia central y desarrollar habilidades en el clculo mediante ejercicios numricos. - Investigar las medidas de posicin y de variabilidad, desarrollando ejercicios numricos en la resolucin de problemas. - Conocer las principales distribuciones de probabilidad y su utilidad en el clculo probabilstico de eventos, y su importancia en la estadstica. - Presentar las Tcnicas de Muestro aleatorio, conocer las ventajas de su uso en el estudio de un fenmeno, en estadstica.

PRINCIPALES MEDIDAS DE VALOR CENTRAL

1. Estadstica Descriptiva
La estadstica est relacionada con el estudio de procesos cuyo resultado no es predecible y tambin con la forma de obtener conclusiones que capaciten para la toma de decisiones razonables de acuerdo con tales observaciones. El resultado del estudio de dichos procesos, denominados procesos aleatorios, puede ser de naturaleza cualitativa o cuantitativa y, en este ltimo caso, discreta o continua.

2. Medidas de tendencia central


Las medidas de centralizacin vienen a responder a la primera pregunta. La medida ms evidente que podemos calcular para describir un conjunto de observaciones numricas es su valor medio. La media no es ms que la suma de todos los valores de una variable dividida entre el nmero total de datos de los que se dispone. Como ejemplo, consideremos 10 pacientes de edades 21 aos, 32, 15, 59, 60, 61, 64, 60, 71, y 80. La media de edad de estos sujetos ser de:

Ms formalmente, si denotamos por (X1, X2,...,Xn) los n datos que tenemos recogidos de la variable en cuestin, el valor medio vendr dado por: Otra medida de tendencia central que se utiliza habitualmente es la mediana. Es la observacin equidistante de los extremos. La mediana del ejemplo anterior sera el valor que deja a la mitad de los datos por encima de dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia: 15, 21, 32, 59, 60, 60,61, 64, 71, 80.

Como quiera que en este ejemplo el nmero de observaciones Sx2=

es par (10

individuos), los dos valores que se encuentran en el medio son 60 y 60. Si realizamos el clculo de la media de estos dos valores nos dar a su vez

60, que es el valor de la mediana. Si la media y la mediana son iguales, la distribucin de la variable es simtrica. La media es muy sensible a la variacin de las puntuaciones. Sin embargo, la mediana es menos sensible a dichos cambios. Por ltimo, otra medida de tendencia central, no tan usual como las anteriores, es la moda, siendo ste el valor de la variable que presenta una mayor frecuencia. En el ejemplo anterior el valor que ms se repite es 60, que es la moda

3. Medidas de dispersin
Tal y como se adelantaba antes, otro aspecto a tener en cuenta al describir datos continuos es la dispersin de los mismos. Existen distintas formas de cuantificar esa variabilidad. De todas ellas, la varianza (S2) de los datos es la ms utilizada. Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmtica de la distribucin.

Esta varianza muestral se obtiene como la suma de las de las diferencias de

cuadrados y por tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada. En el ejemplo anterior la varianza sera:
8

La desviacin tpica (S) es la raz cuadrada de la varianza. Expresa la dispersin de la distribucin y se expresa en las mismas unidades de medida de la variable. La desviacin tpica es la medida de dispersin ms utilizada en estadstica.

Aunque esta frmula de la desviacin tpica muestral es correcta, en la prctica, la estadstica nos interesa para realizar inferencias poblacionales, por lo que en el denominador se utiliza, en lugar de n, el valor n-1. Por tanto, la medida que se utiliza es la cuasi desviacin tpica, dada por:

Aunque en muchos contextos se utiliza el trmino de desviacin tpica para referirse a ambas expresiones. En los clculos del ejercicio previo, la desviacin tpica muestral, que tiene como denominador n, el valor sera 20.678. A efectos de clculo lo haremos como n-1 y el resultado seria 21,79. El haber cambiado el denominador de n por n-1 est en relacin al hecho de que esta segunda frmula es una estimacin ms precisa de la desviacin estndar verdadera de la poblacin y posee las propiedades que necesitamos para realizar inferencias a la poblacin. Cuando se quieren sealar valores extremos en una distribucin de datos, se suele utilizar la amplitud como medida de dispersin. La amplitud es la diferencia entre el valor mayor y el menor de la distribucin. Por ejemplo, utilizando los datos del ejemplo previo tendremos 80-15 =65.
9

Como medidas de variabilidad ms importantes, conviene destacar algunas caractersticas de la varianza y desviacin tpica:

Son ndices que describen la variabilidad o dispersin y por tanto cuando los datos estn muy alejados de la media, el numerador de sus frmulas ser grande y la varianza y la desviacin tpica lo sern.

Al aumentar el tamao de la muestra, disminuye la varianza y la desviacin tpica. Para reducir a la mitad la desviacin tpica, la muestra se tiene que multiplicar por 4.

Cuando todos los datos de la distribucin son iguales, la varianza y la desviacin tpica son iguales a 0.

Para su clculo se utilizan todos los datos de la distribucin; por tanto, cualquier cambio de valor ser detectado.

Otra medida que se suele utilizar es el coeficiente de variacin (CV). Es una medida de dispersin relativa de los datos y se calcula dividiendo la desviacin tpica muestral por la media y multiplicando el cociente por 100. Su utilidad estriba en que nos permite comparar la dispersin o variabilidad de dos o ms grupos. As, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de 69,6 kg. y su desviacin tpica (s) = 10,44 y la TAS de los mismos (150, 170, 135, 180 y 195 mmHg) cuya media es de 166 mmHg y su desviacin tpica de 21,3. La pregunta sera: qu distribucin es ms dispersa, el peso o la tensin arterial? Si comparamos las desviaciones tpicas observamos que la desviacin tpica de la tensin arterial es mucho mayor; sin embargo, no podemos comparar dos variables que tienen escalas de medidas diferentes, por lo que calculamos los coeficientes de variacin: CV de la variable peso =

CV de la variable TAS =

10

A la vista de los resultados, observamos que la variable peso tiene mayor dispersin. Cuando los datos se distribuyen de forma simtrica (y ya hemos dicho que esto ocurre cuando los valores de su media y mediana estn prximos), se usan para describir esa variable su media y desviacin tpica. En el caso de distribuciones asimtricas, la mediana y la amplitud son medidas ms adecuadas. En este caso, se suelen utilizar adems los cuartiles y percentiles. Los cuartiles y percentiles no son medidas de tendencia central sino medidas de posicin. El percentil es el valor de la variable que indica el porcentaje de una distribucin que es igual o menor a esa cifra. As, por ejemplo, el percentil 80 es el valor de la variable que es igual o deja por debajo de s al 80% del total de las puntuaciones. Los cuartiles son los valores de la variable que dejan por debajo de s el 25%, 50% y el 75% del total de las puntuaciones y as tenemos por tanto el primer cuartil (Q1), el segundo (Q2) y el tercer cuartil (Q3)

4. Ejercicios
4.1. Ejercicio 1
Los miembros de una cooperativa de viviendas tienen las siguientes edades:

42 60 60 38 60 63 21 66 56 57 51 57 44 45 35 30 35 47 53 49 50 49 38 45 28 41 47 42 53 32 54 38 40 63 48 33 35 61 47 41 55 53 27 20 21 42 21 39 39 34 45 39 28 54 33 35 43 48 48 27 53 30 29 53 38 52 54 27 27 43 28 63 41 23 58 56 59 60 40 24

Elabore una tabla de frecuencias.


11

Calcule la media y la desviacin tpica.

SOLUCIN:

Para elaborar una tabla de frecuencias es condicin imprescindible establecer una serie de clases o categoras (intervalos) a las que vamos a adjudicar a cada uno de los ochenta miembros de la cooperativa. El investigador puede seguir diferentes criterios en funcin del objetivo del estudio. Una tabla de frecuencias elaborada a partir de estos datos podra ser la siguiente:

Edad 20-29 30-39 40-49 50-59 60-69 Total Clculo de la media:

n 14 17 22 18 9 80

Puede calcularse directamente sumando las edades de todos los miembros de la cooperativa y dividiendo por el total que en este caso es ochenta, el resultado es una media de 43,29. Tambin:

Edad 20-29 30-39 40-49 50-59 60-69 Total

xi 25 35 45 55 65

ni 14 17 22 18 9 80

xini 350 595 990 990 585 3510

12

, por tanto, podemos decir que la media es de casi 44 aos. Clculo de la desviacin tpica:

Edad 20-29 30-39 40-49 50-59 60-69 Total

xi 25 35 45 55 65

ni 14 17 22 18 9 80 -18,875 -8,875 1,125 11,125 21,125 356,2656 78,7656 1,2656 123,7656 446,2656 4987,71875 1339,01563 27,84375 2227,78125 4016,39063 12598,75

Sx = La desviacin tpica es de 12,5 aos

13

4.2. Ejercicio 2
Clculo de la Moda y mediana

Ejemplo de una variable discreta Se ha preguntado a 40 personas el nmero de personas que forman el hogar familiar obtenindose los siguientes resultados: Nmero de personas en el hogar 2 Frecuencia 4 3 11 4 11 5 6 6 6 7 2

Calcula la media, la mediana, la moda y la desviacin tpica.

Haz el diagrama correspondiente. Tabla Personas x i Frecuencia f i F i 2 3 4 5 6 7 4 11 11 6 6 2 40 4 15 26 32 38 40 xi.fi 8 33 44 30 36 14 165 x i 2. f i 16 99 176 150 216 98 755

14

4.3. Ejercicio 3
Hallar la desviacin media, la varianza y la desviacin tpica de la series de nmeros siguientes: 2, 3, 6, 8, 11. 12, 6, 7, 3, 15, 10, 18, 5. 2, 3, 6, 8, 11. Media

Varianza

15

4.4. Ejercicio 4
Una distribucin tiene x = 140 y = 28.28 y otra x = 150 y = 25. Cul de las dos presenta mayor dispersin?

La primera distribucin presenta mayor dispersin.

Calcular el percentil 35 y 60 de la distribucin de la tabla

fi [50, 60) [60, 70) [70, 80) [80, 90) [90, 100) [100, 110) [110, 120) 8 10 16 14 10 5 2 65

Fi 8 18 34 48 58 63 65

16

Percentil 35

Percentil 60

4.5 Ejercicio 5
1. Calcular los cuartiles las series estadsticas:

3, 5, 2, 7, 6, 4, 9. 3, 5, 2, 7, 6, 4, 9, 1. 10, 13, 4, 7, 8, 11 10, 16, 18, 12, 3, 6, 9, 9, 4, 13, 20, 7, 5, 10, 17, 10, 16, 14, 8, 18

17

26/4 = 6.5 Q 1 = 7 Q 2 = Me = 10 (26 3)/4 = 19.5 Q 3 = 14 2.1 Una distribucin estadstica viene dada por la siguiente tabla: [10, 15) fi 3 [15, 20) 5 [20, 25) 7 [25, 30) 4 [30, 35) 2

Hallar los cuartiles 1 y 3. xi [10, 15) [15, 20) [20, 25) [25, 30) [30, 35) 12.5 17.5 22.5 27.5 32.5 fi 3 5 7 4 2 21 Fi 3 8 15 19 21

18

Conclusiones
Unas de las ventajas es que Resulta ms fcil y rpido trabajar con los datos no agrupados. La media, la mediana, y la moda son estadsticas que dan una indicacin del valor tpico de un conjunto de datos. Se llaman medidas de valor central porque Generalmente la acumulacin ms alta de datos se encuentra en los valores intermedios. Para determinar la moda, se debe considerar todos los datos que tomo, la variable y contar el que se repite una mayor cantidad de veces. La mediana la mitad de los veces tiene menor que el de la mediana y la otra mitad un valor mayor que el de la misma. El promedio solo se puede utilizar con variables de nivel intervalo o de razn.

Recomendaciones
Para facilitar el entendimiento y la interpretacin de un conjunto grande de datos, puedes presentar los valores en una grfica y calcular las medidas numricas, o estadsticas, que resumen los datos. Cuando un conjunto de datos tiene uno o ms valores que se apartan mucho del resto, por lo general la mediana es la mejor medida de lo que es tpico, en lugar de la media. Una buena descripcin de un conjunto de datos incluye una medida de la tendencia central, junto con informacin sobre la forma y la dispersin de los datos.

19

MEDIDAS DE POSICIN Y VARIABILIDAD

20

Medidas de posicin
Las medidas de posicin no central, tambin conocidas como cuantiles , o medidas de posicin. Se trata de valores de la variable estadstica que dejan por debajo de s determinada cantidad de los datos. Son, en definitiva, una generalizacin del concepto de la mediana. Mientras que sta deja por debajo de s al 50% de la distribucin, los cuantiles pueden hacerlo con cualquier otro porcentaje. Se denominan medidas de posicin porque informan, precisamente, de la posicin que ocupa un valor dentro de la distribucin de datos. Tradicionalmente se distingue entre cuartiles, si se divide la cantidad de datos en cuatro partes antes de proceder al clculo de los valores que ocupan cada posicin; deciles, si se divide los datos en diez partes; o percentiles, que dividen la poblacin en cien partes.

En estadstica descriptiva, las medidas de posicin no central permiten conocer otros puntos caractersticos de la distribucin que no son los valores centrales. Entre las medidas de posicin no central ms importantes estn los cuantiles. El trmino cuantil fue usado por primera vez por Kendall en 1940. El cuantil de orden p de una distribucin (con 0 < p < 1) es el valor de la variable xp que marca un corte de modo que una proporcin p de valores de la poblacin es menor o igual que xp. Por ejemplo, el cuantil de orden 0.36 dejara un 36% de valores por debajo y el cuantil de orden 0.50 se corresponde con la mediana de la distribucin. Los cuantiles suelen usarse por grupos que dividen la distribucin en partes iguales; entendidas estas como intervalos que comprenden la misma proporcin de valores. Los ms usados son: Los Cuartiles, que dividen a la distribucin en cuatro partes (corresponden a los cuantiles 0.25, 0.50 y 0.75); Los Quintiles, que dividen a la distribucin en cinco partes (corresponden a los cuantiles 0.20, 0.40, 0.60 y 0.80) ; Los Deciles, que dividen a la distribucin en diez partes; 21

Los Percentiles, que dividen a la distribucin en cien partes. En el clculo de cuantiles con distribuciones de variable continua (por ejemplo, con datos agrupados) puede conseguirse fcilmente que las partes en que se divide la distribucin sean exactamente iguales. Sin embargo, en las distribuciones de variable discreta (como el caso de datos aislados) debemos conformarnos con que estas partes sean aproximadamente iguales. Por desgracia, no hay consenso sobre la forma en que realizar esta aproximacin, existiendo en la literatura cientfica nueve mtodos diferentes, que conducen a resultados diferentes. Por ello, al calcular cualquier cuantil de datos no agrupados por medio de calculadora, software o manualmente, es bsico el saber e indicar el mtodo utilizado. La funcin que a cada p le asigna el punto de corte xp, es decir, el valor del cuantil de orden p, se denomina funcin cuantil.

CUANTILES
Los cuantiles son medidas de posicin que se determinan mediante un mtodo que determina la ubicacin de los valores que dividen un conjunto de observaciones en partes iguales. Los cuantiles son los valores de la distribucin que la dividen en partes iguales, es decir, en intervalos que comprenden el mismo nmero de valores. Cuando la distribucin contiene un nmero alto de intervalos o de marcas y se requiere obtener un promedio de una parte de ella, se puede dividir la distribucin en cuatro, en diez o en cien partes. Los ms usados son los cuartiles, cuando dividen la distribucin en cuatro partes; los deciles, cuando dividen la distribucin en diez partes y los centiles o percentiles, cuando dividen la distribucin en cien partes. Los cuartiles, como los deciles y los percentiles, son en cierta forma una extensin de la mediana. Para algunos valores u , se dan nombres particulares a los cuantiles, Q (u): u 0.5 0.25, 0.75 Q(u) Mediana Cuartiles

0.1, ... , 0.99 Deciles 0.01, ..., 0.99 Centiles

CUARTILES
Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales. 22

Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la sucesin (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos. Datos Agrupados

Como los cuartiles adquieren su mayor importancia cuando contamos un nmero grande de datos y tenemos en cuenta que en estos casos generalmente los datos son resumidos en una tabla de frecuencia. La frmula para el clculo de los cuartiles cuando se trata de datos agrupados es la siguiente: k= 1,2,3 Donde: Lk = Lmite real inferior de la clase del cuartil k n = Nmero de datos Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k. fk = Frecuencia de la clase del cuartil k c = Longitud del intervalo de la clase del cuartil k Si se desea calcular cada cuartil individualmente, mediante otra frmula se tiene lo siguiente: El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los datos; es decir, aquel valor de la variable que supera 25% de las observaciones y es superado por el 75% de las observaciones. Frmula de Q1, para series de Datos agrupados:

Donde: L1 = limite inferior de la clase que lo contiene P = valor que representa la posicin de la medida

23

f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase El segundo cuartil Q2, (coincide, es idntico o similar a la mediana, Q2 = Md), es el menor valor que es mayor que la mitad de los datos, es decir el 50% de las observaciones son mayores que la mediana y el 50% son menores. Frmula de Q2, para series de Datos agrupados:

Donde: L1 = limite inferior de la clase que lo contiene P = valor que representa la posicin de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes de los datos, es decir aquel valor de la variable que supera al 75% y es superado por el 25% de las observaciones. Frmula de Q3, para series de Datos agrupados:

Donde: L1 = limite inferior de la clase que lo contiene P = valor que representa la posicin de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase.

24

Otra manera de verlo es partir de que todas las medidas no son sino casos particulares del percentil, ya que el primer cuartil es el 25% percentil y el tercer cuartil 75% percentil. Para Datos No Agrupados Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes frmulas: - El primer cuartil: Cuando n es par:

Cuando n es impar:

Para el tercer cuartil Cuando n es par:

Cuando n es impar:

DECILES
Los deciles son ciertos nmeros que dividen la sucesin de datos ordenados en diez partes porcentualmente iguales. Son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son tambin un caso particular de los percentiles. Los deciles se denotan D1, D2,..., D9, que se leen primer decil, segundo decil, etc. Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el aprovechamiento acadmico. Datos Agrupados Para datos agrupados los deciles se calculan mediante la frmula.

25

k= 1,2,3,... 9 Donde: Lk = Lmite real inferior de la clase del decil k n = Nmero de datos Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k. fk = Frecuencia de la clase del decil k c = Longitud del intervalo de la clase del decil k Otra frmula para calcular los deciles: El cuarto decil, es aquel valor de la variable que supera al 40%, de las observaciones y es superado por el 60% de las observaciones.

El quinto decil corresponde a la mediana.

El noveno decil supera al 90% y es superado por el 10% restante.

Donde (para todos): L1 = limite inferior de la clase que lo contiene P = valor que representa la posicin de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase. Frmulas Datos No Agrupados 26

Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes frmulas:

Cuando n es par:

Cuando n es impar: Siendo A el nmero del decil.

CENTILES O PERCENTILES
Los percentiles son, tal vez, las medidas ms utilizadas para propsitos de ubicacin o clasificacin de las personas cuando atienden caractersticas tales como peso, estatura, etc. Los percentiles son ciertos nmeros que dividen la sucesin de datos ordenados en cien partes porcentualmente iguales. Estos son los 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Los percentiles (P1, P2,... P99), ledos primer percentil,..., percentil 99. Datos Agrupados Cuando los datos estn agrupados en una tabla de frecuencias, se calculan mediante la frmula:

k= 1,2,3,... 99 Donde: Lk = Lmite real inferior de la clase del decil k n = Nmero de datos Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k. fk = Frecuencia de la clase del decil k c = Longitud del intervalo de la clase del decil k Otra forma para calcular los percentiles es: Primer percentil, que supera al uno por ciento de los valores y es superado por el noventa y nueve por ciento restante.

27

El 60 percentil, es aquel valor de la variable que supera al 60% de las observaciones y es superado por el 40% de las observaciones.

El percentil 99 supera 99% de los datos y es superado a su vez por el 1% restante. Frmulas Datos No Agrupados Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes frmulas: Para los percentiles, cuando n es par:

Cuando n es impar: Siendo A, el nmero del percentil. Es fcil ver que el primer cuartil coincide con el percentil 25; el segundo cuartil con el percentil 50 y el tercer cuartil con el percentil 75.

Ejemplo de clculo de medidas de posicin.


Determinacin del primer cuartil, el sptimo decil y el 30 percentil, de la siguiente tabla: Salarios No. De fa

(I. De Clases) Empleados (f1) 200-299 300-299 400-499 85 90 120 85 175 295 28

500-599 600-699 700-800

70 62 36

365 427 463

Como son datos agrupados, se utiliza la frmula

Siendo,

La posicin del primer cuartil.

La posicin del 7 decil.

La posicin del percentil 30. Entonces,

El primer cuartil: 115.5 85 = 30.75 Li = 300, Ic = 100 , fi = 90

El 7 decil:

Posicin: 324.1 295 = 29.1 29

Li = 500, fi = 70

El percentil 30 Posicin:

138.9 85 = 53.9 fi = 90

Estos resultados nos indican que el 25% de los empleados ganan salarios por debajo de $ 334; que bajo 541.57 gana el 57%de los empleados y sobre $359.88, gana el 70% de los empleados.

Medidas de Variabilidad
Las medidas de dispersin, tambin llamadas medidas de variabilidad, muestran la variabilidad de una distribucin, indicando por medio de un nmero, si las diferentes puntuaciones de una variable estn muy alejadas de la mediana media. Cuanto mayor sea ese valor, mayor ser la variabilidad, cuanto menor sea, ms homognea ser a la mediana media. As se sabe si todos los casos son parecidos o varan mucho entre ellos. Para calcular la variabilidad que una distribucin tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmtica. Pero la suma de las desviaciones es siempre cero, as que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (Desviacin media) y otra es tomando las desviaciones al cuadrado (Varianza).

Rango estadstico
El rango o recorrido estadstico es la diferencia entre el valor mnimo y el valor mximo en un grupo de nmeros aleatorios. Se le suele simbolizar con R. Requisitos del rango Ordenamos los nmeros segn su tamao. Restamos el valor mnimo del valor mximo

30

Ejemplo Para una muestra (8,7,6,9,4,5), el dato menor es 4 y el dato mayor es 9 (Valor unitario inmediatamente posterior al dato mayor menos el dato menor). Sus valores se encuentran en un rango de: Rango = 5

Medio rango
El medio rango de un conjunto de valores numricos es la media del menor y mayor valor, o la mitad del camino entre el dato de menor valor y el dato de mayor valor. En consecuencia el medio rango es:

Ejemplo Para una muestra de valores (3, 3, 5, 6, 8), el dato de menor valor Min= 3 y el dato de mayor valor Max= 8. El medio rango resolvindolo mediante la correspondiente frmula sera:

Representacin del medio rango:

Varianza
La varianza es una medida estadstica que mide la dispersin de los valores respecto a un valor

central (media), es decir, es el cuadrado de las desviaciones:

Propiedades 31

La varianza es siempre positiva o 0: Si a los datos de la distribucin les sumamos una cantidad constante la varianza no se modifica. Yi = Xi + k c

Si a los dato de la distribucin les multiplicamos una constante, la varianza queda multiplicada por el cuadrado de esa constante.

Propiedad distributiva: V(X + Y) = V(X) + V(Y) cov (X,Y)

Desviacin tpica
La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadrticas. Para evitar ese problema se define otra medida de dispersin, que es la desviacin tpica, o desviacin estndar, que se halla como la raz cuadrada positiva de la varianza. La desviacin tpica informa sobre la dispersin de los datos respecto al valor de la media; cuanto mayor sea su valor, ms dispersos estarn los datos. Esta medida viene representada en la mayora de los casos por S, dado que es su inicial de su nominacin en ingls. Desviacin tpica muestral

Desviacin tpica poblacional

Covarianza
La covarianza entre dos variables es un estadstico resumen indicador de si las puntuaciones estn relacionadas entre s. La formulacin clsica, se simboliza por la letra griega sigma () cuando ha sido calculada en la poblacin. Si se obtiene sobre una muestra, se designa por la letra "sxy". La formula suele aparecer expresada como: 32

Este tipo de estadstico puede utilizarse para medir el grado de relacin de dos variables si ambas utilizan una escala de medida a nivel de intervalo/razn (variables cuantitativas). La expresin se resuelve promediando el producto de las puntuaciones diferenciales por su tamao muestral (n pares de puntuaciones, n-1 en su forma insesgada). Este estadstico, refleja la relacin lineal que existe entre dos variables. El resultado numrico fluctua entre los rangos de +infinito a -infinito. Al no tener unos lmites establecidos no puede determinarse el grado de relacin lineal que existe entre las dos variables, solo es posible ver la tendencia.

Coeficiente de Correlacin de Pearson


El coeficiente de correlacin de Pearson, r, permite saber si el ajuste de la nube de puntos a la recta de regresin obtenida es satisfactorio. Se define como el cociente entre la covarianza y el producto de las desviaciones tpicas (raz cuadrada de las varianzas).

Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar mediante cualquiera de las dos expresiones siguientes:

Propiedades El coeficiente de correlacin, r, presenta valores entre 1 y +1. Cuando r es prximo a 0, no hay correlacin lineal entre las variables. La nube de puntos est muy dispersa o bien no forma una lnea recta. No se puede trazar una recta de regresin.

33

Cuando r es cercano a +1, hay una buena correlacin positiva entre las variables segn un modelo lineal y la recta de regresin que se determine tendr pendiente positiva, ser creciente. Cuando r es cercano a -1, hay una buena correlacin negativa entre las variables segn un modelo lineal y la recta de regresin que se determine tendr pendiente negativa: es decreciente.

34

DISTRIBUCIONES DE PROBABILIDAD

35

Distribucin de probabilidad

En teora de la probabilidad y estadstica, la distribucin de probabilidad de una variable aleatoria es una funcin que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La distribucin de probabilidad est definida sobre el conjunto de todos los eventos rango de valores de la variable aleatoria. Cuando la variable aleatoria toma valores en el conjunto de los nmeros reales, la distribucin de probabilidad est completamente especificada por la funcin de distribucin, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x.

Definicin de funcin de distribucin


Dada una variable aleatoria todos son puntos es , su funcin de distribucin, ,

Por simplicidad, cuando no hay lugar a confusin, suele omitirse el subndice se escribe, simplemente, . Propiedades Como consecuencia casi inmediata de la definicin, la funcin de distribucin: Es una funcin continua por la derecha. Es una funcin montona no decreciente. Adems, cumple

y
36

Para dos nmeros reales cualesquiera a y b tal que (a < b), los sucesos y son mutuamente excluyentes y su unin es el suceso por lo que tenemos entonces que: ,

y finalmente

Por lo tanto una vez conocida la funcin de distribucin F(x) para todos los valores de la variable aleatoria x conoceremos completamente la distribucin de probabilidad de la variable. Para realizar clculos es ms cmodo conocer la distribucin de probabilidad, y sin embargo para ver una representacin grfica de la probabilidad es ms prctico el uso de la funcin de densidad.

Distribuciones de variable discreta


Se denomina distribucin de variable discreta a aquella cuya funcin de probabilidad slo toma valores positivos en un conjunto de valores de X finito o infinito numerable. A dicha funcin se le llama funcin de masa de probabilidad. En este caso la distribucin de probabilidad es el sumatorio de la funcin de masa, por lo que tenemos entonces que:

Y, tal como corresponde a la definicin de distribucin de probabilidad, esta expresin representa la suma de todas las probabilidades desde hasta el valor x.

Distribuciones de variable discreta ms importantes


Las distribuciones de variable discreta ms importantes son las siguientes: 1. Distribucin binomial 2. Distribucin Poisson 3. Distribucin geomtrica
37

4. Distribucin hipergeomtrica 5. Distribucin de Bernoulli

Distribucin binomial

En estadstica, la distribucin binomial es una distribucin de probabilidad discreta que mide el nmero de xitos en una secuencia de n ensayos independientes de Bernoulli con una probabilidad fija p de ocurrencia del xito entre los ensayos. Un experimento de Bernoulli se caracteriza por ser dicotmico, esto es, slo son posibles dos resultados. A uno de estos se denomina xito y tiene una probabilidad de ocurrencia p y al otro, fracaso, con una probabilidad q = 1 - p. En la distribucin binomial el anterior experimento se repite n veces, de forma independiente, y se trata de calcular la probabilidad de un determinado nmero de xitos. Para n = 1, la binomial se convierte, de hecho, en una distribucin de Bernoulli. Para representar que una variable aleatoria X sigue una distribucin binomial de parmetros n y p, se escribe:

La distribucin binomial es la base del test binomial de significacin estadstica. Ejemplos Las siguientes situaciones son ejemplos de experimentos que pueden modelizarse por esta distribucin: 1. Se lanza un dado diez veces y se cuenta el nmero X de treses obtenidos: entonces X ~ B(10, 1/6) 2. Se lanza una moneda dos veces y se cuenta el nmero X de caras obtenidas: entonces X ~ B(2, 1/2) 3. Una partcula se mueve unidimensionalmente con probabilidad q de moverse de aqui para all y 1-q de moverse de all para ac Experimento binomial Existen muchas situaciones en las que se presenta una experiencia binomial. Cada uno de los experimentos es independiente de los restantes (la probabilidad del resultado de un experimento no depende del resultado del resto). El resultado de cada experimento ha de admitir slo dos categoras (a las que se denomina

38

xito y fracaso). Las probabilidades de ambas posibilidades han de ser constantes en todos los experimentos (se denotan como p y q o p y 1-p). Se designa por X a la variable que mide el nmero de xitos que se han producido en los n experimentos. Cuando se dan estas circunstancias, se dice que la variable X sigue una distribucin de probabilidad binomial, y se denota B(n,p). Caractersticas analticas Su funcin de probabilidad es

donde

siendo de en Ejemplo

las combinaciones de )

en

elementos tomados

Supongamos que se lanza un dado 50 veces y queremos la probabilidad de que el nmero 3 salga 20 veces. En este caso tenemos una X ~ B(50, 1/6) y la probabilidad sera P(X=20):

Propiedades caractersticas

Relaciones con otras variables aleatorias Si n tiende a infinito y p es tal que producto entre ambos parmetros tiende a , entonces la distribucin de la variable aleatoria binomial tiende a una distribucin de Poisson de parmetro .

39

Por ltimo, se cumple que cuando n es muy grande (usualmente se exige que ) la distribucin binomial puede aproximarse mediante la distribucin normal. Propiedades reproductivas Dadas n variables binomiales independientes, de parmetros ni (i = 1,..., n) y p, su suma es tambin una variable binomial, de parmetros n1+... + nn, y p, es decir,

Distribucin de Poisson

En teora de probabilidad y estadstica, la distribucin de Poisson es una distribucin de probabilidad discreta que expresa, a partir de una frecuencia de ocurrencia media, la probabilidad que ocurra un determinado nmero de eventos durante cierto periodo de tiempo. Fue descubierta por Simon-Denis Poisson, que la dio a conocer en 1838 en su trabajo Recherches sur la probabilit des jugements en matires criminelles et matire civile (Investigacin sobre la probabilidad de los juicios en materias criminales y civiles). Propiedades La funcin de masa de la distribucin de Poisson es:

Donde: k : es el nmero de ocurrencias del evento o fenmeno (la funcin nos da la probabilidad de que el evento suceda precisamente k veces). : es un parmetro positivo que representa el nmero de veces que se espera que ocurra el fenmeno durante un intervalo dado. Por ejemplo, si el suceso estudiado tiene lugar en promedio 4 veces por minuto y estamos interesados en la probabilidad de que ocurra k veces dentro de un intervalo de 10 minutos, usaremos un modelo de distribucin de Poisson con = 104 = 40. e: es la base de los logaritmos naturales (e = 2,71828 ...) Tanto el valor esperado como la varianza de una variable aleatoria con distribucin de Poisson son iguales a . Los momentos de orden superior son polinomios de
40

Touchard en cuyos coeficientes tienen una interpretacin combinatorio. De hecho, cuando el valor esperado de la distribucin de Poisson es 1, entonces segn la frmula de Dobinski, el n-simo momento iguala al nmero de particiones de tamao n. La moda de una variable aleatoria de distribucin de Poisson con un no entero es igual a , el mayor de los enteros menores que (los smbolos representan la funcin parte entera). Cuando es un entero positivo, las modas son y 1. La funcin generadora de momentos de la distribucin de Poisson con valor esperado es

Las variables aleatorias de Poisson tienen la propiedad de ser infinitamente divisibles. La divergencia Kullback-Leibler desde una variable aleatoria de Poisson de parmetro 0 a otra de parmetro es

Relacin con otras distribuciones Sumas de variables aleatorias de Poisson La suma de variables aleatorias de Poisson independientes es otra variable aleatoria de Poisson cuyo parmetro es la suma de los parmetros de las originales. Dicho de otra manera, si

son N variables aleatorias de Poisson independientes, entonces

41

Distribucin binomial La distribucin de Poisson es el caso lmite de la distribucin binomial. De hecho, si los parmetros n y de una distribucin binomial tienden a infinito y a cero de manera que se mantenga constante, la distribucin lmite obtenida es de Poisson. Aproximacin normal Como consecuencia del teorema central del lmite, para valores grandes de , una variable aleatoria de Poisson X puede aproximarse por otra normal dado que el cociente converge a una distribucin normal de media nula y varianza 1.

Distribucin exponencial Supngase que para cada valor t > 0, que representa el tiempo, el nmero de sucesos de cierto fenmeno aleatorio sigue una distribucin de Poisson de parmetro t. Entonces, los tiempos discurridos entre dos sucesos sucesivos sigue la distribucin exponencial. Ejemplos: Si el 2% de los libros encuadernados en cierto taller tiene encuadernacin defectuosa, para obtener la probabilidad de que 5 de 400 libros encuadernados en este taller tengan encuadernaciones defectuosas usamos la distribucin de Poisson. En este caso concreto, k es 5 y , , el valor esperado de libros defectuosos es el 2% de 400, es decir, 8. Por lo tanto, la probabilidad buscada es

Este problema tambin podra resolverse recurriendo a una distribucin binomial de parmetros k = 5, n = 400 y =0,02. Procesos de Poisson La distribucin de Poisson se aplica a varios fenmenos discretos de la naturaleza (esto es, aquellos fenmenos que ocurren 0, 1, 2, 3,... veces durante un periodo definido de tiempo o en un rea determinada) cuando la probabilidad de

42

ocurrencia del fenmeno es constante en el tiempo o el espacio. Ejemplos de estos eventos que pueden ser modelados por la distribucin de Poisson incluyen: o El nmero de autos que pasan a travs de un cierto punto en una ruta (suficientemente distantes de los semforos) durante un periodo definido de tiempo. o El nmero de errores de ortografa que uno comete al escribir una nica pgina. o El nmero de llamadas telefnicas en una central telefnica por minuto. o El nmero de servidores web accedidos por minuto. o El nmero de animales muertos encontrados por unidad de longitud de ruta. o El nmero de mutaciones de determinada cadena de ADN despus de cierta cantidad de radiacin. o El nmero de ncleos atmicos inestables que decayeron en un determinado perodo o El nmero de estrellas en un determinado volumen de espacio. o La distribucin de receptores visuales en la retina del ojo humano. o La inventiva de un inventor a lo largo de su carrera.

Distribucin geomtrica

En teora de probabilidad y estadstica, la distribucin geomtrica es cualquiera de las dos distribuciones de probabilidad discretas siguientes: 1. La distribucin de probabilidad del nmero X del ensayo de Bernoulli necesaria para obtener un xito, contenido en el conjunto { 1, 2, 3,...} o 2. La distribucin de probabilidad del nmero Y = X 1 de fallos antes del primer xito, contenido en el conjunto { 0, 1, 2, 3,... }. 3. Cul de stas es la que uno llama "la" distribucin geomtrica, es una cuestin de convencin y conveniencia. Propiedades Si la probabilidad de xito en cada ensayo es p, entonces la probabilidad de que x ensayos sean necesarios para obtener un xito es

para x = 1, 2, 3,.... Equivalentemente, la probabilidad de que haya x fallos antes del primer xito es

43

para x = 0, 1, 2, 3,.... En ambos casos, la secuencia de probabilidades es una progresin geomtrica. El valor esperado de una variable aleatoria X distribuida geomtricamente es

y dado que Y = X-1,

En ambos casos, la varianza es

Las funciones generatrices de probabilidad de X y la de Y son, respectivamente,

Como su anloga continua, la distribucin exponencial, la distribucin geomtrica carece de memoria. Esto significa que si intentamos repetir el experimento hasta el primer xito, entonces, dado que el primer xito todava no ha ocurrido, la distribucin de probabilidad condicional del nmero de ensayos adicionales no depende de cuantos fallos se hayan observado. El dado o la moneda que uno lanza no tiene "memoria" de estos fallos. La distribucin geomtrica es de hecho la nica distribucin discreta sin memoria. De todas estas distribuciones de probabilidad contenidas en {1, 2, 3,... } con un valor esperado dado , la distribucin geomtrica X con parmetro p = 1/ es la de mayor entropa. La distribucin geomtrica del nmero y de fallos antes del primer xito es infinitamente divisible, esto es, para cualquier entero positivo n, existen variables aleatorias independientes Y 1,..., Yn distribuidas idnticamente la suma de las cuales tiene la misma distribucin que tiene Y. Estas no sern geomtricamente distribuidas a menos que n = 1.

Distribuciones relacionadas
44

La distribucin geomtrica es un caso especial de la distribucin binomial negativa con parmetro k = 1. Ms generalmente, si Y 1,...,Yk son variables independientes distribuidas geomtricamente con parmetro p, entonces sigue a una distribucin binomial negativa con parmetros k y p.

Si Y1,...,Yr son variables independientes distribuidas geomtricamente (con diferentes parmetros de xito pm posibles ), entonces su mnimo W = min mYm es tambin geomtricamente distribuido, con parmetro p = 1 (1 pm) m
Distribucin hipergeomtrica

En teora de la probabilidad la distribucin hipergeomtrica es una distribucin discreta relacionada con muestreos aleatorios y sin reemplazo. Supngase que se tiene una poblacin de N elementos de los cuales, d pertenecen a la categora A y N-d a la B. La distribucin hipergeomtrica mide la probabilidad de obtener x ( ) elementos de la categora A en una muestra de n elementos de la poblacin original. Propiedades La funcin de probabilidad de una variable aleatoria con distribucin hipergeomtrica puede deducirse a travs de razonamientos combinatorios y es igual a

donde N es el tamao de poblacin, n es el tamao de la muestra extrada, d es el nmero de elementos en la poblacin original que pertenecen a la categora deseada y x es el nmero de elementos en la muestra que pertenecen a dicha

categora. La notacin hace referencia al coeficiente binomial, es decir, el nmero de combinaciones posibles al seleccionar b elementos de un total a.

45

El valor esperado de una variable aleatoria X que sigue la distribucin hipergeomtrica es

y su varianza,

En la frmula anterior, definiendo

se obtiene

La distribucin hipergeomtrica es aplicable a muestreos sin reemplazo y la binomial a muestreos con reemplazo. En situaciones en las que el nmero esperado de repeticiones en el muestreo es presumiblemente bajo, puede aproximarse la primera por la segunda. Esto es as cuando N es grande y el tamao relativo de la muestra extrada, n/N, es pequeo.
Distribucin de Bernoulli

En teora de probabilidad y estadstica, la distribucin de Bernoulli (o distribucin dicotmica), nombrada as por el matemtico y cientfico suizo Jakob Bernoulli, es una distribucin de probabilidad discreta, que toma valor 1 para la probabilidad de xito (p) y valor 0 para la probabilidad de fracaso (q = 1 p). Si X es una variable aleatoria que mide "nmero de xitos", y se realiza un nico experimento con dos posibles resultados (xito o fracaso), se dice que la variable aleatoria se distribuye como una Bernoulli de parmetro .

La frmula ser:

46

Su funcin de probabilidad viene definida por:

Un experimento al cual se aplica la distribucin de Bernoulli se conoce como Ensayo de Bernoulli o simplemente ensayo, y la serie de esos experimentos como ensayos repetidos. Propiedades caractersticas Esperanza matemtica:

Varianza:

Funcin generatriz de momentos:

Funcin caracterstica:

Moda: 0 si q > p (hay ms fracasos que xitos) 1 si q < p (hay ms xitos que fracasos) 0 y 1 si q = p (los dos valores, pues hay igual nmero de fracasos que de xitos) Asimetra (Sesgo):

Curtosis:

47

La Curtosis tiende a infinito para valores de p cercanos a 0 a 1, pero para la distribucin de Bernoulli tiene un valor de curtosis menor que el de cualquier otra distribucin, igual a -2. Distribuciones Relacionadas Si son n variables aleatorias identicamente distribuidas con la distribucin de Bernoulli con la misma probabilidad de xito p en todas, entonces la variable aleatoria Distribucin Binomial de probabilidad. XBi(n,p) Ejemplo 1 "Lanzar una moneda, probabilidad de conseguir que salga cruz". Se trata de un solo experimento, con dos resultados posibles: el xito (p) se considerar sacar cruz. Valdr 0,5. El fracaso (q) que saliera cara, que vale (1 - p) = 1 - 0,5 = 0,5. La variable aleatoria X medir "nmero de cruces que salen en un lanzamiento", y slo existirn dos resultados posibles: 0 (ninguna cruz, es decir, salir cara) y 1 (una cruz). Por tanto, la v.a. X se distribuir como una Bernoulli, ya que cumple todos los requisitos. XBe(0,5) P(X = 0) = f(0) = 0,500,51 = 0,5 P(X = 1) = f(1) = 0,510,50 = 0,5 Ejemplo 2: "Lanzar un dado y salir un 6". Cuando lanzamos un dado tenemos 6 posibles resultados: = {1,2,3,4,5,6} Estamos realizando un nico experimento (lanzar el dado una sola vez). presenta una

48

Se considera xito sacar un 6, por tanto, la probabilidad segn el teorema de Laplace (casos favorables dividido entre casos posibles) ser 1/6. p=1/6 Se considera fracaso no sacar un 6, por tanto, se considera fracaso sacar cualquier otro resultado. q=1p=11/6=5/6 La variable aleatoria X medir "nmero de veces que sale un 6", y solo existen dos valores posibles, 0 (que no salga 6) y 1 (que salga un 6). Por tanto, la variable aleatoria X se distribuye como una Bernoulli de parmetro p = 1/6 XBe(1 / 6) La probabilidad de que obtengamos un 6 viene definida como la probabilidad de que X sea igual a 1. P(X = 1) = f(1) = (1 / 6)1 * (5 / 6)0 = 1 / 6 = 0.1667 La probabilidad de que NO obtengamos un 6 viene definida como la probabilidad de que X sea igual a 0. P(X = 0) = f(0) = (1 / 6)0 * (5 / 6)1 = 5 / 6 = 0.8333

Distribuciones de variable contina


Se denomina variable continua a aquella que puede tomar cualquiera de los infinitos valores existentes dentro de un intervalo. En el caso de variable continua la distribucin de probabilidad es la integral de la funcin de densidad, por lo que tenemos entonces que:

Distribuciones de variable continua ms importantes


Las distribuciones de variable continua ms importantes son las siguientes: 1. Distribucin ji cuadrado
49

2. Distribucin exponencial 3. Distribucin t de Student 4. Distribucin normal


Distribucin

En estadstica, la distribucin (de Pearson), llamada Chi cuadrado o Ji cuadrado, es una distribucin de probabilidad continua con un parmetro k que representa los grados de libertad de la variable aleatoria

donde Zi son variables aleatorias normales independientes de media cero y varianza uno. El que la variable aleatoria X tenga esta distribucin se representa habitualmente as: .

Es conveniente tener en cuenta que la letra griega se transcribe al latn como chi1 y se pronuncia en castellano como ji.2 3 Propiedades Funcin de densidad Su funcin de densidad es:

donde es la funcin gamma. Demostracin Funcin de distribucin acumulada Su funcin de distribucin es

donde

es la funcin gamma incompleta.

El valor esperado y la varianza de una variable aleatoria X con distribucin son, respectivamente, k y 2k.

50

Relacin con otras distribuciones La distribucin es un caso especial de la distribucin gamma. De hecho, Como consecuencia, cuando k = 2, la distribucin es una distribucin exponencial de media k = 2. Cuando k es suficientemente grande, como consecuencia del teorema central del lmite, puede aproximarse por una distribucin normal:

Aplicaciones La distribucin tiene muchas aplicaciones en inferencia estadstica. La ms conocida es la de la denominada prueba utilizada como prueba de independencia y como prueba de bondad de ajuste y en la estimacin de varianzas. Pero tambin est involucrada en el problema de estimar la media de una poblacin normalmente distribuida y en el problema de estimar la pendiente de una recta de regresin lineal, a travs de su papel en la distribucin t de Student. Aparece tambin en todos los problemas de anlisis de varianza por su relacin con la distribucin F de Snedecor, que es la distribucin del cociente de dos variables aleatorias independientes con distribucin .

Distribucin exponencial

En estadstica la distribucin exponencial es una distribucin de probabilidad continua con un parmetro > 0 cuya funcin de densidad es:

Su funcin de distribucin es:

Donde e representa el nmero e. El valor esperado y la varianza de una variable aleatoria X con distribucin exponencial son:
51

Ejemplo: Ejemplos para la distribucin exponencial es la distribucin de la longitud de los intervalos de variable continua que transcuren entre la ocurrencia de dos sucesos "raros", que se distribuyen segn la distribucin de Poisson.

Calcular variables aleatorias Se pueden calcular una variable aleatoria de distribucin exponencial x por medio de una variable aleatoria de distribucin uniforme u = U(0,1):

o, dado que (1 u) es tambin una variable aleatoria con distribucin U(0,1), puede utilizarse la versin ms eficiente:

Relaciones La suma de k variables aleatorias independientes de distribucin exponencial con parmetro es una variable aleatoria de distribucin gamma.

Distribucin t de Student

En probabilidad y estadstica, la distribucin t (de Student) es una distribucin de probabilidad que surge del problema de estimar la media de una poblacin normalmente distribuida cuando el tamao de la muestra es pequeo. Aparece de manera natural al realizar la prueba t de Student para la determinacin de las diferencias entre dos medias muestrales y para la construccin del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se

52

desconoce la desviacin tpica de una poblacin y sta debe ser estimada a partir de los datos de una muestra. Caracterizacin La distribucin t de Student es la distribucin de probabilidad del cociente

Donde: Z: tiene una distribucin normal de media nula y varianza 1 V: tiene una distribucin chi-cuadrado con Z y V son independientes grados de libertad

Si es una constante no nula, el cociente es una variable aleatoria que sigue la distribucin t de Student no central con parmetro de no-centralidad . Aparicin y especificaciones de la distribucin t de Student Supongamos que X1,..., Xn son variables aleatorias independientes distribuidas normalmente, con media y varianza 2. Sea

la media muestral. Entonces

sigue una distribucin normal de media 0 y varianza 1. Sin embargo, dado que la desviacin estndar no siempre es conocida de antemano, Gosset estudi un cociente relacionado,

Donde:

53

es la varianza muestral y demostr que la funcin de densidad de T es

donde

es igual a n 1.

La distribucin de T se llama ahora la distribucin-t de Student. El parmetro representa el nmero de grados de libertad. La distribucin depende de , pero no de o , lo cual es muy importante en la prctica. Intervalos de confianza derivados de la distribucin t de Student El procedimiento para el clculo del intervalo de confianza basado en la t de Student consiste en estimar la desviacin tpica de los datos S y calcular el error estndar de la media media = , siendo entonces el intervalo de confianza para la .

Es este resultado el que se utiliza en el test de Student: puesto que la diferencia de las medias de muestras de dos distribuciones normales se distribuye tambin normalmente, la distribucin t puede usarse para examinar si esa diferencia puede razonablemente suponerse igual a cero. para efectos prcticos el valor esperado y la varianza son: E(t(n))= 0 y Var (t(n-1)) = n/(n-2) para n > 3

Historia La distribucin de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba en una fbrica de cerveza, Guinness, que prohiba a sus empleados la publicacin de artculos cientficos debido a una difusin previa de secretos industriales. De ah que Gosset publicase sus resultados bajo el seudnimo de Student.1
54

Distribucin normal

En estadstica y probabilidad se llama distribucin normal, distribucin de Gauss o distribucin gaussiana, a una de las distribuciones de probabilidad de variable continua que con ms frecuencia aparece en fenmenos reales. La grfica de su funcin de densidad tiene una forma acampanada y es simtrica respecto de un determinado parmetro. Esta curva se conoce como campana de Gauss. La importancia de esta distribucin radica en que permite modelar numerosos fenmenos naturales, sociales y psicolgicos. Mientras que los mecanismos que subyacen a gran parte de este tipo de fenmenos son desconocidos, por la enorme cantidad de variables incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse asumiendo que cada observacin se obtiene como la suma de unas pocas causas independientes. De hecho, la estadstica es un modelo matemtico que slo permite describir un fenmeno, sin explicacin alguna. Para la explicacin causal es preciso el diseo experimental, de ah que al uso de la estadstica en psicologa y sociologa sea conocido como mtodo correlacional. La distribucin normal tambin es importante por su relacin con la estimacin por mnimos cuadrados, uno de los mtodos de estimacin ms simples y antiguos. Algunos ejemplos de variables asociadas a fenmenos naturales que siguen el modelo de la normal son: o Caracteres morfolgicos de individuos como la estatura; o Caracteres fisiolgicos como el efecto de un frmaco; o Caracteres sociolgicos como el consumo de cierto producto por un mismo grupo de individuos; o Caracteres psicolgicos como el cociente intelectual; o Nivel de ruido en telecomunicaciones; o Errores cometidos al medir ciertas magnitudes;etc. La distribucin normal tambin aparece en muchas reas de la propia estadstica. Por ejemplo, la distribucin muestral de las medias muestrales es aproximadamente normal, cuando la distribucin de la poblacin de la cual se extrae la muestra no es normal.1 Adems, la distribucin normal maximiza la entropa entre todas las distribuciones con media y varianza conocidas, lo cual la convierte en la eleccin natural de la distribucin subyacente a una lista de datos resumidos en trminos de media muestral y varianza. La distribucin normal es la

55

ms extendida en estadstica y muchos tests estadsticos estn basados en una supuesta "normalidad". En probabilidad, la distribucin normal aparece como el lmite de varias distribuciones de probabilidad continuas y discretas. Propiedades Algunas propiedades de la distribucin normal son: Es simtrica respecto de su media, ;

Distribucin de probabilidad alrededor de la media en una distribucin N(, ). La moda y la mediana son ambas iguales a la media, ; Los puntos de inflexin de la curva se dan para x = y x = + . Distribucin de probabilidad en un entorno de la media: en el intervalo [ - , + ] se encuentra comprendida, aproximadamente, el 68,26% de la distribucin;en el intervalo [ - 2, + 2] se encuentra, aproximadamente, el 95,44% de la distribucin;por su parte, en el intervalo [ -3, + 3] se encuentra comprendida, aproximadamente, el 99,74% de la distribucin. Estas propiedades son de gran utilidad para el establecimiento de intervalos de confianza. Por otra parte, el hecho de que prcticamente la totalidad de la distribucin se encuentre a tres desviaciones tpicas de la media justifica los lmites de las tablas empleadas habitualmente en la normal estndar. Si X ~ N(, 2) y a y b son nmeros reales, entonces (aX + b) ~ N(a+b, a22). Si X ~ N(x, x2) e Y ~ N(y, y2) son variables aleatorias normales independientes, entonces:

56

Su suma est normalmente distribuida con U = X + Y ~ N(x + y, x2 + y2) (demostracin). Recprocamente, si dos variables aleatorias independientes tienen una suma normalmente distribuida, deben ser normales (Teorema de Crmer). Su diferencia est normalmente distribuida con . Si las varianzas de X e Y son iguales, entonces U y V son independientes entre s. La divergencia de Kullback-Leibler,

Si e normalmente distribuidas, entonces:

son variables aleatorias independientes

Su producto XY sigue una distribucin con densidad p dada por

donde K0 es una funcin de Bessel modificada de segundo tipo. Su cociente sigue una distribucin de Cauchy con X / YCauchy(0,X / Y). De este modo la distribucin de Cauchy es un tipo especial de distribucin cociente. Si son variables normales estndar independientes, entonces sigue una distribucin con n grados de libertad. Si media son variables normales estndar independientes, entonces la muestral y la varianza muestral

son independientes. Esta propiedad caracteriza a las distribuciones normales y contribuye a explicar por qu el test-F no es robusto respecto a la no-normalidad).

57

TCNICAS DE MUESTREO ALEATORIO

58

Muestreo en estadstica
En estadstica se conoce como muestreo a la tcnica para la seleccin de una muestra a partir de una poblacin. Al elegir una muestra se espera conseguir que sus propiedades sean extrapolables a la poblacin. Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzaran si se realizase un estudio de toda la poblacin. Cabe mencionar que para que el muestreo sea vlido y se pueda realizar un estudio adecuado (que consienta no solo hacer estimaciones de la poblacin sino estimar tambin los mrgenes de error correspondientes a dichas estimaciones), debe cumplir ciertos requisitos. Nunca podremos estar enteramente seguros de que el resultado sea una muestra representativa, pero s podemos actuar de manera que esta condicin se alcance con una probabilidad alta. En el muestreo, si el tamao de la muestra es ms pequeo que el tamao de la poblacin, se puede extraer dos o ms muestras de la misma poblacin. Al conjunto de muestras que se pueden obtener de la poblacin se denomina espacio muestral. La variable que asocia a cada muestra su probabilidad de extraccin, sigue la llamada distribucin muestral.

Tcnicas de muestreo
Existen dos mtodos para seleccionar muestras de poblaciones: el muestreo no aleatorio o de juicio y el muestreo aleatorio (que incorpora el azar como recurso en el proceso de seleccin). Cuando este ltimo cumple con la condicin de que todos los elementos de la poblacin tienen alguna oportunidad de ser escogidos en la muestra, si la probabilidad correspondiente a cada sujeto de la poblacin es conocida de antemano, recibe el nombre de muestreo probabilstico. Una muestra seleccionada por muestreo de juicio puede basarse en la experiencia de alguien con la poblacin. Algunas veces una muestra de juicio se usa como gua o muestra tentativa para decidir cmo tomar una muestra aleatoria ms adelante.

Muestreo probabilstico
Forman parte de este tipo de muestreo todos aquellos mtodos para los que puede calcular la probabilidad de extraccin de cualquiera de las muestras posibles. Este conjunto de tcnicas de muestreo es el ms aconsejable, aunque en ocasiones no es posible optar por l. En este caso se habla de muestras probabilsticas, pues no es en rigor correcto hablar de muestras representativas dado que, al no conocer las caractersticas de la poblacin, no es posible tener certeza de que tal caracterstica se haya conseguido.

Sin reposicin de los elementos: Cada elemento extrado se descarta para la subsiguiente extraccin. Por ejemplo, si se extrae una muestra de una "poblacin" de bombillas para estimar la vida media de las bombillas que la integran, no ser posible medir ms que una vez la bombilla seleccionada. 59

Con reposicin de los elementos: Las observaciones se realizan con reemplazamiento de los individuos, de forma que la poblacin es idntica en todas las extracciones. En poblaciones muy grandes, la probabilidad de repetir una extraccin es tan pequea que el muestreo puede considerarse sin reposicin aunque, realmente, no lo sea. Con reposicin mltiple: En poblaciones muy grandes, la probabilidad de repetir una extraccin es tan pequea que el muestreo puede considerarse sin reposicin. Cada elemento extrado se descarta para la subsiguiente extraccin. Para realizar este tipo de muestreo, y en determinadas situaciones, es muy til la extraccin de nmeros aleatorios mediante ordenadores, calculadoras o tablas construidas al efecto.

Muestreo estratificado
Consiste en la divisin previa de la poblacin de estudio en grupos o clases que se suponen homogneos con respecto a alguna caracterstica de las que se van a estudiar. A cada uno de estos estratos se le asignara una cuota que determinara el nmero de miembros del mismo que compondrn la muestra. Dentro de cada estrato se suele usar la tcnica de muestreo sistemtico, una de las tcnicas de seleccin ms usadas en la prctica. Segn la cantidad de elementos de la muestra que se han de elegir de cada uno de los estratos, existen dos tcnicas de muestreo estratificado: Asignacin proporcional: el tamao de la muestra dentro de cada estrato es proporcional al tamao del estrato dentro de la poblacin. Asignacin ptima: la muestra recoger ms individuos de aquellos estratos que tengan ms variabilidad. Para ello es necesario un conocimiento previo de la poblacin. Por ejemplo, para un estudio de opinin, puede resultar interesante estudiar por separado las opiniones de hombres y mujeres pues se estima que, dentro de cada uno de estos grupos, puede haber cierta homogeneidad. As, si la poblacin est compuesta de un 55% de mujeres y un 45% de hombres, se tomara una muestra que contenga tambin esos mismos porcentajes de hombres y mujeres. Para una descripcin general del muestreo estratificado y los mtodos de inferencia asociados con este procedimiento, suponemos que la poblacin est dividida en h subpoblaciones o estratos de tamaos conocidos N1, N2,..., Nh tal que las unidades en cada estrato sean homogneas respecto a la caracterstica en cuestin. La media y la varianza desconocidas para el i-simo estrato son denotadas por mi y si2, respectivamente.

Muestreo sistemtico
Se utiliza cuando el universo o poblacin es de gran tamao, o ha de extenderse en el tiempo. Primero hay que identificar las unidades y relacionarlas con el calendario (cuando proceda). Luego hay que calcular una constante, que se denomina coeficiente de elevacin K= N/n; donde N es el tamao del universo y n el tamao de la muestra. Determinar en qu fecha se producir la 60

primera extraccin, para ello hay que elegir al azar un nmero entre 1 y K; de ah en adelante tomar uno de cada K a intervalos regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenmeno. Esto quiere decir que si tenemos un determinado nmero de personas que es la poblacin (N) y queremos escoger de esa poblacin un nmero ms pequeo el cual es la muestra (n), dividimos el nmero de la poblacin por el nmero de la muestra que queremos tomar y el resultado de esta operacin ser el intervalo, entonces escogemos un nmero al azar desde uno hasta el nmero del intervalo, y a partir de este nmero escogemos los dems siguiendo el orden. Se divide la poblacin en subconjuntos tomando en cuenta el factor de elevacin. Por ejemplo: suponga que en una pequea ciudad de 8,000 habitantes segn el censo se va a haber una encuesta y se selecciona una muestra sistemtica de 20 personas entre 1,200 padres de familia para conocer el grado de aceptacin de la gestin administrativas de la ciudad por parte del presidente municipal...(N = 1200 Poblacin n = 20 Muestra Factor de Elevacin N/n = 1200/20 = 60 N SEDE TRIUNFO)Al azar un nmero de entre 1 y 60 {3+60} n = {3,63,123,183,243,303,363,423,483,543,603,663,723,783,843,903,963,1023,1083,1143. Muestreo por estadios mltiples Esta tcnica es la nica opcin cuando no se dispone de lista completa de la poblacin de referencia o bien cuando por medio de la tcnica de muestreo simple o estratificado se obtiene una muestra con unidades distribuidas de tal forma que resultan de difcil acceso. En el muestreo a estadios mltiples se subdivide la poblacin en varios niveles ordenados que se extraen sucesivamente por medio de un procedimiento de embudo. El muestreo se desarrolla en varias fases o extracciones sucesivas para cada nivel. Por ejemplo, si tenemos que construir una muestra de profesores de primaria en un pas determinado, stos pueden subdividirse en unidades primarias representadas por circunscripciones didcticas y unidades secundarias que seran los propios profesores. En primer lugar extraemos una muestra de las unidades primarias (para lo cual debemos tener la lista completa de estas unidades) y en segundo lugar extraemos aleatoriamente una muestra de unidades secundarias de cada una de las primarias seleccionadas en la primera extraccin. Muestreo por conglomerados Tcnica similar al muestreo por estadios mltiples, se utiliza cuando la poblacin se encuentra dividida, de manera natural, en grupos que se supone que contienen toda la variabilidad de la poblacin, es decir, la representan fielmente respecto a la caracterstica a elegir, pueden seleccionarse slo algunos de estos grupos o conglomerados para la realizacin del estudio. Dentro de los grupos seleccionados se ubicarn las unidades elementales, por ejemplo, las personas a encuestar, y podra aplicrsele el instrumento de medicin a todas las unidades, es 61

decir, los miembros del grupo, o slo se le podra aplicar a algunos de ellos, seleccionados al azar. Este mtodo tiene la ventaja de simplificar la recogida de informacin muestral. Cuando, dentro de cada conglomerado seleccionado, se extraen algunos individuos para integrar la muestra, el diseo se llama muestreo bietpico. Las ideas de estratos y conglomerados son, en cierto sentido, opuestas. El primer mtodo funciona mejor cuanto ms homognea es la poblacin respecto del estrato, aunque ms diferentes son stos entre s. En el segundo, ocurre lo contrario. Los conglomerados deben presentar toda la variabilidad, aunque deben ser muy parecidos entre s. Homogeneidad de las poblaciones o sus subgrupos Homogneo siginifica, en el contexto de la estratificacin, que no hay mucha variabilidad. Los estratos funcionan mejor cuanto ms homogneos son cada uno de ellos respecto a la caracterstica a medir. Por ejemplo, si se estudia la estatura de una poblacin, es bueno distinguir entre los estratos mujeres y hombres porque se espera que, dentro de ellos, haya menos variabilidad, es decir, sean menos heterogneos. Dicho de otro modo, no hay tantas diferencias entre unas estaturas y otras dentro del estrato que en la poblacin total. Por el contrario, la heterogeneidad hace intil la divisin en estratos. Si se dan las mismas diferencias dentro del estrato que en toda la poblacin, no hay por qu usar este mtodo de muestreo. En los casos en los que existan grupos que contengan toda la variabilidad de la poblacin, lo que se construyen son conglomerados, que ahorran algo del trabajo que supondra analizar toda la poblacin. En resumen, los estratos y los conglomerados funcionan bajo principios opuestos: los primeros son mejores cuanto ms homogneo es el grupo respecto a la caracterstica a estudiar y los conglomerados, si representan fielmente a la poblacin, esto es, contienen toda su viariabilidad, o sea, son heterogneos.

Muestreo de juicio
Aqul para el que no puede calcularse la probabilidad de extraccin de una determinada muestra. Se busca seleccionar a individuos que se juzga de antemano tienen un conocimiento profundo del tema bajo estudio, por lo tanto, se considera que la informacin aportada por esas personas es vital para la toma de datos. Muestreo por cuotas Es la tcnica ms difundida sobre todo en estudios de mercado y sondeos de opinin. En primer lugar es necesario dividir la poblacin de referencia en varios estratos definidos por algunas variables de distribucin conocida (como el gnero o la edad). Posteriormente se calcula el peso proporcional de cada estrato, es decir, la parte proporcional de poblacin que representan. Finalmente se multiplica cada peso por el tamao de n de la muestra para determinar la cuota precisa en cada estrato. Se diferencia del muestreo estratificado en que una vez determinada la cuota, el investigador es libre de elegir a los sujetos de la muestra dentro de cada estrato.

62

Muestreo de bola de nieve Indicado para estudios de poblaciones clandestinas, minoritarias o muy dispersas pero en contacto entre s. Consiste en identificar sujetos que se incluirn en la muestra a partir de los propios entrevistados. Partiendo de una pequea cantidad de individuos que cumplen los requisitos necesarios estos sirven como localizadores de otros con caractersticas anlogas. Muestreo subjetivo por decisin razonada En este caso las unidades de la muestra se eligen en funcin de algunas de sus caractersticas de manera racional y no casual. Una variante de esta tcnica es el muestreo compensado o equilibrado, en el que se seleccionan las unidades de tal forma que la media de la muestra para determinadas variables se acerque a la media de la poblacin.

Ejemplos de clculo de Muestreo.

63

64

65

66

GLOSARIO TCNICO
Al Azar o Aleatorio: Son todos aquellos eventos fortuitos o productos de la suerte. Aleatoriamente: Actividades Clase: Subdivisin de escala de datos. Correlacin: Cuando dos fenmenos sociales, fsicos o biolgicos crecen o decrecen de forma simultnea y proporcional debido a factores externos, se dice que los fenmenos estn positivamente correlacionados. Si uno crece en la misma proporcin que el otro decrece, los dos fenmenos estn negativamente correlacionados. El grado de correlacin se calcula aplicando un coeficiente de correlacin a los datos de ambos fenmenos. Una correlacin positiva perfecta tiene un coeficiente + 1, y para una correlacin negativa perfecta es -1. La ausencia de correlacin da como coeficiente 0. Por ejemplo, el coeficiente 0,89 indica una correlacin positiva grande, -0,76 es una correlacin negativa grande y 0,13 es una correlacin positiva pequea. Cuartiles, Deciles y Percentiles: Si un conjunto de datos est ordenado por magnitud, el valor central (o la media de los dos centrales) que divide al conjunto en dos mitades iguales, es la mediana. Extendiendo esa idea, podemos pensar en aquellos valores que dividen al conjunto de datos en cuatro partes iguales. Esos valores denotados Q1, Q2, y Q3, se llaman primer cuartl, segundo cuartl y tercer cuartl, respectivamente. EL Q2 coincide con la mediana. Anlogamente, los valores que dividen a los datos en 10 partes iguales se llaman deciles, y se le denotan D1, D2,..., D9, mientras que los valores que lo dividen en 100 partes iguales se llaman percentiles, denotados por P1, P2,...,P99. El 5 decil y el 50 percentil coinciden con la mediana. Los 25 y 75 o mtodos producidos o llevados a cabo simulando un

comportamiento al azar.

67

percentiles coinciden con el primer y tercer Cuartiles. Colectivamente, Cuartiles, deciles y percentiles se denominan cuantiles. Datos: Son los valores cualitativos o cuantitativos mediante los cuales se miden las caractersticas de los objetos, sucesos o fenmenos a estudiar. Desviacin: Diferencia entre un valor y otro valor medio o tpico. (Desviacin Media) Desviacin Tpica: La desviacin de un elemento del conjunto es su diferencia con respecto a la medida; por ejemplo, en sucesin x1, x2,..., xn la desviacin de x1 es x1-x, y el cuadrado de la desviacin es (x1- x )2. La varianza es la medida del cuadro de las desviaciones. Por ltimo, la desviacin tpica, representada por la letra griega sigma (s), es la raz cuadrada de la varianza, y se calcula de la siguiente manera:

Si la desviacin tpica es pequea, los datos estn agrupados cerca de la media; si es grande, estn muy dispersos. Es una medida de dispersin expresada por el espacio de la curva normal comprendido entre la media y +/ Entrevista y Encuesta: Son mtodos de recoleccin de datos, la entrevista es una serie de preguntas realizadas personalmente y la encuesta es llevada a cabo generalmente a travs de algn formulario que la persona debe llenar. Estadstica: La Estadstica estudia los mtodos cientficos para recoger, organizar, resumir y analizar datos, as como para sacar conclusiones vlidas y tomar decisiones razonables basadas con tal anlisis. En un sentido menos amplio, el trmino estadstica se usa para denotar los propios datos, o nmero derivados de ellos, tales como los promedios. As se habla de estadstica de empleo, estadstica de accidentes.
68

Estadstico: Unidad de medida referente a la muestra. Se le llama estadstico tambin a la persona que trabaja con la estadstica. Frecuencia: Nmero de veces en que se repite un dato. Frecuencia Acumulada: Es el nmero de estudiantes con calificaciones iguales o menores que el rango de cada intervalo sucesivo. Frecuencia Relativa: Es la proporcin entre la frecuencia de un intervalo y el nmero total de datos. Histograma: Es una serie de rectngulos con bases iguales al rango de los intervalos y con rea proporcional a sus frecuencias. Inferencia Estadstica: Es aplicar resultados de estudios de una muestra a la poblacin y emitir juicios o conclusiones sobre esa poblacin en general. Intervalo de Clase: Pequea seccin de la escala segn la cual se agrupan las puntuaciones de una distribucin de frecuencia. Tamao o rango de la Clase. Lmites del Intervalo: Son los valores extremos que tiene el intervalo de clase, inferior y superior, entre los cuales van a estar los valores de los datos agrupados en ese intervalo de clase. Media Aritmtica: La media de un conjunto de N nmeros, X1, X2, X3,.. XN. Se define por:

Mediana: La mediana de un conjunto de nmeros ordenados en magnitud es o el valor central o la media de los dos valores centrales. Ejemplo: El conjunto de nmeros 3, 4, 4, 5, 6, 8, 8,8 y 10 tiene mediana 6.
69

Medidas de Tendencia Central: Un promedio es un valor tpico o representativo de un conjunto de datos. Tales valores suelen situarse hacia al centro del conjunto de datos ordenados por magnitud. Una vez que los datos han sido reunidos y tabulados, comienza el anlisis con el objeto de calcular un nmero nico, que represente o resuma todos los datos. Dado que por lo general la frecuencia de los intervalos centrales es mayor que el resto, este nmero se suele denominar valor o medida de la tendencia central. Moda: Es el valor que ocurre con mayor frecuencia; es decir, el valor ms frecuente. La moda puede no existir, e incluso no ser nica en caso de existir. Observacin de Campo: Es la observacin que realiza el investigador en el lugar donde ocurren los sucesos o eventos, para extraer los datos. Poblacin y Muestra: Al recoger datos relativos a las caractersticas de un grupo de individuos u objetos, sean alturas y pesos de estudiantes de una universidad o tuercas defectuosas producidas en una fbrica, suele ser imposible o nada prctico observar todo el grupo, en especial si es muy grande. En vez de examinar el grupo entero, llamado poblacin o universo, se examina una pequea parte del grupo, llamada muestra. Una poblacin puede ser finita o infinita. Por ejemplo, la poblacin consistente en todas las tuercas producidas por una fbrica un cierto da es finita, mientras que la determinada por todos los posibles resultados (caras, cruces) de sucesivas tiradas de una moneda, es infinita. Si una muestra es representativa de una poblacin, es posible inferir importantes conclusiones sobre las poblaciones a partir del anlisis de la muestra. La fase de la estadstica que trata con las condiciones bajo las cuales tal diferencia es vlida se llama estadstica inductiva o inferencia estadstica. Ya que dicha inferencia no es del todo exacta, el lenguaje de las probabilidades aparecer al establecer nuestras conclusiones. La parte de la estadstica que slo se ocupa de describir y

70

analizar un grupo dado, sin sacar conclusiones sobre un grupo mayor, se llama estadstica descriptiva o deductiva. Polgono de frecuencia: Se obtiene conectando los puntos medios de cada intervalo de un histograma de frecuencias acumuladas con segmentos rectilneos. Porcentaje: Es la proporcin de una cantidad de datos especficos, con respecto al total de esos datos. Probabilidad: Es el conjunto de posibilidades de que un evento ocurra o no en un momento y tiempo determinado. Dichos eventos pueden ser medibles a travs de una escala de 0 a 1, donde el evento que no pueda ocurrir tiene una probabilidad de 0 y uno que ocurra con certeza es de 1. Ejemplo: Cuando se lanza una moneda, se desea saber cul es la probabilidad de que se sello o cara, es decir existe un 0,5 (50%) de que sea cara o 0,5 (50%) de que sea sello. Promedio: Es una medida que caracteriza un grupo de datos bajo algn criterio. Como: la media aritmtica y la media ponderada. Rango: Situacin de un dato respecto de una distribucin. Tamao de la Muestra: Es la cantidad de datos que sern extrados de la poblacin para formar parte de la muestra. Validez: Importancia predictiva para los propsitos que se persiguen.

Coeficiente binomial: Parte de la frmula binomial que indica el nmero de permutaciones de x xitos y n - x fracasos que se pueden alcanzar en n ensayos que satisfacen las condiciones de un proceso de Bernoulli.
71

Distribucin acumulativa de probabilidad: Distribucin de probabilidad que muestra las probabilidades de que una variable aleatoria sea menor o igual que cualquier posible valor dado. Distribucin de probabilidad binomial: Distribucin de probabilidad que muestra las probabilidades relacionadas con valores posibles de una variable aleatoria discreta, que se genera por un proceso de Bernoulli. Distribucin de probabilidad hipergeomtrica: Distribucin de probabilidad que muestra las probabilidades relacionadas con valores posibles de una variable aleatoria discreta, en situaciones en las que estos valores son generados por muestreo sin reemplazo, y en los que la probabilidad de xito, por lo tanto, cambia de un intento al siguiente. Distribucin discreta de probabilidad: Una tabla, grfica o frmula que asocia cada valor posible, x, de una variable aleatoria discreta, X, con una cierta probabilidad de ocurrir, p(X=x). Frmula binomial: Frmula para calcular la probabilidad de x xitos en n ensayos de un experimento aleatorio que satisface las condiciones de un proceso de Bernoulli. Frmula de Poisson: Frmula para calcular la probabilidad, dentro de un tiempo o espacio especificado, de x acontecimientos de un evento especificado que satisface las condiciones de un proceso de Poisson. Frmula hipergeomtrica: Frmula para calcular la probabilidad de x xitos cuando una muestra aleatoria de n se saca sin reemplazo de una poblacin de N dentro de la que existe S unidades con la caracterstica que denota xito. Proceso Bernoulli: Secuencia de n ensayos idnticos de un experimento aleatorio tal que cada ensayo, (a) produce uno de dos resultados posibles complementarios que
72

convencionalmente reciben el nombre de xito y fracaso, y (b) es independiente de cualquier otro ensayo, de modo que la probabilidad de xito o fracaso es constante de ensayo en ensayo. Proceso Poisson: Acontecimiento de una serie de eventos de un tipo dado en una forma aleatoria en el tiempo y el espacio, tal que (a) el nmero de acontecimientos dentro de un tiempo o espacio especificado puede ser igual a cualquier entero entre cero e infinito, (b) el nmero de acontecimientos dentro de una unidad de tiempo o espacio es independiente del de cualquier otra unidad (que no se traslapa), y la probabilidad de acontecimiento es la misma en todas estas unidades. Tablas de probabilidad binomial: Tablas que contienen probabilidades binomiales (probabilidades de x xitos en un proceso Bernoulli) para varias combinaciones de valores posibles de n (nmero de ensayos) y p (probabilidad de xito en cualquier ensayo). Tablas de probabilidad de Poisson: Tablas que enumeran las probabilidades Poisson (probabilidades de x acontecimientos en un proceso de Poisson) para varios valores de m (nmero de acontecimientos). Valor esperado, E(X): Media aritmtica ponderada de una variable aleatoria; es el valor de una variable aleatoria que se puede esperar encontrar en promedio por numerosas repeticiones del experimento aleatorio que genera el valor real de la variable. Variable aleatoria binomial: Nmero de xitos logrados en un proceso de Bernoulli. Variable aleatoria hipergeomtrica: Nmero de xitos alcanzados cuando una muestra aleatoria de n se saca sin reemplazo de una poblacin de N, dentro de la que existen s unidades con la caracterstica que denota xito. Variable aleatoria Poisson:

73

Nmero de acontecimientos de un evento especificado dentro de un tiempo o espacio especificado.

74

BIBLIOGRAFA
Texto Estadstica para las Ciencias Administrativas. Martinez, Ciro. Estadstica y Muestreo. Ecoe Ediciones. Bogot. 11. Edicin.

Referencias Web http://www.slideshare.net/cquintero59/medidas-de-tendencia-central1148681 www.mitecnologico.com http://www.profesorenlinea.cl/matematica/EstadisticaMediaMedianaModa.ht m http://www.profesorenlinea.cl/matematica/EstadisticaMediaMedianaModa.ht m es.wikipedia.org/wiki/Distribucin_de_probabilidad http://www.matap.uma.es/profesor/sixto/estad/tema6.pdf http://www.ciencia-ahora.cl/Revista19/12DistribucionesProbabilidades.pdf

75

Vous aimerez peut-être aussi