Vous êtes sur la page 1sur 130

Unidad 1

ESTADSTICA DESCRIPTIVA

1.1 Estadstica como ciencia Inductiva


Introduccin
Este captulo inicia con la definicin de algunos conceptos elementales y bsicos.
Pretendemos introducir al estudiante en los primeros pasos sobre el uso y manejos de
datos numricos: distinguir y clasificar las caractersticas en estudio, ensearle a
organizar y tabular las medidas obtenidas mediante la construccin de tablas de
frecuencia y por ltimo los mtodos para elaborar una imagen que sea capaz de mostrar
grficamente unos resultados.
Cada vez es ms habitual el uso de grficos o imgenes para representar la informacin
obtenida. Sin embargo, debemos ser prudente al confeccionar o interpretar grficos,
puesto que una misma informacin se puede representar de formas muy diversas, y no
todas ellas son pertinentes, correctas o vlidas. Nuestro objetivo, en este captulo,
consiste en establecer los criterios y normas mnimas que deben verificarse para
construir y presentar adecuadamente los grficos en el mbito de la estadstica
descriptiva.

Qu es la estadstica?
Cuando se habla de estadstica, se suele pensar en una relacin de datos numricos
presentada de forma ordenada y sistemtica. Esta idea es la consecuencia del concepto
popular que existe sobre el trmino y que cada vez est ms extendido debido a la
influencia de nuestro entorno, ya que hoy da es casi imposible que cualquier medio de
difusin, peridico, radio, televisin, etc, no nos aborde diariamente con cualquier tipo
de informacin estadstica sobre accidentes de trfico, ndices de crecimiento de
poblacin, turismo, tendencias polticas, etc.
Slo cuando nos adentramos en un mundo ms especfico como es el campo de la
investigacin de las Ciencias Sociales: Medicina, Biologa, Psicologa, ... empezamos a
percibir que la Estadstica no slo es algo ms, sino que se convierte en la nica
herramienta que, hoy por hoy, permite dar luz y obtener resultados, y por tanto
beneficios, en cualquier tipo de estudio, cuyos movimientos y relaciones, por su
variabilidad intrnseca, no puedan ser abordadas desde la perspectiva de las leyes

determinsticas. Podramos, desde un punto de vista ms amplio, definir la estadstica


como la ciencia que estudia cmo debe emplearse la informacin y cmo dar una gua
de accin en situaciones prcticas que entraan incertidumbre.

La Estadstica se ocupa de los mtodos y procedimientos para recoger, clasificar,


resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e
incertidumbre sea una causa intrnseca de los mismos; as como de realizar inferencias a
partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular
predicciones.

1.2 Poblaciones y Muestras


Establecemos a continuacin algunas definiciones de conceptos bsicos y
fundamentales como son: elemento, poblacin, muestra, variables, etc., a las cuales
haremos referencia continuamente a lo largo del texto.

Poblacin: conjunto de elementos que cumplen ciertas propiedades comunes.


Muestra: subconjunto representativo de una poblacin.
Elementos: personas u objetos pertenecientes a una poblacin y que contienen la
informacin que se desea estudiar.
Parmetro: funcin definida sobre los valores numricos de caractersticas medibles
de una poblacin.
Estadstico o Estimador: funcin definida sobre los valores numricos de una
muestra.
En relacin al tamao de la poblacin, sta puede ser:

Finita, como es el caso del nmero de personas que llegan al servicio de


urgencia de un hospital en un da; (existe un lmite, por tanto se puede contar)

Infinita, si por ejemplo estudiamos el mecanismo aleatorio que describe la


secuencia de caras y sellos obtenida en el lanzamiento repetido de una moneda
al aire (la secuencia no tiene lmite y no sabe cuando parar).

Ejemplo
Consideremos la poblacin formada por todos los estudiantes de la ESPOL (finita). La
altura media de todos los estudiantes es el parmetro

. El conjunto formado por los

alumnos del Bsico es una muestra de dicha poblacin y la altura media de los
estudiantes que conforman esta muestra es el estadstico o estimador .

La Estadstica Descriptiva como instrumento de la


Estadstica Inferencial

Como se dijo en el tema 1.1 la Estadstica se ocupa de los mtodos y procedimientos


para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y
cuando la variabilidad e incertidumbre sea una causa intrnseca de los mismos; as
como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de
decisiones y en su caso formular predicciones; por tanto, se puede clasificar la
Estadstica en:
descriptiva, cuando los resultados del anlisis no procuran ir ms all del conjunto de
datos,
inferencial, cuando el objetivo del estudio es derivar las conclusiones obtenidas a un
conjunto de datos ms amplio.
Estadstica descriptiva: Describe, analiza y representa un grupo de datos utilizando
mtodos numricos y grficos que resumen y presentan la informacin contenida en
ellos.
Estadstica inferencial: Apoyndose en el clculo de probabilidades y a partir de datos
muestrales, efecta estimaciones, decisiones, predicciones u otras generalizaciones
sobre un conjunto mayor de datos.

La Estadstica Descriptiva como instrumento de la Estadstica Inferencial


La Estadstica Descriptiva al analizar los datos recogidos y describirlos, ayuda a ver el
comportamiento estadstico de la variable de estudio (cual es el valor que mas se repite,
que tan dispersos estn los datos, etc.), y al conocer este proceder se pueden hacer
inferencias acerca de cmo puede comportarse dicha variable en el futuro, es por esto
que se dice que la Estadstica Descriptiva sirve como instrumento de la Estadstica
Inferencial.
Variables estadsticas
Cuando hablemos de variable haremos referencia a un smbolo (X, Y, A, B,...) que
puede tomar cualquier modalidad (valor) de un conjunto determinado, que llamaremos

dominio de la variable o rango. En funcin del tipo del dominio de la variable se las
clasifica de la siguiente manera:
Variables cualitativas,
cuando las modalidades posibles son de tipo nominal (que no se puede contar).
Por ejemplo, una variable de color

Variables cuasi cuantitativas


son las variables que, aunque sus modalidades son de tipo nominal, es posible
establecer un orden entre ellas.
Ejemplos:
1. Si estudiamos la llegada a la meta de autos en una competencia de 20
participantes, su clasificacin C es tal que

2. El grado de dolencia, D, que sufre un paciente ante un tratamiento mdico:

Variables cuantitativas
son las que tienen por modalidades cantidades numricas con las que podemos
hacer operaciones aritmticas. Dentro de este tipo de variables podemos
distinguir dos grupos:
o Discretas,
cuando no admiten siempre una modalidad intermedia entre dos cualesquiera
de sus modalidades.
Ejemplo: el nmero X, obtenido en el lanzamiento repetido de un dado. Es
obvio que cada valor de la variable es un nmero natural
o Continuas,
cuando admiten una modalidad intermedia entre dos cualesquiera de sus
modalidades.
Ejemplo: la estatura X de un nio al nacer. En este caso los valores de las
variables son nmeros reales, es decir
Ocurre a veces que una variable cuantitativa continua por naturaleza, aparece
como discreta. Este es el caso en que hay limitaciones en lo que concierne a la
precisin del aparato de medida de esa variable, es decir, si medimos la altura en
metros de personas con una regla que ofrece dos decimales de precisin,
podemos obtener

En realidad lo que ocurre es que con cada una de esas mediciones expresamos
que el verdadero valor de la misma se encuentra en un intervalo de radio
. Por tanto cada una de las observaciones de X representa ms bien un
intervalo que un valor concreto.

Tal como hemos citado anteriormente, las modalidades son las diferentes situaciones
posibles que puede presentar la variable. A veces stas son muy numerosas (ejemplo:
cuando una variable es continua) y conviene reducir su nmero, agrupndolas en una
cantidad inferior de clases. Estas clases deben ser construidas, tal como se estudiar ms
adelante, de modo que sean exhaustivas e incompatibles, es decir, cada modalidad debe
pertenecer a una y slo una de las clases.
Estadstica descriptiva: Describe, analiza y representa un grupo de datos utilizando
mtodos numricos y grficos que resumen y presentan la informacin contenida en
ellos.
Estadstica inferencial: Apoyndose en el clculo de probabilidades y a partir de datos
muestrales, efecta estimaciones, decisiones, predicciones u otras generalizaciones
sobre un conjunto mayor de datos.
Variables Discretas: cuando no admiten siempre una modalidad intermedia entre dos
cualesquiera de sus modalidades. Sus modalidades son valores enteros.
Variables Continuas: cuando admiten una modalidad intermedia entre dos cualesquiera de sus
modalidades. Sus modalidades son valores reales.

Variable cualitativa:
Aquella cuyas modalidades son de tipo nominal.
Variable cuasi cuantitativa:Modalidad del tipo nominal y que tienen orden.

1.4 Diagrama de Paretto y Distribucin de Frecuencias


Los diagramas y los grficos son formas visuales de describir el comportamiento de una
variable, para poder realizarlos se debe conocer primeramente la manera de trabajar con
los datos obtenidos.

Diagrama de Paretto
Un diagrama de Paretto se asemeja a un Histograma, excepto que es una grfica de
barras de frecuencias de una variable cualitativa, no de datos cuantitativos agrupados en
clases. Las barras pueden representar frecuencias o porcentajes, se organizan en orden
descendente de izquierda a derecha.
Los diagramas de Paretto se utilizan en el control de procesos para tabular las causas
asociadas con variaciones de causas atribuibles en la calidad del producto del proceso.
Ejemplo: Se encontr que en una planta de ensamblado de refrigeradores no fueron
aprobados en inspeccin final, con forme muestra el siguiente cuadro:
Defecto
Conteo
Porcentaje
% acumulado

Ensamble
98
49.0
49.0

Laca
60
30.0
79.0

Elctrico
20
10.0
89.0

Abolladuras
12
6.0
95.0

Otros
10
5.0
100.0

Distribucin de Frecuencias
Construccin de Tablas estadsticas
Consideremos una poblacin estadstica de n individuos, descrita segn un carcter o
variable C cuyas modalidades han sido agrupadas en un nmero k de clases, que
denotamos mediante
. Para cada una de las clases ci,
introducimos las siguientes magnitudes:

Frecuencia absoluta
de la clase ci es el nmero ni, de observaciones que presentan una modalidad
perteneciente a esa clase.
Frecuencia relativa
de la clase ci es el cociente fi, entre las frecuencias absolutas de dicha clase y el
nmero total de observaciones, es decir

Obsrvese que fi es el tanto por uno de observaciones que estn en la clase ci.
Multiplicado por
esa clase.

representa el porcentaje de la poblacin que comprende

Frecuencia absoluta acumulada


Ni, se calcula sobre variables cuantitativas o cuasi cuantitativas, y es el nmero
de elementos de la poblacin cuya modalidad es inferior o equivalente a la
modalidad ci:

Frecuencia relativa acumulada

Fi, se calcula sobre variables cuantitativas o cuasi cuantitativas, siendo el tanto


por uno de los elementos de la poblacin que estn en alguna de las clases y que
presentan una modalidad inferior o igual a la ci, es decir,

Como todas las modalidades son exhaustivas e incompatibles ha de ocurrir que

Llamaremos distribucin de frecuencias al conjunto de clases junto a las frecuencias


correspondientes a cada una de ellas. Una tabla estadstica sirve para presentar de
forma ordenada las distribuciones de frecuencias. Su forma general es la siguiente:
Modalidad Frec. Abs. Frec. Rel.
C

ni

c1

n1

...

...

cj

nj

...

...

ck

nk
n

Frec. Abs. Acum.

Frec. Rel. Acum.

Ni

Fi

fi

N1 = n1
...

...

...

...

...

...

Nk = n

Fk = 1

Ejemplo
Calcular los datos que faltan en la siguiente tabla:
li-1 -- li

ni

fi

Ni

0 -- 10

60

f1

60

10 -- 20

n2

0,4

N2

20 -- 30

30

f3

170

30 -- 100

n4

0,1

N4

100 -- 200

n5

f5

200

n
Solucin:

Sabemos que la ltima frecuencia acumulada es igual al total de observaciones, luego n


= 200.
Como

N3=170 y n3=30

=>

N2= N3-n3=170-30=140.

Adems

n1=60,

=>

n2= N2-n1=140-60=80.

Por otro lado podemos calcular n4 teniendo en cuenta que conocemos la frecuencia
relativa correspondiente:
As:

N4 =n4 +N3=20+170 =190.

Este ltimo clculo nos permite obtener:

n5 =N5 -N4=200-190=10.

Al haber calculado todas las frecuencias absolutas, es inmediato obtener las relativas:

Escribimos entonces la tabla completa:


li-1 -- li

ni

fi

Ni

0 -- 10

60

0,3

60

10 -- 20

80

0,4

140

20 -- 30

30

0,15

170

30 -- 100

20

0,1

190

100 -- 200

10

0,05

200

200
Eleccin de las clases
En cuanto a la eleccin de las clases, deben seguirse los siguientes criterios en funcin
del tipo de variable que estudiemos:

Cuando se trate de variables cualitativas o cuasi cuantitativas, las clases ci sern


de tipo nominal;

En el caso de variables cuantitativas, existen dos posibilidades:


o

Si la variable es discreta, las clases sern valores numricos

Si la variable es continua las clases vendrn definidas mediante lo que


denominamos intervalos. En este caso, las modalidades que contiene

una clase son todos los valores numricos posibles contenidos en el


intervalo, el cual viene normalmente definido de la forma

En estos casos llamaremos amplitud del intervalo a las cantidades


ai = li - li-1
y marca de clase ci, a un punto representativo del intervalo. Si ste es
acotado, tomamos como marca de clase al punto ms representativo, es
decir al punto medio del intervalo,

La marca de clase no es ms que una forma abreviada de representar un


intervalo mediante uno de sus puntos. Por ello hemos tomado como
representante, el punto medio del mismo. Esto est plenamente
justificado si recordamos que cuando se mide una variable continua
como el peso, la cantidad con cierto nmero de decimales que expresa
esta medicin, no es el valor exacto de la variable, sino una medida que
contiene cierto margen de error, y por tanto representa a todo un
intervalo del cual ella es el centro.
En el caso de variables continuas, la forma de la tabla estadstica es la siguiente:
Interv.

M. clase

Frec. Abs.

Frec. Rel.

Frec. Abs. Acum.

Frec. Rel. Acum.

ni

fi

Ni

Fi

l0 -- l1

C1

n1

N1 = n1

F1 = f1

...

...

...

...

...

lj-1 -- lj

cj

nj

Nj = Nj-1+ nj

Fj = Fj-1 + fj

...

...

...

...

...

lk-1 -- lk

ck

nk

Nk=n

Fk =1

...

...

Eleccin de intervalos para variables continuas


A la hora de seleccionar los intervalos para las variables continuas, se plantean varios
problemas como son el nmero de intervalos a elegir y sus tamaos respectivos. La
notacin ms comn que usaremos para un intervalo sea

El primer intervalo, l0 -- l1, podemos cerrarlo en el extremo inferior para no excluir la


observacin ms pequea, l0

Este arreglo usaremos en las pginas siguientes. El considerar los intervalos por el lado
izquierdo y abrirlos por el derecho no cambia de modo significativo nada de lo que
expondremos.
El nmero de intervalos, k, a utilizar no est determinado de forma fija y por tanto
tomaremos un k que nos permita trabajar cmodamente y ver bien la estructura de los
datos; Como referencia nosotros tomaremos una de los siguientes valores aproximados:

Por ejemplo si el nmero de observaciones que tenemos es n =100, un buen criterio es


agrupar las observaciones en

intervalos. Sin embargo si tenemos n

=1.000.000, ser mas razonable elegir

intervalos, que

.
La amplitud de cada intervalo: ai = li - li-1 suele tomarse constante, considerando la
observacin ms pequea y ms grande de la poblacin (respectivamente

) para calcular la amplitud total, A, de la poblacin A = lk - l0 de forma que


la amplitud de cada intervalo sea:

As la divisin en intervalos podra hacerse tomando:

Observacin
Podra ocurrir que la cantidad a fuese un nmero muy desagradable a la hora de escribir
los intervalos (Ej. a =10,325467). En este caso, es recomendable variar simtricamente
los extremos,
simple (Ej. a =10).

, de forma que se tenga que a es un nmero ms

Ejemplo
Sobre un grupo de n =21 personas se realizan las siguientes observaciones de sus pesos,
medidos en kilogramos:

58

42

51

54

40

39

49

56

58

57

59

63

58

66

70

72

71

69

70

68

64

Agrupar los datos en una tabla estadstica.


Solucin:
En primer lugar hay que observar que si denominamos X a la variable peso de cada
persona esta es una variable de tipo cuantitativa y continua. Por tanto a la hora de ser
ordenados los resultados en una tabla estadstica, esto se ha de hacer agrupndolos en
intervalos de longitud conveniente. Esto nos lleva a perder cierto grado de precisin.
Para que la perdida de informacin no sea muy relevante seguimos el criterio de utilizar
intervalos (no son demasiadas las observaciones). En este punto podemos
tomar bien k =4 o bien k =5. Arbitrariamente se elige una de estas dos posibilidades. Por
ejemplo, vamos a tomar k =5.
Lo siguiente es determinar la longitud de cada intervalo, ai
. Lo ms cmodo
es tomar la misma longitud en todos los intervalos, ai =a (aunque esto no tiene por qu
ser necesariamente as), donde

Entonces tomaremos k =5 intervalos de longitud a =6,6comenzando por l0 =xmin =39 y


terminando en l5=33:
Intervalos

M. clase

f.a.

f.r.

f.a.a.

f.r.a.

li-1 -- li

ci

ni

fi

Ni

Fi

i=1

39 -- 45,6

42,3

0,1428

0,1428

i=2

45,6 -- 52,2

48,9

0,0952

0,2381

i=3

52,2 -- 58,8

55,5

0,2857

11

0,5238

i=4

58,8 -- 65,4

62,1

0,1428

14

0,6667

i=5

65,4 -- 72

68,7

0,3333

21

21

Otra posibilidad a la hora de construir la tabla, y que nos permite que trabajemos con
cantidades ms simples a la hora de construir los intervalos, es la siguiente. Como la
regla para elegir l0 y l5 no es muy estricta podemos hacer la siguiente eleccin:

ya que as la tabla estadstica no contiene decimales en la expresin de los intervalos, y


el exceso d, cometido al ampliar el rango de las observaciones desde A hasta A', se
reparte del mismo modo a los lados de las observaciones menores y mayores:
Intervalos

M. clase

f.a.

f.r.

f.a.a.

f.r.a.

li-1 -- li

ci

ni

fi

Ni

Fi

i=1

38 -- 45

41,5

0,1428

0,1428

i=2

45 -- 52

48,5

0,0952

0,2381

i=3

52 -- 59

55,5

0,3333

12

0,5714

i=4

59 -- 66

62,5

0,1428

15

0,7143

i=5

66 -- 73

69,5

0,2857

21

21

Grficos para variables cuantitativas


Para las variables cuantitativas, consideraremos dos tipos de grficos, en funcin de que
para realizarlos se usen las frecuencias (absolutas o relativas) o las frecuencias
acumuladas:
Diagramas diferenciales:
Son aquellos en los que se representan frecuencias absolutas o relativas. En
ellos se representa el nmero o porcentaje de elementos que presenta una
modalidad dada.
Diagramas integrales:
Son aquellos en los que se representan el nmero de elementos que presentan
una modalidad inferior o igual a una dada. Se realizan a partir de las
frecuencias acumuladas, lo que da lugar a grficos crecientes, y es obvio que
este tipo de grficos no tiene sentido para variables cualitativas.
Segn hemos visto existen dos tipos de variables cuantitativas: discretas y continuas.
Vemos a continuacin las diferentes representaciones grficas que pueden realizarse
para cada una de ellas as como los nombres especficos que reciben.

Grficos para variables discretas


Cuando representamos una variable discreta, usamos el diagrama de barras cuando
pretendemos hacer una grfica diferencial. Las barras deben ser estrechas para
representar el que los valores que toma la variable son discretos. El diagrama integral o
acumulado tiene, por la naturaleza de la variable, forma de escalera. Un ejemplo de
diagrama de barras as como su diagrama integral correspondiente estn representados a
continuacin:
Ejemplo
Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el nmero de caras, X,
obtenindose los siguientes resultados:

Representar grficamente el resultado.


Solucin: En primer lugar observamos que la variable X es cuantitativa discreta,
presentando las modalidades:

Ordenamos a continuacin los datos en una tabla estadstica, y se representa as


Diagrama diferencial (Graf. barras izq.) e integral
para una variable discreta (Graf. Der.). Obsrvese
que el diagrama integral (creciente) contabiliza el
nmero de observaciones de la variable inferiores o
iguales a cada punto del eje de abcisas.

xi

ni

fi

Ni

Fi

1/8

1/8

3/8

4/8

3/8

7/8

1/8

8/8

n =8

Ejemplo
Clasificadas 12 familias por su nmero de hijos se obtuvo:

Nmero de hijos (xi)

Frecuencias (ni)

Comparar los diagramas de barras para frecuencias absolutas y relativas. Realizar el


diagrama acumulativo creciente.
Solucin: En primer lugar, escribimos la tabla de frecuencias en el modo habitual:
Variable

F. Absolutas

F. Relativas

F. Acumuladas

xi

ni

fi

Ni

0,083

0,250

0,416

0,250

12

12

Con las columnas relativas a xi y ni realizamos el diagrama de barras para frecuencias


absolutas, lo que se muestra en la siguiente figura:
Figura: Diagramas de frecuencias para una
variable discreta

Como puede verse es idntico (salvo un cambio de escala en el eje de ordenadas) al


diagrama de barras para frecuencias relativas y que ha sido calculado usando las
columnas de xi y fi. El diagrama escalonado (acumulado) se ha construido con la
informacin procedente de las columnas xi y Ni.
Grficos para variables continuas
Cuando las variables son continuas, utilizamos como diagramas diferenciales los
histogramas y los polgonos de frecuencias.
Un histograma se construye a partir de la tabla estadstica, representando sobre cada
intervalo, un rectngulo que tiene a este segmento como base. El criterio para calcular la
altura de cada rectngulo es el de mantener la proporcionalidad entre las frecuencias
absolutas (o relativas) de cada intervalo y el rea de los mismos.

El polgono de frecuencias se construye fcilmente si tenemos representado


previamente el histograma, ya que consiste en unir mediante lneas rectas los puntos del
histograma que corresponden a las marcas de clase.
Para representar el polgono de frecuencias en el primer y ltimo intervalo, suponemos
que adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula,
y se unen por una lnea recta los puntos del histograma que corresponden a sus marcas
de clase. Obsrvese que de este modo, el polgono de frecuencias tiene en comn con el
histograma el que las reas de la grficas sobre un intervalo son idnticas.
El diagrama integral para una variable continua se denomina tambin polgono de
frecuencias acumulado, y se obtiene como la poligonal definida en abcisas a partir de
los extremos de los intervalos en los que hemos organizado la tabla de la variable, y en
ordenadas por alturas que son proporcionales a las frecuencias acumuladas. Dicho de
otro modo, el polgono de frecuencias absolutas es una primitiva del histograma.
Se representa a modo de ilustracin los diagramas correspondientes a la variable
cuantitativa continua expresada en la tabla siguiente:
Intervalos

ci

ni

Ni

0 -- 2

2 -- 4

4 -- 6

6 -- 8

10

8 - 10

12

12

Figura: Diagramas diferenciales e integrales para


una variable continua.

Ejemplo
La siguiente distribucin se refiere a la duracin en horas (completas) de un lote de 500
tubos:
Duracin en horas

Nmero de tubos

300 -- 500

50

500 -- 700

150

700 -- 1.100

275

ms de 1.100

25
Total 500

Representar el histograma de frecuencias relativas y el polgono de frecuencias.

Trazar la curva de frecuencias relativas acumuladas.

Determinar el nmero mnimo de tubos que tienen una duracin inferior a 900
horas.

Solucin: En primer lugar observamos que la variable en estudio es discreta (horas


completas), pero al tener un muy amplio rango de valores resulta ms conveniente
agruparla en intervalos, como si se tratase de una variable continua. La consecuencia
es una ligera perdida de precisin.
El ltimo intervalo est abierto por el lmite superior. Dado que en l hay 25
observaciones puede ser conveniente cerrarlo con una amplitud razonable. Todos los
intervalos excepto el tercero tienen una amplitud de 200 horas, luego podramos cerrar
el ltimo intervalo en 1.300 horas.
Antes de realizar el histograma conviene hacer una observacin importante. El
histograma representa las frecuencias de los intervalos mediante reas y no mediante
alturas. Sin embargo nos es mucho ms fcil hacer representaciones grficas teniendo
en cuenta estas ltimas. Si todos los intervalos tienen la misma amplitud no es necesario
diferenciar entre los conceptos de rea y altura, pero en este caso el tercer intervalo tiene
una amplitud doble a los dems, y por tanto hay que repartir su rea en un rectngulo de
base doble (lo que reduce su altura a la mitad).
As ser conveniente aadir a la habitual tabla de frecuencias una columna que
represente a las amplitudes ai de cada intervalo, y otra de frecuencias relativas
rectificadas, fi', para representar la altura del histograma. Los grficos requeridos se
representan a continuacin.
Intervalos

ai

ni

fi

fi'

Fi

300 -- 500

200

50

0,10

0,10

0,10

500 -- 700

200

150

0,30

0,30

0,40

700 -- 1.100

400

275

0,55

0,275

0,95

1.100 -- 1.300

200

25

0,05

0,05

1,00

n =500

Histograma. Obsrvese que la altura del histograma


en cada intervalo es fi' que coincide en todos con fi
salvo en el intervalo 700 -- 1.100 en el que
ya que la amplitud de ese intervalo es
doble a la de los dems.

se ve que sumando frecuencias relativas, hasta las 900 horas de duracin hay
0,10 + 0,30 + 0,275 = 0,675 = 67,5 % de los tubos.
Esta cantidad se obtiene de modo ms directo viendo a qu altura corresponde al valor
900 en el siguiente diagrama de frecuencias acumuladas.

Diagrama acumulativo de frecuencias relativas

Como en total son 500 tubos, el nmero de tubos con una duracin igual o menor que
900 horas es

, redondeando, 338 tubos.

Diagrama de Paretto: se asemeja a un Histograma, excepto que es una grfica de


barras de frecuencias de una variable cualitativa, no de datos cuantitativos agrupados en
clases. Las barras pueden representar frecuencias o porcentajes, se organizan en orden
descendente de izquierda a derecha.

Diagramas diferenciales: Son aquellos en los que se representan frecuencias absolutas


o relativas. En ellos se representa el nmero o porcentaje de elementos que presenta una
modalidad dada.
Diagramas integrales: Son aquellos en los que se representan el nmero de elementos
que presentan una modalidad inferior o igual a una dada. Se realizan a partir de las
frecuencias acumuladas, lo que da lugar a grficos crecientes, este tipo de grficos no
tiene sentido para variables cualitativas.
Frecuencia absoluta (ni):

Nmero de elementos que presentan la clase xi.

Frecuencia relativa:

Frecuencia absoluta acumulada:

Frecuencia relativa acumulada:

Recorrido:
Amplitud:

ai = li - li-1

Marca de clase:
Frecuencias rectificadas:

Tabla: Principales diagramas segn el tipo de variable.


Tipo de variable

Diagrama

V. Cualitativa

Barras, sectores, pictogramas

V. Discreta

Diferencial (barras)
Integral (en escalera)

V. Continua

Diferencial (histograma, polgono de frecuencias)


Integral (diagramas acumulados)

1.5 Percentiles, Cuartiles y Deciles, de una distribucin de


Frecuencias
Para una variable discreta, se define el percentil de orden k, como la observacin, Pk,
que deja - por debajo de s - el
de la poblacin. Esta definicin nos recuerda a la
mediana, pues como consecuencia de la definicin es evidente que Med = P50
En el caso de una variable continua, el intervalo donde se encuentra
calcula buscando el que deja - por debajo de s - al
l, Pk se obtiene segn la relacin:

, se

de las observaciones. Dentro de

Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de la


distribucin, por lo que no puede considerrsele como una medida de tendencia central.
Los cuartiles, Ql, son un caso particular de los percentiles. Hay 3, y se definen como:

De forma anloga se definen los deciles como los valores de la variable que dividen a
las observaciones en 10 grupos de igual tamao. Ms precisamente, definimos D1,D2, ...,
D9 como:

Los percentiles (que incluyen a la mediana, cuartiles y deciles) tambin son


denominados estadsticos de posicin.
Ejemplo
Dada la siguiente distribucin en el nmero de hijos de cien familias, calcular sus
cuartiles.
xi

ni

Ni

14

14

10

24

15

39

26

65

20

85

15

100

n =100
Solucin: Aplicando las frmulas antes enunciadas para los cuartiles tenemos lo
siguiente:
1. Primer cuartil:

2. Segundo cuartil:

3. Tercer cuartil:
Ejemplo
Calcular los cuartiles en la siguiente distribucin de una variable continua:
li-1 - li

ni

Ni

0-1

10

10

1-2

12

22

2-3

12

34

3-4

10

44

4-5

51

n =51
Solucin:
1. Primer cuartil

2. Segundo cuartil:

3. Tercer cuartil

Ejemplo
Han sido ordenados los pesos de 21 personas en la siguiente tabla:
Intervalos

f.a.

li-1 -- li

ni

38 -- 45

45 -- 52

52 -- 59

59 -- 66

66 -- 73

6
21

Encontrar aquellos valores que dividen a los datos en 4 partes con el mismo nmero de
observaciones.
Solucin: Las cantidades que buscamos son los tres cuartiles:
,
y
. Para
calcularlos, le aadimos a la tabla las columnas con las frecuencias acumuladas, para
localizar qu intervalos son los que contienen a los cuartiles buscados:
li-1 -- li

ni

Ni

38 -- 45

45 -- 52

52 -- 59

12

59 -- 66

15

66 -- 73

21

21

se encuentran en el intervalo 52--59, ya que N3=12 es la

primera f.a.a. que supera a

est en 66--73, pues N5=21 es el primer Ni mayor que


As se tiene que:

Obsrvese que

. Esto es lgico, ya que la mediana divide a la distribucin en

dos partes con el mismo nmero de observaciones, y


, hace lo mismo, pues es deja a
dos cuartos de los datos por arriba y otros dos cuartos por abajo.
Ejemplo
La distribucin de una variable tiene su polgono acumulativo de frecuencias como se
presenta en la siguiente figura:
Diagrama acumulado de frecuencias relativas.

Si el nmero total de observaciones es 50:


1. Elaborar una tabla estadstica con los siguientes elementos: intervalos, marcas de
clase, frecuencia absoluta, frecuencia absoluta acumulada, frecuencias relativa y
frecuencias relativa acumulada.
2. Cuntas observaciones tuvieron un valor inferior a 10, cuntas inferior a 8 y cuntas
fueron superior a 11.
3. Calcule las modas.
4. Determine los cuartiles.
Solucin:
1. En la siguiente tabla se proporciona la informacin pedida y algunos clculos
auxiliares que nos permitirn responder a otras cuestiones.
Intervalos

ni

Ni

fi

Fi

xi

ai

0-5

10

10

0,2

0,3

2,5

5-7

25

35

0,5

0,7

12,5

7 - 12

40

0,1

0,8

9,5

12 - 15

10

50

0,2

13,5

3,33

2. Calculemos el nmero de observaciones pedido:

10 + 25+3 = 38 observaciones tomaron un valor inferior a 10

10 + 25+1 = 36 observaciones tomaron un valor inferior a 8

50 -(10 + 25+4) = 50-39=11 observaciones tomaron un valor superior a 11


3. Hay dos modas. Calculemos la ms representativa:

4. Cuartiles:

Percentil Pl, Para una variable discreta, se define el percentil de orden k, como la
observacin, Pk, que deja - por debajo de s - el k % de la poblacin. Esta definicin nos
recuerda a la mediana, pues como consecuencia de la definicin es evidente que Med =
P50 . En el caso de una variable continua, el intervalo donde se encuentra
,
se calcula buscando el que deja - por debajo de s - al k % de las observaciones.
Cuartiles, Ql, son un caso particular de los percentiles. Hay 3, y se definen como: Q1 =
P25, Q2 = P50 = Med, Q3 = P75
Deciles, Dl, de forma anloga se definen como los valores de la variable que dividen a
las observaciones en 10 grupos de igual tamao.

Unidad 2
PROBABILIDAD Y VARIABLE ALEATORIA

2.1 Eventos y Espacios Muestrales asociados a experimentos


Experimentos y Eventos (sucesos) aleatorios
Diremos que un experimento es aleatorio si se verifican las siguientes condiciones:
1. Se puede repetir indefinidamente, siempre en las mismas condiciones;
2. Antes de realizarlo, no se puede predecir el resultado que se va a obtener;
3. El resultado que se obtenga, e, pertenece a un conjunto conocido previamente
de resultados posibles. A este conjunto, de resultados posibles, lo
denominaremos espacio muestral y lo denotaremos normalmente mediante la
letra E. Los elementos del espacio muestral se denominan eventos elementales
o sucesos elementales.

Cualquier subconjunto de E ser denominado suceso aleatorio, y se denotar


normalmente con las letras A, B,...

Obsrvese que los sucesos elementales son sucesos aleatorios compuestos por un
slo elemento. Por supuesto los sucesos aleatorios son ms generales que los
elementales, ya que son conjuntos que pueden contener no a uno slo, sino a una
infinidad de sucesos elementales - y tambin no contener alguno - Sucesos aleatorios
que aparecen con gran frecuencia en el clculo de probabilidades son los siguientes:
Suceso seguro: Es aquel que siempre se verifica despus del experimento aleatorio, es
decir, el mismo E

Suceso imposible: Es aquel que nunca se verifica como resultado del experimento
aleatorio. Como debe ser un subconjunto de E, la nica posibilidad es que el suceso
imposible sea el conjunto vaco

Suceso contrario a un suceso A: Tambin se denomina complementario de A y es el


suceso que se verifica si, como resultado del experimento aleatorio, no se verifica A. Se
acostumbra a denotar con el smbolo Ac.

Representacin grfica de un suceso


aleatorio
contrario

, y de su suceso

Ejemplo
Si realizamos el experimento aleatorio de lanzar un dado al aire, tenemos:

Operaciones bsicas con sucesos aleatorios


Al ser los sucesos aleatorios nada ms que subconjuntos de un conjunto E - espacio
muestral -, podemos aplicarles las conocidas operaciones con conjuntos, como son la
unin, interseccin y diferencia:
Unin:
Dados dos sucesos aleatorios
, se denomina suceso unin de A y B al
conjunto formado por todos los sucesos elementales que pertenecen a A o bien que
pertenecen a B (incluyendo los que estn en ambos simultneamente), es decir

Como ejemplo, tenemos que la unin de un suceso cualquiera con su complementario es


el suceso seguro:

Volviendo al ejemplo del lanzamiento de un dado, si


suceso unin de A y B es:

, el

Interseccin:
Dados dos sucesos aleatorios
, se denomina suceso interseccin de A y B al
conjunto formado por todos los sucesos elementales que pertenecen a A y B a la vez, es
decir,

A veces por comodidad se omite el smbolo para denotar la interseccin de conjuntos,


sobre todo cuando el nmero de conjuntos que intervienen en la expresin es grande. En
particular podremos usar la siguiente notacin como equivalente a la interseccin:

Un ejemplo de interseccin es la de un suceso aleatorio cualquiera,


complementario,

, que es el suceso imposible:

Volviendo al ejemplo del dado,

Diferencia:

, con su

Dados dos sucesos aleatorios

, se llama suceso diferencia de A y B, y se

representa mediante
, o bien A-B, al suceso aleatorio formado por todos los
sucesos elementales que pertenecen a A, pero no a B:

Obsrvese que el suceso contrario de un suceso A, puede escribirse como la diferencia


del suceso seguro menos ste, o sea,

Diferencia simtrica:
Si

, se denomina suceso diferencia simtrica de A y B, y se representa

mediante
, al suceso aleatorio formado por todos los sucesos elementales que
pertenecen a A y no a B, y los que estn en B y no en A:

As:

En la siguiente figura se puede ver en resumen las diferentes diferencias existentes


Dados dos sucesos
representa: en (a)
B; en (d)

aleatorios
; en (b)

se
; en (c) A-

Hay ciertas propiedades que relacionan la unin, interseccin y suceso contrario, que
son conocidas bajo el nombre de Leyes de Morgan:

Espacio Muestral: El resultado que se obtenga de un experimento, e, pertenece a un


conjunto conocido previamente de resultados posibles. A este conjunto lo
denominaremos espacio muestral y lo denotaremos normalmente mediante la letra E.
Eventos elementales o sucesos elementales: se denominan a los elementos del espacio
muestral.
Suceso seguro: Es aquel que siempre se verifica despus del experimento aleatorio, es
decir, el mismo E
Suceso imposible: Es aquel que nunca se verifica como resultado del experimento
aleatorio. Como debe ser un subconjunto de E, la nica posibilidad es que el suceso
imposible sea el conjunto vaco
Suceso contrario a un suceso A o complementario de A: es el suceso que se verifica
si, como resultado del experimento aleatorio, no se verifica A. Se acostumbra a denotar
con el smbolo

2.2 La funcin de probabilidad definida sobre la clase de los


subconjuntos de un espacio muestral
Un experimento consta en lanzar un dado y verificar si el nmero que se obtiene de este
lanzamiento es par o impar.
De este experimento obtenemos el espacio muestral y el conjunto Potencia .
= {Par (P), Impar (I)}
= { , {P}, {I}, }
donde es el nmero que se obtiene si no es par ni impar, es decir, el evento imposible.
Definicin
Sea un espacio muestral cuyo conjunto potencia es , la funcin P:
funcin de probabilidad s y solamente si
1)
2)
3)

P() = 1
P(E) , E
P(E1 U E2) = P(E1) + P(E2), si E1,E2

Proposicin
P() = 0
Demostracin

Proposicin
E
Demostracin

Proposicin

, P(E) = 1 - P(Ec)

[0, 1] es una

, y E1 y E2 son mutuamente excluyentes

Demostracin

espacio muestral , es el conjunto de todos los eventos posibles.


conjunto Potencia , es el conjunto formado por todos los eventos posibles adems el
evento seguro y el evento imposible.
funcin de probabilidad la funcin P: [0, 1] es una funcin de probabilidad s y
solamente si
1)
2)
3)

P() = 1
P(E) , E
P(E1 U E2) = P(E1) + P(E2), si E1,E2

, y E1 y E2 son mutuamente excluyentes.

2.3 Probabilidad condicional e independencia de eventos


Sea

un suceso o evento aleatorio de probabilidad no nula,

cualquier otro suceso

, llamamos probabilidad condicionada de A a B a la

cantidad que representamos mediante

Ejemplo

. Para

o bien

y que se calcula como:

Se lanza un dado al aire Cul es la probabilidad de que salga el nmero 4? Si sabemos


que el resultado ha sido un nmero par, se ha modificado esta probabilidad?
Solucin:

El

espacio

muestral

que

corresponde

este

experimento

es

y se ha de calcular la probabilidad del suceso


. Si el dado no est trucado,
todos los nmeros tienen la misma probabilidad de salir, y siguiendo la definicin de
probabilidad de Laplace,

Obsrvese que para calcular la probabilidad de A segn la definicin de Laplace hemos


tenido que suponer previamente que todos los elementos del espacio muestral tienen la
misma probabilidad de salir, es decir:

Por otro lado, si ha salido un nmero par, de nuevo por la definicin de probabilidad de
Laplace tendramos

Esta misma probabilidad se podra haber calculado siguiendo la definicin de la


probabilidad condicionada, ya que si escribimos

y entonces

que por supuesto coincide con el mismo valor que calculamos usando la definicin de
probabilidad de Laplace.
Observacin:
Obsrvese que segn la definicin de probabilidad condicionada, se puede escribir la
probabilidad de la interseccin de dos sucesos de probabilidad no nula como

O sea, la probabilidad de la interseccin de dos sucesos, es la probabilidad de uno


cualquiera de ellos, multiplicada por la probabilidad del segundo sabiendo que ha
ocurrido el primero.
Si entre dos sucesos no existe ninguna relacin cabe esperar que la expresin sabiendo
que no aporte ninguna informacin. De este modo introducimos el concepto de
independencia de dos sucesos A y B como:

Esta relacin puede ser escrita de modo equivalente, cuando dos sucesos son de
probabilidad no nula como

Probabilidad de Laplace
Si un experimento cualquiera puede dar lugar a un nmero finito de resultados posibles,
y no existe ninguna razn que privilegie unos resultados en contra de otros, se calcula la
probabilidad de un suceso aleatorio A, segn la regla de Laplace como el cociente entre
el nmero de casos favorables a A, y el de todos los posibles resultados del
experimento:

Ejemplo
Calcular la probabilidad de que al lanzar un dado se obtenga un nmero impar.

Solucin: El espacio muestral es

. Vamos a llamar A, al suceso

consistente en que el resultado es impar,


. Como no suponemos que
ninguna de las caras ofrece una probabilidad de ocurrencia diferente a las dems,
podemos aplicar la regla de Laplace para obtener que

Probabilidad condicionada: de A a B a la cantidad que representamos mediante


o bien
y que se calcula como:
Independencia de dos sucesos: A y B se da si entre dos sucesos no existe ninguna
relacin es decir se espera que la expresin sabiendo que no aporte ninguna
informacin y se define
Probabilidad de Laplace: Si un experimento cualquiera puede dar lugar a un nmero
finito de resultados posibles, y no existe ninguna razn que privilegie unos resultados en
contra de otros, se calcula la probabilidad de un suceso aleatorio A, segn la regla de
Laplace como el cociente entre el nmero de casos favorables a A, y el de todos los
posibles resultados del experimento.

2.4 Teorema de Bayes


Antes de entrar de forma explcita al Teorema de Bayes, revisaremos primeramente
ciertos teoremas fundamentales del clculo de probabilidades.
Hay algunos resultados importantes del clculo de probabilidades que son conocidos
bajo los nombres de teorema de la probabilidad compuesta, teorema de la
probabilidad total y finalmente el teorema de Bayes. Veamos cuales son estos teoremas,

pero previamente vamos a enunciar a modo de recopilacin, una serie de resultados


elementales cuya demostracin se deja como ejercicio para el lector (algunos ya han
sido demostrados anteriormente):
Proposicin
Sean
propiedades:

no necesariamente disjuntos. Se verifican entonces las siguientes

1. Probabilidad de la unin de sucesos:

2. Probabilidad de la interseccin de sucesos:

3. Probabilidad del suceso contrario:

4. Probabilidad condicionada del suceso contrario:

Ejemplo
En una universidad el 50% de los alumnos habla ingls, el 20% francs y el 5% los dos
idiomas Cul es la probabilidad de encontrar alumnos que hablen alguna lengua
extranjera?
Solucin:
Sea A el suceso hablar ingls:

Sea B el suceso hablar francs:


El suceso hablar francs e ingls es
As:

.
:

Ejemplo
En una estacin de esqu, para navidad, la experiencia indica que hay un tiempo soleado
slo el

de los das. Por otro lado, se ha calculado que cuando un da es soleado, hay

una probabilidad del 20% de que el da posterior tambin lo sea. Calcular la


probabilidad de que, en navidad, un fin de semana completo sea soleado.
Solucin: Llamemos S al suceso sbado soleado y D al suceso domingo soleado. La
nica manera en que un fin de semana completo sea soleado es que lo sea en primer
lugar el sbado, y que el domingo posterior tambin. Es decir:

Luego slo el

de los fines de semana son soleados.

El primero de los teoremas que vamos a enunciar es una generalizacin de la


probabilidad de la interseccin de dos sucesos, a la de un nmero cualquiera pero finito
de ellos:
Teorema (Probabilidad compuesta)
Sea

una coleccin de sucesos aleatorios. Entonces:

Demostracin

Los teoremas que restan nos dicen como calcular las probabilidades de sucesos cuando
tenemos que el suceso seguro est descompuesto en una serie de sucesos incompatibles
de los que conocemos su probabilidad. Para ello necesitamos introducir un nuevo
concepto: Se dice que la coleccin
excluyente de sucesos si se verifican las relaciones:

es un sistema exhaustivo y

A1,A2,A3,A4 forman un sistema


exhaustivo y excluyente se sucesos.

1.2.Teorema (Probabilidad total)


Sea

un sistema exhaustivo y excluyente de sucesos. Entonces

Demostracin
Basados en lo que se observa de la figura realizamos las siguientes operaciones:
Si A1,A2,A3,A4 forma un sistema
exhaustivo y excluyente se
sucesos, podemos calcular la
probabilidad de B a partir de las
cantidades
es lo mismo,

, o lo que

Ejemplo
Se tienen dos urnas, y cada una de ellas contiene un nmero diferente de bolas blancas y
rojas:
Primera urna, U1: 3 bolas blancas y 2 rojas;
Segunda urna, U2: 4 bolas blancas y 2 rojas.
Se realiza el siguiente experimento aleatorio:
Se tira una moneda al aire y si sale cara se elige una bola de la primera urna, y si
sale sello de la segunda.
Cul es la probabilidad de que salga una bola blanca?
Solucin: La situacin que tenemos puede ser esquematizada como

U1

U2

Como U1 y U2 forman un sistema incompatible y excluyente de sucesos (la bola


resultado debe provenir de una de esas dos urnas y de una slo de ellas), el teorema de
la probabilidad total nos permite afirmar entonces que

Teorema (Bayes)
Sea

un sistema exhaustivo y excluyente de sucesos. Sea

suceso del que conocemos todas las cantidades


denominamos verosimilitudes. entonces se verifica:

un

, a las que

Demostracin
Es una consecuencia de la definicin de probabilidad condicionada en trminos de la
interseccin, y del teorema de la probabilidad total:

Ejemplo
Se tienen tres urnas. Cada una de ellas contiene un nmero diferente de bolas blancas y
rojas:
Primera urna, U1: 3 bolas blancas y 2 rojas;
Segunda urna, U2: 4 bolas blancas y 2 rojas;
Tercera urna, U3: 3 bolas rojas.
Se realiza el siguiente experimento aleatorio:
Alguien elige al azar y con la misma probabilidad una de las tres urnas, y saca
una bola.
Si el resultado del experimento es que ha salido una bola blanca,

cul es la probabilidad de que provenga de la primera urna? Calcular lo mismo para las
otras dos urnas.
Solucin: Vamos a representar en un esquema los datos de que disponemos:

U1

U2

U3

En este caso U1, U2 y U3 forman un sistema incompatible y excluyente de sucesos (la


bola resultado debe provenir de una de esas tres urnas y de una slo de ellas), por tanto
es posible aplicar el teorema de Bayes:

Con respecto a las dems urnas hacemos lo mismo:

Observacin
Obsrvese que en el ejemplo anterior, antes de realizar el experimento aleatorio de
extraer una bola para ver su resultado, tenamos que la probabilidad de elegir una urna i
cualquiera es
. Estas probabilidades se denominan probabilidades a priori. Sin
embargo, despus de realizar el experimento, y observar que el resultado del mismo ha
sido la extraccin de una bola blanca, las probabilidades de cada urna han cambiado a
. Estas cantidades se denominan probabilidades a posteriori. Vamos a
representar en una tabla la diferencia entre ambas:
a priori

a posteriori

1
Las probabilidades a priori
cambian de tal modo de las a
posteriori
que
una
vez
observado el resultado del
experimento aleatorio, se puede
afirmar con certeza que no fue
elegida la tercera urna.

Esta fenmeno tiene aplicaciones fundamentales en Ciencia: Cuando se tienen dos


teoras cientficas diferentes, T1 y T2, que pretenden explicar cierto fenmeno, y a las
que asociamos unas probabilidades a priori de ser ciertas,

podemos llevar a cabo la experimentacin que se considere ms conveniente, para una


vez obtenido el cuerpo de evidencia, B, calcular como se modifican las probabilidades
de verosimilitud de cada teora mediante el teorema de Bayes:

As la experimentacin puede hacer que una teora sea descartada si

reforzada si
. Una aplicacin bsica de esta tcnica la tenemos en Medicina
para decidir si un paciente padece cierta enfermedad o no, en funcin de los resultados
de un test diagnstico.

Teorema (Probabilidad compuesta): Sea


sucesos aleatorios. Entonces:
Sistema

exhaustivo

excluyente
si

de

se

una coleccin de

sucesos:
verifican

Se

dice

la

las

coleccin
relaciones:

, respectivamente.

Teorema (Probabilidad total): Sea


excluyente de sucesos. Entonces:

Teorema (Bayes): Sea


sucesos. Sea

un sistema exhaustivo y

un sistema exhaustivo y excluyente de

un suceso del que conocemos todas las cantidades

, a las que denominamos verosimilitudes. entonces se verifica:

2.5 La funcin Variable aleatoria

Sea un espacio muestral, una variable aleatoria X es una funcin que a cada
elemento de , le asigna un nmero real.

X: R

X() R,

Dada una v.a. discreta


, su funcin de probabilidad f, se define de modo
que f(xi) es la probabilidad de que X tome ese valor:

Si xi no es uno de los valores que puede tomar X, entonces f(xi)=0. La representacin


grfica de la funcin de probabilidad se realiza mediante un diagrama de barras anlogo
al de distribucin de frecuencias relativas para variables discretas (figura 5.3). Por
ejemplo, si retomamos el caso del lanzamiento de 3 monedas de forma que cada una de
ellas tenga probabilidad 1/2 de dar como resultado cara (C) o sello(R), se tiene que:

Figura: Equivalencia entre las probabilidades


calculadas directamente sobre el espacio muestral E
de resultados del experimento aleatorio, y las
calculadas
sobre
el
subconjunto
mediante la v.a. X.

Observacin
Obsrvese que X est definido sobre el espacio muestral de sucesos E, mientras que f lo
est sobre el espacio de nmeros reales .
Las propiedades de la funcin de probabilidad de v.a. se deducen de forma inmediata de
los axiomas de probabilidad:

Es evidente que si tenemos tres constantes a < b < c, los sucesos


son

mutuamente

. Por ello, si se define

excluyentes,

es

decir,

y
,

luego

, se tiene que

variable aleatoria X es una funcin que a cada elemento de


nmero real.

, le asigna un

funcin de probabilidad f:, se define de modo que f(xi) es la probabilidad de que X


tome ese valor.

2.6 Distribucin de una Variable Aleatoria y de Variables


Aleatorias Conjuntas

Otro concepto importante es el de funcin de distribucin de una variable aleatoria


discreta, F, que se define de modo que si
X tome un valor inferior o igual a xi:

, F(xi) es igual a la probabilidad de que

Esta funcin se representa grficamente del mismo modo que la distribucin de


frecuencias relativas acumuladas (ver figura de abajo). Volviendo al ejemplo de las tres
monedas, se tiene que

Hay que observar que a valores no admisibles por la variable les pueden corresponder
valores de F no nulos. Por ejemplo,

Figura: Funcin de probabilidad a la izquierda, y


funcin de distribucin a la derecha de una v.a.
discreta

Es sencillo comprobar que las siguientes propiedades de la funcin de distribucin son


ciertas:
Proposicin (Distribuciones discretas)
1. La funcin de distribucin F, es una funcin no decreciente, es decir,

2. es continua a la derecha:

3. Adems,

Variables aleatorias continuas


Si una variable discreta toma los valores x1, ..., xk, las probabilidad de que al hacer un
experimento, X tome uno de esos valores es 1, de modo que cada posible valor xi
contribuye con una cantidad f(xi) al total:

Aun cuando la variable tomase un nmero infinito de valores, x1, x2, ..., no hay ningn
problema en comprobar que cada xi contribuye con una cantidad f(xi) al total de modo
que

Cuando la variable es continua, no tiene sentido hacer una suma de las probabilidades
de cada uno de los trminos en el sentido anterior, ya que el conjunto de valores que
puede tomar la variable es no numerable. En este caso, lo que generaliza de modo
natural el concepto de suma () es el de integral ( ). Por otro lado, para variables
continuas no tiene inters hablar de la probabilidad de que
, ya que esta
debe de valer siempre 0, para que la suma infinita no numerable de las probabilidades
de todos los valores de la variable no sea infinita.
De este modo es necesario introducir el concepto de funcin de densidad de una v.a.
continua, que se define como una funcin
propiedades siguientes:

y que adems verifica que dado a < b, se tiene que

integrable, que verifica las dos

Figura: Funcin de densidad f. La probabilidad de


un intervalo, es el rea que existe entre la funcin y
el eje de abscisas.

Observacin
Por ser f una funcin integrable, la probabilidad de un punto es nula:

y por ello al calcular la probabilidad de un intervalo no afectara nada el que este sea
abierto o cerrado por cualquiera de sus extremos, pues estos son puntos y por tanto de
probabilidad nula:

La funcin de distribucin de la v.a. continua, F, se define de modo que dado


, F(x) es la probabilidad de que X sea menor o igual que x, es decir

Figura: Funcin de distribucin F, calculada a


partir de la funcin de densidad f.

Observacin
Dado un intervalo de la forma (a, b], tenemos que

Es decir, la cantidad F(b) - F(a) representa la masa de probabilidad extendida a lo largo


de dicho intervalo. Si dividimos esta cantidad por la longitud del intervalo,

tenemos la masa media de probabilidad por unidad de longitud en (a, b], es decir, su
densidad media de probabilidad. Si hacemos tender a hacia b,
, la cantidad

es la densidad de probabilidad del punto b (que como hemos mencionado no se ha de


confundir con la probabilidad de b).
Proposicin
Distribuciones continuas La funcin de distribucin F, es no decreciente

Adems, es una funcin absolutamente continua que verifica:

Demostracin
Los sucesos

son mutuamente excluyentes, siendo su unin el suceso

El resto es evidente pues por la relacin

y por otro lado

. Por tanto

Variables Aleatorias Conjuntas


Sabemos que si X es una v.a. con ella se asocia una funcin de Distribucin si X es
discreta de Densidad de Probabilidad si X es continua.
Se puede hablar de dos o ms v.a. consideradas simultneamente o de manera conjunta.
Consideremos el caso en que ambas v.a. son discretas, se lanzan dos dados
sucesivamente, entonces
y\x
-5
-4
-3
-2
-1
0
1
2
3
4
5
P(X=x)

2
0
0
0
0
0
1/36
0
0
0
0
0
1/36

3
0
0
0
0
1/36
0
1/36
0
0
0
0
2/36

4
0
0
0
1/36
0
1/36
0
1/36
0
0
0
3/36

5
0
0
1/36
0
1/36
0
1/36
0
1/36
0
0
4/36

6
0
1/36
0
1/36
0
1/36
0
1/36
0
1/36
0
5/36

7
1/36
0
1/36
0
1/36
0
1/36
0
1/36
0
1/36
6/36

8
0
1/36
0
1/36
0
1/36
0
1/36
0
1/36
0
5/36

9
0
0
1/36
0
1/36
0
1/36
0
1/36
0
0
4/36

10
0
0
0
1/36
0
1/36
0
1/36
0
0
0
3/36

11
0
0
0
0
1/36
0
1/36
0
0
0
0
2/36

12
0
0
0
0
0
1/36
0
0
0
0
0
1/36

P(Y=y)
1/36
2/36
3/36
4/36
5/36
6/36
5/36
4/36
3/36
2/36
1/36
1

={(1, 1); (1, 2); ...; (6, 6)}


Se define

x = la suma de las dos ocurrencias


y = la diferencia del primer o con el segundo trmino

Donde la fila de valores P(X = x) representa la probabilidad marginal de X, y la


columna de valores P(Y = y) representa la probabilidad marginal de Y.
Derfinicin: X y Y son dos v.a. discretas consideradas de manera conjunta. Con ellos se
asocia una funcin f: R2 R, llamada su distribucin de probabilidades tal que
f(x, y) = P(X = x, Y = y)

Sea

cual es el valor de k que hace que esta funcin sea una funcin de distribucin de
probabilidades?

y\x
1
2
3
4
P(X = x)

1
2/32
3/32
4/32
5/32
14/32

2
3/32
4/32
5/32
6/32
18/32

o P(x > y)

=
=

P(x =2, y =1)


3/32

o P(x + y = 3)

=
=
=

P(x =1,y =2) + P(x =2,y =1)


3/32 + 3/32
6/32

Marginal de x

P(Y = y)
5/32
7/32
9/32
11/32
1

de forma anloga se realiza para obtener la marginal de y

Para las v.a. continuas se realiza el mismo proceso que las discretas con la diferencia
que ya no se utilizar el smbolo sino el de integracin
valores que pueden tomar.

debido a la diferencia de

funcin de distribucin: F de una v.a. se define de modo que si


la probabilidad de que X tome un valor inferior o igual a xi:

, F(xi) es igual a

funcin de densidad de una v.a. continua, que se define como una funcin
integrable, que verifica las dos propiedades siguientes:

funcin de distribucin de la v.a. continua, F, se define de modo que dado


F(x) es la probabilidad de que X sea menor o igual que x

2.7 Momentos de una v.a.


Se denomina momento de orden r (

),

, a:

Asimismo se denomina momento central de orden r, mr, a:

De este modo, es claro que la esperanza matemtica es el momento de primer orden

y que la varianza es el momento central de segundo orden

el momento central de tercer orden es denominado sesgo y denota si los datos estn
agrupados de igual manera de un lado y de otro (insesgado) de la esperanza E[X] o
estn agrupados de un lado ms que de otro (sesgado).
Sea X una variable cuantitativa y

. Llamamos momento de orden p a:

Se denomina momento central de orden p a la cantidad

Si los datos estn agrupados en una tabla, mp admite otra expresin equivalente:

Ejemplo
El momento de orden 2 es la varianza muestral:

Es sencillo comprobar que los momentos de orden p impar, son siempre nulos en el caso
de variables simtricas, ya que para cada i que est a un lado de la media, con
, le corresponde una observacin j del otro lado de la media tal que
. Elevando cada una de esas cantidades a p impar, y sumando se
tiene que

Si la distribucin fuese asimtrica positiva, las cantidades


, con
impar
positivas estaran muy aumentadas al elevarse a p. Esta propiedad nos indica que un
ndice de asimetra posible consiste en tomar p =3 y definir

que para datos organizados en una tabla sera

Apoyndonos en este ndice, diremos que hay asimetra positiva si a3>0, y que la
asimetra es negativa si a3<0.
El momento de cuarto orden es denominado Estadsticos de apuntamiento (picudez),
Se define el coeficiente de aplastamiento de Fisher como:
donde m4 es el momento emprico de cuarto orden. Es ste un coeficiente adimensional,
invariante ante cambios de escala y de origen. Sirve para medir si una distribucin de
frecuencias es muy puntiaguda o no. Para decir si la distribucin es larga y estrecha, hay
que tener un patrn de referencia. El patrn de referencia es la distribucin normal o
gaussiana para la que se tiene

De este modo, atendiendo a

, se clasifican las distribuciones de frecuencias en:

Leptocrtica:
Cuando
normal;
Mesocrtica:

, o sea, si la distribucin de frecuencias es ms puntiaguda que la

Cuando
la normal;
Platicrtica:

, es decir, cuando la distribucin de frecuencias es tan puntiaguda como

Cuando
normal;

, o sea, si la distribucin de frecuencias es menos puntiaguda que la

Figura: Picudez de distribuciones de


frecuencias

2.8 Medidas de tendencia central, dispersin y correlacin de


Variables Aleatorias
Medidas de tendencia central
Los estadsticos de tendencia central o posicin nos indican donde se sita un grupo de
puntuaciones.
Las tres medidas ms usuales de tendencia central son: la media, la mediana y la moda.
En ciertas ocasiones estos tres estadsticos suelen coincidir, aunque generalmente no es
as. Cada uno de ellos presenta ventajas e inconvenientes.
La media
La media aritmtica de una variable estadstica es la suma de todos sus posibles
valores, ponderada por las frecuencias de los mismos. Es decir, si la tabla de valores de
una variable X es
X

ni

fi

x1

n1

f1

...

...

...

xk

nk

fk

la media es el valor que podemos escribir de las siguientes formas equivalentes:

Si los datos no estn ordenados en una tabla, entonces

Observacin
Hemos supuesto implcitamente en la definicin de media que tratbamos con una
variable X discreta. Si la variable es continua tendremos que cambiar los valores de xi
por las marcas de clase correspondientes. En general, la media aritmtica obtenida a
partir de las marcas de clase ci, diferir de la media obtenida con los valores reales, xi.
Es decir, habr una perdida de precisin que ser tanto mayor cuanto mayor sea la
diferencia entre los valores reales y las marcas de clase, o sea, cuanto mayores sean las
longitudes ai, de los intervalos.
Proposicin
La suma de las diferencias de la variable con respecto a la media es nula, es decir,

Demostracin
Basta desarrollar la sumatoria para obtener

Este resultado nos indica que el error cometido al aproximar un valor cualquiera de la
variable, por ejemplo x1, mediante el valor central , es compensado por los dems
errores:

Si los errores se consideran con signo positivo, en este caso no pueden compensarse.
Esto ocurre si tomamos como medida de error alguna de las siguientes:

que son cantidades estrictamente positivas si algn

Ejemplo
Obtener las desviaciones con respecto a la media en la siguiente distribucin y
comprobar que su suma es cero.
li-1 - li

ni

0 - 10

10 - 20

20 - 30

30 - 40

Solucin:

li-1 - li

ni

xi

xi ni

0 - 10

-19

-19

10 - 20

15

30

-9

-18

20 - 30

25

100

+1

+4

30 - 40

35

105

+11

+33

n =10
La media aritmtica es:

Como se puede comprobar sumando los elementos de la ltima columna,

Proposicin (Knig)
Para cualquier posible valor k que consideremos como candidato a medida central,
mejora en el sentido de los mnimos cuadrados, es decir

Demostracin
Sea

. Veamos que el error cuadrtico cometido por k-es mayor que el de

Proposicin (Linealidad de la media)

lo

Proposicin
Dados r grupos con n1, n2, ..., nr observaciones y siendo

, ...,

medias de cada uno de ellos. Entonces la media de las


es

las respectivas
observaciones

Demostracin
Vamos a llamar xij a la j-sima observacin del grupo i; Entonces tenemos

As, agrupando convenientemente las observaciones se llega a que

Observacin
A pesar de las buenas propiedades que ofrece la media, sta posee algunos
inconvenientes:
Uno de ellos es que es muy sensible a los valores extremos de la variable: ya que todas
las observaciones intervienen en el clculo de la media, la aparicin de una observacin
extrema, har que la media se desplace en esa direccin. En consecuencia, no es
recomendable usar la media como medida central en las distribuciones muy asimtricas;
Depende de la divisin en intervalos en el caso de variables continuas.
Si consideramos una variable discreta, por ejemplo, el nmero de hijos en las familias
de Guayaquil el valor de la media puede no pertenecer al conjunto de valores de la
variable;
Por ejemplo
Clculo abreviado

hijos.

Se puede utilizar la linealidad de la media para simplificar las operaciones necesarias


para su clculo mediante un cambio de origen y de unidad de medida. El mtodo
consiste en lo siguiente:
1. Tomamos a un nmero que exprese aproximadamente el tipo de unidad con la que se
trabaja. Por ejemplo, si las unidades que usamos son millones, tomamos a =1.000.000.
2. Seleccionamos un punto cualquiera de la zona central de la tabla, x0. Este punto
jugar el papel de origen de referencia.
3. Cambiamos a la variable

4. Construimos de este modo la tabla de la variable Z, para la que es ms fcil calcular


directamente, y despus se calcula
Medias generalizadas
En funcin del tipo de problema varias generalizaciones de la media pueden ser
consideradas. He aqu algunas de ellas aplicadas a unas observaciones x1, ..., xn:
La media geomtrica
, es la media de los logaritmos de los valores de la variable:

Luego

Si los datos estn agrupados en una tabla, entonces se tiene:

La media armnica
, se define como el recproco de la media aritmtica de los recprocos, es decir,

Por tanto,

La media cuadrtica
, es la raz cuadrada de la media aritmtica de los cuadrados:

La mediana
Consideramos una variable discreta X cuyas observaciones en una tabla estadstica han
sido ordenadas de menor a mayor. Llamaremos mediana, Med al primer valor de la
variable que deja por debajo de s al
de las observaciones. Por tanto, si n es el
nmero de observaciones, la mediana corresponder a la observacin [n/2]+1, donde
representamos por

la parte entera de un nmero.

Figura: Clculo geomtrico de la mediana

En el caso de variables continuas, las clases vienen dadas por intervalos, y aqu la
frmula de la mediana se complica un poco ms (pero no demasiado): Sea (li-1,li] el
intervalo donde hemos encontrado que por debajo estn el
de las observaciones.
Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas,
mediante interpolacin lineal (teorema de Thales) como se ve en la figura anterior

Observacin
La relacin anterior corresponde a definir para cada posible observacin,
,
su frecuencia relativa acumulada, F(x), por interpolacin lineal entre los valores F(lj-1) =
Fj-1 y F(lj) = Fj de forma que

De este modo, Med es el punto donde

. Esto equivale a decir que la

mediana divide al histograma en dos partes de reas iguales a

Observacin
Entre las propiedades de la mediana, vamos a destacar las siguientes:

Como medida descriptiva, tiene la ventaja de no estar afectada por las


observaciones extremas, ya que no depende de los valores que toma la variable,
sino del orden de las mismas. Por ello es adecuado su uso en distribuciones
asimtricas.
Es de clculo rpido y de interpretacin sencilla.
A diferencia de la media, la mediana de una variable discreta es siempre un valor
de la variable que estudiamos (Ej. La mediana de una variable nmero de hijos
toma siempre valores enteros).
Si una poblacin est formada por 2 sub poblaciones de medianas Med1 y Med2,
slo se puede afirmar que la mediana, Med, de la poblacin est comprendida
entre Med1 y Med2

Defectos de la Mediana

El mayor defecto de la mediana es que tiene unas propiedades matemticas


complicadas, lo que hace que sea muy difcil de utilizar en inferencia
estadstica.
Es funcin de los intervalos escogidos.
Puede ser calculada aunque el intervalo inferior o el superior no tenga lmites.
La suma de las diferencias de los valores absolutos de n puntuaciones respecto a
su mediana es menor o igual que cualquier otro valor. Este es el equivalente al
teorema de Knig con respecto a la media, pero donde se considera como
medida de dispersin a:

Ejemplo
Sea X una variable discreta que ha presentado sobre una muestra las modalidades

Si cambiamos la ltima observacin por otra anormalmente grande, esto no afecta a la


mediana, pero si a la media:

En este caso la media no es un posible valor de la variable (discreta), y se ha visto muy


afectada por la observacin extrema. Este no ha sido el caso para la mediana.
Ejemplo
Obtener la media aritmtica y la mediana en la distribucin adjunta. Determinar
grficamente cul de los dos promedios es ms significativo.
li-1 - li

ni

0 - 10

60

10 - 20

80

20 - 30

30

30 - 100

20

100 - 500

10

Solucin:
li-1 - li

ni

ai

xi

xi ni

Ni

0 - 10

60

10

300

60

60

10 - 20

80

10

15

1.200

140

80

20 - 30

30

10

25

750

170

30

30 - 100

20

70

65

1.300

190

2,9

100 - 500

10

400

300

3.000

200

0,25

n =200
La media aritmtica es:

La primera frecuencia absoluta acumulada que supera el valor n/2=100 es Ni =140. Por
ello el intervalo mediano es [10;20). As:

Para ver la representatividad de ambos promedios, realizamos el histograma de la figura


siguiente, y observamos que dada la forma de la distribucin, la mediana es ms
representativa que la media.
Figura: Para esta distribucin de frecuencias es
ms representativo usar como estadstico de
tendencia central la mediana que la media.

La moda
Llamaremos moda a cualquier mximo relativo de la distribucin de frecuencias, es
decir, cualquier valor de la variable que posea una frecuencia mayor que su anterior y su
posterior.
Figura: Clculo geomtrico de la moda

En el caso de variables continuas es ms correcto hablar de intervalos modales. Una vez


que este intervalo, (li-1, li], se ha obtenido, se utiliza la siguiente frmula para calcular la
moda, que est motivada en la figura anterior:

Observacin
De la moda destacamos las siguientes propiedades:
Es muy fcil de calcular.
Puede no ser nica.
Es funcin de los intervalos elegidos a travs de su amplitud, nmero y lmites
de los mismos.
Aunque el primero o el ltimo de los intervalos no posean extremos inferior o
superior respectivamente, la moda puede ser calculada.
Relacin entre media, mediana y moda
En el caso de distribuciones unimodales, la mediana est con frecuencia comprendida
entre la media y la moda (incluso ms cerca de la media).
En distribuciones que presentan cierta inclinacin, es ms aconsejable el uso de la
mediana. Sin embargo en estudios relacionados con propsitos estadsticos y de
inferencia suele ser ms apta la media.
Veamos un ejemplo de clculo de estas tres magnitudes.
Ejemplo
Consideramos una tabla estadstica relativa a una variable continua, de la que nos dan
los intervalos, las marcas de clase ci, y las frecuencias absolutas, ni.

Intervalos

ci

ni

0 -- 2

2 -- 4

4 -- 6

6 -- 8

8 - 10

Para calcular la media podemos aadir una columna con las cantidades
de los trminos de esa columna dividida por n =12 es la media:
Intervalos

ci

ni

Ni

02

24

46

20

68

10

21

8 10

12

18

12

. La suma

64

La mediana es el valor de la variable que deja por debajo de s a la mitad de las n


observaciones, es decir 6. Construimos la tabla de las frecuencias absolutas acumuladas,
Ni, y vemos que eso ocurre en la modalidad tercera, es decir,

Para el clculo de la moda, lo primero es encontrar los intervalos modales, buscando los
mximos relativos en la columna de las frecuencias absolutas, ni. Vemos que hay dos
modas, correspondientes a las modalidades i =1, i =3. En el primer intervalo modal,
(l0,1]=(0,2], la moda se calcula como

El segundo intervalo modal es (l2,l3]=(4;6], siendo la moda el punto perteneciente al


mismo que se obtiene como:

En este caso, como se ve en la figura siguiente, la moda no toma un valor nico, sino el
conjunto

Figura: Diagramas diferencial e integral con


clculo geomtrico de la moda y de la mediana de la
variable.

La media aritmtica: de una variable estadstica es la suma de todos sus posibles


valores, ponderada por las frecuencias de los mismos.
Media geomtrica:

, es la media de los logaritmos de los valores de la variable:


Luego

Media armnica:
recprocos, es decir,
Media cuadrtica:

, se define como el recproco de la media aritmtica de los


Por tanto,
, es la raz cuadrada de la media aritmtica de los cuadrados:

Mediana: Med es el primer valor de la variable que deja por debajo de s al


de las
observaciones. Considerando una v.a. X cuyas observaciones han sido ordenadas de
menor a mayor.
Moda: Llamaremos a cualquier mximo relativo de la distribucin de frecuencias, es
decir, cualquier valor de la variable que posea una frecuencia mayor que su anterior y su
posterior.

Medidas de variabilidad o dispersin


Los de variabilidad o dispersin nos indican si las puntuaciones o valores (analizadas
en los estadsticos de tendencia central) estn prximas entre s o si por el contrario
estn muy dispersas.
Una medida razonable de la variabilidad podra ser la amplitud o rango, que se obtiene
restando el valor ms bajo de un conjunto de observaciones del valor ms alto. Es fcil
de calcular y sus unidades son las mismas que las de la variable, aunque posee varios
inconvenientes:

No utiliza todas las observaciones (slo dos de ellas);

Se puede ver muy afectada por alguna observacin extrema;

El rango aumenta con el nmero de observaciones, o bien se queda igual. En


cualquier caso nunca disminuye.

En el transcurso de esta seccin, veremos medidas de dispersin mejores que la anterior.


Estas se determinan en funcin de la distancia entre las observaciones y algn
estadstico de tendencia central.
Desviacin media, Dm
Se define la desviacin media como la media de las diferencias en valor absoluto de los
valores de la variable a la media, es decir, si tenemos un conjunto de n observaciones,
x1, ..., xn, entonces

Si los datos estn agrupados en una tabla estadstica es ms sencillo usar la relacin

Como se observa, la desviacin media guarda las mismas dimensiones que las
observaciones. La suma de valores absolutos es relativamente sencilla de calcular, pero
esta simplicidad tiene un inconveniente: Desde el punto de vista geomtrico, la distancia
que induce la desviacin media en el espacio de observaciones no es la natural (no
permite definir ngulos entre dos conjuntos de observaciones). Esto hace que sea muy
engorroso trabajar con ella a la hora de hacer inferencia a la poblacin.
Varianza y desviacin tpica
Como forma de medir la dispersin de los datos hemos descartado:

, pues sabemos que esa suma vale 0, ya que las desviaciones con
respecto a la media se compensan al haber trminos en esa suma que son de
signos distintos.

Para tener el mismo signo al sumar las desviaciones con respecto a la media
podemos realizar la suma con valores absolutos. Esto nos lleva a la Dm, pero
como hemos mencionado, tiene poco inters por las dificultades que presenta.

Si las desviaciones con respecto a la media las consideramos al cuadrado,


, de
nuevo obtenemos que todos los sumandos tienen el mismo signo (positivo). Esta es
adems la forma de medir la dispersin de los datos de forma que sus propiedades
matemticas son ms fciles de utilizar. Vamos a definir entonces dos estadsticos que
sern fundamentales en el resto del curso: La varianza y la desviacin tpica.
La varianza,

, se define como la media de las diferencias cuadrticas de N

puntuaciones con respecto a su media aritmtica, es decir


cuando N es el tamao de la poblacin.

Si n representa el total de elementos en la poblacin se da lo siguiente:


.Para datos agrupados en tablas, usando las notaciones establecidas en los captulos

anteriores, la varianza se puede escribir como

Una frmula equivalente para el clculo de la varianza est basada en lo siguiente:

Con lo cual se tiene

Si los datos estn agrupados en tablas, es evidente que

La varianza no tiene la misma magnitud que las observaciones (Ej. si las observaciones
se miden en metros, la varianza lo hace en
). Si queremos que la medida de
dispersin sea de la misma dimensionalidad que las observaciones bastar con tomar su
raz cuadrada. Por ello se define la desviacin tpica, , como

Ejemplo
Calcular la varianza muestral y desviacin tpica de las siguientes cantidades medidas
en metros: 3,3,4,4,5
Solucin:
Para calcular dichas medidas de dispersin es necesario calcular previamente el valor
con respecto al cual vamos a medir las diferencias. sta es la media:

La varianza es:

siendo la desviacin tpica su raz cuadrada:

Las siguientes propiedades de la varianza (respectivamente, desviacin tpica) son


importantes a la hora de hacer un cambio de origen y escala a una variable. En primer
lugar, la varianza (igual la Desviacin tpica) no se ve afectada si al conjunto de valores
de la variable se le aade una constante. Si adems cada observacin es multiplicada por
otra constante, en este caso la varianza cambia en relacin al cuadrado de la constante
(La desviacin tpica cambia en relacin al valor absoluto de la constante). Esto queda
precisado en la siguiente proposicin:
Proposicin
Si

entonces

Demostracin
Para cada observacin xi de X,
definicin

, se tiene que

, tenemos una observacin de Y que es por


. Por tanto, la varianza de Y es

Observacin
Las consecuencias del anterior resultado eran de esperar: Si los resultados de una
medida son trasladados una cantidad b, la dispersin de los mismos no aumenta. Si
estos mismos datos se multiplican por una cantidad a <1, el resultado tender a
concentrarse alrededor de su media (menor varianza). Si por el contrario a>1 habr
mayor dispersin.
Otra propiedad fundamental de la varianza es la siguiente:
Proposicin
Dados r grupos, cada uno de ellos formado por ni observaciones de media
varianza
. Entonces la varianza,
observaciones vale

y de

, del conjunto de todas las

Demostracin
Dicho de otro modo, pretendemos demostrar que la varianza total es igual a la media
de las varianzas ms la varianza de las medias. Comenzamos denotando mediante xij la
observacin j-sima en el i-simo grupo, donde

. Entonces

Observacin
Adems de las propiedades que hemos demostrado sobre la varianza (y por tanto sobre
la desviacin tpica), ser conveniente tener siempre en mente otras que enunciamos a
continuacin:
Ambas son sensibles a la variacin de cada una de las puntuaciones, es decir, si
una puntuacin cambia, cambia con ella la varianza. La razn es que si miramos
su definicin, la varianza es funcin de cada una de las puntuaciones.

Si se calculan a travs de los datos agrupados en una tabla, dependen de los


intervalos elegidos. Es decir, cometemos cierto error en el clculo de la varianza
cuando los datos han sido resumidos en una tabla estadstica mediante
intervalos, en lugar de haber sido calculados directamente como datos no
agrupados. Este error no ser importante si la eleccin del nmero de intervalos,
amplitud y lmites de los mismos ha sido adecuada.

La desviacin tpica tiene la propiedad de que en el intervalo

se encuentra, al menos, el 75% de las observaciones (ver el teorema de


Tshebishev). Incluso si tenemos muchos datos y estos provienen de una
distribucin normal (se definir este concepto ms adelante), podremos llegar al
.

No es recomendable el uso de ellas, cuando tampoco lo sea el de la media como


medida de tendencia central.

Mtodo abreviado para el clculo de la varianza


Si una variable X toma unos valores para los cuales las operaciones de clculo de media
y varianza son tediosas, podemos realizar los clculos sobre una variable Z definida
como

Una vez que han sido calculadas

, obtenemos

teniendo en cuenta que:

Grados de libertad
Los grados de libertad de un estadstico calculado sobre n datos se refieren al nmero
de cantidades independientes que se necesitan en su clculo, menos el nmero de
restricciones que ligan a las observaciones y el estadstico. Es decir, normalmente n-1.
Ejemplo:
Consideramos una serie de valores de una variable,
tomados de forma independiente.

, que han sido

Su media es
y se ha calculado a partir de las n =5 observaciones independientes
xi, que estn ligadas a la media por la relacin:

Luego el nmero de grados de libertad de la media es n-1=4.


Si calculamos a continuacin la varianza, se han de sumar n cantidades

Sin embargo esas cantidades no son totalmente independientes, pues estn ligadas por
una restriccin:

El nmero de grados de libertad del estadstico es el nmero de observaciones de la


variable menos el nmero de restricciones que verifican, as que en este caso, los grados
de libertad de la varianza sobre los n =5 datos son tambin n-1 = 4.
Un principio general de la teora matemtica nos dice que si pretendemos calcular de
modo aproximado la varianza de una poblacin a partir de la varianza de una muestra
suya, se tiene que el error cometido es generalmente ms pequeo, si en vez de
considerar como estimacin de la varianza de la poblacin, a la varianza muestral
denotada por

consideramos lo que se denomina cuasi varianza muestral,


que se calcula como la
anterior, pero cambiando el denominador por el nmero de grados de libertad, n-1:

Sobre este punto incidiremos ms adelante, ya que es fundamental en estadstica


inferencial.
Coeficiente de variacin
Hemos visto que las medidas de centralizacin y dispersin nos dan informacin sobre
una muestra. Nos podemos preguntar si tiene sentido usar estas magnitudes para
comparar dos poblaciones. Por ejemplo, si nos piden comparar la dispersin de los
pesos de las poblaciones de elefantes de dos circos diferentes,
nos dar informacin
til.
Pero qu ocurre si lo que comparamos es la altura de unos elefantes con respecto a su
peso? Tanto la media como la desviacin tpica,
y
, se expresan en las mismas
unidades que la variable. Por ejemplo, en la variable altura podemos usar como unidad
de longitud el metro y en la variable peso, el kilogramo. Comparar una desviacin (con
respecto a la media) medida en metros con otra en kilogramos no tiene ningn sentido.
El problema no deriva slo de que una de las medidas sea de longitud y la otra sea de
masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa,
de dos poblaciones, pero con distintas unidades. Este es el caso en que comparamos el
peso en toneladas de una poblacin de 100 elefantes con el correspondiente en
miligramos de una poblacin de 50 hormigas.
El problema no se resuelve tomando las mismas escalas para ambas poblaciones. Por
ejemplo, se nos puede ocurrir medir a las hormigas con las mismas unidades que los
elefantes (toneladas). Si la ingeniera gentica no nos sorprende con alguna barbaridad,
lo lgico es que la dispersin de la variable peso de las hormigas sea prcticamente nula
(Aunque haya algunas que sean 1.000 veces mayores que otras!)
En los dos primeros casos mencionados anteriormente, el problema viene de la
dimensionalidad de las variables, y en el tercero de la diferencia enorme entre las
medias de ambas poblaciones. El coeficiente de variacin es lo que nos permite evitar
estos problemas, pues elimina la dimensionalidad de las variables y tiene en cuenta la
proporcin existente entre medias y desviacin tpica. Se define del siguiente modo:

Basta dar una rpida mirada a la definicin del coeficiente de variacin, para ver que las
siguientes consideraciones deben ser tenidas en cuenta:

Slo se debe calcular para variables con todos los valores positivos. Todo ndice
de variabilidad es esencialmente no negativo. Las observaciones pueden ser
positivas o nulas, pero su variabilidad debe ser siempre positiva. De ah que slo
debemos trabajar con variables positivas, para la que tenemos con seguridad que
.

No es invariante ante cambios de origen. Es decir, si a los resultados de una


medida le sumamos una cantidad positiva, b>0, para tener Y = X + b, entonces
, ya que la desviacin tpica no es sensible ante cambios de origen,
pero si la media. Lo contrario ocurre si restamos (b<0).

Es invariante a cambios de escala. Si multiplicamos X por una constante a, para


obtener
, entonces

Observacin
Es importante destacar que los coeficientes de variacin sirven para comparar las
variabilidades de dos conjuntos de valores (muestras o poblaciones), mientras que si
deseamos comparar a dos individuos de cada uno de esos conjuntos, es necesario usar
los valores estandarizados.
Ejemplo
Dada la distribucin de edades (medidas en aos) en un colectivo de 100 personas,
obtener:
1. La variable estandarizada Z.
2. Valores de la media y varianza de Z.
3. Coeficiente de variacin de Z.
Horas trabajadas

Num. empleados

0 -- 4

47

4 -- 10

32

10 -- 20

17

20 -- 40

4
100

Solucin:

Para calcular la variable estandarizada


partimos de los datos del
enunciado. Ser necesario calcular en primer lugar la media y desviacin tpica de la
variable original (X = aos). Como no se tiene la desviacin tpica de la poblacin
,

se trabaja con el estimador de este parmetro, es decir

. Por la tanto la ecuacin nos

queda:
li-1 -- li

xi

ni

xi ni

xi2 ni

0 -- 4

47

94

188

4 -- 10

32

224

1.568

10 -- 20

15

17

255

3.825

20 -- 40

30

120

3.600

n =100

693

9.181

A partir de estos valores podremos calcular los valores estandarizados para las marcas
de clase de cada intervalo y construir su distribucin de frecuencias:

zi

ni

zi ni

zi2 ni

-0,745

47

-35,015

26,086

0,011

32

0,352

0,004

1,220

17

20,720

25,303

3,486

13,944

48,609

n =100

0,021

100,002

A pesar de que no se debe calcular el coeficiente de variacin sobre variables que


presenten valores negativos (y Z los presenta), lo calculamos con objeto de ilustrar el
porqu:

Es decir, el coeficiente de variacin no debe usarse nunca con variables


estandarizadas.
Desviacin media Dm: como la media de las diferencias en valor absoluto de los valores
de la variable a la media. Se define como
varianza,

, se define como la media de las diferencias cuadrticas de las N

puntuaciones con respecto a su media aritmtica, es decir


, (N
tamao de la poblacin )
varianza muestral la varianza de una poblacin es estimada a partir de la varianza de
una muestra suya, se denotada por

Grados de libertad: de un estadstico calculado sobre n datos se refieren al nmero de


cantidades independientes que se necesitan en su clculo, menos el nmero de
restricciones que ligan a las observaciones y el estadstico.
Cuasi varianza muestral: que se calcula como la varianza, pero cambiando el
denominador por el nmero de grados de libertad, n-1.
Estandarizacin: es el proceso de restar la media y dividir por su desviacin tpica (o
para el estimador de esta) a una variable X.
, donde S es la raz cuadrada de
la varianza muestral.
Coeficiente de variacin: elimina la dimensionalidad de las variables y tiene en cuenta
la proporcin existente entre medias y desviacin tpica.
Variabilidad o dispersin: nos indican si las puntuaciones o valores (analizadas en los
estadsticos de tendencia central) estn prximas entre s o si por el contrario estn o
muy dispersas

Covarianza y coeficiente de correlacin


Cuando analizbamos las variables unidimensionales considerbamos, entre otras
medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas
tambin podemos considerarlas de forma individual para cada una de las componentes
de la variable bidimensional.
Si observamos con atencin los trminos

vemos que las cantidades


negativas.

van al cuadrado y por tanto no pueden ser

La covarianza
, es una manera de generalizar la varianza, esta mide el grado de
variacin entre dos variables y se define como:

Como se ve, la frmula es muy parecida a las de las varianzas. Es sencillo comprobar
que se verifica la siguiente expresin de
, ms til en la prctica:
Proposicin

Si las observaciones no estn ordenadas en una tabla de doble entrada, entonces se tiene
que

o lo que es lo mismo

Ejemplo
Se han clasificado 100 familias segn el nmero de hijos varones ( ) o hembras (
en la tabla siguiente:
0

10

),

1.
Hallar las medias, varianzas y desviaciones tpicas marginales.
2.
Qu nmero medio de hijas hay en aquellas familias que tienen 2 hijos?
3.
Qu nmero medio de hijos varones hay en aquellas familias que no tienen
hijas?
4.
Qu nmero medio de hijos varones tienen aquellas familias que a lo sumo
tienen 2 hijas?
5.
Hallar la covarianza
Solucin: En primer lugar, definimos las variables X = nmero de hijos varones, e Y =
nmero de hijas y construimos la tabla con las frecuencias marginales, y con otras
cantidades que nos son tiles en el clculo de medias y varianzas:
y1

y2

y3

y4

y5

24

10

28

28

28

44

24

48

96

62

16

48

144

63

32

128

40

23

32

26

14

100

156

396

209

32

52

42

20

146

32

104

126

80

342

de este modo, las medias marginales son

cuando

Calculamos despus las varianzas marginales

que nos dan directamente las desviaciones tpicas marginales,

El nmero medio de hijas en las familias con 2 hijos varones se obtiene calculando la
distribucin condicionada de
n3j

n3j yj

10

24

31

Del mismo modo, el nmero medio de hijos varones de las familias sin hijas, se calcula
con la distribucin condicionada
ni1

ni1 xi

14

15

23

42

El nmero medio de hijos varones en las familias que a lo sumo tienen dos hijas, se
calcula usando las marginales de la tabla obtenida a partir de las columnas y1, y2 e y3
ni1

ni2

ni3

ni1+ ni2+ ni3

(ni1+ ni2+ ni3) xi

19

19

10

22

22

20

40

13

39

28

81

129

La covarianza es:

De forma ms general, podemos realizar la siguiente proposicin:


Proposicin:

Demostracin:

Ntese que

entonces

Amplitud o rango: que se obtiene restando el valor ms bajo de un conjunto de


observaciones del valor ms alto.
La covarianza
, es una manera de generalizar la varianza, esta mide el grado de
variacin entre dos variables y se define como:

2.9 Desigualdad de Tshebishev


Si X es una variable aleatoria con esperanza
, y varianza
, se
puede demostrar que en general, una gran parte de la masa se encuentra en un intervalo
centrado en

y que tiene por amplitud varias veces

. Ms precisamente, la

desigualdad de Tshebishev afirma que si consideramos un intervalo de centro y radio


k veces , la probabilidad de realizar una observacin de la variable y que esta no est
en dicho intervalo es inferior o igual a 1/k2. Matemticamente esto se formula como:

Teorema (Tshebishev)
Si X es v.a. con

, entonces

Este importante resultado, por si slo, justifica el que


sea una medida de
centralizacin y (o bien
) de dispersin de X y motiva la introduccin del concepto
de estandarizacin de variables aleatorias. Dada una v.a. X, definimos su v.a.
estandarizada, Z, como:

que es una v.a. tal que

El teorema de Tshebishev afirma sobre Z que

Unidad 3
VARIABLES ALEATORIAS DISCRETAS

3.1 Variables Aleatorias Discretas


Distribucin de Bernoulli
Consiste en realizar un experimento aleatorio una sola vez y observar si cierto suceso
ocurre o no, siendo p la probabilidad de que esto sea as (xito) y q = 1-p el que no lo
sea (fracaso). Es decir que nicamente puede tomar dos modalidades, es por ello que el
hecho de llamar xito o fracaso a los posibles resultados de las pruebas obedece ms
una tradicin literaria o histrica, en el estudio de las v.a., que a la situacin real que
pueda derivarse del resultado. Podramos por tanto definir este experimento mediante
una v.a. discreta X que toma los valores X =0 si el suceso no ocurre, y X =1 en caso
contrario, y que se denota

Un ejemplo tpico de este tipo de variables aleatorias consiste en lanzar una moneda al
aire y considerar la v.a.

Para una v.a. de Bernoulli, tenemos que su funcin de probabilidad es:

y su funcin de distribucin:

Distribucin binomial
Se dice que una v.a. X sigue una ley binomial de parmetros n y p,
la suma de n v.a. independientes de Bernoulli con el mismo parmetro, p:

, si es

Esta definicin puede interpretarse en el siguiente sentido: Supongamos que realizamos


n pruebas de Bernoulli, Xi, donde en todas ellas, la probabilidad de xito es la misma
(p), y queremos calcular el nmero de xitos, X, obtenidos el total de las n pruebas. En
las siguientes Figuras se representa la funcin de probabilidad de una variable binomial.
(a) y (b) segn el tamao n.
Su ley de probabilidad es:

Figura: Funcin de probabilidad


de una variable binomial (a)
cuando n es pequeo, (b) cuando n
es grande.

Por tanto, su funcin de distribucin es

Distribucin geomtrica ( o de fracasos)


Consideramos una sucesin de v.a. independientes de Bernoulli,

Una v.a. X sigue posee una distribucin geomtrica,


, si esta es la suma
del nmero de fracasos obtenidos hasta la aparicin del primer xito en la sucesin
. Por ejemplo

De este modo tenemos que la ley de probabilidad de X es

Observacin
Es sencillo comprobar que realmente f es una ley de probabilidad, es decir,
. Para ello basta observar que la sucesin
es una progresin
geomtrica de razn q, a la que podemos aplicar su frmula de sumatoria:

Observacin
En la distribucin geomtrica el conjunto de posibles valores que puede tomar la
variable ( ) es infinito numerable, mientras que en la de Bernoulli y en la binomial,
estos eran en nmero finito.
Distribucin binomial negativa
Sobre una sucesin de v.a. de Bernouilli independientes,

se define la v.a. X como el nmero de fracasos obtenidos hasta la aparicin de r xitos


en la sucesin

. En este caso se dice que X sigue una ley de distribucin

binomial negativa de parmetros r y p y se denota del modo:


probabilidad es

De

nuevo,

el

conjunto

de

posibles

valores

de

. Su ley de

esta

v.a.

discreta

es

.
Observacin
La distribucin binomial negativa tambin se puede definir como el nmero de pruebas
hasta la aparicin de r xitos. Como el nmero de pruebas contabiliza tanto los xitos
como los fracasos se tendra segn sta definicin que

Distribucin hipergeomtrica
Por claridad, consideremos el siguiente ejemplo: Tenemos una baraja de cartas
espaolas (N = 40 naipes), de las cuales nos vamos a interesar en el palo de oros (D =10

naipes de un mismo tipo). Supongamos que de esa baraja extraemos n = 8 cartas de una
vez (sin reemplazamiento) y se nos plantea el problema de calcular la probabilidad de
que hayan k = 2 oros (exactamente) en esa extraccin. La respuesta a este problema es

En lugar de usar como dato D es posible que tengamos la proporcin existente, p, entre
el nmero total de oros y el nmero de cartas de la baraja

de modo que podemos decir que

Este ejemplo sirve para representar el tipo de fenmenos que siguen una ley de
distribucin hipergeomtrica. Diremos en general que una v.a. X sigue una distribucin
hipergeomtrica de parmetros, N, n y p, lo que representamos del modo
, si su funcin de probabilidad es

Observacin

Cuando el tamao de la poblacin (N) es muy grande, la ley hipergeomtrica tiende a


aproximarse a la binomial:

El valor esperado de la hipergeomtrica es el mismo que el de la binomial,

sin embargo su varianza

no es exactamente la de la binomial, pues est corregida por un factor,


, que tiende
a 1 cuando
. A este factor se le denomina factor de correccin para poblacin
finita.
Distribucin de Poisson (o de los sucesos raros)
Una v.a. X posee una ley de distribucin de probabilidades del tipo Poisson cuando

Este tipo de leyes se aplican a sucesos con probabilidad muy baja de ocurrir,
obtenindose como la distribucin lmite de una sucesin de variable binomiales,
, donde

,y

La demostracin de esto consiste en

(por tanto

).

En general utilizaremos la distribucin de Poisson como aproximacin de experimentos


binomiales donde el nmero de pruebas es muy alto, pero la probabilidad de xito muy
baja. A veces se suele utilizar como criterio de aproximacin:

La ley de Poisson la podemos encontrar tabulada en la tabla de probabilidades, para


ciertos valores usuales de .
Bernoulli: Consiste en realizar un experimento aleatorio una sola vez y observar si
cierto suceso ocurre o no, siendo p la probabilidad de que esto sea as (xito) y q = 1-p
el que no lo sea (fracaso),
Binomial: Se dice que una v.a. X sigue una ley binomial de parmetros n y p,
, si es la suma de n v.a. independientes de Bernoulli con el mismo valor del
parmetro p,

Geomtrica ( o de fracasos): Si X1, X2, ..., Xi, ... son una sucesin de v.a.
independientes de Bernoulli (p), entonces, una v.a. X posee una distribucin
geomtrica,

, si esta es la suma del nmero de fracasos obtenidos hasta la

aparicin del primer xito en la sucesin

. la ley de probabilidad de X es

Binomial negativa: Si X1, X2, ..., Xi, ... son una sucesin de v.a. independientes de
Bernoulli (p), entonces, se define la v.a. X como el nmero de fracasos obtenidos hasta
la aparicin de r xitos en la sucesin
. En este caso se dice que X sigue una ley
de distribucin binomial negativa de parmetros r y p. Su ley de probabilidad es

Hipergeomtrica: Diremos que una v.a. X sigue una distribucin hipergeomtrica de


parmetros, N, n y p, donde N es el total de la poblacin, n el nmero de elementos en la
muestra, y p es la proporcin de elementos en la poblacin que tienen la caracterstica
deseada. funcin de probabilidad es

Poisson (o de los sucesos raros): Este tipo de leyes se aplican a sucesos con
probabilidad muy baja de ocurrir, obtenindose como la distribucin lmite de una
sucesin de variable binomiales, es decir, una v.a. X posee una ley de distribucin de
probabilidades del tipo Poisson si
con = n p.

3.2 Deduccin de las caractersticas relevantes de las variables


aleatorias discretas usando momentos y funcin generadora
de momentos.
Para realizar las deducciones de las frmulas para obtener los parmetros de las v.a.,
utilizaremos la funcin caracterstica de esta
, la cual no difiere mucho de la funcin
generadora de momentos presentando una ventaja sobre esta ya que es ms general.
Distribucin de Bernoulli
Los principales momentos de la X
directamente

con

, los podemos calcular

Distribucin binomial
Los principales momentos de X cuando
partir de

, los calculamos ms fcilmente a

la funcin caracterstica de X que de su propia definicin:

Distribucin geomtrica ( o de fracasos)

funcin caracterstica se calcula teniendo en cuenta que de nuevo aparece la sumatoria


de los trminos de una progresin geomtrica, pero esta vez de razn eit q:

La media y varianza de esta variable aleatoria son:

Distribucin binomial negativa


Su funcin caracterstica es

y sus momentos ms importantes los obtenemos derivando esta ltima:

Distribucin de Poisson
La funcin caracterstica de

es

de lo que se deduce que valor esperado y varianza coinciden

3.3 Uso de las Tablas

A continuacin se presentan ejemplos de v.a. que cuentan con tablas de probabilidades y


ayudan a eliminar los clculos:
Distribucin binomial
Ejemplo
Un mdico aplica un test a 10 alumnos de un colegio para detectar una enfermedad cuya
incidencia sobre una poblacin de nios es del

. La sensibilidad del test es del

y la especificidad del
. Cual es la probabilidad de que exactamente a cuatro
personas le de un resultado positivo? Si en la muestra hay cuatro personas a las que el
test le da positivo, cul es la probabilidad de que entre estas, exactamente dos estn
sanas? Calcular la probabilidad de que el test suministre un resultado incorrecto para
dos personas. Calcular la probabilidad de que el resultado sea correcto para ms de 7
personas.
Solucin:
Los datos de que disponemos son:

donde E, T +, y T -- tienen el sentido que es obvio. Si queremos saber a cuantas personas


el test le dar un resultado positivo, tendremos que calcular
, para lo que
podemos usar el teorema de la probabilidad total (estar enfermo y no estarlo forman una
coleccin exhaustiva y excluyente de sucesos):

Sea X1 la v.a. que contabiliza el nmero de resultados positivos. Es claro que llamando
, se tiene que X sigue una distribucin binomial

Por ello la probabilidad de que a cuatro personas le de el resultado del test positivo es:

Si queremos calcular a cuantas personas les dar el test un resultado positivo aunque en
realidad estn sanas, hemos de calcular previamente
predictivo de falsos positivos:

, o sea, el ndice

Es importante observar este resultado. Antes de hacer los clculos no era previsible que
si a una persona el test le da positivo, en realidad tiene una probabilidad
aproximadamente del
de estar sana. Sea X2 la variable aleatoria que contabiliza al
nmero de personas al que el test le da positivo, pero que estn sanas en realidad.
Entonces

Por ltimo vamos a calcular la probabilidad p3 de que el test de un resultado errneo,


que es:

La variable aleatoria que contabiliza el nmero de resultados errneos del test es

Como la probabilidad de que el test sea correcto para ms de siete personas, es la de que
sea incorrecto para menos de 3, se tiene

Distribucin binomial negativa


Ejemplo
Para tratar a un paciente de una afeccin de pulmn han de ser operados en operaciones
independientes sus 5 lbulos pulmonares. La tcnica a utilizar es tal que si todo va bien,
lo que ocurre con probabilidad de 7/11, el lbulo queda definitivamente sano, pero si no
es as se deber esperar el tiempo suficiente para intentarlo posteriormente de nuevo. Se
practicar la ciruga hasta que 4 de sus 5 lbulos funcionen correctamente. Cul es el
valor esperado de intervenciones que se espera que deba padecer el paciente? Cul es
la probabilidad de que se necesiten 10 intervenciones?
Solucin:
Este es un ejemplo claro de experimento aleatorio regido por una ley binomial negativa,
ya que se realizan intervenciones hasta que se obtengan 4 lbulos sanos, y ste es el
criterio que se utiliza para detener el proceso. Identificando los parmetros se tiene:

Lo que nos interesa es medir el nmero de intervenciones, Y, ms que el nmero de


xitos hasta el r-simo fracaso. La relacin entre ambas v.a. es muy simple:
Y=X+r
Luego

Luego el nmero esperado de intervenciones que deber sufrir el paciente es de 11. La


probabilidad de que el nmero de intervenciones sea Y =10, es la de que X =10 4 = 6.
Por tanto:

Distribucin geomtrica ( o de fracasos)


Ejemplo
Un matrimonio quiere tener una hija, y por ello deciden tener hijos hasta el nacimiento
de una hija. Calcular el nmero esperado de hijos (entre varones y hembras) que tendr
el matrimonio. Calcular la probabilidad de que la pareja acabe teniendo tres hijos o ms.
Solucin:
Este es un ejemplo de variable geomtrica. Vamos a suponer que la probabilidad de
tener un hijo varn es la misma que la de tener una hija hembra. Sea X la v.a.

Es claro que

Sabemos que el nmero esperado de hijos varones es


nmero esperado en total entre hijos varones y la nia es 2.

, por tanto el

La probabilidad de que la pareja acabe teniendo tres o ms hijos, es la de que tenga 2 o


ms hijos varones (la nia est del tercer lugar en adelante), es decir,

Hemos preferido calcular la probabilidad pedida mediante el suceso complementario, ya


que sera ms complicado hacerlo mediante la suma infinita

Observacin
La distribucin exponencial tambin puede ser definida como el nmero de pruebas
realizadas hasta la obtencin del primer xito (como hubiese sido ms adecuado en el
ejemplo anterior). En este caso es un ejercicio sencillo comprobar que X slo puede
tomar valores naturales mayores o iguales a 1, y que:

Distribucin de Poisson (o de los sucesos raros)


Ejemplo
Cierta enfermedad tiene una probabilidad muy baja de ocurrir, p = 1/100.000. Calcular
la probabilidad de que en una ciudad con 500.000 habitantes haya ms de 3 personas
con dicha enfermedad. Calcular el nmero esperado de habitantes que la padecen.
Solucin:
Si consideramos la v.a. X que contabiliza el nmero de personas que padecen la
enfermedad, es claro que sigue un modelo binomial, pero que puede ser muy bien
aproximado por un modelo de Poisson, de modo que

As el nmero esperado de personas que padecen la enfermedad es

. Como

, existe una gran dispersin, y no sera extrao encontrar que en realidad


hay muchas ms personas o menos que estn enfermas. La probabilidad de que haya
ms de tres personas enfermas es:

Unidad 4
VARIABLES ALEATORIAS CONTINUAS

4.1 Variables Aleatorias Continuas


En esta seccin estudiaremos las distribuciones ms importantes de v.a. continuas
unidimensionales. El soporte de una v.a. continua se define como aquella regin de
donde su densidad es no nula,
podr ser bien todo

. Para las distribuciones que enunciaremos,

o bien un segmento de la forma

Distribucin uniforme o rectangular


Se dice que una v.a. X posee una distribucin uniforme en el intervalo [a, b],

si su funcin de densidad es la siguiente:

Con esta ley de probabilidad, la probabilidad de que al hacer un experimento aleatorio,


el valor de X este comprendido en cierto subintervalo de [a, b] depende nicamente de
la longitud del mismo, no de su posicin. Cometiendo un pequeo abuso en el lenguaje,
podemos decir que en una distribucin uniforme la probabilidad de todos los puntos del
soporte es la misma.
Teniendo en cuenta que si

la funcin de distribucin de

Figura:

es:

Funcin

de

densidad

de

distribucin de

Distribucin normal
La distribucin normal, recibe este nombre ya que una gran mayora de las v.a
continuas de la naturaleza siguen esta distribucin. Se dice que una v.a. X sigue una
distribucin normal de parmetros

, lo que representamos del modo

si su funcin de densidad es:

Observacin
Estos dos parmetros y
coinciden adems con la media (esperanza) y la varianza
respectivamente de la distribucin como se demostrar ms adelante:

La forma de la funcin de densidad es la llamada campana de Gauss, de ah que en


algunas ocasiones se la denomine Gaussiana.
Figura: Campana de Gauss o funcin de
densidad de una v.a. de distribucin
normal. El rea contenida entre la grfica y
el eje de abcisas vale 1.

Para el lector es un ejercicio interesante comprobar que sta alcanza un nico mximo
(moda)

en

que

es

simtrica

con

respecto

al

mismo,

por

tanto

, con lo cual en coinciden la media, la mediana y la


moda, y por ltimo, calcular sus puntos de inflexin.
El soporte de la distribucin es todo
, de modo que la mayor parte de la masa de
probabilidad (rea comprendida entre la curva y el eje de abcisas) se encuentra
concentrado alrededor de la media, y las ramas de la curva se extienden asintticamente
a los ejes, de modo que cualquier valor muy alejado de la media es posible (aunque
poco probable).
La forma de la campana de Gauss depende de los parmetros

indica la posicin de la campana (parmetro de centralizacin);


(o equivalentemente, ) ser el parmetro de dispersin.
Cuanto menor sea, mayor cantidad de masa de probabilidad habr concentrada
alrededor de la media (grafo de f muy apuntado cerca de
aplastado ser.
Figura: Distribuciones normales
diferentes medias e igual dispersin.

) y cuanto mayor sea ms


con

Figura: Distribuciones normales con igual


media pero varianza diferente.

Estandarizacin
Se conoce por Estandarizacin al proceso de restar la media y dividir por su
desviacin tpica a una variable X. De este modo se obtiene una nueva variable

de media
estandarizada.

y desviacin tpica

, que denominamos variable

Esta nueva variable carece de unidades y permite hacer comparables dos medidas que
en un principio no lo son, por aludir a conceptos diferentes. As por ejemplo nos
podemos preguntar si un elefante es ms grueso que una hormiga determinada, cada uno

en relacin a su poblacin. Tambin es aplicable al caso en que se quieran comparar


individuos semejantes de poblaciones diferentes. Por ejemplo si deseamos comparar el
nivel acadmico de dos estudiantes de diferentes Universidades para la concesin de
una beca de estudios, en principio sera injusto concederla directamente al que posea
una nota media ms elevada, ya que la dificultad para conseguir una buena calificacin
puede ser mucho mayor en un centro que en el otro, lo que limita las posibilidades de
uno de los estudiante y favorece al otro. En este caso, lo ms correcto es comparar las
calificaciones de ambos estudiantes, pero estandarizadas cada una de ellas por las
medias y desviaciones tpicas respectivas de las notas de los alumnos de cada
Universidad.
Observacin
Como se ha mencionado anteriormente, la ley de probabilidad normal la encontramos
en la mayora de los fenmenos que observamos en la naturaleza, por ello gran parte de
lo que resta del curso lo vamos a dedicar a su estudio y a el de las distribuciones
asociadas a ella. Sin embargo, a pesar de su utilidad, hay que apuntar un hecho negativo
para esta ley de probabilidad:
La funcin

no posee primitiva conocida.

Las consecuencias desde el punto de vista prctico son importantes, ya que eso impide
el que podamos escribir de modo sencillo la funcin de distribucin de la normal, y nos
tenemos que limitar a decir que:

sin poder hacer uso de ninguna expresin que la simplifique. Afortunadamente esto no
impide que para un valor de x fijo, F(x) pueda ser calculado. De hecho puede ser
calculado con tanta precisin (decimales) como se quiera, pero para esto se necesita usar
tcnicas de clculo numrico y ordenadores. Para la utilizacin en problemas prcticos
de la funcin de distribucin F, existen ciertas tablas donde se ofrecen (con varios
decimales de precisin) los valores F(x) para una serie limitada de valores xi dados.
Normalmente F se encuentra tabulada para una distribucin Z, normal de media 0 y
varianza 1 que se denomina distribucin normal estandarizada:

En el caso de que tengamos una distribucin diferente


haciendo el siguiente cambio:

Proposicin (Cambio de origen y escala)


Sean

. Entonces

, se obtiene Z

Este resultado puede ser utilizado del siguiente modo: Si


calcular

, y nos interesa

1.
Hacemos el cambio

y calculamos

2.
Usamos la tabla de probabilidades para la normal estndar, relativa a la distribucin
para obtener (de modo aproximado)

3.

Como
tenemos que el valor obtenido en la tabla, FZ(z) es la probabilidad buscada.
Vamos ahora a demostrar algunas de las propiedades de la ley normal que hemos
mencionado anteriormente.
Proposicin
Sea

. Entonces

Demostracin
Por ser la normal una ley de probabilidad se tiene que

es decir, esa integral es constante. Con lo cual, derivando la expresin anterior con
respecto a

se obtiene el valor 0:

luego

Para demostrar la igualdad entre la


pero esta vez derivando con respecto a

, basta con aplicar la misma tcnica,

Luego

Aproximacin a la normal de la ley binomial


Se puede demostrar (teorema central del lmite) que una v.a. discreta con distribucin
binomial,
se puede aproximar mediante una distribucin normal si n es
suficientemente grande y p no est ni muy prximo a 0 ni a 1. Como el valor esperado y
la varianza de X son respectivamente

, la aproximacin consiste en decir que

. El convenio que se suele utilizar para poder realizar esta


aproximacin es:

aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un
valor muy grande o

Como ilustracin obsrvense las siguientes figuras


Figura: Comparacin entre la funcin de
densidad de una v.a. continua con
distribucin
y el diagrama de
barras de una v.a. discreta de distribucin
para casos en que la aproximacin
normal de la binomial es vlida. Es peor
esta aproximacin cuando p est prximo a
los bordes del intervalo [0,1].

Figura: La misma comparacin que en la


figura anterior, pero realizada con
parmetros con los que damos la
aproximacin normal de la binomial es
mejor.

Ejemplo
Durante cierta epidemia de gripe, enferma el
de la poblacin. En un aula con 200
estudiantes de Medicina, cul es la probabilidad de que al menos 40 padezcan la
enfermedad? Calcular la probabilidad de que haya 60 estudiantes con gripe.
Solucin:
La v.a. que contabiliza el nmero de alumnos que padece la gripe es

cuya media es
y su varianza es
. Realizar los clculos
con la ley binomial es muy difcil, ya que intervienen nmeros combinatorios de gran
tamao, y potencias muy elevadas. Por ello utilizamos la aproximacin normal de X,
teniendo en cuenta que se verifican las condiciones necesarias para que el error sea
aceptable:

As aproximando la v.a. discreta binomial X, mediante la v.a. continua normal XN


tenemos:

Tambin es necesario calcular


como:

. Esta probabilidad se calcula exactamente

Dada la dificultad numrica para calcular esa cantidad, y como la distribucin binomial
no est habitualmente tabulada hasta valores tan altos, vamos a utilizar su aproximacin
normal, XN. Pero hay que prestar atencin al hecho de que XN es una v.a. continua, y por
tanto la probabilidad de cualquier punto es cero. En particular,

lo que ha de ser interpretado como un error de aproximacin. Hay mtodos ms


aproximados para calcular la probabilidad buscada. Por ejemplo, podemos aproximar
por el valor de la funcin de densidad de XN en ese punto (es en el nico
sentido en que se puede entender la funcin de densidad de la normal como una
aproximacin de una probabilidad). As:

Por ltimo, otra posibilidad es considerar un intervalo de longitud 1 centrado en el valor


60 del que deseamos hallar su probabilidad y hacer:

Ejemplo
Segn un estudio, la altura de los varones de cierta ciudad es una v.a. X, que podemos
considerar que se distribuye segn una ley de normalidad de valor esperado
y desviacin tpica
asegurado que el

. Dar un intervalo para el que tengamos

de los habitantes de la ciudad estn comprendidos en l.

Solucin:
Tenemos que

. Si buscamos un intervalo donde estar

seguros de que el
de los habitantes tengan sus alturas comprendidas en l hay
varias estrategias posibles:
1.
Podemos tomar el percentil 50, ya que este valor deja por debajo suya a la mitad, 0,5, de
la masa de probabilidad. Este valor, x0,5, se definira como:

donde

El valor z0,5 lo podemos buscar en la tabla de la normal estndar (distribucin


y se obtiene

Por tanto podemos decir que la mitad de la poblacin tiene una altura inferior a
. Este resultado era de esperar, ya que en la distribucin es simtrica y
habr una mitad de individuos con un peso inferior a la media y otro con un peso
superior (como se ve en la figura).
Figura:
Intervalo
donde
tenemos
asegurado que el 50% de la poblacin tiene
un peso comprendido en l. Como se

observa, no es un tamao ptimo, en el


sentido de que el intervalo es demasiado
grande (longitud infinita a la izquierda).

Esto puede escribirse como:


El

de la poblacin tiene un peso comprendido en el intervalo

2.
Anlogamente podemos considerar el percentil 50, y tomar como intervalo aquellos
pesos que lo superan. Por las mismas razones que en el problema anterior, podremos
decir:
El

de la poblacin tiene un peso comprendido en el intervalo

3.
Los anteriores intervalos, an dando un resultado correcto, no son satisfactorios en el
sentido de que son muy grandes, y no tienen en cuenta la simetra de la distribucin
normal para tomar un intervalo cuyo centro sea . Vamos a utilizar entonces otra
tcnica que nos permita calcular el intervalo centrado en la media, y que adems ser el
ms pequeo posible que contenga al

de la poblacin.

Para ello observamos que la mayor parte de probabilidad est concentrada siempre
alrededor de la media en las leyes normales. Entonces podemos tomar un intervalo que
contenga un
del derecho.

de probabilidad del lado izquierdo ms prximo a la media, y un

Esto se puede describir como el intervalo

Figura:

Intervalo

donde

tenemos

asegurado que el 50% de la poblacin tiene


un peso comprendido en l. En este caso el
intervalo es ms pequeo que el anterior y
est centrado en

donde x0,25 es el valor que deja por debajo de s al

de la masa de probabilidad y x0,75

el que lo deja por encima (o lo que es lo mismo, el que deja por debajo al
de las
observaciones). Del mismo modo que antes estos valores pueden ser buscados en una
tabla de la distribucin normal, tipificando en primera instancia para des estandarizar
despus:

donde

En una tabla encontramos el valor z0,75, y se des estandarizada:

Anlogamente se calculara

donde

Por la simetra de la distribucin normal con respecto al origen, tenemos que z0,25= - z0,75.
Luego

En conclusin:
El

de la poblacin tiene un peso comprendido en el intervalo [168,25,181,75].

De entre los tres intervalos que se han calculado el que tiene ms inters es el ltimo, ya
que es simtrico con respecto a la media, y es el ms pequeo de todos los posibles (ms
preciso). Este ejemplo es en realidad una introduccin a unas tcnicas de inferencia
estadstica que trataremos posteriormente, conocidas con el nombre de clculo de
intervalos de confianza.

Distribucin Gamma
X es una v.a. Gamma con parmetros y , es decir

cuando

adems sirve de ayuda el saber que


1.

si y solo si

2.
Si

, entonces

La media es

la varianza es

Dadas ciertas condiciones especficas de sus parmetros y , esta v.a. se convierte en


otro tipo de v.a. las cuales tienen mayor aplicacin, y se las ver a continuacin

Distribucin exponencial
La distribucin exponencial es el equivalente continuo de la distribucin geomtrica
discreta. Esta ley de distribucin describe procesos en los que:
Nos interesa saber el tiempo hasta que ocurre determinado evento, sabiendo que, el
tiempo que pueda ocurrir desde cualquier instante dado t, hasta que ello ocurra en un
instante tf, no depende del tiempo transcurrido anteriormente en el que no ha pasado
nada.
Ejemplos de este tipo de distribuciones son:
El tiempo que tarda una partcula radiactiva en desintegrarse. El conocimiento de la ley
que sigue este evento se utiliza en Ciencia para, por ejemplo, la datacin de fsiles o
cualquier materia orgnica mediante la tcnica del carbono 14, C14;
El tiempo que puede transcurrir en un servicio de urgencias, para la llegada de un
paciente;
En un proceso de Poisson donde se repite sucesivamente un experimento a intervalos de
tiempo iguales, el tiempo que transcurre entre la ocurrencia de dos sucesos consecutivos
sigue un modelo probabilstico exponencial. Por ejemplo, el tiempo que transcurre entre
que sufrimos dos veces una herida importante.

Si tenemos una v.a.


, cuando el parmetro toma el valor de uno, es
decir =1, X se convierte en la v.a. Exponencial, lo cual es fcil de deducir y se lo deja
como demostracin para el estudiante.
Concretando, si una v.a. continua X distribuida a lo largo de
de densidad es

se dice que sigue una distribucin exponencial de parmetro

, es tal que su funcin

Figura: Funcin de densidad, f, de una


.

Un clculo inmediato nos dice que si x>0,

luego la funcin de distribucin es:

Figura: Funcin de distribucin, F, de

, calculada como el rea que deja


por debajo de s la funcin de densidad.

Ejemplo
En un experimento de laboratorio se utilizan 10 gramos de
. Sabiendo que la
duracin media de un tomo de esta materia es de 140 das, cuantos idas transcurrirn
hasta que haya desaparecido el

de este material?

Solucin:
El tiempo T de desintegracin de un tomo de
exponencial:

es una v.a. de distribucin

Como el nmero de tomos de


existentes en una muestra de 10 gramos es
enorme, el histograma de frecuencias relativas formado por los tiempos de
desintegracin de cada uno de estos tomos debe ser extremadamente aproximado a la
curva de densidad, f. Del mismo modo, el polgono de frecuencias relativas acumuladas
debe ser muy aproximado a la curva de su funcin de distribucin F. Entonces el tiempo
que transcurre hasta que el
del material radiactivo se desintegra es el percentil 90,
t90, de la distribucin exponencial, es decir

Figura: Como el nmero de tomos


(observaciones) es extremadamente alto en
10 gramos de materia, el histograma puede
ser aproximado de modo excelente por la
funcin de densidad exponencial, y el
polgono de frecuencias acumuladas por la
funcin de distribucin.

Prdida de la memoria de la v.a. exponencial


Analicemos esta caracterstica particular que posee la v.a. exponencial con un ejemplo
Ejemplo
Se ha comprobado que el tiempo de vida de cierto tipo de marcapasos sigue una
distribucin exponencial con media de 16 aos. Cul es la probabilidad de que a una
persona a la que se le ha implantado este marcapasos se le deba reimplantar otro antes
de 20 aos? Si el marcapasos lleva funcionando correctamente 5 aos en un paciente,
cul es la probabilidad de que haya que cambiarlo antes de

aos?

Solucin:
Sea T la variable aleatoria que mide la duracin de un marcapasos en una persona.
Tenemos que

Entonces

En segundo lugar

Luego como era de esperar, por ser propio a un mecanismo exponencial,

o sea, en la duracin que se espera que tenga el objeto, no influye en nada el tiempo que
en la actualidad lleva funcionando. Es por ello que se dice que la distribucin
exponencial no tiene memoria.

Distribucin Ji cuadrado:
Si tenemos una v.a.
, cuando =2 y = n/2, X se convierte en la v.a. Jicuadrado lo cual es fcil de deducir y se lo deja como demostracin para el estudiante.
Otra manera de obtener la v.a. Ji-cuadrado es la siguiente
, la v.a. X = Z2 se distribuye segn una ley de

Si consideramos una v.a.


probabilidad distribucin

con un grado de libertad, lo que se representa como

Si tenemos n v.a. independientes

, la suma de sus cuadrados respectivos es

una distribucin que denominaremos ley de distribucin


.

La media y varianza de esta variable son respectivamente:

con n grados de libertad,

y su funcin de densidad es:

Los percentiles de esta distribucin que aparecen con ms frecuencia en la prctica los
podemos encontrar en una tabla de probabilidades para la v.a. Ji cuadrado (
Figura: Funcin de densidad de
valores pequeos de n.

para

Figura: Funcin de densidad de


valores grandes de n.

para

).

En consecuencia, si tenemos

, v.a. independientes, donde cada

, se tiene

Observacin
La ley de distribucin
muestra su importancia cuando queremos determinar la
variabilidad (sin signo) de cantidades que se distribuyen en torno a un valor central
siguiendo un mecanismo normal. Como ilustracin tenemos el siguiente ejemplo:
Ejemplo
Un instrumento para medir el nivel de glucemia en sangre, ofrece resultados bastantes
aproximados con la realidad, aunque existe cierta cantidad de error que se distribuye
de modo normal con media 0 y desviacin tpica
.

Se realizan mediciones de los niveles de glucemia dados por el instrumento en un grupo


de n =100 pacientes. Nos interesa medir la cantidad de error que se acumula en las
mediciones de todos los pacientes. Podemos plantear varias estrategias para medir los
errores acumulados. Entre ellas destacamos las siguientes:
1. Definimos el error acumulado en las mediciones de todos los pacientes como

Cul es el valor esperado para E1?


2. Definimos el error acumulado como la suma de los cuadrados de todos los errores
(cantidades positivas):

Cul es el valor esperado para E2?


A la vista de los resultados, cul de las dos cantidades, E1 y E2, le parece ms
conveniente utilizar en una estimacin del error cometido por un instrumento.
Solucin:
Suponiendo que todas las mediciones son independientes, se tiene que

De este modo, el valor esperado para E1 es 0, es decir, que los errores ei van a tender a
compensarse entre unos pacientes y otros. Obsrvese que si

no fuese conocido a

priori, podramos utilizar E1, para obtener una aproximacin de

Sin embargo, el resultado E1 no nos indica en qu medida hay mayor o menor dispersin
en los errores con respecto al 0. En cuanto a E2 podemos afirmar lo siguiente:

En este caso los errores no se compensan entre s, y si


estimado de modo aproximado mediante

no fuese conocido, podra ser

Sin embargo, no obtenemos ninguna informacin con respecto a

En conclusin, E1 podra ser utilizado para calcular de modo aproximado , y E2 para


calcular de modo aproximado
. Las dos cantidades tienen inters, y ninguna lo tiene
ms que la otra, pues ambas formas de medir el error nos aportan informacin.
El siguiente resultado ser de importancia ms adelante. Nos afirma que la media de
distribuciones normales independientes es normal pero con menor varianza y relaciona
los grados de libertad de una v.a. con distribucin
varianza:

, con los de un estadstico como la

Teorema (Cochran)
Sean

v.a. independientes. Entonces

Distribucin Beta
Si X es una v.a., entonces

su media est dada por

y su varianza

si y solo si

Uniforme: Se dice que una v.a. X posee una distribucin uniforme en el intervalo [a,
b],
, si su funcin de densidad es la siguiente:
.
Con esta ley de probabilidad, la probabilidad de que al hacer un experimento aleatorio,
el valor de X este comprendido en cierto sub intervalo de [a, b] depende nicamente de
la longitud del mismo, no de su posicin.
Normal: Se dice que una v.a. X sigue una distribucin normal de parmetros
lo que representamos del modo

si su funcin de densidad es:

. La distribucin normal, recibe este nombre


ya que una gran mayora de las v.a continuas de la naturaleza siguen esta distribucin.
Normal Estndar Z: normal de media 0 y varianza 1 se denomina distribucin normal
estandarizada, su densidad es
.En el caso de que tengamos una
distribucin diferente

, se obtiene Z haciendo el siguiente cambio:

Aproximacin a la normal de la ley binomial: Se puede demostrar (teorema central del


lmite) que una v.a. discreta con distribucin binomial,
se puede aproximar
mediante una distribucin normal si n es suficientemente grande y p no est ni muy
prximo a 0 ni a 1.
Distribucin Gamma X es una v.a. Gamma con parmetros y , es decir
si y solo si

cuando
Exponencial: esta es el equivalente continuo de la distribucin geomtrica discreta.
Esta ley de distribucin describe procesos en los que nos interesa saber el tiempo hasta
que ocurre determinado evento, sabiendo que, el tiempo que pueda ocurrir desde
cualquier instante dado t, hasta que ello ocurra en un instante tf, no depende del tiempo
transcurrido anteriormente en el que no ha pasado nada.
Prdida de la memoria de la v.a. exponencial: la duracin que se espera que tenga algn
objeto en especial elctrico, no influye en nada el tiempo que en la actualidad lleva

funcionando. Es por ello que se dice que la distribucin exponencial no tiene


memoria.
Ji cuadrado:

Si tenemos n v.a. independientes

, la suma de sus

cuadrados respectivos es una distribucin que denominaremos ley de distribucin


con n grados de libertad,

Distribucin Beta: Si X es una v.a., entonces

si y solo si

4.2 Deduccin de las caractersticas relevantes de las variables


aleatorias continuas usando momentos y funcin generadora
de momentos.
Para realizar las deducciones de las frmulas para obtener los parmetros de las v.a.,
utilizaremos la funcin caracterstica de esta
, la cual no difiere mucho de la funcin
generadora de momentos presentando una ventaja sobre esta ya que es ms general. z
Distribucin uniforme
La funcin caracterstica es

Como esta distribucin es muy simple, vamos a calcular sus momentos ms usuales
directamente a partir de la definicin, en lugar de usar la funcin caracterstica:

Distribucin normal
La funcin caracterstica de la distribucin normal, se comprueba ms adelante que es

Como consecuencia, la distribucin normal es reproductiva con respecto a los


parmetros

,y

, ya que

Para demostrar el resultado demostrado en el desarrollo del tema 1 en la unidad 4,


relativo a la funcin caracterstica de la v.a. normal, consideramos en primer lugar la
v.a. estandarizada de X,

y calculamos

Como

, deducimos que

Distribucin Gamma
La funcin generadora de momentos de la v.a. Gamma es

Derivando la funcin caracterstica podemos encontrar fcilmente la media y la varianza


de la v.a. Gamma, lo que se deja de ejercicio para el estudiante.
Distribucin exponencial
Para calcular el valor esperado y la varianza de la distribucin exponencial, obtenemos
en primer lugar la funcin caracterstica

para despus, derivando por primera vez

y derivando por segunda vez,

Entonces la varianza vale

4.3 Uso de las Tablas


A continuacin se presentan ejemplos de v.a. que cuentan con tablas de probabilidades y
ayudan a eliminar los clculos:
Distribucin Normal
Ejemplo
Supongamos que cierto fenmeno pueda ser representado mediante una v.a.
, y queremos calcular la probabilidad de que X tome un valor entre 39 y
48, es decir,

Comenzamos haciendo el cambio de variable

de modo que

los valores 0.33 y 0.67 lo obtenemos de la tabla de la v.a. normal estndar, la forma de
leer los valores es la siguiente:

Observar que en la primera columna se tiene el primer decimal y en la primera fila se


tienen el segundo decimal del valor que se desea investigar.
Figura: rea bajo la curva normal de la
media hasta el valor de z (para valores
negativos de z, la reas son por
simetra)

Si buscamos en la tabla en el lado izquierdo encontraremos el valor 0.3 y revisando en


que columna est el segundo decimal 0.03 e interceptando la fila y la columna
encontraremos el valor de 0.1293, a este valor hay que sumarle 0.5 del rea bajo la
curva desde a - , lo que da como resultado el valor de 0.6293; de igual manera para
el valor 0.67, se busca a la izquierda 0.6 y en la columna 0.07 se intercepta y se
encuentra el valor de 0.2486, haciendo el mismo procedimiento que al valor anterior
tenemos 0.7486.
Una vez que se tienen los valores estandarizados se realiza el proceso contrario al de la
estandarizacin, es decir, se multiplica este valor por la desviacin estndar y se le suma
el valor de la media, y as se obtendr la probabilidad de la variable X con media 45 y
desviacin estndar 81.

Vous aimerez peut-être aussi