Vous êtes sur la page 1sur 10

Laboratorio 1

Simulacion Estadstica
Modelos probabilisticos y pruebas de bondad de ajuste
Julian Quintero (1325088)
Katherin Qui
nonez (1325863)
Julian Tutlacha (1325510)
Junio 6 del 2016

Indice
1. Revisi
on bibliogr
afica sobre la aplicaci
on de un modelo probabilstico
1.1. El muestreo en problemas de comparacion forense . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Explicaci
on del problema y el experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3
3
3
4

2. Ajustar una probabilidad a un f


enomeno real

2.1. INTRODUCCION
. . . . . . . . . . . . . . . . . . . . . . . . . .
DE LA DISTRIBUCION
DE PROBABILIDAD
2.2. DESCRIPCION
2.3. PRUEBA DE BONDAD DE AJUSTE . . . . . . . . . . . . . . .
2.4. METODOLOGIA DEL EXPERIMENTO . . . . . . . . . . . . .
2.5. RESULTADOS OBTENIDOS . . . . . . . . . . . . . . . . . . . .
2.6. Conclusiones obtenidas de los resultados observados . . . . . . .
2.7. Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.8. Codigo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.

4
4
4
5
7
7
8
9
9

Plantilla Encuesta Salon 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


Histograma de las proporciones obtenidas a partir de Bootstrap . . . . . . . . . . . . . . . . . . . . .

8
8

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

Indice de figuras
1.
2.

Indice de tablas
1.
2.

Relacion salones vs cantidad de fumadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


Prueba Bondad de Ajuste Chi-Cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6
6

Modelos de probabilidad y prueba de bondad de ajuste

1.
1.1.

Revisi
on bibliogr
afica sobre la aplicaci
on de un modelo probabilstico
El muestreo en problemas de comparaci
on forense

En el artculo que encontramos (el muestreo en problemas de comparacion forense) podemos evidenciar el
uso de la distribuci
on hipergeometrica como modelo probabilstico para la comparacion de fragmentos de vidrio
en investigaciones forenses, en este estudio se quiere mostrar como la utilizacion del muestreo puede facilitar la
investigaci
on en cuestiones tanto de tiempo como economicamente, una caracterstica significativa de la distribuci
on
hipergeometrica es que se basa en conjuntos o subconjuntos de una poblacion y esta caracterstica nos sirve de gran
ayuda para el fin de este estudio. Es claro para el investigador que debe obtener conclusiones representativas sobre
un grupo peque
no de elementos (fragmentos de vidrio) y con este modelo probabilstico puede lograr excelentes
resultados.

1.2.

Explicaci
on del problema y el experimento

Como un ejemplo de un problema de comparacion forense consideramos evidencia a partir de fragmentos de vidrio aunque tales problemas surgen con la evidencia derivada de muchos otros materiales. Cuando un vaso de vidrio
se quiebra deja muchos fragmentos en la zona donde este cae en una escena de un crimen, ahora si encontramos
personas con fragmentos de este vaso de vidrio, el trabajo sera calcular la probabilidad de que esa persona tenga esos
fragmentos por coincidencia o si realmente estaba en la escena del crimen, tambien sera de suma importancia saber
cu
al es el origen de esos fragmentos para poder deliberan sobre la persona sospechosa, para eso debemos conocer la
poblaci
on y el par
ametro asociado a ella con respecto a las muestras de fragmentos que el investigador recoge, debemos saber su distribuci
on a priori y la distribucion Beta nos ayuda a encontrarla dichos parametros. Se asume que
N = el n
umero total de fragmentos recuperados del sospechoso. M = el n
umero de b
usqueda de fragmentos en
total. Por lo tanto hay N-M fragmentos no coincidentes. M solo puede ser determinada mediante el examen de
todos los fragmentos N. M puede ser considerada como la Prueba. n = el n
umero de fragmentos que se muestrea
sin sustituci
on de la N recuperado fragmentos. m = el n
umero de fragmentos en la sub-muestra de n que partido.
Ahora se explicara de manera m
as detallada como se encontraron las distribuciones a priori para la poblaci
on
de los par
ametros y se calcularon probabilidades de coincidencia o no, para cada persona que obtuvo fragmentos
de vidrio. Si se elige una muestra n de fragmentos del total de fragmentos N, la probabilidad de que m de estos
fragmentos coincide con el control est
a dada por la distribucion hipergeometrica, es decir,

P r(m|n, M, N ) =

M
n

N M
nm

N
n

La cuesti
on de interes real es cu
al es la probabilidad que hay que coinciden M fragmentos recuperados de N
total dado que me encontre m fragmentos que coinciden en mi muestra de n? Deseamos encontrar P r(M |m, n, N ).
Se quiere cuantificar la incertidumbre acerca de M en funcion de un parametro teta, la verdadera pero desconocida proporci
on de fragmentos coincidentes en cualquier conjunto similar de fragmentos recuperados. De hecho,
la acci
on esperada valor de la relaci
on M / N es teta, es decir, E[M/N ] = teta, donde E[x]es el valor esperado de
X.
En el an
alisis de las pruebas de vidrio, teta podra cambiar bajo las hipotesis en competencia de (el sospechoso estaba en contacto con la escena del crimen) o (El sospechoso No estaba en contacto con la escena del crimen).
Con el fin de modelar cada situaci
on, es necesario para seleccionar una distribucion para teta que refleja los hechos
bajo cada hip
otesis. Si no hay nada conocido, podemos poner una distribucion a priori no informativa en teta, es
decir, teta se distribuye de manera uniforme entre 0 y 1. De hecho esto es un problema que fue considerado por
primera vez por el reverendo Bayes En el caso de contacto se podra tener en cuenta la distribucion del n
umero de
los grupos de vidrio que se encuentran en las personas conocidas por estar asociadas de un delito. Bajo el supuesto
de que el evento Contacto ha tenido lugar la probabilidad a priori de teta y debe corresponder a esta distribuci
on,

Simulaci
on Estadstica

Modelos de probabilidad y prueba de bondad de ajuste

siendo el supuesto de que una mayor proporci


on de fragmentos de vidrio vendra de una sola fuente. Bajo el supuesto
de ?no contacto?, la probabilidad a priori de teta puede corresponder a la distribucion del n
umero de grupos de
cristal en las personas no asociadas con el crimen. Es decir, si el sospechoso tiene el vidrio en su ropa, entonces es
m
as probable que provienen de una variedad de fuentes, en lugar de una fuente concentrada.
La elecci
on de estas distribuciones previas se modela mediante la seleccion los parametros de una distribuci
on
beta. Es decir, si una variable aleatoria tiene una distribucion Beta con parametros alpha y beta, entonces la media

de dicha variable aleatoria es +


. Este hecho es u
til porque si usted tiene una estimacion previa sobre la proporci
on,
digamos p, entonces eligiendo alpha=P y beta=1-P, la distribucion Beta tendra una media de P.
Resultado

 
M N M N
Beta(M + , N M + )
m
nm
P r(M |m, n, N ) =
 nN
N
n m Beta(m + , n m + )
Donde Beta (a, b) es la funci
on beta est
andar.

1.3.

Conclusiones

con base en lo anteriormente planteado se puede responder alas preguntas que se furmaloron con mayor fiabilidad.
Esta funci
on dice que la probabilidad de que hay M fragmentos que responden a la muestra de control de un total de
N fragmentos recuperados depende de la probabilidad de m fragmentos a juego en nuestra muestra n de fragmentos
y probabilidad de que los datos tienen en cuenta que hay fragmentos M que coinciden y la hipotesis de H = Contacto
o H = no Contacto

2.
2.1.

Ajustar una probabilidad a un f


enomeno real

INTRODUCCION

Los modelos de probabilidad nos permiten tener un acercamiento a problemas y/o situaciones reales, de las
cuales podemos mediante diferentes tecnicas modelarlos y saber que comportamiento tienen los datos del problema.
En nuestra caso, escogimos conocer la incidencia de los estudiantes fumadores dentro de la facultad de Ingenieria
de la Universidad del Valle. Es necesario entender que la universidad es proclamada un espacio libre de humo, y
necesitamos identificar como y de que manera afecta la proporcion de fumadores a la universidad.
El estudio se realiz
o el da miercoles (Junio 01 del 2016, en las instalaciones de la Universidad del Valle, gracias
a que contamos con la informaci
on de registro academico acerca de los salones asignados para la Facultad de Ingenieria en el Periodo Febrero-Julio de 2016, decidimos hacer muestreo por conglomerados, es decir, coincidimos en
que la cantidad de fumadores, no iba a ser afectada por el salon que se escogiera.
El muestreo por conglomerados trata de identificar una caracterstica que permita dividir la poblacion en grupos
disjuntos, de tal manera que los grupos no difieran entre s en relacion a la cantidad de fumadores. Despues de esto,
escogimos algunos de los conglomerados para ser estudiados(salones).
Seguidamente decidimos hacer un muestreo bietapico, es decir decidimos encuestar a todos los alumnos que estaban
en cada uno de los 10 salones, escogiendo un n=24 para cada uno de los 10 salones, contando con un total de 240
estudiantes encuestados.

2.2.

DE LA DISTRIBUCION
DE PROBABILIDAD
DESCRIPCION

Inicialmente podramos imaginarnos que la distribucion de la cual proviene la variable aleatoria X= Estudiantes
de la Facultad de Ingenieria que fuman, tiende a una distribucion Bernoulli(p), pero como necesitamos encontrar la
proporcion de la muestra extraida de estudiantes de la Facultad de Ingenieria se convierte en una suma de variables
aleatorias independientes identicamente distribuidas Bernoulli(p) es decir en una distribucion Binomial(n,p). La
distribuci
on Binomial contiene las siguientes caracteristicas:
1. En cada prueba del experimento s
olo son posibles dos resultados: exito y fracaso.
2.La probabilidad de exito es constante, es decir, que no vara de una prueba a otra. Se representa por p.
X=0 El estudiante de la Facultad de Ingeniera no fuma.
X=1 El estudiante de la Facultad de Ingeniera si fuma.
3.La probabilidad de fracaso tambien es constante, Se representa por q, donde q = 1 ? p.
Simulaci
on Estadstica

Modelos de probabilidad y prueba de bondad de ajuste

4.El resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente.
5.La variable aleatoria binomial, X, expresa el n
umero de exitos obtenidos en las n pruebas. Por tanto, los valores
que puede tomar X son: 0, 1, 2, 3, 4, ..., n.

2.3.

PRUEBA DE BONDAD DE AJUSTE

Ya que el problema escogido corresponde a una distribucion discreta decidimos descartar la prueba de bondad
de ajuste de Kolmogorov-Smirnov para contrastar la distribucion, puesto que esta prueba tiene mayor contundencia
en distribuciones continuas. Hemos escogido la prueba de bondad chi-cuadrado que me permite interactuar entre la
frecuencia observada y la frecuencia esperada de los datos.
Debemos en primera instancia, encontrar un estimador UMVUE(Estimador de Minima Varianza)para el parametrop,lo encontramos mediante el metodo de maaxima verosimilitud:
n
fx =
P x (1 P )nx
x
Aplicando productoria
X
X
n  
xi
n
xi Y n
L(x; p) = P
(1 P )
x
i=1
Sucesivamente aplicando Ln a la funci
on L(x;p)
ln(L(x; p) =

xi ln(p) + n

n  
Y
n
xi ln(1 p) + ln(
)
x
i=1

Encontrando la derivada parcial del parametro p respecto a la funcion Ln(L(x;p)


X
X
xi
n
xi
x
(1p) = 0
p =
p
X
X
xi (1 p) p(n
xi ) = 0
X
X
X
xi p
xi np + p
xi = 0
X
xi = np
X
xi
p = n
Donde p es la proporci
on de los estudiantes fumadores encontrados en la Facultad de Ingeniera.En el programa
estadistico R, procedemos a hallar p dandonos como resultado
p = 0.15
Procediendo a hacer la prueba de bondad de ajuste Chi-Cuadrado, seguiremos los siguientes pasos:
PASO 1 Formulaci
on de Hipotesis:
H0 = Los datos provienen de una distribuci
on binomial
H1 = Los datos no provienen de una distribucion binomial
PASO 2 Obtenci
on del estadstico:
Para encontrar los valores esperados de x debemos utilizar la formula de la distribucion binomial

Simulaci
on Estadstica

Modelos de probabilidad y prueba de bondad de ajuste

n
x

px q n x

Donde n es igual a la muestra de cada uno de los salones escogidos por conglomerado, es decir 24 y los parametros p y q son las probabilidades asociadas a la cantidad de fumadores.
24
x

px q 2 4 x

Tabla 1: Relacion salones vs cantidad de fumadores


Cantidad de Fumadores Cantidad de Salones
0
0
1
2
2
0
3
4
4
2
5
0
6
0
7
2
Total
10

Para la distribuci
on de frecuencias observadas para la media es
= np
=

2(1)+3(4)+4(2)+7(2)
10

36
10

= 3.6

Asi pues, despejando P


p=

3.6
24

= 0.15 coincidiendo con el parametro estimado a partir de R.

Procedemos a usar la siguiente formula que nos permite identificar los valores esperados.
x2 calc =

N
X
(Fo Fe )2
x=1

Fe

Tabla 2: Prueba Bondad de Ajuste Chi-Cuadrado


e)2
N.de Fumadores P (Fumadores)
Fe
Fo (F oF
Fe
0
0.0202 0.202
0
0.202
1
0.0857 0.857
2
1.5268
2
0.1740
1.74
0
1.74
3
0.2251
2.25
4
1.3611
4
0.2085 2.085
2
0.0034
5
0.1472 1.472
0
1.472
6
0.0822 0.822
0
0.822
7
0.0373 0.373
2
7.0961
x2calc
14.2242

Simulaci
on Estadstica

Modelos de probabilidad y prueba de bondad de ajuste

PASO 3 Obtenci
on del estadstico en la tabla:
Debemos establecer los grados de libertad(K-m-1)
K= Categorias M=Parametros estimados = 0.01

2
X811,0.01
= 16.8118
2
2
PASO 4 Regi
on de rechazo: Si Xobs.
<= Xcrit.
No se rechaza H0
2
2
Se rechaza H0
Si Xobs.
> Xcrit.

Como 14.22 es menor que 16.81, con un = 0.01 podemos decir que los datos siguen en buena medida la distribuci
on binomial.

2.4.

METODOLOGIA DEL EXPERIMENTO

Para la realizaci
on de este experimento tuvimos en cuenta los siguientes pasos:
1. Creaci
on de plantilla la cual albergar
a todos los datos.
2. Escogimos la Universidad del Valle sede Melendez para la realizacion de encuestas
3. El programa de mejoramiento continuo de la Facultad de Ingenieria, nos proporciono la base de datos de los
cursos que son dictados el periodo Febrero-Julio de 2016.
4. Escogimos aleatoriamente 10 salones de la facultad de ingenieria, en el cual encuestamos todos sus interantes y escogimos aleatoriamente 24 de cada uno, contando al final con un total de 240 encuestados.
5. Finalmente, despues de diligenciada la plantilla, comenzamos a hacer los calculos correspondientes para la estimacion del parametro p, la prueba de bondad de ajuste e intervalos de confianza.
A continuaci
on anexamos la plantilla que se utilizo para la recoleccion de los datos

2.5.

RESULTADOS OBTENIDOS

Seg
un lo anteoriormente descrito utilizamos la prueba de bondad de ajuste chi-cuadrado y con un = 0.01
resulto que es plausible pensar que los datos sigan una distribucion binomial.
En cuanto a la estimaci
on del parametro p, decidimos utilizar la tecnica de bootstrap(remuestreo) que basicamente se basa en la muestra inicial que obtuvimos de 240 estudiantes de la Facultad de Ingenieria, volver a tomar
una muestra del mismo tama
no 10000 veces.
Encontramos la siguiente distribuccion Bootstrap para la proporcion de la muestra optenida
Ademas calculamos para las 10000 proporciones obtenidas 10000 intervalos de confianza y hallamos la proporcion
de estos que contienen el parametro estimado que es 0.15
Encontramos que de los 10000 intervalos generados el 91.13 contienen el valor 0.15

Simulaci
on Estadstica

Modelos de probabilidad y prueba de bondad de ajuste

Figura 1: Plantilla Encuesta Salon 9

1000
0

500

Frecuencia

1500

2000

Histograma de las proporciones arrojadas por Bootstrap

0.10

0.15

0.20

0.25

Figura 2: Histograma de las proporciones obtenidas a partir de Bootstrap

2.6.

Conclusiones obtenidas de los resultados observados

La tecnica de boostrap resulta ser una herramienta eficaz a la hora de necesitar ajustar nuestros datos a una
distribuci
on.El bootstrap usa la informaci
on de la muestra para estimar, mediante remuestreo de los propios datos,
propiedades de los estimadores estadsticos y as poder realizar tareas tales como crear un IC o realizar un test de
hip
otesis.
El estudio realizado en la facultad de ingenieria nos permite vislumbrar que resulta una proporcion peque
nade

Simulaci
on Estadstica

Modelos de probabilidad y prueba de bondad de ajuste

lo estudiantes que fuman, puesto que esta alrededor de un 15


Podemos darnos cuenta que en su mayoria existe una tendencia del genero masculino como fumadores en la
muestra obtenida de la Facultad de Ingenieria, y por supuesto de la Universidad del Valle.
Es importante tener una buena herramienta de muestreo para reducir la posible falta de validez interna, es decir
representatividad que se logr
a desde el campo de la aleatoriedad en la escogencia de los datos. En nuestro estudio no
importaba de que programa fuesen los estudiantes, pues esta variable no era considerada como una posible afectaci
on
a la variable de cantidad de fumadores, es por esto que pudimos utilizar el muestreo por conglomerados,la variable
de estudio era la suma de Estudaintes fumadores dentro de la facultad.

2.7.

Bibliografia

http://www.tqmp.org/RegularArticles/vol04-2
Introduction to the theory of statistics-third edition-Alexander M. Mood, Franklin A. Graybill, Duane C. Boes
Sampling in forensic comparison problems-JM CURRAN. CM TRIGGS- http://www.jstor.org
https://carlosmarquez.files.wordpress.com/2012/02/prueba-de-bondad-de-ajuste.pdf
http://www.netquest.com/blog/es/muestreo-probabilistico-muestreo-conglomerados/

2.8.

Codigo

datos<-read.table("file:///C:/Users/amio0/Desktop/Laboratorio1/Datos111.txt",header = TRUE)
fuma<-datos$Fuma
k=10000
p<-0
media<-mean(fuma)
li<-0
ls<-0
contadormedia<-0

for (i in 1:k){
p[i]<- mean(sample(fuma,length(fuma),replace = T))
li[i]<- p[i]+qnorm(0.05)*sqrt(p[i]*(1-p[i])/length(fuma))
ls[i]<- p[i]-qnorm(0.05)*sqrt(p[i]*(1-p[i])/length(fuma))
if(media>=li[i] & media<=ls[i]){
contadormedia= contadormedia+1}
}
proporcionIC <- contadormedia / k
print(proporcionIC)

lip<- media+qnorm(0.05)*sqrt(media*(1-media)/length(fuma))
lsp<- media-qnorm(0.05)*sqrt(media*(1-media)/length(fuma))
windows()
hist(p, freq = T, main="Histograma de las proporciones arrojadas por Bootstrap",
ylab="Frecuencia",xlab="P" )
abline(v=c(lip,lsp,mean(fuma)),col="red")
pdf("C:/Users/amio0/Desktop/Laboratorio1/Figuras/Histograma.pdf")
dev.off()

Simulaci
on Estadstica

Modelos de probabilidad y prueba de bondad de ajuste

summary(datos)

Simulaci
on Estadstica

10