Académique Documents
Professionnel Documents
Culture Documents
Dedicatoria
El presente trabajo va dedicado a mis padres, pues por ellos estoy aqu y por
ellos sigo a delante ellos que me ensearon a ser la persona que soy a ahora
y que me apoyaron en el transcurso de todos mis logros y fracasos. Ellos que
con la eterna frase no le hace que no saques diez no mas no repruebes
me animaban a no claudicar y a darlo todo sin miramientos.
A mis hermanos Guadalupe y Armando quienes me dieron todas las
herramientas para poder tener una educacin universitaria y que sin ellos
nada de esto pude haber sido posible.
Finalmente para todas aquellas personas que en el transcurso de los aos se
convirtieron en maestros, amigos, alumnos y me ayudaron a tomar siempre
las mejores decisiones.
Agradecimientos
Les doy las gracias a mis asesores la Dra. Leticia A. Ramrez Hernndez y el
Dr. Juan Martnez Ortz que me guiaron a lo largo de toda la investigacin y
siempre me dieron su apoyo incondicional especialmente a la Dra. Leticia
que con paciencia y comprensin me ayud a concluir este proyecto.
Agradezco a todas las personas que me ayudaron con en la recoleccin de
encuestas y al Departamento de Enseanza del Hospital General de
Zacatecas por todas las facilidades brindadas para el desarrollo de esta
investigacin.
Por ltimo y no menos importante, a la Unidad Acadmica de Matemticas
de la UAZ por la oportunidad de ser parte de la misma y ayudar a superarme
como alumno y como persona.
Contenido
INTRODUCCIN.......................................................................................................... 5
Captulo 1: Cncer de mama...................................................................................... 7
1.1 Qu es el Cncer?............................................................................................ 7
1.2 Cncer de Mama............................................................................................... 8
1.3 fisiologa de la Mama......................................................................................... 9
1.4 Mortalidad....................................................................................................... 12
1.5 Polticas de Prevencin para el Cncer de Mama............................................13
Captulo 2: METODOLOGA....................................................................................... 15
2.1 Factores de riesgo........................................................................................... 15
2.2 Recoleccin de Datos...................................................................................... 18
2.2.1 Tamao Muestral....................................................................19
2.3 Regresin Logstica......................................................................................... 20
2.3.1 El modelo de regresin lineal..................................................22
2.4 Mtodo de mnimos cuadrados.......................................................................22
2.5 Estimacin de los coeficientes para el modelo de regresin logstica.............24
2.5.1 Funcin de verosimilitud:........................................................24
2.5.2 Estimador de mxima verosimilitud.........................................25
2.5.3 Test de la razn de verosimilitud.............................................27
2.6 Mtodo de Newton Raphson.........................................................................30
2.7 La prueba de Wald.......................................................................................... 31
2.8 La Curva ROC.................................................................................................. 32
2.9 XLSTAT............................................................................................................. 33
CAPITULO 3 RESULADOS.......................................................................................... 35
CAPITULO 4 CONCLUSIONES..................................................................................... 58
Apndice.................................................................................................................. 60
Bibliografa............................................................................................................... 62
INTRODUCCIN
De acuerdo a datos de la Organizacin Mundial de la Salud (OMS) se estiman
aproximadamente 519 000 muertes a causa del cncer alrededor del mundo,
la enfermedad ocupa el primer lugar de mortalidad. Actualmente el cncer
de mama es el tipo ms frecuente de cncer en la mujer, tanto en los pases
desarrollados como en los llamados en vas de desarrollo, estimando un
promedio de 1.38 millones de casos nuevos que se diagnosticaron en todo el
mundo en 2008
tiene
la
capacidad
de
invadir
tejidos
cercanos,
puede
estn
mujer se desarrollan en
Figura 3.
1.4 Mortalidad.
Las tasas de mortalidad por esta enfermedad en Mxico, ha sufrido cambios
notorios en los ltimos 50 aos. Entre 1955 y 1960 se registraba una tasa de
entre 2 y 4 muertes por cada 100000 mujeres, pero a mediados de la dcada
de los 90se alcanza una cifra de 9 muertes por cada 100000. No obstante
para el 2006 el cncer de mama se haba convertido en la segunda causa de
muerte prematura en mujeres entre 30 y 59 aos de edad.
De los 32 estados de la Repblica mexicana, en 11 esta enfermedad se ha
convertido en la segunda causa de muerte ms comn entre mujeres. Dado
que no se dispone de datos confiables a nivel nacional sobre prevalencia e
incidencia de cncer de fechas anteriores a 1990, las estimaciones publicas
sugieren que en 1990 se presentaron 6000 casos de cncer en el pas y se
esperan 16500 casos nuevos para el ao 2020, a esto se le pueden llegar a
sumar casos no detectados gracias a la falta de acceso a la informacin y la
escasa educacin en cuidado de la salud del mexicano promedio.
postmenopusico
en
la
poblacin.
Es
importante
informar
Captulo 2: METODOLOGA
2.1 Factores de riesgo.
Se tienen varios antecedentes en la literatura (Cncer de mama: Factores de
riesgo), donde se mencionan los siguientes, como factores como de riesgo:
Clasificacin
Peso bajo
Normal
Sobrepeso
Mayor
27
27
29.9
30
39.9
Mayor
40
Obesidad
Se asume como factor de riesgo, pues los niveles de estrgeno son mayores
en las mujeres que presentan algn grado de obesidad, sobre todo en
mujeres postmenopusicas. (SITIO WEB DEL National Cancer Institute
http://www.cancer.gov)
Municipio
Cdigo Postal
Ocupacin
Servicios de Salud
Situacin Actual (embarazada, sin menopausia, pre-menopasica, en la
menopausia, paso la menopausia)
Edad
Menarca
Periodos menstruales
Mtodo anticonceptivo
Edad de la deteccin del cncer
Estatura
Peso
IMC
Parientes con cncer
Sabe explorarse
Inicio de su Vida Sexual
Numero de periodos
bi x i
n
b0 +
i=1
bi x i
n
b0 +
i=1
1+exp
exp
Pr ( y=1|x ) =
En la cual:
o
Pr ( y=1| X )
variables
es el conjunto finito
{x 1 , x 2 , , x n }
el modelo.
b0 es la constante o trmino independiente del modelo.
o
o
bi
bi xi
n
b 0+
i=1
Pr ( y =1|X )
=exp
1Pr ( y=1| X )
De esta manera construimos la Odds Ratio o Razn de posibilidades que por
lo regular es denotado como OR. Las OR se definen como la posibilidad de
que una condicin se presente en un grupo de poblacin frente al riesgo de
ocurra en otro grupo de poblacin. A pesar de haber simplificado un poco la
ecuacin, sigue siendo difcil su manejo e interpretacin de forma que
aplicamos el logaritmo natural a la funcin, dando como resultado:
ln
n
Pr ( y=1|x )
=b0 + bi x i
1Pr ( y=1|x )
i=1
(Y )
Y = 0 + i x i +
i=1
Los parmetros
i con i=1, n
x i( i j)
xj
se mantienen
S ( 0 , 1 , , k )= y i 0 j xij
i =1
j =1
( 0, ^
1, , ^
k )=2 y i 0 j x ij =0
i=1
S ^
0
Y
j=1
0 , 1 , , k
los
( 0, ^
1, , ^
k )=2 y i 0 j x ij x ij=0 donde j=1,2, , k
i=1
j=1
S ^
j
Que una vez simplificada la ecuacin tenemos las ecuaciones normales de
mnimos cuadrados:
n
i=1
i=1
i=1
i=1
n^
0+ ^
1 x i1 + ^2 xi 2 ++ ^1 xik = y i
i=1
.
.
.
i=1
.
.
.
i=1
.
.
.
i=1
.
.
.
i =1
.
.
.
i=1
i=1
i =1
i =1
i=1
^
0 x i 1+ ^
1 x 2i 1+ ^2 xi 1 xi 2 +, ,+ ^2 xi 1 xi 2= x i 1 y i
2
^
0 x ik + ^
1 x ik x il + ^
2 x ik x i 2 +, ,+ ^
k x ik = x ik y i
Las soluciones para estas ecuaciones sern los estimadores por mnimos
cuadrados
^
0, ^
1 , ,
^
k
es una matriz de
X X . As el estimador
X X X y
^=
X X 1
(Y )
se
. Usualmente
La funcin de verosimilitud
;x
L( 1, , x n ).
; x
L( 1 , , x n )
digamos
tenemos pues
ocurrir es el valor
x 1, , x n
tal que
x
( 1, , x n ; )
es un mximo.
f x , x
1
Sea
;x
L ( )=L( 1 , , x n )
aleatorias
valor de
x 1, , x n
. Si
que maximiza
de mxima verosimilitud de
L( ),
entonces
1,
( , x n )
^^ ^
=
es el
es el estimador
f ( X ; )
para la cual
la funcin de verosimilitud es
L ( )=f ( x 1 ; ) f ( x 2 ; ) f ( x n ;)
Adems,
L( )
y Log L ( )
L ( 1 , 2 , , k )= f ( x i , 1 , 2 , , k )
i=1
^ 1 , ^ 2 , , ^ k ,
L ( 1 , 2 , , k )
=0
1
L ( 1 , 2 , , k )
=0
2
L( 1 , 2 , , k )
=0
k
Que al igual que en el caso de un solo parmetro, puede llegar a ser ms til
trabajar con el logaritmo de la funcin de mxima verosimilitud.
^
0
^
, 1
,,
^
n
en el modelo de regresin
L( ( x 1 , y 1 ) , ( x2 , y 2 ) , , ( x n , y n ) , 0 , 1 , , n )
y se asocia a un
0 , 1 , , n
( Y =1| x( j) )
1P
y
P ( Y =1|x ( j) )
j
L ( ( x 1 , y 1 ) , ( x 2 , y 2 ) , , ( x n , y n) , 0 , 1 , , n ) =
j=1
Por otra parte tenemos que los valores que maximizan a los parmetros
0 , 1 , , n
con
los
en la funcin
valores
L ( ( x 1 , y 1 ) , ( x 2 , y 2 ) , , ( x n , y n) , 0 , 1 , , n )
que
maximizan
log ( L ( ( x 1 , y1 ) , ( x 2 , y 2 ) , , ( x n , y n ) , 0 , 1 , , n ) )
la
coincide
funcin
tenemos que:
N
j=1
j =1
j
j
j
j
log ( L ( ( x 1 , y1 ) , ( x 2 , y 2 ) , , ( x n , y n ) , 0 , 1 , , n ) )= y LogP ( Y =1|x ) + (1 y ) log ( 1P ( Y =1| x ) )
^ 0 , ^ 1 , , ^ n
0 , 1 , , n
se obtienen la
i xi j
n
0+
i=1
i xi j
n
0+
i=1
y j
j =1
N
lnL
=
0 j =1
i xi j
n
0+
i=1
i xi j
n
0+
i=1
e
x1j
j
j
1
y x
j=1
N
lnL
=
1 j =1
i xi j
n
0+
i=1
i xi j
n
0+
i=1
e
xnj
j
j
n
y x
j=1
N
lnL
=
n j =1
Para realizar este clculo se recurre a mtodos iterativos, pues por lo general
su clculo es complejo, de modo que utilizamos paquetes estadsticos que
faciliten dicha tarea. Una vez que encontramos los coeficientes de regresin
hay que comprobar que los resultados no fueron obtenidos meramente por
azar sino que hay evidencias estadsticas que justifican a los coeficientes,
a este proceso se le conoce como significancia estadstica y para ello
hacemos uso de las siguientes pruebas.
logit P1 ( Y =1| X )= + 1 x 1 + 2 x 2
Modelo 2:
logit P2 ( Y =1|X )= + 1 x 1 + 2 x 2 + 3 x 3
Modelo 3:
logit P2 ( Y =1|X )= + 1 x 1 + 2 x 2 + 3 x 3 + 4 x 4
^
L1 , ^
L2 y ^
L3
obtenidos para cada modelo con respecto a una muestra de tamao N, como
ya antes se haba mencionado, mientras ms parmetros tiene un modelo
mejor se ajustar a los datos y por la forma en que se construyeron los
modelos anteriores se tiene lo siguiente:
^
L1 ^
L2 ^
L3
Adems, el logaritmo de una funcin es creciente de modo que:
ln ^
L1 ln ^
L2 ln ^
L3
Y as
2 ln ^
L3 2 ln ^
L2 2 ln ^
L1
Esta es la relacin existente entre las funciones de verosimilitud, tambin
conocida como likelihood statistic. Considerando lo anterior, el test de la
razn de verosimilitud (LR) toma en cuenta la resta de dos log likelihood
statistics.
Empleemos el modelo 2 frente al modelo 1, nuestra hiptesis nula es que
3=0,
x3
y al tomar el
ln
L^ 1
L^ 2
ln
del cociente
>
^L1
de aqu tenemos
2 ln
^L1
+
^L2
^L1
2
ln
Por tanto mientras mayor sea el valor de LR
^L2
estaremos de la hiptesis nula
x3
de
fuera
H 0 : 3=0
ms en contra
mnima
se
tendra
que:
L^ 1
1
L^ 2
y por lo tanto
ln
L^ 1
0
L^ 2
finalmente
2 ln
^L1
0
^L2
2 ln
^L1
^L2
2r
f (x)=0
f ( x)=0 .
x0
de aproximaciones
x j+1 =x j
f ( x j)
f ( x j)
f ( x) ,
f ( x)=0,
formula de recurrencia:
x j+1 =x j
f ( x j)
f ( x j)
x0
j+1= j
Pues
L( j)
L ( j )
L ()
Siendo
^
j
S^
y de su
^
j
N ( 0,1)
^
S
j
Esto es que sigue una distribucin normal de media 0 y con varianza igual a
1 y sirve para rechazar o aceptar la hiptesis nula establecida sobre el
jesimo
parmetro,
H 0 : j=0
H A : j 0
La obtencin de significacin indica que dicho coeficiente es diferente de 0 y
merece ser conservado en el modelo, por eso el uso de la prueba de Wald en
un solo parmetro.
Una
curva
ROC
es
un
grfico
que
muestra
todos
los
pares
de
la
exactitud
de
la
prueba;
la
exactitud
mxima
2.9 XLSTAT.
XLSTAT es un complemento de la paquetera de Microsoft Oficce diseado
para que en conjunto con Excel, facilite el manejo de modelacin de datos.
Empleamos este complemento para realizar todas las modelaciones por
regresin logstica, como se mencion antes los mtodos con los que
estamos trabajando son de naturaleza recursiva y el hacerlas manualmente
nos podra tomar mucho tiempo.
La forma de ingresar los datos es muy similar a cualquier otro programa
estadstico, comenzamos seleccionando nuestra variable de respuesta Y,
despus
seleccionamos
nuestro
conjunto
de
variables
dicotmicas
{x 1 , , x n
CAPITULO 3 RESULADOS
Se analizaron un total de 163 casos, de los cuales se tienen 63 casos
positivos para cncer de mama y 100 negativos para la enfermedad siendo
su porcentaje el de 61% y 39% respectivamente.
si; 39%
no; 61%
no; 18%
si; 82%
Figura 5. Auto-exploracin
De los 63 casos positivos para cncer se tiene que al 15.87% de la poblacin
la deteccin de la enfermedad fue antes de cumplir los 40 aos de edad,
mientras que al 58.73% se le detecto entre los 40 y los 60 aos de edad y al
25.4% se le detecto despus de los 60 aos de edad.
60 y mas; 37%
Figura 7. Edad
Dada la diversidad de las edad, se analiz tambin la ocupacin de cada
mujer en lo que se puede apreciar que el 77% de la poblacin se dedica al
hogar, solo el 17% tiene una carrera universitaria y la ejerce y el 6% de toda
la poblacin se dedica a otras actividades como lo son: el servicio a casas, el
comercio, la costura, etc.
hogar; 77%
Figura 8. Ocupacin
Como la encuesta tambin se realiz en diversos centros de salud se detect
que el 67% de la muestra cuenta con el Seguro Popular, el 19% est afiliado
al IMSS, el 12% al ISSSTE y solo un 2% de la poblacin no cuenta con ningn
servicio de salud.
no tiene; 2%
IMSS; 19%
ISSSTE; 12%
semana mientras que el 38% no hace otro ejercicio ms que el que se realiza
en sus labores diarias
no hace; 38%
hace; 62%
si ; 34%
no; 66%
si; 23%
no; 77%
normal ; 25%
sobrepeso; 15%
obesisda I; 31%
no; 41%
si; 59%
no; 55%
si; 45%
No; 36%
Si; 64%
Del 64% de las mujeres que afirman usar algn tipo de mtodo
anticonceptivo se tiene que el 84% usa un anticonceptivo del tipo hormonal
y solo el 16% usa los mtodos de barrera.
no; 16%
si; 84%
menor a 8; 40%
mayor a 8; 60%
no; 30%
si; 70%
si; 40%
no; 60%
Valor
-
Menarca
periodos
Hijos
hormonal/T
31.151
1.052
3.567
0.275
-0.328
iempo
detectado
IMC
Alcohol
Fuma
-0.222
0.000
-1.968
1.491
PcC
IVS
Lactancia
0.106
-0.015
0.219
(aos)
ejercicio
Falta de
-1.600
-1.541
hijos
Hijos
0.000
0
63
9
72
1
6
13
19
Total
69
22
91
% correcto
91.30%
59.09%
83.52%
Sensibilidad
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1 - Especificidad
Una curva ROC debe de tener un rea bajo la curva de 1 y como se observa
esta tiene 0.866, que nos da un modelo muy bueno con respecto a la
variable cncer.
-2
Log(Verosimilit
ud)
Chi-
Pr >
cuadrad
Chi
o
32.98751
008
0.002
Score
26.03914
0.017
Wald
277
18.01263
0.157
508
Valor
-23.333
0.542
2.543
-0.243
-0.123
0.010
0.284
(aos)
1
(1+exp((23.332+0.541Me+ 2.543pe0.242h/T 0.123det+0.010IMC +0.283Lac)))
0
66
16
82
1
3
6
9
Total
69
22
91
% correcto
95.65%
27.27%
79.12%
Sensibilidad
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
1 - Especificidad
0.7
0.8
0.9
Una curva ROC debe de tener un rea bajo la curva de 1 y como se observa
esta tiene 0.815, que nos da un modelo bueno con respecto a la variable
cncer.
Tabla 8. Pruebas de Wald, Score y Verosimilitud
Estadstica
Chi-
Pr >
cuadra
Chi
do
19.411
-2
Log(Verosimilit
0.004
9384
ud)
Score
15.877
0.014
Wald
8979
13.204
0.040
1668
Valor
-24.215
0.643
-0.148
0.006
0.264
-1.203
-0.262
2.747
Pred (Cancer )=
1
(1+exp((24.214 +0.643Me0.148De+ 0.005IMC +0.263L1.203E0.261h /T +2.7
0
64
10
74
1
5
12
17
Total
69
22
91
% correcto
92.75%
54.55%
83.52%
Sensibilidad
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1 - Especificidad
Chicuadrado
23.4368641
Pr >
Chi
0.001
Log(Verosimilit
ud)
Score
Wald
20.0212833
15.5046267
0.006
0.030
Valor
-21.846
0.640
a
periodo
2.460
s
detecta
-0.135
do
Alcohol
Fuma
ejercici
-1.867
1.341
-1.205
1
(1+exp((21.845+ 0.640Me+2.460pe0.134de1.866Al+ 1.341F1.205ej)))
0
64
9
73
1
5
13
18
Total
69
22
91
% correcto
92.75%
59.09%
84.62%
0.9
0.8
0.7
0.6
Sensibilidad
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1 - Especificidad
-2
Chi-
Pr >
cuadra
Chi
do
27.2871
0.000
Log(Verosimilit
682
ud)
Score
22.2526
0.001
Wald
839
17.2400
0.008
893
Valor
-24.070
0.676
-0.154
-0.014
0.277
(aos)
ejercicio
hormonal/Ti
-1.256
-0.279
empo
periodos
IVS
2.867
-0.034
Pred (Cancer )=
1
(1+exp((24.069+ 0.676Me0.154de0.013IMC + 0.276Lac1.255ej0.278h/T +2.8
0
64
11
75
1
5
11
16
Total
69
22
91
% correcto
92.75%
50.00%
82.42%
Sensibilidad
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1 - Especificidad
-2
Chi-
Pr >
cuadrad
Chi
o
23.93653
0.002
Log(Verosimi
49
litud)
Score
20.23232
0.009
Wald
51
15.53940
0.049
28
Valor
-18.032
0.590
a
periodo
2.040
s
detecta
-0.105
do
Alcohol
Fuma
ejercici
-1.912
1.603
-1.585
o
Falta de
-1.256
hijos
1
(1+exp((18.031+0.590Me+ 2.040pe0.104de1.911Al+1.603Fu1.585ej1.255
Total
% correcto
0
1
Total
64
9
73
5
13
18
69
22
91
92.75%
59.09%
84.62%
0.9
0.8
0.7
0.6
Sensibilidad
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
1 - Especificidad
0.7
0.8
0.9
Una curva ROC debe de tener un rea bajo la curva de 1 y como se observa
esta tiene 0.846, que nos da un modelo bueno con respecto a la variable
cncer.
-2
Log(Verosimi
Chi-
Pr >
cuadrad
Chi
o
28.86200
0.000
65
litud)
Score
24.13037
0.001
Wald
09
17.53252
0.014
89
CAPITULO 4 CONCLUSIONES.
En este trabajo se dise un instrumento estadstico de medicin, una
encuesta. sta se construy a partir de la necesidad de medir los factores:
datos generales (domicilio, ocupacin, servicios de salud), edad, altura y
peso
tabaco,
uso
de
mtodos
anticonceptivos
hormonales
Lo
correspondiente
los
factores
que
marcan
el
Apndice.
Bibliografa
Referencias
Abuin, J. R. (2007). Regresin lineal multiple. Madird: Instituto de Econommia
y Geografa.
Al., L. J. (2009). Brast cancer epidemiology according to recognized breast
cancer risk factors in the Prostate, Lung, Colorectal and Oyarian (PLCO)
Cancer Screening Trial Cohort. BMC Cancer 9:84, 8.
Curvas ROC. (1998, Act 2001). Unidad de Epidemiologia Clinica y
Bioestadistica, 229 - 235.
Dennis D Wackerly, W. M. (2010). Estadstica matemtica con aplicaciones
(septima edicin). Cosegraf.
Douglas C. Montgomery, E. a. (2006). introduccin al Anlisis de Regresin
Lineal (Tercera Edicin). Mexico: Continental.
Felicia Marie Knaul, G. N.-O. (2009). Cncer de mama en Mxico: uan
prioridad apremiante. Salud Publica Mex;51, 335-344.
George Casella, R. L. (2002). Statistical Inference Second Edition. DUXBURY,
Thomson Learning.
Instituto Nacional del Cncer. (s.f.). Obtenido de Obesidad y Riesgo de
Cncer: http://www.cancer.gov/espanol/cancer/causasprevencion/riesgo/obesidad/hoja-informativa-obesidad#q4
M, S. A. (Prev 2013). The effects of aerobic exercise on strogen metabolism in
healthy premenopausal women. En S. A. M.
Dictopografia
American Cancer Society. (Consultado el 2015) Obtenido de Qu es lo
daino del Tabaco?:
http://www.cancer.org/espanol/cancer/queesloquecausaelcancer/tabac
oycancer/fragmentado/preguntas-acerca-del-habito-de-fumar-eltabaco-y-la-salud-cancer-and-health