Vous êtes sur la page 1sur 80

A rwr Á 8V'I~L FAfi:' nJ~ LA·; ;

r-:;',,_.r. "~ Jc"""'fr¡;,


J J r.J"J .J .•'J) .,J'. - ¡~(í"JI,!
. J I'JI ),¡ ...r'
.:~ '.r.
.-" ;-J'
.
IV J.""'"
'r '1~~r("E'r
" 1 ," . .i .
J.JI,:.r ~ ,r

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO

DR. JOSÉ NARRO ROBLES


Rector
DR. EDUARDO BÁRZANA GARCÍA
Secretario General

FACULTAD DE ESfUDlOS SUPERIORES ACATLÁN

DR. j. ALEJANDRO SALCEDO AQUINO


_ _ Director
DR. DARÍO RIVERA VARGAS
Secretario General
MTRO. JESÚS MANUEL HERNÁNDEZ VÁZQUEZ
Secretario de Estudios Profesionales
MTRO. JORGE LUIS SUÁREZ MADARIAGA llNIVERSIDAD NACIQNAI.AUT0NOMA DE l'M:xICO

Coordinador de Servicios Académicos F.\Clll1i\1J IlE ESTUDIOS SUFFI0HES ACATI..~N

MTRA. NORA DEL CONSUELO GORIS MAYANS


jefa de la División de Matemáticas e Ing nie. =~,<¡
D. G. VíCTOR HUGO HUERTA GONZÁLE '
.~--·I¡
r--=,-..--.
DGi\PA PAFlME PE 300713
.Colección Viento,)" de Crnnbio

jefe de la Unidad de Servicios Editorial rs;P' .. --,

- ~"_'
Título: ALICIA EN EL PAÍS DE LAS ESTADÍSTICAS CON R Y 776427
EXCEL
UNA"
MariCarmen González-VfA'lg'a'~~E¡ÓJf!¡tJI~ftftb Gual
CLASIF. eA 2t::j
Primera edición: 2015.
.. 5 S7
6~.r
MATRIZ Ji> c¡ tU}.) 3
ADa. "1,16'1Z7:.
© UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO Para mis profesores de
Ciudad Universitaria, Delegación Coyoacán, Literatura. En particular, para
Raymundo Ramos, Miguel
C. P. 04510, México, Distrito Federal.
Ángel de la Calleja, Rubén
Darío Medina y Rogelio López.
© FACULTAD DE ESTUDIOS SUPERIORES ACATLÁN
Alcanfores y San Juan Totoltepec s/n. McGV

e. p. 53150, Naucalpan de Juár€z, Estado de México. Para mis profesores de


Unidad dé Servicios Editoriales. Estadística. En particular, para
Emiko Aoki, Cecy Balbás,
MariCarmen González y
ISBN: 978-607-02-6880-9 Viterbo Berberena.

LMG
Edición de la Facultad de Estudios Superiores Acatlán con
recursos de la Dirección General del Personal Académico a
través del Programa de Apoyo a Proyectos para la Innovación
y el Mejoramiento de la Enseñanza con el Proyecto PE
300713: "Vientos de Cambio: Estrategias y buenas prácticas
para el uso de ambientes virtuales en la educación superior",
cuya responsable es la Dra. María del Carmen González Vide-
garay.
Prohibida la reproducción total o parcial por cualquier método
sin la autorización escrita del titular de los derechos patrimo-
niales.
Impreso y hecho en México.
Printed and made in Mexico.
Índice
ADVERTENCiA ................................................................................................. 9

AG RAD ECIM IENTOS ................................................................. :.•.•..•.•..••.•....• 15

l. ESTADISTICA .............................................................................................. 17
1. A todo esto, ¿qué es la estadística? ................................................ 17
2. Para qué #@& sirve la estadística ................................................. 18
3. Denme datos y moveré al mundo .................................................. 23
4. 90-60-90: Medidas, escalas y variables ....................................... 28
S. Ejercicio: Descubre un misterio histórico .................................. 38
6. Cuatro sitios web interesantes ........................................................ 42

11. ESTADIsTICA DESCRIPTIVA ................................................................... .45


7. Dibujos y tablas con estadística .................................................... ..45
8. Estar a la moda: medidas de tendencia central ....................... 51
9. Tan lejos, tan cerca: medidas de dispersión .............................. 54
10. ¿Qué tan normal es ser normal? ..................................................... 61
11. Relaciones peligrosas o correlaciones ......................................... 75
12. Ejercicio: Analicemos Facebook ..................................................... 90
1~. Cuatro sitios web interesantes ........................................................ 94

III. ESTADISTICA INFERENCIAL .................................................................. 9 7


14. Para muestra, ¿basta un botón? ...................................................... 97
15. Adivinanzas informadas: Los estimadores ............................. 110
16. Dos tipos de errores .......................................................................... 122
17. Rechazar o no la hipótesis, he ahí el dilema ........................... 136
18. Ejercicio: Hombres y mujeres que han recibido el Óscar.146
19. Tres sitios web interesantes ......................................................... 151

REFERENClAS ............................................................................................. 153


Querido diario: Si hoy fuera el último día de mi vida,
quisiera pasarlo en mi clase de estadística ... así parecería
mucho más largo. Nota encontrada en el cuaderno de una
estudiante.
¿V de qué sirve un libro -se preguntaba Alicia- que no
tiene: diálogos ni dibujos? LEWIS CARROL, Alicia en el Pu[s de
las Maravillas.

S
iempre nos atrajo la idea de hacer un escrito que co-
menzara con una advertencia. Según el diccionario, ad-
vertir es hacer una llamada de atención, aunque el
término también significa avisar con amenazas. No te preo-
cupes, la única amenaza real es que este texto que tienes en
tus manos va de lo informal a lo irreverente y que tuvimos la
tentación de escribir una mezcla literaria-estadística-
didáctica, lo cual resultó prácticamente imposible. Quisimos
escribir un libro de estadística para personas que aman la
literatura, porque de vez en cuando hay que intentar alguna
idea loca ¿o no?
A pesar de lo anterior, creemos que el resultado puede servir
como referencia, material de apoyo, apuntes, organizador
previo o clarificador de algunas cuestiones nebulosas, tanto
de la estadística descriptiva como de la inferencia!. Es decir,
se trata precisamente de quitarle a la estadística su aspecto
amenazante y de acercarla a los interesados -o de plano, de-
sinteresados- que quieren incursionar en este tema, por gus-
to o por obligación.
En esta época en que se habla de la sociedad de la informa-
ción y del conocimiento, la estadística forma parte de casi
todos los planes de estudio de bachillerato, licenciatura y
muchos del posgrado. Inclusive aparece en los niveles bási-
cos. Se le . reconoce como instrurnento privilegiado del pen-
samiento cientifico y por lo tanto, se promueve su
aprendizaje. Sin embargo, a pesar de múltiples y variadas
iniciativas, su enseñanza continúa siendo poco exitosa.
Carmen Batanero (2001), mujer española que ha dedicado su
vida a este tema, dice con claridad que la estadística es un

"motor del desarrollo" de los países. Explica que un país incremente su desarrollo y sea capaz de producir conoci-
desarrollado producirá estadísticas completas, sistemáticas y miento, es indispensable que sus ciudadanos manejen con
confiables. A su vez, las estadísticas deben ser el fundamento soltura esta materia.
para tomar decisiones acertadas en los terrenos económico,
El aprendizaje de estos temas ha sido tan problemático, que
social y político. Todo ciudadano bien informado debe com-
ha dado lugar a un estado clínico llamado "ansiedad estadfs-
prender y juzgar las estadísticas. Cualquier parecido con lo
tica", que tiene su propia etiología. antecedentes, efectos y
que ocurre en nuestro país sería realmente una coincidencia tratamientos específicos. Onwuegbuzie y Wilson (2003) rea-
afortunada. lizaron una extensa revisión de la literatura sobre esta condi-
Pero la estadística no consiste sólo de datos. Es una forma de ción. Definieron la ansiedad estadística como: "la ansiedad
entender el mundo, construir conocimiento y aprender a que ocurre cuando el estudiante encuentra la estadística en
pensar. Cuando Ronald Aymler Fisher, Karl Pearson, Jerzy cualquier forma y nivel". Sus síntomas son: preocupación
Neyman y WilIiam Sealy Gosset, a principios del siglo XX, excesiva, pensamientos intrusivos, desorganización mental e
sentaron las bases de la estadística inferencial (Lehmann, incluyen problemas fisiológicos. El artículo completo es muy
2011), su mayor preocupación se centró en cómo tomar deci- interesante y vale la pena leerlo.
siones acerca de una población, con base en un subconjunto o Los autores señalan que entre dos tercios y cuatro quintos de
muestra de ella. Esta idea es importante porque, en la prácti- los estudiantes sufren de este problema. Es decir, la mayoría.
ca, casi siempre debemos trabajar así, extrayendo informa- También parece ser la causa más importante por la cual mu-
ción de unos cuantos datos, para luego generalizarlos a chos alumnos no se gradúan o no concluyen investigaciones.
espacios más amplios. Al ser un problema complejo y multifactorial, él tratamiento '
Los métodos desarrollados a partir de entonces y hasta hoy, no parece evidente. Algunas posibles soluciones que se han
han permitido que pueda generarse conocimiento válido y propuesto son: agregar humor a la enseñanza, disminuir la
confiable a través de la investigación estadística. De aquí han ansiedad matemática general, promover que los docentes
surgido medicamentos curativos, más y mejores alimentos, sean mujeres, usar ejemplos de la vida real y cuidar espe-
tecnologías maravillosas y adelantos tan poderosos, que han cialmente las evaluaciones. Hay mucho que trabajar en esto y
incrementado la esperanza promedio de vida en México de este librito intenta ser una contribución modesta.
46.9 años en 1950 a 74.7 años en 2014 (INEGI, 2014; Ahora, tanto la estadística en sí misma como las maneras de
Organization, 2014). ¡Un incremento de más de 27 años de aprenderla son algo vivo y cambiante. La enseñanza de la
vida para cada persona! Y para quienes viven en esta época, estadística es un campo de estudio relativamente reciente
es sorprendente la forma en que se registran datos de mane- (Garfield y Ben-Zvi, 2007). Hoy en día, las computadoras y el
ra automática: en el supermercado, con la tarjeta de crédito, software han revolucionado la forma en que se concibe la
cada clic del navegador. En fin, hay enormes y variadas bases estadística (Meletiou-Mavrotheris. 2003), dando paso a la
de datos por todas partes. construcción de la llamada estadística bayesiana (Bolstad,
Por ello, la estadística es indispensable para muchos tipos de 2013), que tiene ventajas sobre la estadística frecuentista
investigación. Desafortunadamente, las malas experiencias convencional que visitaremos en este texto. Probablemente
con ella alejan a muchos de la actividad científica (Hsu et al., veamos, en las generaciones futuras, un cambio en la didácti-
2009). Sobre todo al sexo femenino: sólo el 34% del Sistema ca de la estadística que se enfocará a esta tendencia. Por aho-
Nacional de Investigadores en México son mujeres (Foro ra, la mayor parte de los programas de estudio se enfocan a la
Consultivo Científico y Tecnológico, 2012). Para que un país estadística tradicional.
También se ha desarrollado últimamente, en gran medida, la nueva situación que debe resolverse. Es decir; los alumnos
llamada visualización estadística o visualización de datos saben seguir los pasos de un método, pero no saben qué mé-
(Vau, 2011), que brinda una enorme potencia a la interpreta- todo deben elegir. Los libros de texto suelen colocar al final
ción de las observaciones de la realidad, sobre todo con de cada capítulo, problemas que se resuelven, precisamente,
grandes cantidades de datos. Son expresiones bellas y creati- con el contenido de ese capítulo. En la vida real -o en los
vas a partir de información cuantitativa. Por poner sólo un exámenes- no sabemos en qué capítulo vamos.
par de ejemplos, la figura 1 muestra el mapa de los vientos en La mayor parte de los métodos de la estadística fueron crea-
Estados Unidos, mientras que la figura 2 es un grupo de ami- dos para resolver problemas prácticos (Sosa, 2014). Más allá
gos en Facehook, organizado en subconjuntos o conglomera- de hacer cálculos y gráficos matemáticos, el objetivo es com-
dos por el sitio WolframAlpha. En este último caso, el prender cada planteamiento particular y detectar qué méto-
software detecta, de manera automática, quiénes son familia, do estadístico debe usarse. Esto implica dos cosas: Una,
amigas de la secundária, exalumnos, compañeros de trabajo y desarrollar una "conciencia estructural" que consiste en
demás. Para obtener tu propia visualización, entra al sitio aprender a ver los problemas al desnudo, sin la historia na-
referido, regístrate con Facebook y escribe Faeebook reporto rrada a su alrededor. Por ejemplo, todos los problemas que se
Da die sobre el signo igual y ¡listo! resuelven con regresión lineal tienen idéntica estructura. Lo
mismo los que se resuelven comparando dos medias, por
poner otro ejemplo. Si descubrimos la estructura subyacente,
sabremos bien cuándo aplicar este método. El otro elemento
es contar con una especie de catálogo de problemas estructu-
rales o problemas tipo.

.•••..,

..• •
• •
.':

:.( .i
Ii
FIGURA 1: MAPA DE LOS VIENTOS EN ESTADOS UNIDOS. II
Edu e.rdo ytCleaal"3,

; .. .
• '
••
FUENTE: (MAPCITE, 2012).

La visualización de estadísticas como las anteriores tiene un


gran valor educativo (Meletiou-Mavrotheris, 2003), sobre todo ••
• • • • • • • •
en entornos dinámitos, amigables con el usuario y con un
buen enfoque pedagógico. De ahí la importancia de utilizar FIGURA 2 : VISUALIZACIÓN ESTADíSTICA DE AMIGOS DE
software adecuado para la elaboración de cálculos y gráficos. FACEBOOK CON WOLFRAM ALPHA.
En otro orden de ideas, algunos autores (Quilici y Mayer, Así, este libro ofrece un breve catálogo de problemas tipo en
2002) han concluido que parte del problema del aprendizaje la estadística clásica. Además, trata de atender algunas de las
de la estadística estriba en reconocer la estructura de cada posibles causas de la ansiedad estadística, para servir como
prevención o tratamiento. Hemos buscado desmitificar un
tema que suele ser serio e.introducir cada aspecto de manera
suave y cotidiana. No profundizamos en ninguno de ellos,
sino que intentamos dar un muestrario general para tener Este texto fue parcialmente auspiciado por el Proyecto PA-
una visión panorámica y crear un catálogo mental de los di- PIME PE 300713, "Vientos de Cambio: Estrategias y Buenas
versos métodos. prácticas para el Uso de los Ambientes Virtuales en la Educa-
ción Superior".
No es un libro de texto formal, sino un antídoto para la ansie-
dad estadística. Tratamos de combinar la belleza de algunos Muchas gracias al excelente alumno de Matemáticas Aplica-
textos literarios con la implacable aridez de conceptos y pro- das y Computación, David Gaspar Saldívar, por ayudarnos a
cedimientos matemáticos. Agregamos, a petición expresa de revisar este texto, así como colaborar en los scripts de R y
Alicia de Lewis Carrol, diálogos y figuras que pudieran moti- hojas de Excel. Gracias al estudiante de maestría Luis Román
var y mejorar la comprensión. González Nava, por sus comentarios y sugerencias.
Para hacer las cosas prácticas e invitar a la experimentación Gracias al Dr. Al ejandro Salcedo Aquino, al Dr. Darío Rivera
con datos reales, elegimos dos herramientas computaciona- Vargas, al Lic. Jesús Manuel Hernández Vázquez, a la Mtra.
les. Una es Excel, que goza de gran popularidad y cuyo mane- Nora del Consuelo Goris Mayans, a la Mtra. feanett López
jo es relativamente sencillo. La otra es el ambiente de García, al Lic. Christian Carlos Delgado Elizondo y al Mtro.
programación R, que es un software abierto y gratuito. Sabe- Víctor Manuel Ulloa Arellano, por su gran apoyo y por brindar
mos que esta segunda opción asusta un poco a algunas per- las condiciones idóneas para la escritura académica.
sonas, pero la idea es animarte a través de ejemplos útiles,
Los autores agradecemos profundamente a Gregario Her:
. sencillos y cortos. Los ejemplos simulados han demostrado
nández Zamora, Mayra Elizondo Cortés y Luz María Lavín
tener un efecto positivo en el aprendizaje de la estadística,
Alanís, por la acuciosa revisión de este texto y sus comenta-
para que construyas significados propios y com prendas los rios que nos enriquecieron de forma significativa.
resultados que obtengas (Garfield y Ben-Zvi, 2007; Hsu et al.,
2009), más allá de realizar los cálculos. El lenguaje R se pinta La autora agradece como siempre a su hermosa familia : Ru -
solo para hacer simulaciones de manera muy sencilla. bén, Estefanía y Rubén Junior, quienes son su motivación
esencial. El autor agradece, también a su familia: Luis, Carlos,
El libro se puede leer en desorden, pero creemos que puede
Lupita y sus sobrinos; quienes son inspiración de su quehacer.
ser benéfico leerlo como novela, tal vez durante algunos via-
jes en metro o microbús, cuando estés aburrido de jugar o
enviar mensajes en el teléfono. Cuando puedas, juega en tu
computadora a replicar los ejercicios en R y en Excel. Modifí-
calos a tu gusto y observa qué sucede al hacer variantes de
ellos. Cambia los datos o las suposiciones. La mejor forma de
aprender es crear cosas nuevas, originales e interesantes.
Cuéntanos tus experiencias y dinos cómo podemos mejorar
este libro. Nos encantará saber de ti.
mcgv@unam.mx I medinagual@gmail.com
Santa Cruz Acatlán, junio 2015.
1. A todo esto, ¿qué es la estadística?
Al igual que los sueños, las estadisticas son formas de
realizar los deseos. JEAN BAUDRILLARD.

Comencemos con un breve examen -de conciencia- con op"


ciones múltiples. Sinceramente y de acuerdo con tu propia
experiencia y tus vivencias, responde a la siguiente pregunta
con la opción que consideres más adecuada: ¿Qué es la esta"
dística?
a) No tengo la menor idea.
b) Es algo así como un instrumento de tortura que usan
algunos maestros sádicos para hacer sufrir a sus
alumnos. .
c) Es una herramienta práctica que deben usar los ma"
temáticos o los ingenieros, pero no otros profesionis"
tas como sociólogos, psicólogos, abogados o médicos.
d) Es la ciencia de diseñar estudios, recolectar datos,
clasificarlos, interpretarlos y presentarlos para apo"
yar decisiones.
e) Es la base del pensamiento científico, a través de la
cual se descubren paradigmas importantes 'y progre"
sa la humanidad.
Antes de darte el resultado, podrás observar que cualquiera
de las respuestas puede ser correcta. No se trata de dar una
afirmación general, sino de identificar tu propia experiencia
alrededor de la estadística. .
Si tu respuesta fue la primera: i Excelente! Eres sincero y ese
ya es un buen comienzo. Lo importante ahora es que, además
de ser consciente de este hecho, continúes la lectura y este
pequeño texto te invite a conocer por qué en tantos progra"
mas académicos se incluye la estadística.
Si tu respuesta fue la segunda: ¡Excelente! Has tenido malas Tal como explica el buen
experiencias pero, al menos, tuviste ya contacto con la esta- Sherlock Holmes a su queri-
dlstica. Esperamos que este material pueda cambiar tu apre- do Watson, el papel más
ciación. Pensemos: si tanta gente se ha preocupado por ense- importante de los datos es
enseñar estadística ... debe ser algo valioso, ¿no crees? ayudar a comprender lo que
no es directamente visible. El
Si tu respuesta fue la tercera: iExcelente! Has percibido ya, de
mundo en que vivimos es
alguna manera, la posible utilidad de la estadística. Esto es complejo y no todo es lo que
un gran paso, pero ... ¿será realmente una materia tan difícil y parece, pero si aprendemos a
profunda que sólo unos cuantos inidados puedan manejar? leer las señales que nos
¿Quieres intentar aprenderla con un poco de diversión? Pues brinda, podremos manejarlo
de eso se trata, ¡adelante! con mucho más acierto. Es-
Si tu respuesta fue la cuarta:. ¡Excelente! Una de dos, o te latió tas señales son los datos. Es
que era la respuesta correcta o estás verdaderamente con- importante aprender a des-
vencido de que la estadística es algo que funciona para tomar cribir e interpretar los datos.
decisiones, cosa que hacemos de manera permanente. En Por ejemplo, en muchas
cualquiera de los dos casos, este material es para hacer un ocasiones, es necesario describir algo: personas, objetos o
viaje, un poco diferente, al mundo maravilloso de la estadística. ambientes. ¿Para qué necesitamos crear estas descripciones?
Si tu respuesta fue la quinta: ¡Excelente! Si en verdad fue una En general, para mostrar, explicar, tomar decisiones, contro-
respuesta espontánea, quiere decir que tu interés científico y lar o modificar circunstancias, pronosticar un comportamien-
tu inquietud de lograr cosas en beneficio de la humanidad te to y mucho más.
han llevado a apreciar las herramientas útiles en esta empre- Cuando un maestro inicia un nuevo curso, querrá conocer a
sa. Te presentaremos entonces a la estadlstica como un apoyo sus alumnos. ¿Cómo puede hacerlo? Una posibilidad seria
para el pensamiehto riguroso en la investigación. que cada quien se presentara y explicara sus características
Eso sí, esperamos que al final de este texto tu respuesta que- personales y expectativas. ¿Qué ventajas y qué desventajas
de entre las dos últimas, con un verdadero convencimiento. Si tendría hacerlo así? ¿Funcionaría bien para un grupo de vein-
es así, habremos logrado juntos una meta importante. En la te alumnos o para un curso en línea masivo de mil? ¿En qué
siguiente sección hablaremos más ac'erca de este concepto y formas alternativas podrían describirse estos grupos?
su relevancia. Si queremos describir a una sola persona, podemos recurrir a
muchas formas interesantes. Algunos escritores han redacta-
2. Para qué #@& sirve la estadística do párrafos como los siguientes:
Era de alta estatura, algo delgada,. e incluso en los últimos días
"Pero su esposa, -usted dijo que había dejado de amarlo ," muy demacrada. Intentaría yo en vano describir la majestad, la
"Este sombrero no ha sido cepillado en semanas. Cuando lo tranquila soltura de su porte o la incomprensible ligereza y
vea a usted, mi querido Watson, con la acumulación de flexibilidad de su paso. Llegaba y partía como una sombra. EDGAR
polvo de una semana en su sombrero. y cuando su esposa lo ALLAN POE, Ligeia.
deje salir en semejante estado, temeré que haya sido tan
desafortunado como para perder el afecto de su mujer."
ARTHUR CONAN DOYLE, Las Aventuras de Sherlock Ha/mes.
Isabel Archer era una persona joven con muchas teorlas; su Con este mismo ejemplo, imaginemos que realmente aplica-
imaginación ,era sumamente activa. Tenía la fortuna de poseer mos el método a un pequeño grupo de automóviles. Una pre-
una mente más refinada que la mayoría de las personas a su
alrededor; una mayor percepción de los hechos de su entorno y
gunta adicional sería: ¿Cómo determinamos si fue o no
un interés especial en 'el conocimiento teñido por aspectos poco realmente eficaz? ¿Sería posible generalizar nuestras conclu-
familiares, HENRY JAMES, Retrato de una Dama. siones a otros autos de marcas, modelos y años distintos?
¿Cómo podríamos comprobar la hipótesis de que el método X
es mejor que otros métodos Y o Z? A esto se. llama obtención
Son dos descripciones bastante claras de conclusiones y comprobación de hipótesis. Esta maravilla
y ciertamente geniales. Sin embargo; es otro usode la estadística.
describir a un grupo de personas y
organizar la información obtenida es Así, los objetivos de la estadística pueden resumirse en tres:
un asunto diferente. Lo que funciona • Organizar y describir información de grupos: Esto se
para una persona no necesariamente hace con la estadística denominada descriptiva que in-
es adecuado para muchas. Lo mismo cluye la obtención de medidas características de .una
puede decirse en otros casos: la des- población, así como la elaboración de tablas y gráficas.
cripción de un gran conjunto de ele-
mentos deberá destacar . aquellos • Planear investigaciones: Para ello utilizamos mues-
aspectos que' los hacen semejantes o treo, diseño de experimentos y metodología de la in-
diferentes entre sí, para dar una vi- vestigación. Todos forman parte de la estadística
sión general, sin especificar con deta- llamada inferencial y son el fundamento para que los
lle las cualidades de cada uno de ellos. Por ejemplo, un grupo resultados tengan validez.
de mil estudiantes puede describirse a través de mediciones • Obtener conclusiones y comprobar hipótesis a partir
generales, promedios, gráficas, etcétera, es decir, de instru- de los datos: En esta categoría se incluyen la estima-
mentos estadísticos. ción de parámetros, pronósticos y pruebas de hipóte-
sis, entre otros. Los datos por lo general incluyen
Supongamos .ahora que deseamos conocer, por ejemplo, el incertidumbre y la estadística nos ayuda a trabajar
impacto que tendrá el uso de un nuevo método para dismi- con ella y a pesar de ella. También éstos son aspectos
nuir la contaminación ambiental que producen los automóvi- de la estadística inferencial.
les. Si desconocemos los efectos generales y consecuencias de
este método, sería incorrecto y poco ético aplicarlo para ver Así pues, la estadística tradicional o frecuentista se divide en
qué pasa y luego tal vez decidir que no fue bueno. Si conside- dos grandes ramas:
ramos que es efectivo, podríamos probarlo en un pequeño La estadística descriptiva, que sirve para organizar y pre-
grupo de autos y medir sus resultados. ¿De cuántos autos sentar la información de un conjunto de datos, tanto de forma
tendría que ser este "pequeño grupo"? ¿Sería igual elegir los numérica como a través de gráficas.
autos de este grupo al azar o al gusto del investigador? ¿Esta
elecCiÓn podría modificar los resultados? ¿Sería conveniente La estadística inferenclal, que permite obtener conclusio-
-o necesario:" comparar los resultados con los de otros autos nes sobre un gran conjunto de elementos o mediciones (po-
que no hagan uso del nuevo método? Responder a este tipo blación) a través de la selección cuidadosa de un subconjunto
de preguntas constituye la planeación de una investigación. (muestra) relativamente pequeño y de una serie de procedi-
Ésta es otra aplicación fundamental de la estadística. mientos rigurosos para el análisis.
Para cerrar este tema, podemos comentar aquí que Jessica dores de corte cuantitativo y algunos cualitativos. También
Utts (2003) propone que todo estudiante de estadística debe- quienes realizan análisis de datos reales o quienes utilizan
rla comprender bien siete ideas que, además, ayudarán a simulaciones. Por último, existe un sector que se dedica a
convertirlo en un ciudadano bien educado. A saber: desarrollar mejores procedimientos estadísticos, por lo cual
deben contar con un pensamiento de este tipo.
• Cuándo. se puede concluir -y cuándo no- que un
evento es causa de otro.

• La diferencia entre el concepto de significancia esta-


Pensamiento
dística e importancia práctica, sobre todo al trabajar estadfstico
con muestras grandes.
Razonamiento
• La diferencia entre concluir que "no hay relación" o / estadrstico
"no hay diferencia", contra concluir que "no hay rela-
ción significativa" o "no hay diferencia significativa",
sobre todo al trabajar con muestras pequeñas.

• La idea de "sesgo" y sus principales fuentes de ocu-


rrencia, tanto en encuestas como en ·experimentos.

• La noción de que las coincidencias y ciertos eventos


que parecen improbables, son bastante comunes, da- FIGURA 3: NIVELES DEL APRENDIZAJE DE LA ESTADISTICA.
do que en la vida real existen muchísimas posibilida- FUENTE: (GARFIELD y BEN-ZVI, 2007) .

des.
En este texto trataremos de abordar las ideas básicas, en los
• Evitar la confusión de ideas entre la probabilidad temas correspondientes, para forjar la "cultura estadística"
condicional de A dado B y su probabilidad inversa, de (Batanero, 2004) indispensable para el siglo 21.
B dado A.

• Comprender que la variabilidad es algo natural inhe- Denme datos y moveré al mundo
rente a muchos fenómenos, y que no son lo mismo el
comportamiento "normal" y el comportamiento
"promedio", "¡Datos! ¡Datos!" gritó con impaciencia. "No puedo
hacer ladrillos sin arcilla," ARTHUR CONAN DOYLE, Las
Hayas Cobrizas.
Por su parte, Garfield y Ben-Zvi (2007), consideran que exis-
ten tres niveles en el aprendizaje de la estadística (figura 3). Efectivamente, el insumo principal de la
La mayor parte de las personas podemos vivir felices con una estadística son los datos que, trabajados
cultura estadística básica. Algunas personas requerirán, por con nuestro pensamiento, más los cálcu-
motivos de su profesión, hacer uso de razonamientos estadísti- los y las gráficas, son los instrumentos
cos formales. Entre ellos podemos incluir·á todos los investiga- adecuados para comprender los proble-
mas reales. Con ellos ideamos y construimos soluciones. En con comas o CSV (comma separoted value). Observa cuatro
cierta forma, la estadística está indefensa sin datos. El inves- aspectos importantes:
tigador debe conjuntar siempre las ideas y explicaciones teó- a) Cada variable, en este caso el número de amigos, se
ricas, con la observación de la realidad, para ver si las guarda en una columna de la tabla. Podría guardarse
primeras se ajustan al mundo y si, por ende, resultan útiles e en un renglón, pero esto te daría problemas porque
interesantes. Así pues, datos Y estadística son una pareja in- no es el formato estándar y dificultarla los cálculos. Si
disoluble. necesitas más variables, pones m¡\s columnas. Por
ejemplo, podrías poner otra columna con la edad de
Existen dos formas de obtener datos. La primera -y tal vez la
cada chico encuestado.
más apasionante- es ' recabarlos directamente a partir del
fenómeno que observamos. Si quiero, por ejemplo, saber el b) Te sugiero que designes a cada variable con un título
número de "amigos" que tienen los adolescentes en Face- claro pero corto, de una sola palabra. Así se facilitará
book, podría hacer una encuesta y preguntar a varios de ~u uso en el entorno de R. Ejemplos: Amigos, Edad.
ellos. Esto suele ser más tardado y más costoso. Por ejemplo, Estos son los nombres de tus variables.
yo hice esta pregunta a diez'adolescentes Y me respondieron:
134,147,134,128,153,148,160,128,124,151, respectiva- c) Los datos deben estar "limpios", es decir. no debe
mente. agregarse a ellos otro texto, notas, títulos, leyendas,
La segunda forma es acudir a una fuente donde ya estén re- gráficos o explicaciones. Ni siquiera hacen falta for-
gistrados los datos. Esto facilita el trabajo, pero debemos uti- matos espectaculares con colores y sombreados. De-
lizar sólo fuentes confiables porque ya no estaremos en jamos sólo los datos y ya. Poner otras cosas puede
contacto directo con la realidad. Ejemplos típicos de estas crearte también problema para los cálculos o para pa-
fuentes son el Instituto Nacional de Estadistica y Geografía o sarlos a otro software. Las gráficas y cosas lindas se
INEGI, el Banco Mundial o el Banco de México. En el caso an- ponen en otro archivo, ¿ok?
terior, puedo rescatar el número promedio de amigos de Fa-
cébook en el mundo, de un sitio web que ofrece esta d) El estándar internacional para guardar archivos de
estadística: 130 (Statistics Brain, 2014). Por cierto, observa datos es CSV. Excel te permite guardar tablas CSV sin
que cada vez que uso ideas de otro autor o datos de alguna problema, sólo elige Guardar como ... y la opción co-
fuente, coloco la cita correspondiente, como debe ser. El dato rrespondiente, donde dice: delimitado por comas. Re-
130 es un promedio, pero resulta parecido a los datos que yo siste la tentación de guardar tus datos con el formato
recabé de algunas personas. normal de Excel. Ése déjalo para poner tus gráficas y
otros cálculos, no los datos, ¿de acuerdo?
Ahora, para ver y manipular los datos es conveniente alma-
cenarlos en algún software de computadora. En este texto
usaremos dos. Excel, que es muy conocido y popular; y R, que Bien, esto significa que ya tienes un conjunto de datos guar-
es gratuito y de altísima calidad, con su interfaz RStudio. Re- dado de manera decente en Excel (figura 4). Supongamos que
visa la sección 13 para descargar e instalar ambos. tu archivo se llama Facebook.csv. Más adelante haremos al-
gunos cálculos divertidos con ellos. Ahora vamos a colocar
Para colocar correctamente los datos en la hoja de Excel los esos mismos datos en R, utilizando el software RStudio, que
escribimos en una columna cuyo encabezado será, por ejem- es un entorno que ayuda a trabajar en un ambiente más
plo, Amigos. Luego guardamos la hoja como archivo separado agradable.
A B Ahora, seleccionamos la instrucción anterior con el ratón y
1 IAmigos Edad damos clic sobre Run. Hemos creado· un arreglo que se llama
2 134 13. Datos y que contiene los diez valores. Para verificar esto pue-
3 147 14 des escribir en el siguiente renglón:
4 134' 14· Da t os
5 U8 15 y dar dic sobre Run . Observarás como resultado:
6 153 ' 14 ( 1 1 1 3 4 1 47 134 1 28 15 3 1 48 1 60 128 12 4 151
7 148 15 Así pues, los datos han sido almacenados sin problema. El [1]
8 160 13: indica que el elemento 134 es el primer elemento del arreglo.
9 I 128 16 Cada valor tiene una posición específica, de la 1 a la 10. ¿Va-
", 0 II 124 13 mos bien?
11 I 151 14 Ahora puedes hacer operaciones sencillas o más complicadas.
FIGURA 4: DATOS CAPTURADOS EN EXCEL. Si te interesa obtener la media o promedio de los datos, es-
Como son pocos datos -diez-, tenemos dos opciones: teclear- cribes mean ( Datos), teniendo cuidado de usar la palabra Da-
los directamente en RStudio o leerlos automáticamente des- tos tal como la definimos antes. El resultado debe ser 140.7,
de la tabla de Excel. Si fueran muchos datos, s610 usaríamos que es el promedio de amigos en Facebook por persona, con
la segunda opción, ¿no lo crees? Veamos entonces cada alter- estos diez datos. Veamos ahora la segunda opción.
nativa. Opción Z: Leer automáticamente los datos del archivo
Opción 1: Escribir manualmente los datos en RStudio. CSV desde RStudio.

Para ello creamos un pequeño programa llamado script. Esto Para ello escribes la siguiente instrucción:
se hace dando clic sobre el icono de hoja nueva que aparece Dat os < - r ead.csv{ f il e . choo se())
en la esquina superior izquierda. Al hacerlo tendrás una hoja Es decir, le indicas a R que lea una hoja CSV y que busque el
en blanco que puedes guardar oprimiendo el icono corres- archivo. Al ejecutar la instrucción con Run, te pedirá seleccio-
pondiente y dando un nombre adecuado. Si vas almacenando nar el archivo que creamos antes en Excel. Una vez elegido este
tus scripts, dispondrás de ellos cuando lo desees. archivo, podemos escribir nuevamente Datos y ejecutar Run.
Para crear un arreglo o vector con los datos anteriores, escri- :> Datos
bimos el siguiente par de renglones: Amig09 Edad
1 134 13
Dat os <- c(13 4, 1 47 , 1 34, 1 28, 1 53 , 1 48 , 160,
2 147 14
1 2 8, 1 2 4, 1 51 )
3 134 14
La letra "e" significa que vamos a concatenar u organizar los 4 12 & 15
5 153 14
diez datos en un vector. No te asustes, un vector en este caso
6 148 15
es como una caja con diez huequitos, en cada uno de los cua- 7 160 13
les se acomoda un valor. El vector completo se llama Datos. 8 1 28 16
Los signos <- son una especie de flecha que indica que los 9 124 13
valores de la derecha se guardarán con el nombre de la iz- 10 151 14
quierda. FIGURA 5: RESULTADO DE LA CAPTURA DE DATOS EN RSTUDIO.
El resultado es parecido, pero no idéntico, como puedes ver
en la figura 5. Los datos siguen siendo los mismos, pero ya no
son un arreglo o vector, sino algo llamado Data Frame, que es
.
.".
I
.,
, '.'
I •
I
~
.......
, ... .
,.'
/
• .. ,
Pero muchas. veces sí necesitamos
contar. Cuando queremos descri-·
bir a un grupo de personas u
un cuadro o tabla de datos. Verás que el resultado incluye •• I l' objetos, es muy conveniente de-
I •
también los nombres de cada columna. La ventaja es que po- terminar aquellas características
demos leer así muchos datos y varias columnas, al mismo que nos interesan y que varían de
tiempo. individuo a individuo. Para poder
entendernos y, sobre todo, para
Ahora, si queremos obtener el promedio de los datos de la hacer comparaciones entre distin-
primera columna, debemos indicar que queremos usar la tos individuos o grupos, debemos
columna llamada Amigos dentro del cuadro llamado Datos. identificar qué cualidades se po-
Esto se escribe así: seen y, de ser posible, en qué gra-
mean (Datos$Amigos) Grabado de Liliana do. Esto es, requerimos medir.
Cuautle.
Prueba y obtendrás el mismo valor anterior, ¿no es cierto? Se llama medición a la descrip-
Con este sencillo procedimiento puedes leer enormes cua- ción de datos en términos cuanti-
dros de datos, con tantas variables (columnas) yobservacio- tativos o cualitativos, de acuerdo con un conjunto de reglas y
nes (renglones) como quieras. La única limitación será la estándares bien definidos.
potencia de tu computadora. Hay cosas relativamente fáciles de medir y hay otras muy
Ahora ya sabes cómo guardar datos en Excel, dentro de una difíciles. Es fácil medir la estatura o el peso, o.contar el número
hoja CSV y cómo trasladarlos a RStudio. En seguida hablare- de mujeres y hombres en un grupo. Es menos sencillo medir
mos de los tipos de datos que podemos manejar. conocimientos y resulta mucho más complicado medir la
personalidad o las emociones. ¿De dónde proviene la dificultad?

90-60-90: Medidas, escalas y variables Observarás que en los primeros ejemplos existen estándares
4.
y formas de medir en las que prácticamente todos estamos de
Aunque no se conozca, existe el número de las estrellas y el acuerdo. No ocurre lo mismo en los otros casos.
número de los granos de arena. Pero lo que existe y no se
puede contar y se siente aquí dentro, exige una palabra para Para entender mejor qué son las medidas y sus diversos gra-
decirlo. Esta palabra, en este caso, sería inmensidad. Es dos de precisión, es conveniente revisar una clasificación
como una palabra húmeda de misterio. Con ella no se importante: las escalas o niveles de medición. Presentare-
necesita contar ni las estrellas ni los granos de arena. Hemos mos las escalas en un orden jerárquico, de inferior a superior
cambiado el conocimiento por la emoción, que es también
una manera de penetrar en la verdad de las cosas. ERMILO
en cuanto a su nivel de precisión. Existen escalas nominales,
ABREU GÓMEZ, Canek. ordinales, de intervalo y de razón. Veamos cada una.
La medición en una escala nominal consiste simplemente en
asignar los datos a categorías cualitativamente distintas. Pri-
mero se crea un conjunto de clases y luego se coloca cada
observación en una sola clase. Por ejemplo, las personas se
pueden clasificar por su género, signo del zodiaco o naciona-
lidad.
Por supuesto, las categorías se pueden "bautizar" también sificación formada por unidades iguales y magnitudes cons-
con números, pero estos valores seguirán siendo nombres de tantes.
clase y no se puede operar matemáticamente con ellos. Por Por ejemplo, si tomamos las calificaciones de un examen,
ejemplo, si definimos el número uno para representar al gé- podemos suponer que la diferencia entre sacar diez u ocho,
nero masculino y el número dos para el femenino, no signifi- es la misma diferencia entre obtener seis o cuatro. Sin em-
ca que la suma de dos hombres sea igual a una mujer, o que bargo, sería ir demasiado lejos pensar que esas diferencias
una mujer valga el doble que un hombre (por feministas que equivalen a cantidades iguales de conocimientos o que un
seamos). Así, "1" y "2" en este caso son únicamente denomi- cero en la prueba equivale a desconocer el tema por comple-
naciones de los grupos y carecen de valor numérico. to. No podemos decir que el alumno que obtuvo ocho en un
La única operación matemática que se puede hacer en la es- examen sabe el doble que quien obtuvo cuatro.
cala nominal es. contar cuántos elementos corresponden a La gran ventaja de esta escala es que puede usarse para hacer
cada clase. Se puede hacer, por ejemplo, una gráfica de barras operaciones matemáticas, con lo cual será posible encontrar
o columnas con estos números y las clases. mediciones resumidas y fáciles de comparar con otras de
poblaciones similares. Sin embargo, también debe usarse con
Ejemplos de esta escala son: número de alumnos en cada
cuidado porque no son medidas absolutas.
licenciatura; número de personas que viven en cierto estado
del país; cantidad de plantas de cierta clasificación biológica. Por último, la escala de razón ofrece el máximo nivel de pre-
cisión, ya que se forma por intervalos iguales más un punto
La escala ordinal también clasifica a los elementos, pero cero significativo que representa la ausencia total de la carac-
utiliza para ello una dimensión ordenada. Por ejemplo, es terística que se mide.
posible categorizar a las personas según su lugar en alguna
pru'eba; identificar niveles socio-económicos; u otorgar pri- Por ejemplo, la escala de grados Kelvin para temperatura
mero, segundo y tercer lugar en una carrera de atletismo. Sin tiene un cero absoluto que significa la ausencia total de tem-
embargo, esto no significa que el tercer lugar haya logrado peratura; una longitud nula implica la carencia de este atribu-
una velocidad equivalente a un tercio de la del primer lugar, to en un objeto ... o la inexistencia del objeto.
ni que dos primeros lugares hagan un segundo. Esto es, aquí En esta escala los intervalos de longitud igual sí significan
tam poco pueden hacerse operaciones matemáticas pero las cantidades iguales de la característica medida. Un niño puede
cIases tienen un orden significativo. medir el doble de otro; una persona puede tener la mitad' de
Un ejemplo dpico de esta medición son las escalas de Likert, la edad de otra; una muestra de sangre puede tener el triple
en las que pedimos a las personas que indiquen, dell al 5, su de glóbulos blancos que la cantidad normal.
grado de desacuerdo o acuerdo con una idea. Aunque se pue- Por ello, la escala de razón permite usar operaciones mate-
den obtener conteos, promedios y gráficas, deben manejarse máticas sin problemas ni reservas.
con prudencia. Si una persona pone 2 y otra 4, no significa
Puesto que en las ciencias sociales o en las humanidades es
que la segunda esté el doble de acuerdo que la primera. Así
virtualmente imposible definir un punto cero absoluto para
pues, haremos los cálculos pero tendremos presente que no
muchas características, las escalas de intervalo suelen ser
son medidas precisas sino aproximaciones a la realidad.
suficientes. En cambio, disciplinas relacionadas con las cien-
En la escala de intervalo, en cambio, el valor de una diferen- cias físicas, químicas o biológicas utilizan sobre todo escalas
ciade cierta roagnitud significa lo mismo en todos los puntos de razón. Todas ellas ocupan también escalas nominales y
que se pueden medir. Esta escala implica contar .con una c\a- ordinales, según los requerimientos de cada objeto de estudio.

BIBLIOTECA CENTRAL
Ahora, aquello que se mide puede ser variable o constante. ellas podemos mencionar: género, área de estudios profesio-
nales, estado civil, nivel socio-económico, comida favorita,
Llama¡'emos constante a una medición que, cada vez que se lugar de nacimiento o signo del horóscopo chino.
realiza, arroja un mismo valor. Se acostumbra denotar a las
constantes por números o letras que las representan, como la Adicionalmente, las cuantitativas pueden ser variables dis-
letra griega Tr = 3.14159265359 ..., que representa el número cretas, si sólo toman valores dentro de un conjunto contable
de veces que cabe el diámetro en la circunferencia;' el número o numerable. El número de hijos es una variable cuantitativa
de Euler o constante de Napier, e = 2.71828182846 ..., muy discreta que sólo puede tomar como valores posibles: cero,
usado en matemáticas; o la constante de aceleración de la uno, dos, etcétera. O pueden ser variables continuas, si to-
gravedad, B = 9.81 m/s2. Los puntoS suspensivos indican que man valores tanto enteros como reales o fraccionarios, den-
los decimales continúan. Estos números son especiales, di- tro de un intervalo de puntos. El ingreso mensual, en este
gamos que tienen abolengo, reflejan características intere- caso, es una variable cuantitativa continua, ya que puede ir
santes de la vida real y son muy útiles. desde el salario mínimo (si la persona tiene un trabajo for-
mal) hasta el "salario máximo" (tal vez de un político o em,
En cambio, una variable es una medición que puede tomar presario poderoso), pasando por un rango de puntos infinitos
distintos valores según el objeto de estudio o sus circunstan- entre uno y otro.
cias. Para ellas se suelen utilizar las últimas letras del alfabe-
to: x, y, z. Generalmente contienen algún valor que deseamos Por su parte, las cualitativas se dividen, como hemos visto, en
encontrar o que nos interesa observar, pero que no conoce- variables nominales, si sólo indican la posesión de alguna
mos de antemano. cualidad o la pertenencia a cierta cIase, y en variables ordi-
nales, si existe una relación posicional o de orden entre las
Según el propósito que tenga un investigador, seleccionará clases. Por ejemplo, de las anteriores, ¿cuál sería evidente-
sus variables de interés. Por ejemplo, se puede indagar acerca mente ordinal? El nivel socio-económico.
de una persona en cuanto a: género, edad, área de estudios
profesionales, ingreso mensual, cociente intelectual, prome- Ahora que hemos avanzado en estos conceptos, podemos dar
dio obtenido en la licenciatura, estado civil, número de hijos, un paso más. Hemos distinguido las variables por la precisión
nivel socio-económico, comida favorita, intención de voto, con que pueden representarse, pero existe otra razón para
amigos en Facebook, etcétera. Todo estará en función de qué diferenciarlas: el papel que juegan al relacionarse unas con
se desea saber. Se pueden medir procesos físicos, químicos, otras.
biológicos, sociales, históricos, artísticos, emocionales.... Con
En ese sentido, es posible clasificar a las variables como de-
ingenio, prácticamente todo se puede medir. pendientes e independientes.
Aunque todas son variables, existen diferencias entre ellas.
Una variable dependiente representa algún resultado o
Algunas pueden ser cuantificadas" es decir, expresadas con
números de forma que tenga sentido hacer operaciones con característica que nos interesa medir y que está en función
ellas y se llaman, por lo tanto, variables cuantitativas o de otras variables, a las que llamaremos independientes. Es
numéricas. Como ejemplos tendríamos: edad, ingreso men- decir, la variable dependiente es el efecto de una causa o la
sual, promedio obtenido en la licenciatura y número de hijos. respuesta a un estimulo.

Otras se clasifican por nombres y se llaman variables cuali- Se habla entonces de que una variable es dependiente de otra
tativas o categóricas. Indican la ausencia o presencia de una cuando un cambio en la segunda modifica los posibles valo-
cualidad o la posible pertenencia a una cierta categoría. Entre res resultantes de la primera. Es más probable tener un acci-
dente de automóvil si el conductor ha consumido alcohol en Resulta también lógico suponer que el nivel socio-económico
exceso, así pues, la ocurrencia de este tipo de accidentes es de una persona depende de su ingreso mensual, pero no es
una variable que depende del consumo de alcohol, aunque igualmente sencillo determinar si está en función de su edad,
también pueda ser dependiente de otras variables indepen- sexo, profesión o nivel educativo. Estas posibles relaciones
dientes adicionales, como la lluvia, la visibilidad o la veloci- abren preguntas de investigación interesantes.
dad.
Identificar relaciones de dependencia entre variables es fun-
Una variable independiente es, en cambio, aquella que oca-
damental para apoyar la correcta toma de decisiones en to-
siona el resultado, esto es, se trata de la causa del efecto o del dos los ámbitos del conocimiento. Al decidir, generalmente
estímulo que produce la respuesta de interés. En algunas tratamos de seleccionar aquellas acciones que nos conduci-
ocasiones estas variables pueden ser manipuladas por el in- rán a un objetivo de interés. Podemos ver entonces a este
vestigador, precisamente para observar los cambios que pro- objetivo como la variable dependiente para la cual buscamos
ducen en la variable dependiente. Habrá otros casos en que el las varia bIes independientes que sean más efectivas y sobre
investigador no pueda modificar a su arbitrio estas variables, cuyos valores podamos incidir.
pero generalmente le será posible registrar los valores ocu-
rridos en la variable dependiente para los correspondientes Algo semejante ocurre en los avances del conocimiento cien-
de la o las independientes, generados por las circunstancias. tífico: muchos de ellos consisten precisamente en encontrar y
Así, se dice que dos variables son independientes entre sí verificar relaciones de causa y efecto. Por ejemplo, determi-
cuando la ocurrencia de una de ellas no modifica en absoluto nar que un medicamento cura cierta enfermedad, que un
la probabilidad de ocurrencia de la otra. En el ejemplo ante- hábito previene algún problema o que un conjunto de cir-
rior es factible creer que la ocurrencia de accidentes automo- cunstancias aumentan la probabilidad de un desastre, pue-
trices es una variable independiente de, por ejemplo, el color den ser pruebas estadísticas que ' incrementen nuestro
de ropa del conductor o el tipo de vestidura de los asientos. bienestar o inclusive salven vidas.
Como podrás imaginar, algunas relaciones de dependencia De aquí la gran importancia de revisar cuidadosamente las
son evidentes y otras requieren de análisis y pruebas cuida- posibles relaciones entre variables. Algunos aspectos éticos o
dosas. Una forma muy sencilla de saber cuál variable es de- discriminatorios tienen que ver también con esto. Hace tiem-
pendiente y cuál es independiente es formular tu problema po se consideró que las personas de raza negra o las mujeres
de investigación con un "si - entonces". En el ejemplo anterior eran menos inteligentes que los hombres blancos. Por su-
podrías decir algo como: "si una persona es más inteligente, puesto, se hubieran evitado muchas desgracias y problemas
entonces obtendrá mayor promedio". Siempre, lo que va des- si dichas aseveraciones se hubieran sujetado a pruebas esta-
pués del "si" es la variable independiente, y lo que va después dísticas serias.
del "entonces" es la variable dependiente.
Podríamos pensar que el promedio que obtendrás en la licen- Las relaciones entre dos variables pueden observarse de ma-
ciatura es una variable que depende, entre otras cosas, de tu nera gráfica si se elabora un diagrama de dispersión, en el
inteligencia, del tiempo que dediques a estudiar y de la forma cual se utiliza generalmente la letra x para representar a la
de calificar de tus maestros. Imaginamos también que, por variable independiente, así como la letra y para la variable
decir algo, la profesión de una persona y su comida favorita dependiente.
son variables independientes entre sí.
Puedes crear este tipo de diagramas en Excel con el asistente CUADRO 1: DATOS ANUALES DE M~xlco. FUENTE: (THE
para gráficos identificado por el icono que muestra la figura 6. WORLD BANK, 2014).IPC=INGRESO PER CÁPITA EN DÓLARES
INTERNACIONALES. PIB=PRODUCTO INTERNO BRUTO EN
DÓLARES ESTADOUNIDENSES. EV=EsPERANZA DE VIDA EN .
AÑOS.
l •.•• . . Año IPe Población PIB EV
~ 2004
2005
10,860 109,381,550 770,267,585,947 75.24
11,750 110,731,826 866,346,483,685 75.49
Dispersión 2006 12,840 112,116,694 966,735,935,558 75.74
2007 13,330 113,529,8~ 9 1,043,394,940,068 75.98
FIGURA 6: DIAGRAMAS DE DISPERSIÓN EN EXCEL. 2008 14,030 114,968,039 1,099,073,123,655 76.23
2009 13,780 116,422,752 895,313,142,212 76.46
En este sistema de ejes coordenados se señala con un punto
la intersección que corresponde al valor observado de ambas 2010 14,590 117,886,404 1,051,627,949,327 76.69
variables y de esta manera resulta más fácil advertir alguna 2011 15,650 119,361,233 1,170,085,556,896 76.91
posible influencia que, por supuesto, deberá tener alguna 2012 15,910 120,847,477 1,186,460,890,130 77.14
explicación razonable para ser tomada en cuenta. 2013 16,110 122,332,399 1,260,914,660,977 77.00
Veamos un ejemplo interesante. En la página del Banco Mun-
dial podemos encontrar datos tales como ingreso per cápita,
población, producto interno bruto y esperanza de vida en Por ejemplo, podríamos suponer que la esperanza de vida
(variable dependiente) está relacionada con el ingreso per
México, a lo largo de varios años (cuadro 1). Colocamos esos
datos en Excel, de la forma ya explicada en la sección ante- cápita (variable independiente). Es decir; a más ingreso, me-
rior. Aunque aquí les hemos puesto formatos como letras jores condiciones para las personas y por lo tanto, más años
de vida en promedio.
cursivas y comas, para facilitar la lectura; en tu hoja CSV no
deben tenerlo, para evitar problemas al manipularlos. Puedes Para explorar esta idea, grafiquemos la variable dependiente
tomar estos datos directamente de la página del Banco Mun- en el eje vertical y la independiente en el eje horizontal. Para
dial para hacer el ejercicio. ello podemos leer los datos en RStudio y luego pedimos la
gráfica:
En este caso todas las variables son de tipo cuantitativo o
numérico. La población tendría que ser una variable discreta, Datos <- read.csv(file.choose( )
porque no admite valores fraccionarios, lo mismo los años. Datos
Todas las demás variables son de tipo continuo. p lo t {Da tos$I PC,Datos$ E:V, x lab=" I ng reso per
Todas estas variables son importantes para nuestro país. cáp i ta ", y lab= "Esperanza de v ida" )
Puedes pensar que algunas de ellas están relacionadas entre
sÍ.. Esta idea puede explorarse a través de una gráfica o dia- En esta última instrucción escribimos primero la variable
grama de dispersión donde cada punto se obtiene como la independiente x, luego la variable dependiente y, y después
pareja ordenada de una variable independiente y una depen- los títulos o etiquetas de los ejes. El resultado está en la figu-
diente. ra 7. ¿Qué piensas acerca de esta gráfica?
¿Cuál suceso histórico es? Eso tendrás que descubrirlo tú.
o
q Vamos a cargar la base de datos.
1"-
t-
- o
# Lo que inicia con este símbolo es un comentario y R
o
I no l o ejecutará.
'"
'"
t-
- o
• Leeremos a continuación la base de datos que
o
o # contiene la información.
<D - o
t- misterio <- read.csv(file.choose(»
o
Después de cargar la base de daros pidamos a R que nos indi-
o que qué variables tiene la base, es decir, que nos muestre los
o títulos de cada columna.
I I I I
names{misterio)
11000 12000 13000 14000 15000 16000
Como puedes observar, la base está compuesta por cuatro
Ingreso per cápita variables: "Clase.Social", "Edad", "Sexo" y "Sobreviviente".
FIGURA 7: ESPERANZA DE VIDA CONTRA INGRESO PERCÁPITA
Veamos qué valores tiene cada variable, con las siguientes
EN MÉxIco. FUENTE: (THEWORLD BANK, 2014). instrucciones:
attach(misterio)
Hablaremos más sobre posibles relaciones de causa y efecto
en la sección 11. table(Clase.Social)
table(Edad)
table(Sexo)
5. Ejercicio: Descubre un misterio histórico
table(Sobreviviente)
Propósitos: Con las funciones anteriores, R hace un recuento de cuántas
• Identificar los procedimientos básicos para utilizar veces se observa en la base cargada cada posible valor que
una base de datos en R. adquiera una variable. Así, encontramos que la variable
"Edad" tiene dos tipos de valores, ':Adulto" (N=2 092 casos) y
• Analizar patrones y relaciones entre variables nomi- "Niño" (N=109). Otra forma de obtener el nombre de los valo-
nales o categóricas. res que puede adquirir una variable es con la función l e-
A continuación iniciaremos nuestro primer ejercicio para vels () y el nombre de variable dentro del paréntesis.
explorar R y RStudio. InténtaIa. Ya lo veremos más adelante. Es importante men-
cionar que todas las variables fueron codificadas como cade-
Para iniciar, cargarás la base de datos "MisterioHist.csv", ubi- na (con palabras) Yo aunque la "Edad" pudo haber sido
cada en el sitio web www.inteligencianet.org, usando el co- codificada con números (ej. 17 años, 25 años), el autor de la
mando read. csv o abriendo la base desde RStudio, como se base de datos decidió agrupar a los sujetos en ':Adultos" y
explica abajo. Esta base contiene los datos de un grupo de "Niños". Por cierto, ¿por qué crees que en "Clase.Social" existe
personas que participaron en un suceso histórico real que un valor que se llama "Empleado"?
pudo haber sucedido desde el año 1 d.e. hasta el día de hoy.
ma sc<- s ubset (mi steriO , Sexo== " Ma s cu l i no" )
Pregunta 1: ¿Por qué crees que el autor de la base de datos
table(mas c $ Sob rev i v i e nte )
utilizó estas cuatro variables y no otras? ¿Tendrá algún pro-
pósito?
Respuesta: ¡Desde luego! Si fuera a recolectar información, Pregunta 4: ¿Cuántas mujeres sobrevivieron?
sólo recolectaría datos de variables que considere importan-
Respuesta: sobrevivieron 344 mujeres y 126, no.
tes para describir el fenómeno. Por ejemplo, podría eliminar
de tajo sucesos donde nadie haya sobrevivido, como la explo- Pregunta 5: ¿Cuántos hombres sobrevivieron?
sión del dirigible de Hindenburg. Respuesta: sobrevivieron 367 hombres y 1364, no.
Pregunta 2: ¿Cuántas personas -o registros- hay en la base ¡Espera un momento! No podemos comparar el número de
de datos? mujeres y hombres que sobrevivieron a menos que las canti-
Respuesta: 2 201; basta con sumar el número casos de cual- dades de hombres y mujeres fueran las mismas. Por ejemplo,
quiera de las variables de la base. Ej. Adulto=2 092, Ni- si había 500 mujeres y 5 hombres, y sobrevivieron 100 muje-
ño=109; 2 092+109=2 201. Verifícalo con otra variable. res y 4 hombres, a simple vista diríamos que sobrevivieron
También puedes usar la instrucción l e ngt h (Sob r e viv i e n t e) . más mujeres. Sin embargo, observa la proporción ... sobrevi-
vieron 1 de cada 5 mujeres (20%) y 4 de cada 5 hombres
Pregunta 3: ¿El número de casos o personas te permite ir
(75%). Tenemos que solicitar el número relativo al total de
imaginando algún posible suceso histórico? Intenta hacer una
casos, es decir el porcentaje real de sobrevivientes.
lista con tres a cinco posible sucesos, con base en la informa-
~ Propo r ció n de muj eres sobrevivien tes :
ción que tienes hasta este momento.
t ab l e (fem$Sob rev i v i ente ) / l e ng th ( f e m$Sbr evi vien t .e ) * 1 00
Respuesta: ¡Si! Ahora puedo ir acotando ... no podría ser un
suceso histórico donde hubiera más o menos de 2 201 perso- , Pro porción de ho mbres sobrevivien"t es:
nas involucradas. Qu'izá una enfermedad como la peste negra t ble(ma sc$Sb r eviv i e nte l /leng t h (ma sc$Sb rev ivien t e)*100
podría ser descartada ya que de seguro afectó a más de esta
Ahora sí, es justo interpretarlos. Intenta ver averiguar si ha-
cantidad de personas. Debe haber sido un suceso más o me-
b!a diferenci~ ~n otras variables como la edad y la clase so-
nos reciente, porque hubo estos registros. CIal. ¿SobrevlVleron mayor proporción de niños o adultos?
En este momento podríamos explorar un poco la relación ¿Por qué? ¿Sobrevivieron más los de cierta clase social?
entre las variables. Seguro que por algo las pusieron ahí. Por
Pero como estamos experimentando con R, tenemos muchas
ejemplo, ¿cuántas mujeres Ycuántos hombres sobrevivieron?
alternativas para hacer lo mismo. Otra opción para obtener la
¿Hay diferencia entre estos números? mIsma Información es el código crosstab () contenido en la
fem <- sub s et (mi ste rio,sexo== "Ferne nino") librería des e r . ¿Puedes ver qué es lo que hace esta función?
table{fem$ So br e vivi e nte) Prueba el siguiente código:
El commando subset () nos permite solicitar a R el crear un i Carga la librería de scr:
subconjunto de los datos, llamado tem, que sólo contenga library ("deser")
aquellos casos donde hay mujeres ("Femenino"). Luego po- • Us a el coma ndo erosstab( ) para c rear tab l as
demos solicitar que nos indique cuántos sobrevivientes hay
t c ruzadas y gene rar un gráfi c o d e p r oporcion es .
de este sexo. Ahora hagamos lo mismo con los hombres Y
veamos si hay diferencia.
cro ssta b (mi s t e r i o$ Sexo, nidad. Las gráficas dinámicas son sumamente intere-
mi ster io $S ob reviv i e nte, prop. r=TRUE, xla b= "Se xo ",
santes y reveladoras. El sitio es:

y l ab ="Sob re v i v i e n te " ) http ://www.gapminder.org/


¿Interesante, no? Recuerda que R tienen mil y un formas de • Excelentes videos con explicaciones sobre estadística.
obtener el mismo resultado. ¿Puedes encontrar una más fá- Están bien hechos, son cortitos y la mayoría han sido
cil? iCompártela! traducidos al español gracias al convenio entre Sal-
man Khan y Carlos Slim. El sitio web se llama Khan
Academy y la dirección exacta es:
Pregunta 6:. ¿Es posible decir que hay una relación entre la
sobrevivencia al hecho histórico y la clase social, la edad y el https://www.khanacademy.org/mathjprobability
sexo? • Un espacio de alta calidad para aprender estadística
Respuesta: Claro ... pareciera que la proporción de personas en línea, con explicaciones, tablas, calculadoras,
que sobrevive fue mayor si eras de clase alta, niño y de sexo ejemplos y simulaciones. No dejes de visitarlo en:
femenino y, al contrario, hubieras tenido menos probabilidad http://stattrek.com/
de vivir si eras de clase baja, adulto y masculino. Verifica es-
tas afirmaciones de manera semejante al caso anterior. • Para iniciarse con R no hay nada mejor que el sitio de
O'Reilly : http://tryr.codeschool.com/
Pregunta 7: ¿De qué suceso histórico son estos datos?
. Respuesta: ¿De verdad quieres saber? Bueno, pues se trata
del famoso Titanic. Una cantidad grande de personas viaja-
ban en él (N=2 201). Y claro, si eras de clase alta, niño y mu-
jer tenías mayor probabilidad de sobrevivir. Seguro con esto
se te viene a lamente la frase "mujeres y niños primero", ¿no?
Pregunta reto: ¿Para qué sirve la función a tt ac h () que usa-
mos al inicio del ejercicio?
Fuente de los datos: (s.f.). El naufragio del Titanic. España:
Universidad de Sevilla. Disponible en:
http://www.cs.us.es/cursos/i1e-2004/Trabajos/titanic.pdf.

6_ Cuatro sitios web interesantes


En internet hay muchos recursos valiosos para enamorarse
de la estadística. Aquí te proponemos tres:
• Un maravilloso video que se llama "The loy of Stats" o
"La Alegría de la Estadística", hecho por el sueco Hans
Rosling, que tiene todo un sitio dedicado al uso de la
estadística para hacer conciencia social en la huma-
7. Dibujos y tablas con estadística

En un lapso de una hora y cuarto, pasaron


exactamente treinta y cinco mujeres de interés.
Para entretenerme hice una estadística sobre
qué me gustaba más en ca da una de ellas. 10
apunté en una servilleta de papel. Éste es el
resultado. De dos, me gust61a cara; de cuatro, el
pelo; de seis, el busto; de ocho, las piernas; de
quince, el trasero. Amplia victoria de los
traseros. MARIO BENEDETTI, La Tregua.

Este pequeño texto. además de ser par-


te de una entrañable novela, es estadís-
tica descriptiva. Benedetti explica, con
precisión matemática, el paso de las mujeres y lo que llamó
su atención en cada una de ellas.
Su descripción es un concepto importante en estadística. Es
una forma muy lógica de organizar la información. La lista de
lo que más le gustaba se llama tabla de frecuencias absolu-
tas y no es otra cosa más que un conjunto de clases o catego-
rías, seguido por el número de elementos que se observaron
en cada una de ellas. Benedetti nos obsequia la tabla ya orga-
nizada, no sabemos exactamente en qué orden observó qué
cosa.
Esta idea tan sencilla es muy útil y por lo tanto se puede ma-
nejar en Excel o RStudio también con facilidad . La variable
observada (lo que más le gustó) es de tipo cualitativo, con
una escala nominal. Podemos copiar los datos como una tabla
en Excel y luego hacer con ellos algunos cálculos o gráficas.
También podemos manipularlos en RStudio. Verás que es
muy simple. Primero, vamos a colocar los datos.
Atractivo < -
c(rep("cara ", 2);rep( "pe l o ",4),rep(" busto ",6) ,
r e p( "piernas",8), rep ("trasero",15})
Atrac tivo
Estamos creando una lista o vector con lo que le resultó
Freque n c y Pe r cent
atractivo. Como te imaginarás, al escribir rep ( "cara", 21 es- busto 6 17 . 143
tamos indicando que se repita el valor "cara" dos veces, y así cara 2 5.714
sucesivamente. Si escribes Atractivo observarás los 35 datos pelo 4 11.429
recabados. piernas 8 22. 8 57
trasero 15 42.857
Ahora vamos a instalar un pequeño paquete que hace la tabla Total 35 100. 0 0 0
de frecuencias absolutas por nosotros. No te asustes, es muy FIGURA 10: TABLA DE FRECUENCIAS DEL EJEMPLO DE
sencillo. Sólo debes dar clic sobre la pestaña Packages, del BENEDETTI.
lado inferior derecho, y luego sobre Install (figura 8).
Las frecuencias son muy útiles para encontrar rápidamente
Fies PIots Padcages , H~1p i V"sewer algunos aspectos importantes: qué valores son los más bajos
t;.¡ In.tall e Updat~ :': 1
:
o altos, es decir; los menos o más frecuentes. Aquíse analizó
una variable nominal cualitativa y sabemos ahora que al pro-
FIGURA 8: HERRAMIENTAS PARA IN STALAR PAQUETES EN
tagonista de la novela le agradó un 42.857% de mujeres, es-
RSTUDIO.
pecíficamente por su trasero. En cambio, muy pocas tuvieron
Con la computadora conectada a Internet, escribe en el hueco una cara bonita. Eso también se advierte fácilmente en el
el nombre del paquete que deseas instalar. En este caso se histograma, donde verificamos la "amplia victoria". El histo-
llama descr (figura 9). En seguida oprime el botón Install. grama es la gráfica de barras de las frecuencias absolutas.
Eso es todo.
Inmll Package<
;. _;- _.-.- - -
--' ,---
¡
Insta!! from: · 1 Configuring R~pos¡torj~ -
.------.... ----.-.. ----- - - . - . - - .- - - - ----.-- ... ---::1
¡. ~~~?.~!t-"_'}' !~~~,_~.~I'!~X!raL _. _____ .__ . ___._ Y;

Packages (separate multiple with space or comma): busto cara pelo piernas trasero
~~~~ ------ ----_.__...._- -------------_._--_.._..-------------_.._]
FIGURA 11: HISTOGRAMA DEL EJEMPLO DE BENEDETTI.

FIGURA 9 : INSTALACiÓN DEL PAQUETE "DESCR" PARA


ESTADÍSTICAS DESCRIPTIVAS. Otra forma de presentar estos datos es a través de una gráfica
Hecho esto, indicamos al software que usaremos el paquete circular o de pastel. Esta gráfica se genera con la instrucción:
anterior y que deseamos calcular las frecuencias: pi e ( tabl e( Atractivo) )
lib r ary(de sc r ) En ella indicamos que se construya la gráfica de pastel de los
freq(A tra ctivo) datos de la variable Atractivo, tabulados u organizados por
El resultado incluye dos partes: la tabla de frecuencias abso- clase. El resultado puedes verlo en la figura 12. Observa que
lutas (figura 10) y una imagen llamada histograma (figura estas gráficas sólo son útiles cuando hay pocas clases. Si son
11). En la tabla de frecuencias se agregaron las frecuencias demasiadas, no será posible distinguirlas.
relativas o porcentajes.
¿Por qué la diferencia en los paréntesis? El paréntesis redon-
deado se utiliza para indicar que el intervalo no incluye al
punto limite. El corchete o paréntesis cuadrado. en ·cambio.
señala que el punto límite está incluido. Por ejemplo. el inter-
piernas valo [0.6) son todos los no aprobados. es decir. los que obtu-
vieron calificación desde cero hasta antes de seis.
Esta diferencia aparentemente sutil y ociosa es fundamental.
Al crear los intervalos de clase en variables continuas. debes
verificar siempre que se cumplan dos propiedades:
1. Las clases deben ser mutuamente exclusivas. esto
FIGURA 12: GRÁFICA CIRCULAR DE LOS DATOS DE BENEDETTI.
es. no debe haber la posibilidad de que una observa-
En el ejemplo anterior las clases se formaron por la parte del ción pueda ubicarse en más de una clase. En el ejem-
cuerpo seleccionada por Benedetti. En general. la definición plo anterior, si definimos como clases [5.6] y [6.7].
de clases depende del tipo de variable que se observa. tendríamos un problema: ¿en cuál de las dos quedan
Para variables cualitativas. ya sean nominales u ordinales. las los alumnos con seis?
clases estarán dadas por las mismas categorías creadas para 2. Las clases deben ser colectivamente exhaustivas.
efectuar la medición. Es decir, si se midió el nivel máximo de abarcando todos los resultados posibles de la variable
estudios de una persona con una variable ordinal. las clases medida. Así. no debe existir la posibilidad de que un
podrían ser. por ejemplo: Básico. Medio Inferior, Medio Supe- elemento quede fuera de clasificación. Si no se agre-
rior y Superior. Si se midió el sexo. las clases serán: Femenino. gara la clase [0,1] y un alumno obtuviera cero. no ha-
Masculino. bría donde colocar esta observación.
En cambio. si se trata de variables cuantitativas. las clases Veamos este ejemplo con más detalle. Supongamos que te-
serán conjuntos de datos para las discretas e inte.rvalos para nemos las calificaciones de 50 alumnos. mostradas en la figu-
las continuas. Veamos un ejemplo de cada una. ra 13. Se ve con facilidad que son valores entre cero y diez.
Supongamos que se desea hacer una tabla de frecuencias pero no es inmediato saber cómo salieron los alumnos. Para
para organizar las calificaciones de un grupo de estudiantes. ello nos conviene hacer la tabla de frecuencias yel histogra-
Si las calificaciones son discretas (por ejemplo del cero al ma.
diez). estos mismos valores pueden ser las clases. Las fre- ". Ca lif
¡l] 6.8 8 .1 9. 6 6.6 6.5 8.1 9.4 4.8 1.2 8. 2 8 .4 7 .6 5.9 7 .8 e.5
cuencias serán cuántos ceros. cuántos unos. etcétera. se ob- (16) 7.6 6.9 B.1 5.4 6 .7 3.5 9.0 5 .0 6.7 6. 4 5.0 6 .6 7.6 7.5 1.8
-( 31 1 5.5 B.3 6.6 7 . 4 6. 7 9 . 9 8.7 6. 0 5 . 3 7.2 5 . 5 7 . 2 4. 49.08. 1
servaron. ' [4 6 ] 9.6 1. 64.31 . 65 . 3
En cambio. si las calificaciones son continuas. con fracciones FIGURA 13: CALIFICACION ES DE CINCUENTA ESTUDIANTES.
o decimales. las clases podrían definirse como: [0.1]. (1.2].
Podemos hacer la tabla de frecuencias con las siguientes ins-
(2.3]. (3.4]. (4.5]. (5.6]. (6.7]. (7.8]. (8.9]. (9.10]. Estos núme-
trucciones. Primero definimos los puntos de corte de las cla-
ros entre paréntesis son intervalos. Por ejemplo. [0.1] son
ses y luego pedimos las tabulaciones. La expresión o : lo san
todos los números entre el cero y el uno. El intervalo (1.2J
los valores del cero al diez. La primera tabla son las frecuen-
son todos los valores mayores que uno hasta llegar a dose Y
cias absolutas y la segunda. las relativas. que son las mismas
así sucesivamente.
¿Por qué la diferencia en los paréntesis? El paréntesis redon-
deado se utiliza para indicar que el intervalo no incluye al
punto límite. El corchete o paréntesis cuadrado, en ·cambio,
señala que el punto límite está incluido. Por ejemplo, el inter-
piernas valo [0,6) son todos los no aprobados, es decir. los que obtu-
vieron calificación desde cero hasta antes de seis.
Esta diferencia aparentemente sutil y ociosa es fundamental.
Al crear los intervalos de clase en variables continuas, debes
verificar siempre que se cumplan dos propiedades:
1. Las clases deben ser mutuamente exclusivas, esto
FIGURA 12: GRÁFICA CIRCULAR DE LOS DATOS DE BENEDETTI.
es, no debe haber la posibilidad de que una observa-
En el ejemplo anterior las clases se formaron por la parte del ción pueda ubicarse en más de una clase. En el ejem-
cuerpo seleccionada por .Benedetti. En general, la definición plo anterior, si definimos como clases [5,6] y [6,7],
de clases depende del tipo de variable que se observa. tendríamos un problema: ¿en cuál de las dos quedan
Para variables cualitativas, ya sean nominales u ordinales, las los alumnos con seis?
clases estarán dadas por las mismas categorías creadas para 2. Las clases deben ser colectivamente exhaustivas,
efectuar la medición. Es decir, si se midió el nivel máximo de abarcando todos los resultados posibles de la variable
estudios de una persona con una variable ordinal, las clases medida. Así, no debe existir la posibilidad de que un
podrían ser, por ejemplo: Básico, Medio Inferior, Medio Supe- elemento quede fuera de clasificación. Si no se agre-
rior y Superior. Si se midió el sexo,las clases serán: Femenino, gara la clase [0,1] y un alumno obtuviera cero, no ha-
Masculino. bría donde colocar esta observación.
En cambio, si se trata de variables cuantitativas, las clases Veamos este ejemplo con más detalle. Supongamos que te-
serán conjuntos de datos para las discretas e intervalos para nemos las calificaciones de 50 alumnos, mostradas en la figu-
las continuas. Veamos un ejemplo de cada una. ra 13. Se ve con facilidad que son valores entre cero y diez,
Supongamos que se desea hacer una tabla de frecuencias pero no es inmediato saber cómo salieron los alumnos. Para
para organizar las calificaciones de un gru po de estudiantes. ello nos conviene hacer la tabla de frecuencias y el histogra-
Si las calificaciones son discretas (por ejemplo del cero al ma.
diez), estos mismos valores pueden ser las clases. Las fre- > (..:;,) 11f
[l) 6.8 8 . 1 9.6 6.6 6. S 8 . 1 9 . 4 4 . 8 7. 2 B. Z 6 . 4 7. 6 5. 9 7 .8 8. S
cuencias serán cuántos ceros, cuántos unos, etcétera, se ob- [ 16 J 7 .6 6. 8 8.1 5. 4 6. 13 . 59 .0 5 . 06 . 7 6.4 5. 0 6 . 6 7. 6 1 .5 7 . 8
[3 ~] 5 . 5 8.3 6 . 6 1 .4 6 .1 9 . 9 8 . 1 6 . 0 5 .3 7 . 2 5.5 1 .2 4 . 4 9 . 0 B.1
servaron. 146J 9 .6 7.6 4.3 7 .6 5 .3
En cambio, si las calificaciones son continuas, con fracciones FIGURA 13: CALIFICACIONES DE CINCUENTA ESTUDIANTES.
o decimales, las clases podrían definirse como: [0,1], (1,2],
Podemos hacer la tabla de frecuencias con las siguientes ins-
(2,3]. (3,4], (4,5], (5,6], (6,7], (7,8], (8,9], (9,10]. Estos núme-
trucciones. Primero definimos los puntos de corte de las cla-
ros entre paréntesis son intervalos. Por ejemplo, [0,1] son
ses y luego pedimos las tabulaciones. La expresión o : 10 son
todos los números entre el cero y el uno. El intervalo (1,2]
son todos los valores mayores que uno hasta llegar a dos. Y los valores del cero al diez. La primera tabla son las frecuen-
cias absolutas y la segunda, las relativas, que son las mismas
así sucesivamente.
divididas entre el número de datos, que se obtiene con l en- grama con las frecuencias relativas si agregas, dentro del pa-
gth. Hemos repetido el nombre de cada vector para ver su réntesis, la indicación freq~ F. ¿Qué cambios observas al ha-
contenido en RStudio. ceresto?
Cor t es <- 0 :10 Muy bien, ahora estás listo para hacer tablas de frecuencias e
Co r t e s histogramas de cualquier conjunto de datos, cualitativos · o
Fre c Abs <- t abl e (cut(C a l if,C o rte sl )
cuantitativos.
FrecAbs
Frec Re l <- FrecAbs / l ength( Ca l i f ) 8_ Estar a la moda: medidas de tendencia central
Fr e c Rel

La figura 14 muestra la tabla de frecuencias absolutas, te su-


giero que copies los datos y obtengas las frecuencias relativas. Las personas mayores aman los números.
Cuando les hablas de un nuevo amigo
(0 , 1 3 (1,21 {2,3] (3,4] (4, 5 ] 15,61 ( 6 ,7] (7, 8 1 (8 ,9] jamás te preguntan sobre lo esencial.
o o o 1 5 -, 10 12 11 Jam ás te dicen: «¿Cómo es el tono de su
,
(9 , 101 voz? ¿Qué juegos prefiere? ¿Colecciona
mariposas?» Ellos preguntan: «¿Cuántos
FIGURA 14: FRECUENCIAS ABSOLUTAS DE LAS CALIFICACIONES. años tien e? ¿Cuántos hermanos tiene?
¿Cuánto pesa? ¿Cuánto gana su padre?»
Vemos que la mayoría de los estudiantes obtuvieron califica- Solamente entonces creen conocerlo.
ciones mayores que siete y menores o iguales que ocho. Hubo ANTOiNE DE SAINT-EXUPERY, El Prln.cipito.

pocos reprobados. Ahora, para una interpretación visual rá- Si estás leyendo este texto, eres
pida, basta con pedir el histograma, con la instrucción: una persona mayor. Así que en alguna medida te interesan los
h is t (Calif, b reak s = C o r t e s ,c ol =" gr ey~ , números. No es tan malo, a través de ellos procuramos cono-
ma i n =" Hi s t o g rama")
cer mejor a las personas y a las cosas. Hagámoslo entonces,
por lo menos, bien. Desentrañemos el misterio de algunos de
Histograma los números más usados y veamos exactamente qué signifi-
can, cuáles son sus ventajas y sus limitaciones. Aún en la es-
tadística descriptiva "lo esencial es invisible a los ojos".
He~os dicho ya que en ocasiones debemos describir grandes
conjuntos de datos cuantitativos con unos pocos números.
Una forma de resumir el comportamiento es utilizar las lla-
madas medidas de tendencia central, que indican hacia qué
o 2 4 6 8 10
valores se agrupan los resultados. Estas medidas deben to-
CaIi! marse con pinzas, porque pueden ser muy engañosas.
FIGURA 15: HISTOGRAMA DE LAS CALIFICACIONES.
La medida de este tipo más utilizada es la media aritmética
Observa el resultado en la figura 15. Prueba qué ocurre si opromedio, que se obtiene sumando todos los datos y divi:
eliminas la sección breaks~Cortes o si cambias el color por dlendo el resultado entre el total de observaciones.
"red " O por rainb o w (1 0 ). También puedes obtener el histo-
Para contar las observaciones podemos considerar que una Evidentemente, conforme el valor de n se acerque al valor de
población tiene un conjunto de N elementos, mientras que N, esperaríamos que la media muestral también se acerque a
una muestra o subconjunto posee n. Por ejemplo, los alum- la media poblacional.
nos de la UNAM son cerca de N = 300,000 Y se puede selec-
Podemos usar los datos de la sección anterior (Calif) en
cionar de ellos una muestra de n = 50. Veremos más sobre el
RStudio, para c¡llcular la media. Verás que es muy sencillo.
tema de muestreo en el Capítulo 14. Simplemente escribes:
Si cada medición u observación se denota por X i' pueden ha- Media <- mean( Calif)
cerse los siguientes cálculos. La ecuación 1 es la media pobla- Medi a
cional y la 2 es la media muestra!.
Con lo cual obtendrás el valor 7.068 que, por supuesto, es
If=l X ¡ idéntico a lo que te devolverá Excel si haces el promedio ahí.
J1=
N Puedes probar con otros conjuntos de valores, tanto en Excel
ECUACIÓN 1: MEDIA POBLACIONAL. como en R.
Como es la primera fórmula, vamos a leerla: La media pobla- Aunque la media aritmética es la más utilizada y conocida, es
cional es la letra griega mu (se pronuncia poniendo la boca en una medida que se afecta por valores extremos, es decir, un
forma de "u" y diciendo "i", al estilo francés). Se calcula como valor muy alto o muy bajo hará que se modifique de manera
la suma, desde iigual a uno hasta N, de equis subíndice i, sensible.
todo dividido entre N. En términos coloquiales, es lo que co- Veamos esto con un ejemplo sencillo. Nos dicen que en una
múnmente llamamos promedio: la suma de todas las obser- empresa el salario promedio es de $50,000 mensuales. ¿Qué
vaciones entre el total de observaciones. te parece? Suena bien, pero, claro, este dato no es suficiente.
IY=l X ¡ Puede provenir del hecho de que todos los empleados ganen
n más o menos eso, o de que muchos ganen muy poco y unos
cuantos tengan unos sueldos enormes. Por ello, se hace nece-
ECUACIÓN 2: MEDIA MUESTRAL.
sario contar con medidas de tendencia central adicionales,
La media muestral es equis barra, y se calcula también como como la mediana y moda.
el promedio, pero ahora de las observaciones de la muestra,
La mediana es el punto medio de los datos, es decir, el valor
que es un subconjunto de la población. El cálculo es idéntico,
que los divide en dos mitades, es una especie de centro de
lo que cambia es que en la ecuación 1 contamos con todos los
gravedad. Para calcularla se ordenan los datos .(poblacionales
datos de la población, mientras que en la 2 sólo tenemos al-
o muestrales, es igual) en forma ascendente, de menor a ma-
gunos de ellos.
yor. Si el número de datos es impar, la mediana será el dato
Para calcular cualquiera de las dos medias en Excel se utiliza central; si es par, será la media aritmética de los dos datos
la instrucción =PROMEDIO( ), colocando entre los paréntesis centrales. Está definida en Excel por la instrucción:
las cantidades o la selección de las celdas que componen la =MEDIANAO·
población o muestra, según el caso. La selección de celdas es
simplemente marcar con el ratón las celdas que contienen los Podemos obtenerla en RStudio utilizando los siguientes ren-
datos. glones:
Mediana < - medi a n (Ca lif)
Mediana
Si has ido siguiendo el ejercicio desde la sección anterior, éste Según algunos detractores (a estas alturas esperamos que no
valor debe ser igual a 7.2, en Excel o en R. Esto significa que la te cuentes entre ellos), la estadística es la ciencia que indica
mitad de los alumnos obtuvieron menos de 7.2 y la otra mi- que, si tienes la mitad del cuerpo en hielo y la mitad en una
tad, más. plancha ardiente, en promedio estás disfrutando de una tem-
peratura agradable. Esto sería cierto si la estadística descrip-
Ahora, el dato que ocurre con más frecuencia también es in- tiva no incluyera las medidas de dispersión.
teresante y se llama moda. En un conjunto de observaciones
es posible que exista una moda única (datos unimodales);
varias modas (datos multimodales) o, en el caso extremo en
que todas las observaciones sean distintas, se dirá que no
existe moda. Esta medida es muy relevante porque revela un
poco más del comportamiento interno de los datos, aún en
forma resumida. Es posible obtenerla con la instrucción:
=MODAO en Excel.

En RStudio debes instalar el paquete modeest, con las indica-


ciones de las figuras 8 y 9. Hecho esto, escribimos :
l i b r ary(modees t)
Mod a ( - mfv(Ca l i f)

Moda
El resultado en este caso, es de 7.6 que, por cierto, se repite Tal como lo expresa Dickensen el epígrafe, la realidad suele ·
cinco veces en las observaciones. Verifícalo tú también. Tam- contener claroscuros y extremos opuestos. Nuestro país, Mé-
bién es consistente con el histograma de la figura 15, donde xico, es una nación donde convive uno de los hombres más
se observó que el valor más alto está entre siete y ocho. ricos del mundo con millones de personas en extrema pobre-
za. y tal vez ambas cosas no sean tan ajenas una de la otra.
Como media, mediana y moda fueron parecidas entre sí, Por eso requerimos hacer concienda de estos extremos y
quiere decir que los datos están bastante agrupados alrede- medir estas diferencias.
dor de ellas. Esto también indica que los datos no son muy
dispersos o diferentes entre sí, pero esto lo analizaremos más De la misma forma en que las medidas de tendencia central
en la siguiente sección. brindan un resumen acerca de los valores hacia los cuales se
acercan los datos, las medidas de dispersión son números -
estadísticas descriptivas, también- que reflejan la forma en
9. Tan lejos, tan cerca: medidas de dispersión que varían los datos cuantitativos.
Era el mejor de los tiempos, era el peor de los tiempos, era Supongamos dos ejemplos distintos. Si en un conjunto de
la edad de la sabiduría, era la edad de la estupidez, era la diez datos tenemos cinco valores iguales a 4.5 y cinco iguales
época de la fe, era la época de la incredulidad, era la a 5.5, ¿cuánto vale la media? Podemos verificarlo rápidamen-
temporada de la Luz, era la temporada de la Oscuridad, era te en R:
la primavera de la esperanza, era el invierno de la
desesperación ... CHARLES DICKENS, Historia de Dos Ciudades. mean (e (rep (4 . 5 , 5) , 'rep (5 . 5 , 5 »}
La instrucción anterior da como resultado cinco, lo cual segu- plo, si se desea medir el efecto de un medicamento, se le apli-
ramente ya imaginabas. Ahora pensemos que los datos son cará a grupos de pacientes que tengan circunstancias seme-
cinco valores iguales a cero y cinco valores iguales a diez. En R: jantes y cuyas respuestas sean similares, excepto por la
mean{c{rep(O, S ) ,rep (l O,5))) aplicación o no del medicamento. Un pedagogo nos indicará
que es más sencillo explicar un tema a un grupo de alumnos
El resultado es el mismo, cinco. Ambos conjuntos de datos que tienen experiencias y conocimientos semejantes, que a
tienen la misma media. Sin embargo, estarás de acuerdo en un conjunto de .individuos con diferencias de edad, nivel edu-
que son dos situaciones distintas. En el primer caso los datos cativo, lenguaje y cultura. El economista procurará aislar el
son muy parecidos entre sí; en el segundo, no. Necesitamos efecto de una variable al mantener constantes otros aspectos
otras medidas adicionales que expliquen esta heterogeneidad que puedan modificar los resultados.
de los datos.
En fin, las medidas de dispersión son indispensables para
Piensa en un profesor que va a dar ·una clase. La situación es hacerse una idea clara de la estructura de una población, para
distinta si los alumnos saben más o menos lo mismo sobre el seleccionar muestras, para interpretar resultados y para sa-
tema y tienen más o menos el mismo interés, que si tiene un car conclusiones válidas.
grupo heterogéneo, que será más difícil de atender. Si un in-
vestigador quiere describir la opinión de una población sobre Una primera y elemental medida de dispersión es el rango,
un tema como el programa "Hoy no circula", puede encon- definido como la diferencia entre el valor máximo y el valor
trarse con que todos opinen de manera semejante o con que mínimo ' observados en un conjunto de datos. Al comparar
haya posiciones encontradas y polémicas. Cuando hablemos dos grupos similares, por ejemplo, un mayor rango indicará
del muestreo en la sección 14, veremos también que la hete- mayor variabilidad.
rogeneidad de los datos observados es un elemento sustan- Para calcular el rango con Excel pueden ordenarse los datos
cial para definir el tamaño de la muestra. Así pues, medir la de menor a mayor usando el icono Orden ascendente (figura
heterogeneidad es muy importante. 16). Hecho esto, se resta el valor máximo (último de la lista)
Las medidas de tendencia central nos dan una visión incom- menos el valor mínimo (primero de la lista).
pleta si no las integramos con algún elemento que hable de
qué tan lejos o cerca de ellas están la mayoría de las observa-
ciones. Este nuevo elemento son las medidas de dispersión.
Las medidas de dispersión son un instrumento que arroja FIGURA 16: ORDEN ASCENDENTE EN EXCEL.
luz con respecto a qué tan bien (o qué tan mal) son represen-
Obtener el rango en R para los datos de las calificaciones de
tados los datos por las medidas de tendencia central. Mien-
la figura 13 es inmediato, simplemente escribe:
tras más homogéneos sean los datos, más parecidos serán a
la media, por ejemplo, y por lo tanto podremos confiar más Rango < - ma x(Calif)-min( Ca lif)
en ella como resumen de las características de la población. Rango
En cambio, si los datos están muy alejados entre sí, la media 6 .4
puede resultar más engañosa que útil.
Un segundo acercamiento proporcionado por las medidas de
Un investigador deberá preocuparse siempre por la hetero- dispersión es calcular la desviación absoluta promedio. Si
geneidad de sus observaciones y procurará controlarla para comparamos cada medición con la media aritmética, podre-
que esa variación no interfiera en sus resultados. Por ejem- mos evaluar qué tan lejos o cerca está de ella.
Como no importa si la distancia es positiva o negativa, sino su Lt=l (Xi - X)2
magnitud, se toma su valor absoluto, es decir el valor siempre S
2
= n-l
será positivo. Una vez obtenidos todos los valores absolutos ECUACIÓN 6: VARIANZA MUESTRAL.
de las diferencias, se promedian, es decir, se suman y se divi-
den entre el total de observaciones. ASÍ, el cálculo se expresa En este momento, si eres observador tal vez te preguntas por
con las fórmulas: qué en la Ecuación 6 dividimos entre n - 1 Y no entre n. De-
jaremos eso en el misterio y sólo diremos que esto mejora el
Lf=ll x i - ¡tI resultado que se obtiene. Por ahora debes conformarte pen-
D APpoblacional N
sando que, si el valor de n es relativamente grande, n y n - 1
ECUACIÓN 3: DESVIACIÓN ABSOLUTA PROMEDIO POBLACIONAL. son más o menos lo mIsmo.
Lt=llxi -xl En Excel se calcula la varianza poblacional con la instrucción
DAPMuestral
n =VARP( J y la muestral con =VAR( J. En R la instrucción var ()
ECUACIÓN 4: DESVIACIÓN ABSOLUTA PROMEDIO MUESTRAL. devuelve la varianza muestra!.
Ambas pueden obtenerse en Excel con la palabra =DESVPROM(), Por último, más que la varianza y la desviación absoluta pro-
o con R, usando las instrucciones: medio, suele utilizarse la desviación estándar, que es sim-
DAP <- sum{abs(Calif-mean{Calif) ) )/length(Calif) plemente la raíz cuadrada de la varianza, calculada como se
DAP ve en las ecuaciones 7 y 8, para los casos de población y
muestra.
1.21056

La primera instrucción hace la suma del valor absoluto de Lf-l (Xi - ¡t)2
cada calificación menos la media de todas y esa suma la divi- a=
N
de entre el total de observaciones. Es importante cuidar los
paréntesis para no cometer errores. ECUACIÓN 7: DESVIACIÓN ESTÁNDAR POBLACIONAL.

Otra forma de hacer que las distancias sean siempre positivas ",n ( . _ -)2
L..i=l Xl ·X
es elevarlas al cuadrado. Al hacer esto, las distancias muy s=
pequeñas se harán aún menores (por ejemplo, al elevar al n-l
cuadrado 0.5 se obtiene 0.25), mientras que las mayores cre- ECUACIÓN 8: DESVIACIÓN ESTÁNDAR MUESTRAL.
cerán (5 al cuadrado es 25). Esto es, la medida resultante será
un poco exagerada. SU uso es tan extendido, que Excel también te ofrece funcio-
nes para cada una. La desviación estándar poblacional se
Así, se calcula la varianza que mide el promedio de las dis- obtiene con =DESVEST.P( J y la muestralcon =DESVEST.M( J. En R,
tancias a la media, elevadas al cuadrado. Si es poblacional, como ya te imaginarás, la desviación estándar muestral se
usarás la ecuación 5; sies muestral, la ecuación 6. En la ecua- calcula de la siguiente forma:
ción 5 la letra griega es sigma, elevada al cuadrado.
DesvEst <- sd(Calif)

a2 = Lf-l (Xi - ¡t)2 DesvEst


N Que debe arrojar un resultado de 1.496723. Si cuentas con
ECUACIÓN 5: VARIANZA POBLACIONAL. una calculadora científica, de las que tienen funciones mate-
máticas, es muy posible que aparezcan dos teclas que corres- Las medias son parecidas, 6.008 para el grupo A y 5.684 para
ponden, respectivamente, a las ecuaciones 7 y 8: Sn y Sn-1. el grupo B, cerca de seis en ambos casos. Sin .embargo, sus
desviaciones estándar son 0.5040833 para A y 1.494902 para
Gracias al matemático ruso Pafnuty Chebyshev (1821-1894),
B. Esto concuerda con lo que observamos en las figuras. El
la desviación estándar -tiene interpretaciones importimtes.
grupo B es mucho más heterogéneo. La desviación estándar
Por ejemplo, en ciertas poblaciones numerosas y agrupadas
nos ayuda a notar esta situación.
simétricamente alrededor de la media, se espera que el 95%
de las observaciones queden en un intervalo de dos desvia-
ciones estándar arriba y debajo de la media. Esto nos permi- 10. ¿Qué tan normal es ser normal?
tirá, más adelante, comparar poblaciones y detectar
anomalías con facilidad.
Depresión, ansiedad y tristeza suelen considerarse
La desviación estándar es la medida más utilizada para detec- sinónimos, pero deben diferenciarse. La depresión normal
tar la variabilidad intrínseca de los datos. Mientras mayor es común y suele durar solo minutos, horas o días. La
depresión clínica es depresión con un estado de ánimo de
sea, sabremos que nuestra población es más heterogénea y cierta severidad que ha durado más de dos semanas y que
que, por lo tanto, debemos ser más cuidadosos en la obten- tiene un componente de discapacidad dentro del
ción de muestras y conclusiones. funcionamiento personal (Pa(ker, 2012).

Veamos un ejemplo un poco exagerado. Supongamos que "¡Ven conmigo siempre -toma cualquier forma-, vuélveme
tenemos dos grupos de alumnos, A y B, que presentaron un loco! No me dejes en este abismo dQnde no puel:lo
encontrarte. ¡Oh, Dios, es insoportable! ]No puedo vivir sin
examen de español y obtuvieron las calificaciones de la figura mi vida! ¡No puedo vivir sin mi alma!". EMILY BRONTE,
17. Cumbres Borrascosas.
> Ci'll if. A Ya no la quiero, es cierto, pero cuánto la quise.
[ 1 1 6 . 3 s . a 6.0 5.2 6.5 4.9 6 .4 6.1 6 . 2 6. 1 1.3 6.2 5.5 5.9 6 . 2
( 16 ) 5.1 6.3 5. 5 5. 4 6.0 6.2 6. 1 6.2 6 .7 5 . 5 Mi voz buscaba el viento pata tocar su oído.
).- Calif. B De otro. Será de otro. Como antes de mis besos.
(1 ) 4 . 0 7.0 2 . 0 5.4 3.3 "S.l 5.5 5.2 4.5 4.1 5.7 5 .0 6.0 4. 8 7. 4 Su voz, su cuerpo claro. Sus ojos infinitos.
rI6l 6 .7 6.6 5.8 7.5 7.0 4.] 1.B 5 . 6 6 . 6 ~.?
Ya no la quiero, es cierto, pero tal vez la quiero.
Es tan corto el amor, y es tan largo el olvido.
FIGURA 17: CALIFICACIONES DE ESPAÑOL DE LOS GRUPOS A y PABLO NERUDA, Poema Xx.
B, RESPECTIVAMENTE.
Si observas el histograma de cada grupo, verás que son dis-
tintos (figura 18). La idea de los tres epígrafes ante-
riores es reflexionar sobre el con-
cepto de depresión y la diferencia
Hlstogrlm of e,IIrA Hlltogram of eilll'.B
ente una depresión "normal" y una
depresión "clínica". El primer párra-
fo da una definición formal, mien-
tras que los dos últimos son figuras
" • .. poéticas que reflejan tristeza .
Probablemente todos hemos sentido algún grado de depre-
FIGURA 18: HI STOGRAMAS DE CALIFICACIONES DE DOS
GRUPOS.
sión, pero no siempre la consideramos un problema. En algu-
nos casos nos parece normal, sobre todo si hemos sufrido de estudioso puede ser anormal porque es poco frecuente, pero
una pérdida amorosa, ¿no es cierto? Nos da por añorar la por supuesto que nadie debería sentirse mal por eso.
muerte y cosas así, pero no pasa a mayores. Cuando la situa- Para entrar al tema, debemos decir que existe una estrecha
ción se sale de lo normal, pensamos que debe tomarse alguna relación entre la estadística y la teoría de probabilidades.
medida para atacar el problema. Esta teoría estudia el comportamiento de los eventos cuya
Por lo tanto, es importante saber cuándo algo es normal y ocurrencia es, en alguna medida, incierta. Por ejemplo, al
cuándo deja de serlo. Necesitamos elementos que nos permi- lanzar una moneda, no sabemos de antemano si caerá águila
tan saber si un fenómeno cae dentro de una regularidad es- o sol. Sin embargo, al haber dos opciones con la misma posi-
perada o es una situación sorprendente, fuera de lo común. bilidad, debemos esperar que, si lanzamos muchas veces la
La estadística es un buen apoyo en este trabajo delicado. moneda, la mitad de las ocasiones caiga águila y la mitad, sol.
De la misma forma, aunque no podemos asegurar si lloverá
Pensemos en otro ejemplo. Supongamos que se nos ocurre mañana, consideramos que aumenta la probabilidad de que
hacer una encuesta y preguntar a un grupo de estudiantes esto ocurra si está nublado o si estamos en verano. Dicho de
universitarios el número promedio diario de horas que ven otro modo, la probabilidad es lo que sí conocemos de los
televisión entre semana, es decir, de lunes a viernes. Si to- eventos inciertos.
mamos una muestra adecuada, es decir, representativa de la Decía el francés Henri Poincaré (1854-1912) que "el azar es
población de estudiantes universitarios, tendríamos una clara la medida de nuestra ignorancia" y, en ese sentido,la proba-
idea de qué es lo "normal" entre los estudiantes. Peto, ¿a qué bilidad es precisamente una forma de organizar y prever
lIamamós normalidad en este caso? aquello que nos resulta desconocido. Gran parte de los fenó-
!
'Qué entiendes tú por normal? ¿Te consideras una persona menos reales que pueden estudiarse están sujetos a algún
~ormal?' ¿Tu estatura es normal? ¿Tu inteligencia es normal? tipo de incertidumbre y pueden, por lo tanto, analizarse con
'Tu relación con las demás personas es normal? .. No te preo- el apoyo de funciones probabilísticas.
~upes, no se trata de analizarte ni de crearte problemas exis- Tomemos nuevamente ejemplo de la moneda. Supongamos
tenciales. Solo quisiera hacer una distinción semántica que que si al lanzarla obtenemos águila, el resultado es 1 y en
me parece muy importante. otro caso, si es sol, es O. La lanzamos varias veces y vamos
Este asunto de la normalidad nos causa cierta angustia en la sumando los resultados. La variable aleatoria o probabilística
vida, especialmente en la adolescencia. Revisemos un poco. Xn será la suma de los resultados de n lanzamientos sucesivos.
De acuerdo con el Diccionario de la Real Academia, la palabra En el primer lanzamiento podemos obtener O o 1 para Xl; en
normal hace referencia a una norma o regla a la cual deben el segundo: O, 1 o 2 para Xz; en el tercero: O, 1, 2 o 3 para X3 ,
ajustarse las conductas. Así pues, el concepto está relaciona- y así sucesivamente. ¿Con qué probabilidades? Ah, eso de-
do con un comportamiento supuestamente deseable. pende del número de formas en que cada evento puede ocurrir.
Sin embargo, desde el punto de vista estadístico, la normali- En cuatro lanzamientos tendríamos las probabilidades orga-
dad no tiene que ver con cuestiones de ética, legislación ni nizadas en el cuadro 2, para la variable aleatoria X4 . Por
moral. Se refiere solamente a aquello que ocurre con más ejemplo, para que ocurran Oáguilas en 4 lanzamientos, deben
frecuencia, a las situaciones generalizadas o a lo que hace la caer: sol, sol, sol y sol. La probabilidad de un sol es 'Iz. La pro-
mayoría. Aquí lo normal no es necesariamente lo correcto, ni babilidad de dos soles es 'Iz x 'Iz, esto es, 'J.. Se calcula como
ser anormal tiene por qué ser algo malo. Ser un alumno muy el producto de los dos valores cuando un evento no influye en
la probabilidad del otro, en cuyo caso se dice que ambos Observa que la figura 19 es simétrica, es decir, se ve como en
eventos son independientes. Así, la probabilidad de cuatro un espejo, igual a la derecha y a la izquierda del valor central.
,(,)4~ 16'
so1es seguI'd os serta:; 1 De hecho, la probabilidad de 1 y 3 es la misma, así como la de
Oy cuatro.
CUADRO 2: DISTRIBUCiÓN DE PROBABILIDADES PARA CUATRO
LANZAMIENTOS DE UNA MONEDA LEGAL. Por ahí va la cosa. La teoría de probabilidades es un gran
apoyo matemático para dilucidar si un evento se puede con-
Evento X. Formas en que puede ocurrir el Probabilidad
siderar o no como normal, en el entendido de que esto signi-
evento
fica que ocurra con mucha frecuencia.
o águilas 1:0000 1/16=0.0625
1 águila 4: 1000, 0100,0010,0001 4/16=0.2500 Así, si en lugar de cuatro lanzamos grupos o series de cien
2 águilas- 6: 1100,1010, 1001,0110,0101, 6/16=0.3750 monedas, obtendríamos la gráfica de probabilidades de la
0011 - figura 20, para el valor aleatorio X 100 •
3 águilas 4:1110, 1011,0111,1101 4/16=0.2500 J
4 águilas 1: 1111 1/16=0.0625 Esta figurase obtiene con el razonamiento anterior o utili-
Cualquiera 16: Todas las anteriores 16/16=1.0000 zando R que tiene una función para ello: la distribución bi-
nomial con probabilidad 0.5 por ser una moneda y tamaño de
Estas probabilidades pueden graficarse como se muestra en muestra 100 en este caso. El código para obtenerla es:
la figura 19, en la cual observaríamos que lo más frecuente, lo plo t( O:lOO,dbinom( O:1 00 , prob=O . 5 , s i ze=100 ),
que esperamos que suceda un 37.5% o casi un 40% de las
t ype="h", x l ab=" Águ i las e n 1 00
veces, es que se obtengan dos águilas y dos soles; mientras
que un cuarto de las ocasiones tendríamos un águila y tres lanzamie nt os " f ylab= " Prob")
soles o tres águilas y un sol; y casi nunca (6.25% de las veces)
resultarán cero o cuatro águilas. Así, si lanzamos cuatro mo- La función pI o t es para hacer gráficas en coordenadas XY. En
nedas mil veces y en 900 casos observamos que cayeron cua- este caso la X son los valores posibles del número de águilas
tro soles seguidos, pensaríamos que esas monedas en cien monedas, es decir, del Oal 100. La Y son las probabili-
particulares son "anormales". En cambio, si esto ocurre más o dades que se calculan con la función db i norn que es la distri-
menos sesenta veces de las mil, nos parecerá "normal". bución binomial evaluada en los valores de X, con
probabilidad de águila de 0.5 y considerando 100 lanzamien-
tos. La h es para que haga las líneas verticales y lo demás son
'"
<"">
o letreros coquetos. Anímate a probarla y a cambiarle valores a
-" - ver qué pasa. ¿Qué debes modificar para que en lugar de la
e
o-
o
~ figura 20 aparezca la figura 19, por ejemplo?
o

'"oo I I

2 3 4
° Aguilas en 4 lanz¡¡mientos
FIGURA 19: DISTRIBUCiÓN DE PROBABILIDAD PARA EL
NÚMERO DE ÁGUILAS EN CUATRO MONEDAS.
1 (X_~)2
ro
q [ex) = e 2cT
o ';2 rrq 2
..c ECUACiÓN 9: DISTRIBUCiÓN NORMAL DE PROBABILIDAD .
o ~
~ C)
En ella, /l es la media y q2 es la varianza de la población que
o
o se estudia. También hay dos constantes: e y rr, que ya había-
o mos revisado en la sección 4. La variable x puede tomar cual-
o 20 40 60 80 100 quier valor desde menos infinito (-00) a infinito (00), pero la
curva sólo tendrá valores interesantes cerca de la media. De
Águilas en 100 lanzamientos hecho, la curva suele graficarse entre la media menos y más
FIGURA 20: DISTRIBUCiÓN DE PROBABILIDAD PARA EL dos desviaciones estándar.
NÚMERO DE ÁGUILAS EN CIEN LANZAMIENTOS.
Para graficar esta curva, podemos usar nuestro entorno R.
Podemos ver que resultará común obtener entre 45 y 55 Puedes hacerlo paso a paso o aprovechar que esta ecuación
águilas dentro de los cien lanzamientos, pero será extraño ya está definida de antemano. Supongamos que la media es m
(aunque no imposible) obtener menos de 30 O más de 70. y la desviación estándar es s. Entonces, si por ejemplo,
Aunque parecen ceros, los valores extremos de la figura, a la m = 100 Ys = 6,Ias instrucciones serían:
izquierda y a la derecha, son números muy pequeños, no ro <- 100
exactamente ceros. Eso significa que esos eventos son muy
s <- 6
poco probables. "
curv e (1/sqrt(2*p i *sA2)*exp {- (x-m)A2/(2*sA2) ),
Con algo de imaginación podrás ver algún parecido entre las
figuras 19 y 20. También podrás sospechar cómo se verá la from=m-3*s,to=m+3*sJ
figura para 500 o 1,000 lanzamientos. Todas ellas tienen ca- cu rve(dn o rm(x,rn, s ),from=m- 3*s,to=m+3 *s }
racterísticas semejantes: son simétricas con resp"ecto al valor
Ya sea que uses la primera o la segunda curva, el resultado
medio, tienen valores dé probabilidad altos cerca del centro y será el de la figura 21.
valores muy pequeños cuando la variable se aleja de él. hacia
la izquierda o la derecha.
<O
Como muchos fenómenos reales siguen este tipo de compor- ú) o
tamiento, algunos matemáticos se dieron a la tarea de encon- E
o
trar una ecuación que tuviera precisamente esta forma. ~ <'l
q
Puedes observar que es una especie de campana suavizada. § o
o
Esto dio lugar a la distribución de probabilidad más utilizada e o
u q
en la estadística: la distribución normal o campana de o
Gauss, llamada así en memoria del matemático alemán Carl 85 90 95 100 105 110 115
Friedrich Gauss (1777-1855), aunque fue presentada por
primera vez por Abraham de Moivre (1667-1754). La ecua-
X
ción correspondiente es la 9.
FIGURA 21: DISTRIBUCiÓN NORMAL CON MEDIA lOOy
DESVIACiÓN ESTÁNDAR 6.
Para detectar qué sucede al variar la media y la desviación más agrupadas alrededor de la media, los datos son más ho-
estándar, aprovechando que R es muy sencillo, podemos gra- mogéneos,
ficar juntas tres figuras: (a) una con media 100 y desviación ¿Por qué es tan importante esta curva normal? En muchas
estándar 3; (b) otra con media 100 Y desviación estándar 6; mediciones de fenómenos reales suele ocurrir que la mayoría
(c) otra más con media 90 y desviación estándar 6. El código de los datos se .agrupan alrededor de un valor medio; .mien-
es el siguiente: tras que los datos extraños o anormales, es decir, los de los
extremos alejados de la media, a izquierda y derecha, son
curve (dn orm( x, 100 , 3) , from=80,to=1 20, muy escasos, De ahí la importancia de esta distribución : sirve
y l ab=" Curva s n (lrrn;¡ l e s " ~ 1 t y=l ) para modelar gran número de aspectos, En este sentido, no
curve(dnorm(x .l 00,6 ) /add=T , l t y ~2 ) por nada Neil Salkind (2012) escribe en su libro todo un capí-
tulo sobre la curva normal titulado "¿Por qué Dios ama la
curve(dnorm (x, 90 ,6),add= T, lty=3 )
curva normal?".
Piensa por ejemplo en la estatura o el peso de una persona.
ro'"
'E" '" ~

C>
La mayoría de las personas del mismo sexo y edad, tienen
,. una estatura semejante, Pocas son mucho muy altas o mucho
O
c: <D
o .----.. ".
';;,'
-,'---- . . .. ,, muy bajas, En el caso del peso, al ser una variable relacionada
,, ,,
'"ro2: O
." .- ".
' .. .... " con la salud, existe una medida importante que también con-
=>
()
o
el
.'
--- . ,' -' _..... _...... '-- sidera a la estatura: el índice de masa corporal o IMe. Según
O la Organización Mundial de la Salud (OMS, 2014), este índice
80 90 100 110 120
se calcula dividiendo el peso de una persona en kilos entre el
cuadrado de su talla en metros, Si peso 55 kilos y mido 1.61
X
metros, mi ¡MC será de 21.22.
FIGURA 22: VARIAS CURVAS NORMALES.
¿Cómo saber si mi IMC es normal o representa problema? De
Hemos puesto diferentes tipos de línea a cada una con lty. La
acuerdo con la OMS, el valor promedio del ¡MC es de 20, con
instrucción add es para que coloque todas las curvas en la
una desviación estándar de 5, Cuando ellMC sobrepasa 25 (la
misma gráfica, ¿Podrías identificar cuál es cuál en la figura
~edla más una desviación estándar), tendríarrios sobrepeso,
22? Sl el ¡MC rebasa 30 (media más dos desviaciones estándar),
Si modificamos el valor de la media, lo único que sucede es es un caso de obesidad. Como mi ¡MC fue de 21.22 puedo
que la curva se desliza en forma horizontal, colocando siem- estar tranquila al respecto, .
pre su punto máximo en donde está la media, es decir, en el
valor que ocurrirá con mayor frecuencia, La gráfica de la función normal del ¡MC se puede obtener con
el siguiente código en R y se ve en la figura 23:
En cambio, al variar el valor de la desviación estándar, la cur-
va se aplana si la desviación aumenta o se afila en caso con-
trario, Observarás que, si la desviación estándar es mayor, la curve (dno rm(x , 20 , 5) , from=5 , t o=35 , xlab=" I MC" ,
curva tiende a hacerse más plana: existe mayor dispersión en y l a b="P (IMe " )
los datos, son más heterogéneos , Si la desviación estándar es
menor, la curva se afila o agudiza: las observaciones estarán
y d~sviación estándar 5? Para ello se usa la función de distri-
ro
q bUCIón acumul.ada que es el área bajo la curva desde algún
o punto h aCIa la IzqUIerda. Para calcular el área que nos intere-
Ü sa debemos tomar el área a la izquierda de 25 y luego restarle
~ Ol;
o al área a la izquierda de 15, eso nos dejará sólo el área entre
~ 15 y 25. Esto se obtiene con el siguiente par de instrucciones:
.o
q
o prob < - pn o rm(25 , 20 , S) - p norm( 1 5,20 , S )
5 10 15 20 25 30 35
Pr ob
IMe
Lo cu~l da un resultado de 0.6826895. Esto significa que es-
FIGURA 23: DISTRIBUCIÓN NORMAL DEL fNDlCE DE MASA
CORPORAL. peranamosque un 68.27% de la población tenga un IMC de
entre 15 y 25. El área que hemos calculado aparece sombrea-
¿Qué ventajas se obtienen al contar con esta curva? Un resul- da con gris en la figura 25.
tado importante, probado por el matemático ruso que ya
mencionamos, Chebyshev, es que si un evento se comporta en '"oo ,',

forma aproximada a esta curva, esperaríamos que el 68.27% o ..l{:(;.:;_::~~ o;,

de las observaciones se encuentren entre la media menos y ::;; c:!! :~':~, , ' -' ,".' :;' /

más una desviación estándar; el 95.45% entre la media me- n: o


oo
nos y más dos desviaciones estándar y casi todas (el 99.73%) o
caigan en el intervalo de la media menos tres y más tres des- 5 10 15 20 25 30 35
viaciones estándar. En la figura 24 se ejemplifica este resultado.
IMe
FIGURA 25: EN GRISLA PROBABILIDAD DE TENER UN¡MC
OA NORMAL, ENTRE 15 y 25.
Supongamos que ahora deseamos saber qué porcentaje de
0.3 personas sufren de sobrepeso en esta población. Para ello
corres pondería usar las instrucciones:
0.2 Prob < - pno r m(30 , 20 , S) - pnorm (25 , 20 , S )
Pro b
0.1
1% Lo cual da un resultado de 0.1359051, es decir, en esta pobla-
ción esperaríamos encontrar un 13.59% de personas con
- 30 - 20 - 10 ~ 10 20 30 so~repeso: El área que hemos calculado está marcada con
FIGURA 24: RESULTADOSDE CHEBYSHEV PARA LA gns en la fIgura 26.
DiSTRIBUCiÓN NORMAL.
Es~ información tiene una utilidad' práctica evidente. Si es-
Podemos comprobar esto con R en el ejemplo del IMC. En tudI~mo~ una población en particular, digamos, dentro de un
principio, hemos dicho que lo deseable sería tener un IMe mUnICIpiO del Estado de México, y encontramos que en una
entre 15 y 25. ¿Cuál es la probabilidad de que eso ocurra, muestra de datos hay, por ejemplo, 25% de personas con
dado que el IMC se distribuye en forma normal con media 20
sobrepeso, eso nos debe preocupar. El valor es bastante ma- 27. Como la media es el punto central, 6, el área a la izquierda
yor de lo esperado, que era el 13.59%. Algo está sucediendo (o derecha) es exactamente la mitad.
con esa población, tal vez cambios en los hábitos alimenticios
o falta de ejercicio o ambos.
'"

~
o

m .!!- N --,-_o,
q n
o
o ~
:":: :~r:,:~~' :;.
O'
::E
a::
~
o
"-
o
o ¡
">/,'t ~:,' :
¡ I
oq
o 2 4 6 B 10
o
5 10 15 20 25 30 35

FIGURA 27: PROBABILIDAD DE REPROBAR EN ELGRUPO DE
IMe MATEMÁTICAS.
FIGURA 26: EN GRIS LA PROBABILIDAD DE TENER SOBREPESO
CON UN IMC ENTRE 25 y 30.
Este pequeño ejercicio podría plantearse al revés. Suponga-
mos que el profesor es misericordioso y se da cuenta de que
De la misma forma podríamos resolver casos parecidos. Su- tiene un gran número de reprobados. Entonces, decide califi-
pongamos que las calificaciones de matemáticas de un grupo car con diez al grupo de alumnos que obtuvieron mejor califi-
son seIPejantes a una curva normal, con una media de seis y cación que el 80% del grupo. Es decir, le pondrá diez al 20%
una desviación estándar de uno. Un alumno nos dice que en de mejores alumnos. Calificará por escala o por campana,
este grupo es "normal" obtener una calificación reprobatoria. como dicen los chicos.
¿Tiene razón el estudiante? Por lo pronto, observamos que en
este grupo aproximadamente un 68% de alumnos obtendrá Ahora el problema es inverso. Tenemos el área de 0.80, pero
entre 5 y 7; un 95% entre 4 y 8; Y un 99.73% entre 3 y 9. Será no sabemos a qué valor de calificación corresponde. Por su-
muy poco frecuente encontrar valores de O, 1,9 o 10. puesto, R tiene la solución. El valor que vamos a encontrar se
llama punto crítico, se denota por XO.80 , y se localiza con el
Calcularíamos la probabilidad de obtener un resultado entre siguiente código:
cero y seis, sin llegar a ser seis, restando las probabilidades
Punto . cr i t i co <- q no r m(O.8 , 6, 1)
de la ecuación 10. Tenemos que restar la probabilidad de una
calificación cero o menor, porque la curva normal tiene valo- Pun to. critico
res infinitos ala izquierda, pero verás que esa probabilidad es El resultado es que el profesor debería poner diez a todos los
muy pequeña. alumnos que obtuvieran más de 6.841621 de calificación. La
P(O $;X < 6) '= P(X < 6) - P(X $; O) función se llama qn orm o función cuantil porque nos da el
ECUACIÓN 10: PROBABILIDAD DE OBTENER UN RESULTADO valor crítico que corresponde al cuantil 80. El cuantil 80 es el
ENTREOY6. valor que agrupa al 80% de los datos. En particular, el cuantil
50 es la mediana o X O•50 , que vimos en la sección 8. ¿Cuál será
Puedes verificar que el resultado es 0.5000, es decir, espera-
entonces el resultado del siguiente código? ¿Por qué?
ríamos que un 50% del grupo, la mitad, esté reprobado con
puntuaciones entre O y 6: el alumno tiene razón y segura- Pu nto . criti co <- qnor mIO. 5 , 6 , 1 )
mente hay que cambiar al profesor. Esto se ilustra en la figura Punto . cri t i co

Esto de las áreas bajo la curva y los puntos críticos ... ¿es 11. Relaciones peligrosas o correlaciones
realmente tan importante? Efectivamente: son herramientas
esenciales que sustentan la estadística inferencial, que vere- Mi abuela tenía una teoría muy interesante, decía, qu e si
bien todos nacemos con una caja de cerillos en nuestro
mos en la parte m, y permiten acercarse al conocimiento de
interior, no los podemos encender solos; necesitamos. como
una población a través de una muestra. en el .experimento, oxígeno y la ayuda de una vela. S6lo que
en este caso, el oxígeno tiene que provenir, por ejemplo, del
Cerremos esta sección regresando al ejemplo de las monedas, aliento de la persona amada; la vela pu ede ser cualquier tipo
donde la variable aleatoria se formaba sumando el número de alimento, música, caricia, palabra o sonido que haga
de águilas en n lanzamientos. Todas las monedas tienen pro- disparar el detonador y así encender uno de los ceriIJos.
babilidad 0.5 de caer en águila y 0.5 de caer en sol. Pero, al LAURA EsQUlVEL, Camo J\gua para Chocolate.

sumar muchas monedas, la figura de la distribución de pro-


babilidad comenzaba a parecerse a la curva normal, como se
ve en la figura 2 O. Lo curioso es que este hecho se repite con
cualquier evento probabilístico.
Lo anterior se enuncia formalmente en el téorema dellfmite
central: Sean Xl,XZ'''' ,Xn una secuencia de n variables alea-
torias independientes entre sí, que provienen todas de una Una de las aplicaciones más maravi-
misma distribución de probabilidad cualquiera, con media ¡J llosas y apasionantes de la estadística es el estudio de las
y desviación estándar 0' . Para un valor suficientemente gran- relaciones de causa y efecto. A veces, dos variables o series de
de de n' (generalmente más de treinta) la suma Sn = Xl + datos se mueven juntas por alguna razón o causa común,
Xz + ... + Xn sigue aproximadamente una distribución nor- entonces los analistas pueden tratar de medir su relación y
mal con media n¡J y desviación estándar O',fñ. de identificar si ésta es real.

Este resultado -cuya prueba está fuera del alcance de este Cuando tenemos un problema y queremos resolverlo, siem-
texto, pero puede consultarse en otras fuentes- es sumamen- pre buscamos cuáles son sus causas. Para curar el cáncer, es
te útil. Como seguramente recordarás, en la sección 7 comen- indispensable saber exactamente qué lo ocasiona. Para mejo-
tamos que la media muestral es una suma de n rar la economía del país, necesitamos atender los elementos
observaciones, que son variables aleatorias, por lo general críticos que pueden hacerla crecer. Para mejorar el aprendi-
independientes entre sí, dividida entre n. Ahora sabemos, zaje de las matemáticas, es necesario saber qué lo dificulta.
entonces, que la media muestral sigue aproximadamente una En fin, conocer la causa o las causas de un evento es algo muy
distribución normal con media ¡J y desviación estándar O' /,fñ. valioso.
No te preocupes mucho por los valores, lo importante es que Caveat lector (ten cuidado, lector): las mediciones estadísti-
sabeinos cómo se comporta la probabilidad de la media cas NO tienen la capacidad de discriminar las causas que pro-
muestral yeso será muy útil en la inferencia estadística. ducen un efecto, únicamente nos indican si al cambiar una
variable, la otra se modifica en proporción directa o inversa.
Es responsabilidad exclusiva del investigador diagnosticar si
efectivamente la primera influye en la segunda. Veamos algu-
nos ejemplos para insistir en esta idea.
Ejemplo 1: Hace poco se encontró un alto coeficiente de co- que produce. el cáncer. no. se podrá saber exactamente si eso
rrelación positiva entre la producción de pulque en México y es cierto. Sin embargo, la Organización Mundial para la Salud
el número de publicaciones de los investigadores de la (Stewart et al., 2003)ha encontrado elementos estadísticos
UNAM. ¿Significa esto que hay que proveer de abundante importantes que hacen pensar que sí existe esta relación. En
pulque a los investigadores? Probablemente no, lo que suce- la duda, por supuesto, lo mejor es no fumar:
de es que ambas mediciones han aumentado a través del Para determinar el tipo y magnitud de las relaciones se utili-
tiempo, sin tener nada que ver una con otra. zan medidas de correlación entre una variable dependiente y
Ejemplo 2: Se ha comprobado estadísticamente la afirmación una independiente. Veamos un ejemplo interesante que ya
"los niños con pies más grandes leen mejor". Debe ser cierto, habíamos visitado en la sección 4.
puesto que los niños cuyos pies son de mayor longitud suelen En el cuadro 1 habíamos presentado algunos datos importan-
tener más edad y, por lo tanto, mejores habilidades para la tes de México. Ahora, en el cuadro 3, te mostramos sólo el
lectura. Claro, esto no quiere decir que la causa de una mejor año, el ingreso per cápita (lPC) y la esperanza de vida al na-
lectura sea el tamaño de los pies. cer (EV). Parece lógico pensar que, si la población tiene un
mayor ingreso, su esperanza de vida será mejor. Es decir, po-
Ejemplo 3: Un joven platica a sus padres que reprobó la ma- demos considerar que el IPC es la variable independiente,
teria de estadística. Ante la pregunta ¿por qué?, el joven ofre- mientras que la EV es la variable dependiente.
ce varias respuestas: porque respondí dos de diez preguntas;
porque no e.studié lo suficiente; porque la materia es aburri- CUADRO 3: DATOS ANUALES DE M~xlco. FUENTE: (THE
da; porque no ~ntiendo; porque el profesor no explica bien; WORLD BANK, 2014). IPC=INGRESO PERCÁPITA EN DÓLARES
porque el profesor no domina la materia; porque el profesor INTERNACIONALES. EV=EsPERANZA DE VIDA EN A~OS.
no quería se.r profesor; porque el profesor tuvo una infancia ¡pe
Año EV
dificil... ¿Cuál de todas es la verdadera causa del mal resultado?
2004 10,860 75.24
Como investigadores o simples observadores sensatos de
2005 11,750 75.49
nuestro entorno, en muchas ocasiones hacemos supuestos
2006 12,840 75.74
acerca de la posible exfstencia de una relación entre varia-
bles. La estadística -en este caso descriptiva- es un instru- 2007 13,330 75.98
mento útil para recabar datos de manera ordenada y verificar 2008 14,030 76.23
si la suposición parece verdadera de acuerdo con ellos. 2009 13,780 76.46
Pero no debemos olvidar que el origen de la hipótesis es 2010 14,590 76.69
nuestra mente analítica, reflexiva y crítica. Las estadísticas 2011 15,650 76.91
son únicamente un elemento formal para apoyar o descartar 2012 15,910 77.14
la idea. Los números nos dan elementos que sirven para fun-
damentar la posible relación de causa y efecto, pero no esta-
blecen la relación de manera contundente y segura. . Para tener una perspectiva más clara, podemos hacer una
gráfica en un plano coordenado, donde x sea el ¡PC y y sea la
Por esa razón observamos que hay relaciones polémicas. Se
EY. Para ello leemos los datos anteriores como ya hemos vis-
dice, por ejemplo, que fumar ocasiona cáncer. Sin embargo,
to, con R. La gráfica se elabora entonces con las siguientes
no todos los científicos están de acuerdo en eso. Hasta que no
instrucciones:
se establezca con certidumbre cuál es el mecanismo biológico
Da t os < - rea d. c s v (fil e.choose() ) riable independiente, la variable dependiente tenderá a ser
Da to s menor.
pl ot (Da tos$ I PC, Datos$EV )
Para verificar si esta intuición corresponde al comportamien-
El resultado lo tenemos en la figura 28, en la cual se aprecia to de los datos, podemos nuevamente leer las observaciones
que, al incrementarse el valor de ¡PC, también se incrementa con R y elaborar el. diagrama de dispersión correspondiente,
el de EV: A esto se le llama una correlación positiva, que que se muestra en la figura 29.
sugiere .una relación directamente proporcional. Cuando la
variable independiente crece, la variable dependiente tam-
bién se incrementa. CUADRO 4: PERROS ESTERILIZADOS Y PERROS ALBERGADOS
POR ARo EN EL CONDADO DE MARICOPA. FUENTE: CORTESIA
- DE RODRIGO SILVA NIETO.
o
[¡j o
'"
~
'"cD -
.... o
o
Año Esterilizados Albergados i
Bro - o 2005
o 41,952 103,106
o '"ori o
.... - o
, , , , 2006 36,438 100,985
2007 33,568 95,939
11000 12000 13000 14000 15000 16000
2008 48,227 95,407
Datos$IPC 2009 62,969 91,982
FIGURA 28: DIAGRAMA DE DISPERSiÓN DE LA ESPERANZA DE 2010 63,311 94,677
VIDA EN MÉxICO CONTRA EL INGRESO PERCÁPITA. FUENTE:
2011 61,804 89,225
(THE WORLD BANK, 2014).
2012 66,268 85,883
El diagrama apoya la hipótesis de que, si mejoran las condi- 2013 66,867 80,883
ciones económicas de las personas, éstas podrán vivir más
·a ños. La mejoría económica implica beneficios en alimenta-
ción, educación, salud y otras condiciones que pueden moti-
var que las personas vivan más. Pero no sólo nos brinda esa fI)
o
u v
información, también podemos observar que la relación de ro o - o
ambas variables parece aproximarse a una linea recta imagi- '"
L
ID
o
o o o o
naria, por lo cual se llama correlación lineal. .o 1[)

« m
- o
O

Por supuesto, habrá otros casos en que los puntos se aproxi- '"'"o o - o
men a una recta decreciente. Por ejemplo, el cuadro 4 mues- ~
ro o
tra los datos del número de perros esterilizados (variable O o
o
CIl
I I I I , I I
o

independiente) y el número de perros recibidos en albergues 35000 45000 55000 65000


en el condado de Maricopa, en Estados Unidos (variable de-
pendiente). El pensamiento lógico es que, al esterilizar a más Datos$Esterilizados
animales, se tendrán menos perros abandonados que deban
colocarse en los albergues. En este caso es probable que exis- FIGURA 29: DIAGRAMA DE DISPERSiÓN DE PERROS
ta una correlación negativa ya que, al incrementarse la va- ALBERGADOS CONTRA PERROS ESTERILIZADOS.
Antes de proseguir, hagamos aquí un pequeño ejercicio. Para es la media de la variable independiente y Sy la desviación
las siguientes parejas de variables, piensa cuáles tendrían estándar de la misma variable. Por último, n es el tamaño de
correlación positiva, correlación negativa, o de plano, ningu- la muestra, es decir. el conjunto de coordenadas u observa-
na correlación: ciones con que se cuenta.
• x ='peso del gemelo A, y = peso de su gemelo B. Este coeficiente de correlación lineal puede tomar cualquier
• x = número de horas de capacitación sobre seguridad en valor entre -1 (correlación inversa perfecta) y 1 (lo que indi-
el trabajo, y = número de accidentes ocurridos en el tra- caría la correlación directa perfecta). Como ya supondrás,
bajo. una correlación de cero o cercana a cero, significará que no
• x = nivel socioeconómico de una 'persona, y = número de hay correlación lineal. Generalmente las ciencias exactas con-
libros que la persona leyó el último año. sideran una correlación fuerte a un coeficiente de +-0.8 en
• x = cociente intelectual de una persona, y = peso de la adelante, mientras que los investigadores en las ciencias so-
persona. ciales se empiezan a emocionar con coeficientes de +-0.6 en
adelante.
• x = la altura de un hombre, y = su medida de calzado.
• x = el número de horas que un estudiante pasa en Face- Pero debemos tener cuidado, porque podría existir correla-
book en un mes, y = su calificación en español en ese ción que no sea lineal, en forma de una curva o parábola, por
mismo mes. ejemplo. Lo importante es que siempre debe haber primero
un razonamiento lógico y serio que nos lleve' a pensar en la
Como ya te imaginarás, puede ser muy interesante medir
existencia de la correlación, y posteriormente una comproba-
algunas de estas relaciones así como analizar sus caracterís-
ción numérica,
ticas. Existen muchos tipos de correlación y la correlación no
sólo puede medirse entre dos variables, sino que puede ser Si no quieres batallar con fórmulas, puedes calcular el coefi-
analizada entre grupos de variables, generalmente una de- ciente de correlación a través de la instrucción
pendiente contra muchas independientes. =COEF.DE.CORREL( ) en Excel, colocando dentro del paréntesis
los rangos de las celdas correspondientes a la variable inde-
Para medir la correlación y determinar si se puede conside- pendiente y dependiente, separadas por una coma. Puesto
rar que existe o no, se utiliza comúnmente el coeficiente de que el coeficiente se calcula como una multiplicación y el
correlación lineal de Pearson entre dos variables de inter- orden de los factores no altera el producto, no importa en qué
valo o razón. Se llama así porque fue propuesto por Karl orden se coloquen ambas matrices. .
Pearson, británico (1857-1936). Se denota por la letra r y se
define en la ecuación 11. Es aún más sencillo utilizar R. En el caso de los dos ejemplos
anteriores, tenemos la instrucción cor que genera el coefi-
Txy :::::::
L%.l (Xi - x)(y¡ - ji) ciente de correlación lineal. Podrás observar los siguientes
.sxSy resultados, leyendo primero los datos correspondientes .
ECUACiÓN 11: COEFICIENTE DE CORRELACiÓN LINEAL DE Para los datos de EV contra IPC:
PEARSON. cor(Da t os $IPC, Da t os $EV)
Donde Xi es cada observación de la variable independiente; [11 0. 9 812731
Yi es cada observación de la variable dependiente. Como ya Para los datos de perros albergados contra esterilizados:
hemos visto, x es la 'media de la variable independiente y Sx
co r (Da t os$ Es te r i l i z ado s, Datos$ Al berga do s)
la desviación estándar de la misma variable. Por otro lado, ji
[ 11 - 0.7 951868
En el caso del IPC y la EV el resultado fue aproximadamente Este resultado no implica que no exista dependencia, sino
0.98, que indica una fuerte correlación lineal positiva. Los que dicha relación no es lineal. Debemos tener cuidado, en-
datos apoyan la hipótesis de que, a un mayor ingreso per cá: tonces, al interpretar los valores del coeficiente, y considerar
pita, las personas vivirán más años. siempre tanto la información que nos brinda la gráfica, como
el conocimiento y experiencia existentes alrededor del fenó-
En cambio, en el segundo ejemplo, el résultado fue negativo, meno analizado~
de aproximadamente -0.80, lo cual indica una fuerte correla-
ción lineal negativa. Los datos apoyan la hipótesis de que, si 'ó (1
se esterilizan más perros, se disminuirá la necesidad de reco- O>

... - o
ger y dar albergue a perros callejeros y abandonados. >- - o
°
o - ~ 0°
Cuando no existe correlación, encontraremos gráficas que no
muestran tendencia, es decir, no se acercan a una recta cre- "i
""'",'" <09'"
ciente ni decreciente, como se muestra en la figura 30. No 1 1 "" •

debemos olvidar que esto no es una prueba contundente de -2 -1 O


que no estén correlacionadas. Si consideramos que no están
x
correlacionadas, concluimos que las variables son indepen-
dientes entre sÍ. FIGURA 31: DIAGRAMA XY DE DOS VARIABLES CON
CORRELACJÓN CUADRÁTICA.

'" ~ o "o o. Pero aqu! no terminan las cosas interesantes que podemos
- o 'O
°8 o o o o o hacer con nuestras variables. Una vez establecida la correla- .
o - o
>- o -
o
o'" o o o
ción lineal entre ambas, es posible trazar una recta para mo-
- o
8
.
00
- o
--.-
. 0
n
o delar la relación de causa-efecto. Esto permite hacer
predicciones y comprender más los fenómenos.
-2 -1 o 1 2
En otro ejemplo, cuando Sir Francis Galton -junior inglés
x (1822-1911) y primo de Charles Darwin (1809-1882)- com-
FIGURA 30: DIAGRAMA DE DISPERSIÓN DE VARIABLES NO paraba la estatura de los hijos con respecto a la de sus padres,
CORRELACIONADAS. encontró que las medidas de los hijos tend!an a "regresar" a
En este ejemplo el coeficiente de correlación lineal es la estatura promedio de la población. Si no fuera as!, es decir;
0.2092351. Al ser cercano a cero, sugiere que no existe rela- si los hijos de padres altos fueran aún más altos y los de pa-
ción de dependencia entre ambas variables. dres bajos, todavía de menor estatura, como creen muchas
personas, a lo largo del tiempo habríamos observado la apa-
Como hemos dicho, el coeficiente de Pearson mide la correla- rición de gigantes y enanos, cada vez más frecuentes. Como la
ción lineal entre variables de intervalo o razón, pero dejará relación encontrada entre estaturas de hijos (variable depen-
escapar otro tipo de relaciones. La figura 31 muestra una diente) y padres (variable independiente) resultó similar a
evidente relación cuadrática o parabólica entre dos variables. una linea recta, Galton bautizó este modelo como regresión
La figura que se forma es parecida a una parábola. Sin em- lineal.
bargo, al calcular el coeficiente de correlación lineal, se ob-
tiene Txy = -0.009562261. Ahora la pregunta es: ¿Cómo encontrar la recta de regresión
más parecida a un conjunto específico de datos o puntos? Una

.' CENTRAL
• o ... . .. . ..
forma de hallarla sería trazarla a mano, con todo el cuidado Ahora, ¿cómo se obtienen los valores adecuados de a y b? No
posible. Amenos que seamos excelentes' dibujantes, será te haremos sufrir,. el procedimiento involucra algo que se
dificil que nos quede muy bien. llama cálculo diferencial, pero no entraremos en esos deta-
lles. Por el momento será suficiente con enunciar las siguien-
La alternativa es usar un método matemático que nos ayuda a tes ecuaciones:
calcular las características de una recta particular, de tal for-
ma que las distancias entre los puntos observados y la recta, b n Ef=l x ¡y¡ -
Ef-l Xi Ef=l Yi
sean mínimas. Supongamos que se mide la distancia (hacia n Ef:l xl- CE?:1 Xi)
arriba o hacia abajo, según el caso) de cada punto a la recta
ECUACIÓN 13: ESTI MACIÓN DE LA PE NDIENTE.
imaginaria. Si el punto queda arriba, la distancia es positiva.
Si el punto queda abajo, será negativa. Si sumáramos todas a = y- bx
estas distancias, los valores positivos y los negativos podrían ECUACIÓN 14: ESTIMACIÓN DE LA ORDENADA AL ORIGEN.
cancelarse entre sí, aún para magnitudes grandes. Para evitar
esto, se suman las distancias, pero elevadas al cuadrado. Pos- Bueno, estas ecuaciones son necesarias para que este librito
teriormente se elige la recta que minimice la suma de estas realmente parezca un texto de estadística, pero no te vamos a
distancias al cuadrado. molestar con ellas. Para tu mayor tranquilidad, las dos pro-
piedades de la recta de regresión pueden calcularse utilizan-
Al procedimiento anterior se le llama método de mínimos do Excel, con las instrucciones
cuadrados. Suena bien, porque así obtendremos una recta
que pasará lo más cerca posible de todos nuestros datos. o Ordenada al origen o a: =INTERSECCION.EJE().
Esta recta es muy útil: puede servirnos para interpolar valo- o Pendiente o b: =PENDIENTE().
res, es decir, para estimar el valor de la variable dependiente Todavía más agradable, es encontrar estos valores con R. To-
para una variable independiente en particular. También se
memos el primer ejemplo, de la esperanza de vida contra el
usa para extrapolar, esto es, para pronosticar más allá de los
ingreso per cápita. Primero lees los datos, como siempre,
datos con que contamos. Todo esto debe hacerse siempre con después, usas las instrucciones:
mucho cuidado, observando siempre que nuestros resulta-
dos, como diría el señor Spock de Viaje a las Estrellas, res- modelo <- l m(Datos$ EV-Datos $I PC)
pondan siempre a razonamientos lógicos. mode l o

Sabemos que una recta es la distancia más corta entre dos La indicación 1m significa que usaremos un modelo lineal
puntos. De la misma forma, bastan dos características para (linear model)o Primero se coloca la variable dependiente
definir una recta particular: la pendiente, que mide la incli- (Da t os$EV o lo que corresponda); luego el símbolo - que sig-
nación de la recta; y la ordenada al origen, que representa el nifica que estamos modelando esa variable a partir de la otra;
valor donde la recta cruza al eje vertical o eje Y. por último, la variable independiente, Datos$ IPC o alguna
otra.
La ordenada al origen se suele denotar con la letra a mientras
que la pendiente se expresa con la letra b. Entonces, la recta Al hacer esto obtendrás el siguiente resultado:
correspondiente a ellas se modela con la ecuación 12. Coeffi cie nt s:
y=ax+b (In t e r cept) Da t o s$ I PC
ECUACIÓN 12 : RECTA DE REGRESIÓN LINEAL SIMPLE. 7. 100 e +01 3.821 e - 04
Como ya imaginarás, el número debajo de Intercept es la or-
denada al origen o b, y el que está debajo de Datos$IPC es la [U
pendiente o a. El primer valor equivale a b = 7.100 X 10 1 = '""' '".....
<D o
o
71. El segundo valor equivale a a = 3.821 x 10- 4 = ~
0.0003821. El programa usa, como verás, una notación abre- o '"
'"
.....
viada. Entonces, la ecuación de la recta que mejor"representa
los datos es la número 15. 11000 12000 13000 14000 15000 16000

y = 0.0003821x + 71 Datos$IPC
ECUACIÓN 15: EJEMPLO DE RECTA DE REGRESIÓN PARA FIGURA 32: RECTA DE REGRESIÓN LINEAL SIMPLE PARA LA
EVE IPC. ESPERANZA DE VIDA VERSUS EL INGRESO PER CÁPITA.

Ahora, si graficamos la recta que resulta de esta ecuación, Te dejamos de tarea que hagas exactamente el mismo ejerci-
junto con las coordenadas que teníamos ya como datos, ob- cio con los datos de los perros esterilizados y los perros reci-
tendremos"algo similar a la figura 32" Para ello usamos dos bidos en albergues, peoro ahora con Excel. Será interesante
instrucciones: notar cómo cambia el valor de la pendiente, dado que ahora
plot(Da to s$IPC, Datos$ EV)
la recta tendrá una inclinación decreciente. Para ello sólo
necesitas seleccionar la tabla e insertar un diagrama de dis-
ab line(modelo)
persión. Hecho esto, coloca el ratón sobre los puntos y opri-
La primera grafica los puntos de las observaciones, mientras me el die derecho. Elige "Agregar línea de tendencia". Deja
que la segunda traza la recta de la ecuación 15. Podemos ver marcada la lineal y marca también "Presentar ecuación en el
que la recta es bastante parecida a los puntos reales observa- gráfico". Tu resultado debe ser semejante a la figura 33.
dos. En la figura no se ve, pero se puede imaginar que el pun- Observa que ahora la pendiente, es decir, el valor que multi-
to donde la recta cruza el eje vertical es el 71, cuando ellPC plica a la x, resultó negativo: -0.416. Esto habla de la eficacia
fuera hipotéticamente igual a cero. Este dato no es direct<i- del programa de esterilizaciones. En términos prácticos y
mente interpretable~ sólo se usa para que la recta quede en sencillos, significa más o menos que por cada dos perros que
un lugar adecuado. No podríamos decir que en un país donde se esterilicen, se necesitará albergue para un perro menos.
no hay ingreso per cápita, la gente vivirá cerca de 71 años. Sería interesante complementar estos datos con los costos,
La pendiente significa que, por cada dólar de incremento en tanto de esterilizar como de albergar a los animales.
el IPC se gana un 0.0003821 de año de vida esperada. Apro-
ximadamente, 3 horas con 20 minutos. En otras palabras,
debe incrementarse mucho el IPC para que veamos algo sig-
nificativo en nuestras vidas.
120000 rilizarse anualmente para bajar el número de albergados a
80,000? En este caso conocemos el valor de y, pero queremos
100000 •.....~ ... •...........•.....
; ~onocer el valor ~e x. La ecu~ción 18 muestra la solución, que
Incluye el despeje de esta ultima variable. Sería necesario
80000 !
y = -0.416x + 115372
• llegar a un valor aproximado de 85,029 perros esterilizados
por año.
60000
(80000 - 115372)
40000 x= -0.416 = 85028.85
ECUACiÓN 18: EJEMPLO DE CALCULO DE VARIABLE
20000
INDEPENDIENTE.

o Con los elementos anteriores puede juzgarse la conveniencia


o 20000 40000 60000 80000 de to~ar o no ciertas acciones, de manera racional y científi-
FIGURA 33: PERROS ALBERGADOS VERSUS PERROS ca. Sm embargo, no es prudente hacer extrapolaciones en
ESTERILIZADOS EN MARICOPA, DATOS y REGRESiÓN LINEAL. puntos muy lejanos a los datos, ya que no tenemos evidencia
de que el comportamiento continúa igual para estas zonas.
¿Cuáles son las ventajas de tener la recta y su ecuación? Va-
rias. En primer lugar, tenemos una idea más clara de cómo es Por último, debemos enfatizar que no sólo pueden existir este
que una de las variables afecta a la otra. Por otro lado, ahora tipo de relaciones lineales entre dos variables. Como hemos
es posible efectuar dos acciones interesantes: interpolar, es visto, podría haber una relación con formas distintas seme-
decir, aproximar valores entre los datos que ya teníamos, y jantes a parábolas, funciones exponenciales que crec~n rápi-
extrapolar, esto es, pronosticar valores de perros albergados damente o funciones logísticas que crecen primero con '
para resultados de perros esterílizados fuera de los datos. lentitud, luego rápidamente y al final se estabilizan.
Por ejemplo, ¿cuántos perros deberán albergarse si se han Para estos casos la estadística tiene un instrumento, llamado
esterilizado en cierto año 50,000? Para saberlo, basta con re~sión no lineal, muy parecido a la regresión lineal, que
sustituir el valor de x = 50,000, como se ve en la ecuación 16. consiste en efectuar transformaciones a los datos para hacer-
los semejantes a una recta, aplicar regresión lineal y, final-
y = -0.416(50000) + 115372 = 94572 mente, deshacer las modificaciones para utilizar los
ECUACiÓN 16: EJ EMPLO DE INTERPOLACiÓN resultados de manera semejante a lo que hemos visto aquí.
Esto puede servir para efectuar previsiones. También es fac- También es posible, y muy interesante, analizar el compor-
tible hacer una extrapolación hacia valores por fuera de nues- tamiento de una variable dependiente en función no sólo de
tros datos. Por ejemplo, saber cuántos perros deberán una, sino de muchas variables independientes de manera
albergarse si se logra esterilizar a 80,000 al año. El resultado lineal. En este caso se puede medir el efecto de 'cada una de
se muestra en la ecuación 17. ellas y determinar su importancia en la conformación del
y = -0.416(80000) + 115372 = 82092 f~nón;eno resultante. Este análisis se llama (como ya te ima-
g¡~aras~, regresión lineal múltiple. Puesto que la interpreta-
ECUACiÓN 17: EJEMPLO DE EXTRAPOLACiÓN Clan ,grafica de todas las variables en forma conjunta ya no
También se pueden resolver preguntas de corte más político. podna hacerse en un plano, generalmente se hace analizando
Por ejemplo, ¿cuál es el número de perros que deberían este- las variables por parejas.
# Pidamos algunas las medidas de tendencia central y
Existen otras variantes de la regresión estadística, pero con-
# de dispersión con respecto a la edad.
fiamos en que este acercamiento te haya resultado útil. Nos
mean (edad)
veremos pronto en el capítulo de inferencia estadística.
median (edad)

min (edad)
12. Ejercicio: Analicemos Facebook
max (edad)

Propósitos: sd (edad)
var (edad)
• Discutir la pertinencia del uso de las medidas de ten-
dencia central y de dispersión.
• Emplear gráficas para el análisis de variables. Pregunta 1: ¿Por qué crees que la media y la mediana sean
diferentes?
• Explorar relaciones entre variables.
Respuesta: Si obtienes la media de la edad (46.4672) Y la
En esta ocasión exploraremos una base de datos sobre la red
mediana (43.00) podrías inmediatamente pensar que hay
social Facebook. Estos datos fueron simulados tomando como
una diferencia relativamente grande entre una y otra (de casi
base algunas estadísticas reales de Facebook, con un objetivo
tres años y medio). Si recuerdas, la media es sumamente sen-
didáctico.
sible a los datos extremos. En otras palabras, seguro que exis-
Para iniciar habrás de cargar la base de datos fb que puedes ten algunos casos extremos a la derecha (edades muy
encontrar en www.inteligencianet.org. grandes, de hecho el valor mayor de la base es de 141 años, lo
* Carguemos la base de datos con el nombre de "fb" . cual seguramente es falso e increíble) que hacen que la media
y la mediana sean distintos.
fb <- read.csv(file.c.hoose())
Pregunta 2: ¿Qué puedes inferir a partir de la desviación es-
Exploremos pues qué variables tiene la base y conozcamos
tándar?
cuántos casos tiene.
# Solicitemos los nombres de las variables y Respuesta: Simplemente corroborar lo que ya sospechába-
mos. Si recuerdas, en teoría podrías pensar que la mayoría de
* exploremos el tamaño de la base de datos .
los casos de una muestra se encuentra aproximadamente a
names (fb) tres desviaciones estándar por arriba y por debajo de la me-
dim(fb) dia. Si valoramos qué tan lejos se encuentra la edad más
attach(fb) grande de la base (141 años) con respecto a la media, vería-
mos que se encuentra a 4.54 desviaciones estándar por arri-
¡Guau! Es una base de datos bastante grande, ¿no? Por el co- ba de la media. Un valor muy extraño que sugiere que es
mando dirn podemos ver que tiene 10 000 casos o registros y atípico si pensáramos que las edades de la muestra son pare-
cinco variables. Las variables son el número secuencial de cidas a la normal.
identificación, la edad en años cumplidos, el sexo, el número
de amigos en Facebook y el número de "me gusta" recibidos Sabemos por lo diferente de la media y la mediana que exis-
por cada usuario. Vamos a explorar algunas de las variables ten casos "extremos". Ahora deberíamos explorar quiénes son
usando las medidas de tendencia central y de dispersión. esos casos. Para ello podemos graficar las edades en un his-
Solicitémoslas a R. tograma.
* Solicit emos un h istograma. Pregunta 6: ¿Qué relación tienen las medidas de tendencia
central con la nube de puntos?
his t (edad)
#.- Ag r eg u emos un poco de co l o r-.
Respuesta: Una vez más es posible observar datos extremos.
Sobre todo en el caso de la cantidad de "me gusta" recibidos.
hist(edad , co l = r a i nbo w (15»
Mientras ·que la media es de 309.3, hay un caso extremo de
#.- Solici t emos que e l his t og r ama se g rafique con base 90,130 "me gusta" (seguro alg6n artista o político).
e n porcen ta j e s, no e n frec u enci a s .
h is t (edad , col=rainbo w (1 5) ,freq= FALSE )
Quizá para explorar mejor la relación, podríamos intentar
quitar datos tan extremos en la variable sobre la cantidad de
* F in alme n t e ag r e guemos r ó tulo ~ (t itulas ) a l g r áfico .
"me gusta". Para fines de este ejercicio, removamos los casos
his t (eda d , col =rainbow( 1 5),freq=FALSE , que se encuentran a más de tres desviaciones estándar de la
x l ab= " Edades ",ylab="porcentaje",main= media.
" Dis t ribuc i ón d e l as edades en Facebook Vamos a crear una base de datos únicamente con los casos de
(n~lO 000) " ) personas que obtienen una cantidad menor o igual a tres
desviaciones estándar de la media de la cantidad de "me gus-
,
Pregunta 3: ¿Es posible observar datos extremos o atiplcos.
, .
ta".
f b2 <- s ub se t (fb , me_ gusta <=
¿Qué significan? (mea n (me_gus t a) +3*sd(me_ 9usta»)
.' Respuesta: Desde luego. De hecho, es posible observar ~ue Ahora podemos solicitar la misma nube de puntos entre las
existe una cantidad extraña de casos de personas por arflba dos variables con la nueva base. De igual forma podem os
de los 100 años. ¿Nunca te has topado con el caso de algunos solicitar un coeficiente de correlación e inclusive intentar
amigos que sólo por bromear registran una edad exagerada? predecir la cantidad de "me gusta" con base en el número de
¡Conocemos a más de uno! amigos que tienes.
Ahora exploremos la relación entre dos variables. Una rela- * Grafiqu e mos l a re l ac i ón en tre las dos var iab l es .
ción que parecería lógica sería la cantidad de amigos del per- plot (fb2 $nu m_am i gos, fb 2$ me _ 9 usta)
fil (num_amigos) y la cantidad de "me gusta" que recibe . ~l
perfil (me_ gusta). La relación en,tre ar.nbas .vaflables d,ebefla Parece haber una cIara relación lineal creciente entre las dos
de ser positiva. Es decir, entre mas amigos tienes, es mas pro- variables. Comprobemos lo anterior al solicitar un coeficiente
bable que tengas más "me gusta" en tus publicacIOnes. de correlación entre ambas variables.
! Exploremos l as carac t e rí sticas de ambas v ar iab l es. ,! Soli c i temos e l coe f ic i e nte de correlación l i n ea l de

surnmary(num_ amigos l .f Pea r son.

surnmary(me _ gusta l cor (fb$ n u m_ ami g os ,fb$me_gusta )

La función surnmary () realiza un resumen de las medidas de Bueno, es una correlación excepcionalmente fuerte (con un
tendencia central. valor de r = 0.999975 3), lo cual resulta sumamente lógico: a
i Gr afiquemos la re l ac i ó n entre l a s das var,iables .
más amigos, más "me gusta" recibidos. Intentemos predecir
la cantidad de "me gusta" que tendrías si tuvieras 300 ami-
pl o t (Ouffi_ ami g os ,me_9 usta ) gos.
t So l ic i t emos el modelo de regresión li ne al. • Cálculo de áreas bajo curvas de distribución normal,
mo de l o < - l m (fb2$me _ gu s ta - fb2$num_am i gos) por encima de un valor, por debajo de él o entre dos
mode l o
valores, con representación visual. Visita:

Calculemos la cantidad de "me gusta" con base en el intercep- http://onlinestatbook.com/2/normal_distribution/ar


to (26.05) y el coeficiente de la variable cantidad de amigos: eas_normal.html
49.8 5 +0.6*300 • Pequeño manual llamado "R para Principiantes", ela-
borado por Emmanuel Paradis y traducido al español
Finalmente grafiquemos la nube de puntos dibujando la recta por Jorge A. Ahumada. Puedes descargarlo y guardar-
de mejor ajuste del modelo de regresión lineal. lo para usarlo cuando lo necesites, desde:
p l ot (fb2$nuffi_amigos,fb2$me_gusta)
http://cran.r-project.org/doc/contribjrdebuts_es.pdf
ab li n e (modelo, col="red")

Pregunta reto: ¿Quién tiene más "me gusta" en promedio, los


hombres o las mujeres? ¿Es significativa la diferencia?
Ejemplo modificado de: Ekles, D., Burke, M., Saden, C. y Mes-
sing, S. (2014). Data analysis with R. Disponible en:
https:ffwww.udacity.comfcoursefud651.

13. Cuatro sitios web interesantes

• The R Project for Statistical Computing: Aquí puedes


descargar el software libre y gratuito llamado R, con
el cual puedes hacer todo tipo de cálculos y gráficos.
Funciona en cualquier sistema operativo e inclusive
en un iPhone. Prueba los ejemplos que hemos visto
para enamorarte de este recurso. Instala el programa
y obtén su documentación en:
http://www.r-project.orgf
• El entorno llamado RStudio que te facilitará el manejo
de R. También es gratuito y se puede instalar en cual-
quier computadora. Descárgalo e instálalo desde:
http://www.rstudio.com/
14. Para muestra, ¿basta un botón?
Se examinó la relación entre la exposición a música
televisiva, programas de televisión de alta audiencia.
revistas de modas y redes sociales, todos sexualmente
objetivan tes, asf como la internalizaci6n de ideales de
belleza y la vigilancia del cuerpo. en un grupo de chicas
adolescentes (0=558). Se encontró un modelo de ecuación
estructural que muestra una relación directa entre los
medios que objetivan sexualmente y la internalización de
ideales de belleza, así como indirecta . entre los medios
objetivan tes y la auto~obietivaci6n, así como la vigilancia del
cuerpo a través de la internalizaci6n de ideales de belleza.
(Vandenbosch y Eggermont, 2012).
Esto de la "objetivación sexual" es
interesante. Se dice así cuando se
considera a la persona un objeto
sexual, un instrumento para generar
placer seXual, sin tomar en cuenta
sus capacidades intelectuales, sus
emociones, sus percepciones, su ser
integral. En el estudio que citamos en
el epígrafe y que ahora no tiene que
ver con el arte, sino con la literatura académica, se manejan I

ideas inquietantes, como la "internalización de ideales de


belleza" y la "vigilancia del cuerpo". ¿Cómo es que una mujer,
particularmente una chica adolescente, determina cuándo se
posee belleza y cuándo no? ¿Cómo influyen en esta determi-
nación los medios de comunicación? ¿Cómo se modifica la
auto percepción y cómo se vigila el propio cuerpo a la luz de
estas ideas? ¿Nos sentimos bellas o no? ¿En qué medida nos
afecta ese sentimiento? ¿Cómo cuidamos -o descuidamos-
nuestro cuerpo para ceñirlo a los estándares de belleza? ¿Nos
hace infelices ser distintas de las modelos perfectas que pre-
sentan los medios?
Todas son preguntas apasionantes, pero en realidad el frag-
mento de texto del epígrafe que .quiero comentar contigo es
tal vez el más misterioso: n = 558. Estarás de acuerdo en que Sin embargo, si la canasta contiene una gran diversidad de
para responder a preguntas como las anteriores, un investi- botones, de todas las formas, colores y tamaños, sería necesa-
gador debe acercarse a las chicas adolescentes e indagar sa C rio revisar muchos de ellos o inclusive todos, para conocer
biamente sobre el tema. Pero, ¿cuántas chicas adolescentes con precisión qué tenemos ahí.
hay en el mundo? ¿Será igual en todos los países? ¿En todos Observar botones no es una ocupación seria, pero el ejemplo
los niveles socio económicos? ¿En las regiones urbanas o ru- sirve para destacar un punto esencial: al describir grupos no
rales? es tan importante el número de elementos que los confor-
No es posible acercarse a todas las chicas adolescentes. Un man, sino la pOSible heterogeneidad que exista entre ellos.
investigador tiene recursos limitados, sobre todo, tiempo Esto nos lleva a uno de los problemas más apasionantes -y
limitado. Pero si tiene suficiente interés y curiosidad, no deja- probablemente más desprestigiados- de la estadística infe-
rá , de buscar estos datos. ¿Qué hace entonces? Seleccionar rencial: la teoría del muestreo.
una muestra que esté a su alcance: un subconjunto razonable Hemos dicho ya que el ser humano tiene una afición innata
y accesible de toda la población de chicas adolescentes. por medir y comparar. Sin embargo, en algunos casos esta
actividad puede resultar complicada, riesgosa, cara o excesi-
Lo que los autores del epígrafe hicieron fue estudiar una
vamente laboriosa.
muestra de tamaño n = 558. Es interesante preguntarse por
lo menos dos cosas: Por ejemplo, para determinar el tipo de sangre de una perso-
na, resultaría impensable e innecesario extraer todo ellíqui-
a) Cómo se seleccionaron las 558 chicas adolescentes de do de su cuerpo. Por fortuna, es suficiente tomar una sola
entre toda la población existente. ¿Importa la forma gota. ¿Por qué? Porque se parte del principio de que toda la
de selección de las chicas, afecta en algo los resulta- sangre lleva la misma información. Así, vamos al laboratorio y •
dos encontrados? ¿Hay formas de selección mejores nos toman una muestra, es decir, un pequeñísimo subconjun- I
que otras? to del torrente sanguíneo, con lo cual sufrimos una molestia
b) Por ' qué precisamente ese número extraño, 558. mínima y ningún daño importante. Con esa muestra almace-
¿Puede ser cualquier número o hay ciertos números nada en un tubo de ensayo, pueden efectuarse muchas prue-
mejores que otros? bas que darán información sobre nuestra salud.
Éstas son las dos preguntas básicas que trata de resolver la Supongamos ahora que un partido político quiere conocer la
teoría del muestreo: cómo seleccionar a los eleméntos de la intención de voto de las .personas que viven en cierta delega-
muestra y cuántos elementos tomar. Ambos aspectos son ción o municipio. A diferencia de la sangre, no es razonable
importantes para que podamos tener confianza en que la pensar que todos plane"n hacer lo mismo, así que habría que
muestra es verdaderamente representativa de la población preguntar a muchos sujetos. Idealmente, a todos. ¿Sería posi-
que deseamos estudiar. bley sensato hacer esto? Seguramente que no. La alternativa
lógica, entonces, es registrar las respuestas de "algunos" indi-
y claro, existe la frase "para muestra, un botón". ¿De verdad viduos. ¿Cuántos y cuáles? ¿Qué confianza y precisión se ob-
con un botón podemos conocer todos los demás? A veces. tendrán de un estudio semejante? Ah, ese tipo de preguntas
Sólo en ciertos casos. Si tenemos una canasta llena de boto- se responden incursionando en los principios del muestreo.
nes idénticos, ¿cuántos deberíamos sacar y observar para
saber cómo son todos? Bastaría con uno. Comencemos con algunas definiciones sencillas.
Llamaremos población al conjunto completo de observacio-
nes o mediciones que pueden efectuarse para responder al-
guna pregunta de interés. En el ejemplo anterior la población afirmación y contamos con Wl instrumento adecuado para
se conforma por las opiniones de todos los adultos de la dele- hacer la medición correspondiente a la habilidad verbal. Pero
gación o municipio en cuestión, en edad y condición de votar. no podemos efectuarla en todos los hombres y mujeres, ya
Si la población no es demasiado grande, si se cuenta con los que es imposible, así que debemos elegir una muestra de
recursos necesarios y si la medición no implica riesgos, po- cada grupo. Entonces, decidimos que la muestra de mujeres
demos darnos el lujo de registrar los resultados de absoluta- se obtendrá de las estudiantes del doctorado en letras de la
mente todos los elementos de la población. A esto se le llama UNAM, mientras que la de hombres saldrá de la Selección
Mexicana de Futbo!' ¿Te parecen muestras representativas y
hacer un censo.
adecuadas?
En México, por ejemplo, se hacen censos poblacionales cada
diez años. Si bien son un esfuerzo relevante y útil, en un sen- Tal vez es un ejemplo exagerado, pero se trata de enfatizar
tido muy estricto podrían no merecen el nombre de censo. que una selección inadecuada puede influir decisivamente en
Existen muchas deficiencias en el proceso y los resultados los resultados, generando conclusiones incorrectas.
suelen ser incompletos. Nuestro país es muy grande, la po- Una forma natural de eliminar esta influencia que se llama
blación muy abundante y la diversidad es enorme. Por ello en sesgo, es utilizar el muestreo aleatorio. Es decir, dejar com-
ocasiones se dice que vale más una buena muestra que un pletamente al azar la selección de los elementos a medir, evi-
mal censo. tando la intromisión de cualquier otro criterio. Al usar este
Pero, ¿qué es una muestra? Sencillamente, un subconjunto método, todos los elementos de la población tendrán la mis-
de la población. Si este subconjunto se elige de manera co- ma probabilidad de aparecer en la muestra.
rrecta, de acuerdo con una serie de cuidados y reglas, sus Existen técnicas sencillas para generar muestras aleatorias.
elementos contendrán de manera bastante aproximada las En el caso de los votantes o el estudio de las habilidades ver-
mismas características que interesa medir en la población. De bales, podrían anotarse los números de sus registros en el
hecho, es lo que sucede con la sangre. Basta con tomar unos Instituto Nacional Electoral y luego sortearlos, en una especie
cuantos mililitros para saber cómo es todo el flujo sanguíneo de lotería. Para obtener estos números aleatorios de manera
de una persona. En este caso decimos que se trata de una inmediata, puedes escribir en Excel =ALEATORIO.ENTRE(1,100).
muestra representativa de la población, porque refleja to- Con ello tendrás un número ál azar entre uno y cien. Copia la
das sus características de manera confiable. celda anterior para generar tantos números como necesités.
Para obtener este tipo de muestras es indispensable cuidar la La desventaja de Excel es que pueden aparecer números re-
forma en que los elementos se eligen, con objeto de que la petidos.
selección misma no ocasione que cierto tipo de informaci6n En R se usa la siguiente instrucción para obtener diez núme-
quede fuera o dentro de la muestra, con lo cual los resultados ros aleatorios entre 1 y 100, sin que se repita ninguno.
perderían su validez. Si bien medir s610 un subconjunto y no Anímate a pro llar con diferentes opciones; El resultado está
toda la población permite ahorrar en tiempo, dinero y esfuer- en el segundo renglón. Cuando tú lo repliques, obtendrás
zo, este ahorro no debe implicar un sacrificio en cuanto a la números distintos porque, precisamente, se trata devalares
calidad de la medición. al azar. De hecho, si ejecutas varias veces la misma instruc-
Veamos otro caso. Algunos estudiosos del tema, han propues- ción, ocurrirán resultados distintos.
to la hipótesis de que las mujeres poseen mayores habilida- s ampl e (1 : 1 00 , 10)
des verbales que los hombres, lo cual es bastante polémico [ 1] 94 9 10 7 38 13 40 7 5 35 25
(Feingold, 1988). Supongamos quenas interesa probar esta
La idea es que evitemos, en la medida de lo posible, hacer lo esas clases o estratos. De esa forma se garantizará que haya
que se llama muestreo por conveniencia o muestreo. a jui- elementos de cada clase y será posible observar si esa clase
cio, que consiste en elegir a Io.S elemento.s de la población de tiene alguna influencia en los resultados obtenidos. Se podría
la forma más cómoda para el investigador. Por ejemplo, si analizar, por decir algo, si el grado de estudios afecta las habi-
vamos a medir la intención de voto de las personas y decidi- lidades verbales, además del género de la persona.
mos hacer una encuesta sólo con nuestros vecinos o nuestros Por contraparte, el muestreo por conglomerados también
compañeros de trabajo, esta selección podría orientar l ,os consiste en dividir a la población en subconjuntos, pero pos-
resultados hacia valores distintos de los de toda la poblaclOn. teriormente se hace una muestra de los conglomerados o
Tal vez, si yo trabajo en la UNAM, pudiera encontrar una ten- grupos y sólo algunos serán seleccionados para la medición.
dencia más inclinada a los partidos de la izquierda. En cam- Por ejemplo, dentro de cada colonia podrán identificarse to-
biO, si usamos un muestreo aleatorio, quedarán en la mues~ra das las manzanas y. aleatoriamente, elegir 'sólo algunas de
personas con distintas preferencias, más o menos en. ~a miS- ellas para aplicar una encuesta. A diferencia del muestreo
ma proporción que existen dentro de' toda la poblaclOn. Eso estratificado, en este sólo se considerarán algunos conglome-
permitirá conocer bastante bien a la población a través de la rados y no todos ellos.
muestra. En el estudio de las habilidades verbales de hombres y muje-
Ahora, una vez generados los números aleatorios que identi- res podríamos aplicar alguna prueba dentro de varias univér-
fican a las personas o elementos de la población que vamos á sidades. Para facilitar el trabajo, podríamos dividir a la
medir, habría que localizar a los sujetps. sorteados par¡¡ reca- población por carreras y luego seleccionar, de manera proba-
bar su respuesta. En un municipio o delegación grande, esto bilística, sólo algunas carreras para aplicar el instrumento de
sería seguramente impracticable, así que requerimos otras medición. La selección probabiHstica es muy adecuada, por-
ideas adicionales para conseguir muestras representativas a que impedirá que otras variables tengan efecto en el resulta-
bajos costos. El muestreo aleatorio es una g~anidea pero do y distorsionen nuestras observaciones. Por ejemplo,
puede ser complicada de llevar a cabo en la realIdad. podría parecer interesante aplicar la prueba sólo a alumnos
de carreras como comunicación o letras, pero esa selección
Para hacer muestreos aleatorios eficientes, rápidos y econó-
sesgada podría generar un resultado que no representa lo
micos, pero representativos, existen otras técnicas adiciona-
que ocurre en otras poblaciones .
.les interesantes como la estratificación, el uso de
conglomerados, la selección sistemática Y las etapas múlti- Ahora, la técnica de muestreo sistemático consiste en nu-
ples. Revisemos brevemente cada uno de ellos. merar los elementos de una población y elegir ciertos núme-
ros en particular. En el caso de la intención de voto podrian
El muestreo estratificado consiste en dividir a la población
seleccionarse todas las casas cuyo número es múltiplo de
en clases o estratos para luego, dentro de cada uno de ellos,
diez. De esta forma se facilitaría la recogida de datos, sin in-
obtener una muestra. En esta técnica se pretende que todos
troducir elementos de sesgo, ya que el número de las casas
los estratos queden representados. Por ejemplo, una delega-
ción podría dividirse en colonias y hacer, dentro de cada una, no parecería ser una variable que modifique el resultado de
interés. Son ideas muy sencillas que pueden ayudarte a que
la muestra correspondiente.
tus datos sean de mayor calidad, con menos trabajo.
En el caso del estudio de las habilidades verbales de hombres
y mujeres, se podría dividir a la población por edades, ubica- El muestreo por etapas o multietápico, como seguramente
ciones, nivel socioeconómico, grado de estudIOS u otra vana- imaginarás, resulta de la aplicación sucesiva de dos o más de
ble de interés, para luego t omar elementos de cada una de las técnicas ya mencionadas. Por decir algo, Etapa 1: mues-
treo por estratos de las colonias de un municipio. Todas las dad de error suele ser de 5% o 0.05 y se le llama a . El
colonias estarán representadas. Etapa 2: muestreo por con- nivel de confianza es (1 - a)100%.
glomerados de manzanas. En cada colonia se seleccionan ¡jI c) El error de precisión que se aceptará en el cálculo. Si
azar sólo algunas manzanas para aplicar ahí la encuesta. Eta- estamos dispuestos a tolerar un error relativamente
pa 3: muestreo sistemático de casas habitación cuyos núme- grande, podemos hacer muestras más pequeñas y vi-
ros sean múltiplos de diez. Sólo se aplicará la encuesta a las ceversa. La única forma de que el error de precisión
casas cuyo número sea 10, 20, 30, etcétera. Etapa 4: aplicar sea cero, es hacer a la muestra igual -a la población. Al
encuesta a todos los habitantes de la vivienda elegida, pre- error tolerado se le designa con la letra E.
sentes y mayores de edad. De esta forma se obtendría un
marco muestral factible y razonable. d) El tamaño de la población, que influye mucho me-
nos que los aspectos anteriores e inclusive puede lle-
Si bien estas técnicas tienen como propósito auxiliar al inves- gar a considerarse como infinito sin problema. Este
tigador para contar con datos útiles con el menor costo, no tamaño se llama N.
debemos olvidar que los resultados obtenidos de esta forma
estarán siempre sujetos a un error muestral, puesto que no Existen fórmulas apropiadas para determinar el tamaño de
se midió a la población completa sino a parte de ella. Aunque las muestras según todos los valores anteriores y de acuerdo
este error es inevitable, la teoría del muestreo nos permite con el tipo de estudio que deseamos efectuar. La fórmula a
tener una idea aproximada de su magnitud que debe ser, por elegir depende de lo que queremos conocer en la población.
supuesto, relativamente pequeña. Los dos valores que más comúnmente se desean conocer en
Se buscará entonces determinar un tamaño de muestra, una población son la media, para datos cuantitativos, y la
denotado por n, que permita que nuestras conclusiones sean proporción, para datos cualitativos. La media ya la hemos
a la vez confiables y precisas. Este tamaño está en función de explicado en la sección 8. La proporción, que se denota por
la letra p, es sencillamente el número de elementos de la po-
cuatro aspectos:
blación que poseen o no cierta característica, entre el total de
a) La varianza de los datos. Mientras más heterogéneos elementos. --
o dispersos Sean los valores de la población, necesita-
remos una muestra mayor para conocerla. La hetero- En el caso de las habilidades verbales de hombres y mujeres,
geneidad de la población se mide con su varianza a 2 • probablemente aplicaríamos una prueba y compararíamos
Por lo general este valor no se tiene, ya que no pode- las medias obtenidas por cada grupo. En el caso de la inten-
mos medir directamente a toda la población, sino que ción de voto, trataríamos de determinar la proporción de
se estima en alguna prueba piloto. votantes que se inclinan hacia cierto partido en particular o
que no irán a votar.
b) El nivel de confianza deseado. Para tener más con-
fianza en los resultados obtenidos, deberemos au- Bien, para ambos valores, la media y la proporCión, contamos
mentar el tamaño de la muestra. En general se trabaja con fórmulas sencillas que permiten obtener los tamaños
con una confianza del 95% que significa que la pro- ideales de las muestras. Estas fórmulas tienen como origen el
babilidad de que la media de la muestra sea similar a teorema del límite central, que ya comentamos en la sección
la media de la población es de 0.95. Debe aceptarse la 10. No te preocupes mucho por ellas, son sencillas de utilizar.
posibilidad de error porque de otra forma, para tener Si deseamos conocer la media de una población a través de
una probabilidad de 1, tendríamos que estudiar a la una muestra, la ecuación 19 utiliza los tres primeros valores
población completa y no a una muestra. La probabili-
que hemos explicado arriba, varianza, nivel de confianza y
error. La población puede ser muy grande. >< '"o
"
ro
(Zl_a/2)2 a 2 U N
6
n= E2 "
E
iL q
ECUACIÓN 19, TAMAÑO DE MUESTRA PARA ESTIMAR LA MEDIA o
DE UNA POBLACIÓN INFINITA o MUY GRANDE. -4 -2 O 2 4
El nivel de confianza es la probabilidad de que la media de la
X
muestra sea un valor adecuado. Según el teorema del límite
FIGURA 34, NORMAL ESTÁNDAR CON ÁREA DE 95% EN GRIS.
central, las medias muestrales siguen una distribución nor-
mal. En la ecuación 19, Zl-a/2 es lo que llamamos punto críti- Ahora es muy sencillo aplicar la ecuación 19. Basta con iden-
co en la sección 10 para una distribución de probabilidad tificar cada valor para el caso particular que nos interese.
normal estándar, es decir, con media igual a cero y varianza Supongamos que en una población la varianza fue de
2
igual a uno. Se usa Z en lugar de X cuando la normal tiene a = 900 Y se desea que el máximo error al estimar la media
estas propiedades. sea de 2 unidades. El tamaño de muestra se calcularía con las
siguientes instrucciones,
¿Qué significa este punto crítico y por qué se calcula para
varianza <-400
1 - aJ2? Queremos tener un 95% de confianza de que la
media muestral sea semejante a la media poblacional real. error <- 2

Como vimos en la sección 10, la media muestral tendrá una
distribución de probabilidad normal y el área de 0.95 está
marcada en gris en la figura 34. Al ser un área de 0.95, las
n <- {qnorm (O 0.975, O, 1) "2*varianza) / (error) "2
n
¡
¡

áreas restantes en cada una de las colas a la izquierda y a la El resultado es n = 384.1459. Como el tamaño de muestra
derecha, en blanco, corresponden a un área total de 0.05. debe ser entero, se puede redondear a 384. R puede hacer
Como la distribución es simétrica con respecto a su punto este redondeo por ti si cambias la instrucción anterior por,
central, cada una de 'estas áreas en blanco debe medir lo n <- round«qnorm(ü.975,O,1) "2*varianza)/(error) "2,ü)
mismo, esto es, cada una abarca 0.025 de probabilidad. Esto ,1
significa que, a final de cuentas, el punto que separa el área Puedes jugar con el código anterior y analizar qué sucede si ,
gris de la .blanca a la derecha, corresponde a 1-0.025=0.975, Incrementas el nivel de confianza, si aumentas la varianza o si
disminuyes el error tolerado. En todos estos casos el tamaño '1
que es exactamente 1 - aJ2. Por eso es que se busca el valor
crítico Zl-a/2' de muestra se hará mayor, ¿te parece lógico?
Ahora, el tamaño de muestra para estimar una proporción se
muestra en la ecuación 20. Es semejante al anterior, salvo que
~hora la varianza de la población se estima como p(l - p). Al
Igual que antes, tenemos el problema de que no conocemos p.
De hecho, es precisamente el valor qué estamos buscando.
Entonces, para calcular el tamaño de muestra se suele susti-
tuir por p = 0.5, que genera la máxima varianza y, por lo tan-
to, el_ máximo tamaño de muestra, que será más que suficien-
te para nuestros fines,
2
(Zl_~) p(l - p)
n=· E2

,

ECUACiÓN 20: TAMAÑO DE MUESTRA PARA ESTIMAR LA
?ROPORCIÓN DE UNA POBLACiÓN INFINITA O MUY GRANDE.

Así pues, para encontrar el tamaño de muestra con que se


estimará la proporción de votantes por cierto partido, en una
~ - oblaCÍón de 50 millones como la de México, con un error de
P0,0 1, el tamano
- de mues t ra sena:
'
,..
• -'; ..-=1': 0 :: ,- ) . o:
n (- ::-· )1jn i ( ~:,.:)rm(O. 975) "2* (0.5) "2/error"2, O) FIGURA 35: PARÁMETROS y ESTIMADORES.

~.
..
~

Coa un resultado de n = 9,604. Observa que en la función


"",,,r' no es necesario colocar la media y la desviación están-
Consideraremos entonces que los parámetros son valores
desconocidos, que no vamos a calcular de manera exacta,
dar cuando son, respectivamente, cero y uno, que correspon- sino a estimar a través de los datos muestrales. Los estimado-
den a!a normal estándar, Observa que para una población tan res son números que pretenden acercarse a los parámetros.
arande, la muestra sería relativamente pequeña, siempre y Los estimadores no son idénticos a los parámetros, puesto
~ua mio la selección de los elementos fuera aleatoria. que se calculan a través de la muestra, Por lo tanto, siempre
Por último, para concluir este apartado, es importante definir contendrán un error muestra\. Como las muestras serán alea-
dos conceptos relacionados con población y muestra: pará-' torias, cada vez que se genere una muestra, se obtendrían
metroS v estimadores, que puedes ver en la figura 35. diferentes estimadores para los mismos parámetros, Esto
'"
e.. Las mediciones efectuadas sobre una población y que reflejan
algulla característica de interés se llaman parámetros, Por la
significa que los estimadores son también variables aleato-
rias que responden a una distribución. de probabilidad, como
veremos en la siguiente sección,
Q dificultad que existe para su registro puesto que no tenemos
ilcceso a los datos de toda la población, generalmente resul- El objetivo fundamental de la estadística inferencial, como
t3!1 desconocidos. Como ejemplos tenemos la media, varianza
dijimos en la sección 1, es conocer las características de una
11 proporción poblacionales,
población a través de información extraída de una. muestra
aleatoria, Esta información nos permitirá, además, tomar
En l"clmbio, las mediciones efectuadas sobre una muestra decisiones importan.tes acerca de la población,
reciben el nombre de estimadores de los parámetros. Si di-
cin muestra es representativa de la población y si hacemos Ya hemos visto cómo seleccionar muestras apropiadas y eco-
ins ca)cu!Os correctos, esperaríamos que sean valores numé- nómicas. Ahora hablaremos de cómo utilizarlas para estimar
ricos bastante aproximados a los parámetros. los valores desconocidos de los parámetros de la población,
to, el máximo tamaño de muestra,. que será más que suficien-
te para nuestros fines.

n '=.
(Zl-!!r p(l-p)
2
E2
ECUACIÓN 20: TAMAÑO DE MUESTRA PARA ESTIMAR LA
PROPORCIÓN DE UNA POBLACIÓN IN FIN ITA O MUY GRANDE.

Así pues, para encontrar el tamaño de muestra con que se


estimará la proporción de votantes por cierto partido, en una
población de 50 millones como la de México, con un error de
0.01, el tamaño de muestra sería:
e rro r <- 0.01
~
n < - round (q no r m(O.9 7 5) A2* (O.5) A2/err or A2 , O)

I
FIGURA 35: PARÁMETROS y ESTIMADORES.
n

Con un resultado de n '= 9,604. Observa que en la función


Consideraremos entonces que los parámetros son valores
no es necesario colocar la media y la desviación están-
q n o rm
desconocidos, que no vamos a calcular de manera exacta,
darcuandQ son, respectivamente, cero y uno, que correspon-
den a la normal estándar. Observa que para una población tan
grande, la muestra sería relativamente pequeña, siempre y
sino a estimar a través de los datos muestrales. Los estimado'
res son números que pretenden acercarse a los parámetros.
Los estimadores no son idénticos a los parámetros, puesto
I!l
cuando la selección de los elementos fuera aleatoria.
que se calculan a través de la muestra. Por lo tanto, siempre
Por último, para concluir este apartado, es importante definir contendrán un error muestra!. Como las muestras serán alea-
dos conceptos relacionados con población y muestra: pará- torias, cada vez que se genere una muestra, se obtendrían ~
metros y estimadores, que puedes ver en la figura 35. diferentes estimadores para los mismos parámetros. Esto ij
significa que los estimadores son también variables aleato- I
Las mediciones efectuadas sobre una población y que reflejan I
rias que responden a una distribución.de probabilidad, como
alguna característica de interés se llaman parámetros. Por la
veremos en la siguiente sección.
dificultad que existe para su registro puesto que no tenemos
acceso a los datos de toda la població.n, generalmente resul- El objetivo fundamental de la estadística inferencial, como
tan desconocidos. Como ejemplos tenemos la media, varianza dijimos en la sección 1, es conoc·er las características de una
o proporción poblacionales. población a través de información extraída de una. muestra
En cambio, las mediciones efectuadas sobre una muestra aleatoria. Esta información nos permitirá, además, tomar
reciben el nombre de estimadores de los parámetros. Si di- decisiones importantes acerca de la población.
cha muestra es representativa de la población y si hacemos Ya hemos visto cómo seleccionar muestras. apropiadas y eco-
los cálculos correctos, esperaríamos que sean valores nUmé- nómicas. Ahora hablaremos de cómo utilizarlas para estimar
ricos bastante aproximados a los parámetros. los valores desconocidos de los parámetros de la población.
15. Adivinanzas informadas: Los estimadores promedio real [parámetro desconocido) de toda la zona. Pero
no es el único estimador, también podríamos tomar un solo
punto de la muestra; promediar el mayor y el menor; usar la
mediana o la moda. Es decir, podemos utilizar diferentes
aproximaciones para estimar un parámetro.
En este mundo hay sólo dos tragedias. Una es no conseguir
lo que se desea, la otra es conseguirlo. La última Por supuesto, no todas estas aproximaciones serán igual de
es la peor, ¡es la verdadera tragedia! ÓSCAR buenas. Hay unas mejores que otras. Nuestro propósito, o
. WILDE, El Abanico de Lady Windermere.
nuestro deseo como diría Óscar Wilde, es seleccionar la me-
Efectivamente y como siempre, jor aproximación. Veamos.
Óscar Wilde tiene razón en
La meta fundamental es que los estimadores se parezcan o
esta inquietante frase. La in- estén cerca del valor real de los parámetros. Para ello hay que
tención, te la dejo de tarea, ponerse listo y elegir el mejor estimador. El mejor estimador
tiene mucha tela de donde cortar. Además, el significado se será aquel que satisfaga todas las propiedades deseables
actualiza conforme la vida avanza. Pero aprovecharemos para que describimos a continuación:
recordar qué es lo que queremos en este momento, al menos
en cuanto a nuestros deseos estadísticos. • Supongamos que tenemos el tiempo y el dinero para ha-
cer muchas muestras diferentes de la misma población.
Queremos estudiar una población y sólo podemos acudir a
Nos gustaría 'que, si promediamos los estimadores obte-
los datos de una muestra. En el mejor de los casos y si segui-
nidos de cada una de esas muestras, el resultado fuera
mos los consejos de la sección anterior, tendremos una buena
igual al parámetro que queremos estimar. Si cumple esto
muestra. Los valores que obtendremos a partir 'de la muestra
se dice que el estimador es insesgado. Su valor esperado
se llaman estimadores y son, en realidad, una adivinanza in-
es igualo al menos se acerca al parámetro desconocido.
formada acerca de los valores reales y desconocidos de los
• Nuevamente supongamos que podemos hacer muchas
parámetros. Son una adivinanza porque sabemos que la
muestras. Nos gustaría que, si usamos el mismo estima-
muestra y la póblación no son idénticas.
dor en cada una de ellas, el resultado fuera siempre pare,
Por ejemplo, si deseamos conocer el comportamiento de la cido. Es decir, nos agradaría que su varianza fuera
contaminación ambiental, tendremos que tomar datos en mínima. Un estimador con varianza mínima se llama efi-
algunos lugares y momentos específicos. La teoría del mues- ciente.
treo nos ayudará a hacer correct¡¡mente la selección de estos • También sería conveniente que el estimador utilice toda
lugares y momentos. Supongamos que con los datos quere- la información disponible en la muestra. No nos daría
mos conocer, por decir algo, el Índice Metropolitano de Cali- confianza usar sólo un par de puntos o uno solo. Cuando
dad del Aire o ¡MECA [Secretaría del Medio Ambiente DF, el estimador usa todos los datos de la muestra se llama
2014) promedio de una zona, en cierto momento. suficiente.
Por supuesto, ha podemos medir la contaminación en absolu- • Por último y por supuesto, esperaríamos que, al aumen-
tamente todos los puntos de la zona, que son una infinidad. tar el tamaño de la muestra, el estimador se acerque más
Tomaríamos entonces sólo algunos puntos estratégicos y y más al parámetro. Cuando esto pasa se dice que el esti-
efectuaríamos la medición, con lo cual tendríamos la muestra. mador es consistente.
De hecho, así es como se hace en la realidad. El promedio de Todas estas propiedades se pueden definir de manera más
esos puntos muestrales sería entonces un estimador del formal y matemática. También puede demostrarse algebrai-
camente si se cumplen o no para diversos estimadores. Por 2) ¿Cómo se calcula cada uno de ellos? Eso lo explicaremos
fortuna, para el objetivo de este texto, bastará con dejar clara ahora mismo, pero conviene notar que, para obtener el esti.
la idea de que existen unos estimadores que funcionan mejor mador por intervalo requerimos del estimador puntual.
que otros. Los mejores son los que cumplen con todas estas El estimador puntual es como una flecha que lanzamos a un
propiedades. En los casos más usuales, ya están definidos y blanco o diana, que sería el parámetro desconocido. Si somos
no será necesario que demostremos que cumplen con esta buenos tiradores, es decir, si usamos un buen estimador, la
lista de características. Todos los estimadores que expon- flecha quedará cerca de la diana, aunque difícilmente dará
dremos a continuación son los que han probado ser mejores. sobre ella de manera exacta.
Ahora, los estimadores pueden hacerse de dos formas. Cuan- En cambio, el estimador por intervalo nos da: más ,oportuni-
do preguntas a alguien su edad, a veces te responde ¿cuántos dad de acertar, es una especie de red para cazar mariposas. Si
años me calculas? Tu respuesta será un estimador de la edad la red es más grande, es más probable que la mariposa (el
real desconocida, aunque probablemente no estés consciente parámetro) quede dentro. Pero una red más grande es im-
de ello ni cumpla con las propiedades anteriores. Podrías práctica y también un intervalo demasiado amplio, aunque
responder con una edad: 25, por decir algo. Pero también nos brinde mayor certeza de contener al parámetro, perderá
podrías contestar una frase un poco menos precisa como información.
:'entre 20 y 30". En el primer caso tu respuesta tiene una gran
precisión, pero su probabilidad de error es más alta que la del Por ejemplo, imagínate que un maestro dice a sus alumnos
segundo caso, ¿no lo crees? Pues ésas son las dos formas de que la calificación de todos, con una certeza total, estará en- •
estimar. Ambas son útiles y tienen importancia estadística.
Veamos una por una.
tre cero y diez. Aunque esto sea verdadero, no es algo útil ni
nuevo para ' ellos. En cambio, si les dice que su calificación,
¡
Estaremos usando un estimador puntual cuando la aproxi-
con un 95% de confianza o un 0.95 de probabilidad, estará
entre 7 y 8, la afirmación realmente brinda alguna informa-
J
mación al parámetro sea un valor único, un número, un pun- ción, aunque sea insegura. Ésa es la iclea en la estadística:
to, que representa a la característica de la población. Por obtener resultados lo más precisos y confiables que se pueda,
ejemplo, si decimos que la media muestral de la edad de los con la conciencia de que una y otra cosa son opuestos: a ma-
hombres deportados de Estados Unidos a México es de 36.24 yor confianza, menos precisión y viceversa. El arte de la esti- "

años, estaremos usando un estimador puntual. mación estadística consiste en balancear ambas cualidades, el
En cambio, estaremos manejando un estimador por Inter- estimador debe ser lo más preciso y lo más confiable posible,
valo si respondemos con un conjunto de valores posibles, entendiendo que al aumentar una de las cualidades, disminu-
dentro de los cuales suponemos que está el parámetro real y ye la otra.
desconocido. Por ejemplo, si decimos que la media muestral Existe toda una metodología matemática para obtener los
de la edad de los h,o mbres deportados de Estados Unidos a mejores estimadores que cumplan con lás propiedades ya
México está 'e ntre 33:92 y 38.56 años, estaremos usando un mencionadas. Para ahorrarte un poco de esa tortura, que en
estimador ' por intervalo, también llamado intervalo de con- realidad es un placer para quienes gustan de estas cosas, te
fianza. diremos que algunas personas ya trabajaron en esto y pode-
A partir de aquí surgen dos preguntas interesantes: mos ocupar las ecuaciones probadas y caladas, particular-
mente para muestras grandes. Si bien "grande" es un término
1) ¿Cuál de los dos tipos de estimador es mejor? Esto depen-
rel¡¡tivo, funciona bien, en la mayoría de los casos, para mues-
derá de nuestro objetivo.
tras aleatorias de 30 o más elementos.
Para 10$ datos cuantitativos. los dos parámetros que casi si a = 0.05. confiaríamos en un 95%. Mientras mayor sea la
siempre requerimos conocer son la media y la desviación probabilidad de error a. menor será la confianza y viceversa. ,
estándar. En los datos cualitativos el parámetro más usual es
Parece lógico entonces desear que la confianza sea muy alta.
la proporción. Veamos cómo se puede estimar cada uno de
cercana a 100%. El problema es el de la red para atrapar ma-
ellos. tanto de manera puntual como por intervalo. ¿te pare- riposas. Si queremos esa confianza. debemos hacer nuestra
ce? red muy grande. lo cual será impráctico. Para, un 100% de
Comencemos por la media. Se ha demostrado que el mejor confianza el intervalo donde pueda encontrarse la media será
estimador puntual de ' Ia media Ji es la media muestral o demasiado grande y poco informativo. Un valor razonable y.
promedio i. Esto se suele escribir como lo mostramos en la por lo tanto. usual. es 95%.
ecuación 21. La media muestral sigue una distribución de probabilidad
,<,n X normal. según el teorema del llmite central. cuya media es
{1 = i = L.!=1 !
justamente Ji y cuya varianza es (J2 In. Esto último implica
n
ECUACiÓN 21: ESTIMADOR PUNTUAL DE LA MEDIA.
que la desviación estándar sea (JI,fñ ,Con estos datos pode-
mos encontrar los puntos críticos. a la izquierda y derecha.
Este valor tiene todas las propiedades que escribimos arriba. que delimitan una probabilidad igual a 0.95 o 95%.
es insesgado. consistente. eficiente. suficiente. repelente ....
no. repelente no. Pero sí es un estimador excelente. El gorrito Así, se puede verificar que la probabilidad de que el paráme-
cantonés o acento circunflejo que escribimos sobre el valor tro desconocido Ji esté ubicado dentro del intervalo de con-
fianza'de la ecuación 21 es de 95%.
de la media Ji. significa que se trata de un estimador de la
media poblacional. Cada vez que veas este acento. sabrás que - _ ZO.975(J - + ZO.97S(J]
se trata de un estimador y no del parámetro real desconoci- Ji E [ x ,fñ'x ,fñ
do. Ese número es una aproximación. Como es un solo núme-
ECUACiÓN 22: ESTIMADOR POR INTERVALO DE LA MEDIA CON
ro. se trata sin duda delestimador puntual.
DESVIACiÓN ESTÁNDAR CONOCIDA.
Bueno. ¿y si queremos un estimador por intervalo? ¡Ah! Pues
En esta ecuación ZO.975 es el punto crítico que ya habíamos
aquí entran en juego la famosa distribución normal y el teo-
explicado. que divide al área de 95% de los dos extremos a
rema dellfmite central.
izquierda y derecha. cada uno de 2.5%. Como la función nor-
Hemos dicho que al tomar una muestra para indagar acerca mal es simétrica. podemos usar -ZO.975 en lugar de ZO.02 S.
de una población. se comete un error, por lo tanto. no pode- que sería el punto crítico della'do izquierdo. Puedes verificar
mos confiar totalmente. en un cien por ciento. en los resulta- esto fácilmente con R con el código:
dos obtenidos de esta forma. Así. digamos que la certeza o qn o rmIO . 97 5 )
confianza total sería representada por el 100% o la p,r obabi-
qnorm I O. 025)
Iidad igual a uno.
Si suponemos que la probabilidad de cometer un error en la Ahora. dentro de la ecuación aparece la desviación estándar
real de la población (J. Por supuesto. este valor suele ser des-
estimación es un valor denotado por a. relativamente peque-
ño. la confianza que tendremos en el estimador por intervalo conocido porque no contamos con la población. sino con la
es del (1 - á)100%. Si a = 0.10. la confianza sería del 90%; muestra. Así pues. será necesario sustituirlo. a su vez. por su
estimador puntual. El estimador puntual de la desviación
estándar se expresa en la ecuación 23.
L~=l (Xi - x)2 "=
C>

~
8=5=
n-1 .c
e
ECUACiÓN 23: ESTIMADOR PUNTUAL DE LA DESVIACIÓN
<i '"
C)

ESTÁNDAR. C>
C> , ,
Es posible comprobar que este estimador cumple con las -4 -2 o 2 4
propiedades deseables ya enunciadas; de hecho, es precisa-
mente para lograr que sea insesgado que se divide entre x
n - 1 y no entre n. FIGURA 36: DISTRIBUCiÓN T DE STUDENT CON 49 GRADOS DE
LIBERTAD.
Ahora podríamos reescribir la ecuación 22, sustituyendo el
valor de s en lugar de a que no conocemos. Sin embargo, al Si, quieres obtener esta gráfica y observar cómo varía según el
hacer esto se modifica la distribución de probabilidad. En numero de elementos que tenga la muestra, basta con utilizar
lugar de utilizar una distribución normal es necesario usar la siguiente instrucción en R:
una distribución llamada t de Student. Esta distribución en curve (dt (x, 49) , from= -4, to=4 r y l ab="pr ob")
realidad es muy parecida a la normal, de hecho, se deriva de
Ahora, ¿por qué este nombre curioso de t de Student? Se lla-
ella. Así como la normal cambia según su media y su desvia-
ma así porque fue creada por el inglés William Sealy Gosset
ción estándar, la t de Student varía según el número de ele-
(1876-193,7) quien trabajaba en la fábrica de cerveza Guin-
meiltos que contenga la muestra. En términos generales, el
ness. Sí, la misma de los famosos records Guinness. Cuando
número de elementos de la muestra menos uno (n - 1), se
Gosset quiso publicar sus avances, se encontró con que la
llaman grados de libertad de la distribución t de Srudent. La
fábrica lo tenía prohibido. Así que los publicó con el seud6-
figura ' 36 muestra la t de Student para una muestra de 50, es
nimo modesto de "estudiante". Desde entonces la distribución'
decir, para 49 grados de libertad. Como puedes ver, la distri-
se llama t de Student o simplemente, t.
bución t, al igual que la normal, es simétrica con respecto a su
centro, que es cero. Una de las diferencias entre la normal y la De manera que el estimador por intervalo de confianza para
distribución t es la proporción de casos que se encuentran a la media de una población, cuando no se conoce la desviación
una desviación estándar de su media. Entre menos grados de estándar, como ocurre la mayoría de las veces, se obtiene a
libertad tenemos, la distribución t suele tener una mayor través de la ecuación 24. La ecuación significa que hay un
proporción de casos a varias desviaciones de su media en 95% de confianza de que el parámetro desconocido J1. se en-
comparación a la normal. Sin embargo, como debes de imagi- cuentre en el intervalo indicado.
nar, entre más grados de libertad tengamos, la distribución t
se suele parecer cada vez a la normal. Esta es la razón por la J1. E x-
s
tn-l
o~ ,x + o~
sJ
t
n 1
-
[
que para muestras pequeñas se suele preferir otro tipo de
distribuciones a la normal: para ser más conservadores. ECUACiÓN 24: ESTIMADOR POR INTERVALO DE LA MEDIA CON
DESVIACiÓN ESTÁNDAR DESCONOCIDA

El nuevo valor t~9i5 es el punto crítico de la distribución t de


Student con n - 1 grados de libertad, para una pnibabilidad
de 0.975. Es decir, es el punto crítico que enmarca el 95% de
confianza. Tal vez ya te imaginas cómo se puede obtener con
R. Basta con escribir la siguiente instrucción, para 49 grados Para ver el resultado de cada una, como ya sabes, basta con
escribir:
de libertad:
lim. inf
q t (0 . 97 5, 49 )
[lJ 33 .92 00 9
Que debe darte como resultado 2.009575. Tratemos ahora de
l im o su p
hacer un ejemplo completo para darle sentido a la ecuación y
a todos los cálculos. [ lJ 38.55 991

Se aplicó una encuesta a 50 hombres mexicanos deportados Con lo anterior podemos decir ahora que tenemos un 95% de
de Estados Unidos que llegaron al aeropuerto de la Ciudad de confianzá en que la edad promedio real de todos los mexica-
México. Los 50 hombres fueron seleccionados al azar. Entre nos deportados de Estados Unidos a México está entre 33.92
otras cosas, se les preguntó su edad. Los datos recabados se y 38.56 años. Esto nos da más información que sólo ·el dato
muestran a continuación, ya colocados en R, con el nombre puntual.
de variable Edades: Como este procedimiento es muy frecuente, existe una fuo-
[l J 2S 31 45 43 1 636 2 726 24 , 31 ~3 35 51 35 2 8 27 38 32 36233 4 ción que hace todo de una sola vez, de manera muy sencilla,
[22] 38 3 8 45 3 5 42 4 6 3 0 39 3 4 4 8 3 8 45 31 3 5 50 32 3 1 38 4 i 5 1 3 1
para evitarte trabajo. Si tenemos las edades almacenadas en
( 43 1 28. 2 9 4 7 44 3'9 2 7 35 4 7
la variable Edades, escribimos:
Para obtener el .e stimador puntual de la media de estos 50 t . t e st (Edades )
datos, podemos sumar todos y dividirlos entre 50: l'
Lo cual generará los siguientes resultados:
sum(Ed ad es ) 15 0 11
[ l J 3 6. 24
dat a :
One Sample t - t es t
Edade s
¡i
O mucho más fácil, como ya aprendimos, podemos obtener
t ~ 31 . 3922 , df ~ 49 , p - va l ue < 2.2e-16
directamente la media, que es el estimador puntual:
altern a ti ve h y pot he si s : t r ue mean is no t equa l t a O
mea n (Edade s )
95 per c e nt c o nf idenc e i nterval:
[lJ 3 6 . 24
33.9 2 009 38 . 55 9 91
Ahora, para construir el estimador de la media por intervalo, samp l e es ti mates :
necesitamos la ecuación 24, con los valores de la desviación mean o f x
estándar estimada s y el punto crítico t. Hacemos los cálculos
36.24
correspondientes :
La frase "one sample" indica que sólo estamos analizando
s <- s d (Ed ade s )
una muestra. En la sección 15 veremos cómo comparar dos
t <- q t (0.9 7 5 , 49 ) muestras, lo cual es muy interesante en el ámbito de la inves-
Con lo cual podemos obtener el límite inferior y 'el límite su- tigación. Data son los datos, es decir, las edades. Los siguien-
perior del intervalo de confianza de 95%, con las siguientes tes dos renglones forman parte de ·las pruebas de hipótesis
dos instrucciones: que explicaremos en la sección 15 también. Pero mira, nos da
lim . inf <- mean{Eda de s) -( t *s) /sqrt( SO) directamente el intervalo de confianza de 95% y el estimador
puntual. ¿Ya los localizaste? Es realmente muy cómodo yefi-
l i rn . s u p '< - me a rt( Edades)+{t*s)/sqr t( SO)
ciente.
Muy bien. Lo anterior fue para datos de tipo cuantitativo o
numérico. Ahora veamos qué sucede con datos cualitativos. p E p-
A

ZO.9 7 5
JpCl-P)
n ,p +
A

ZO.97 S
JpCl-p)1
n
Por ejemplo, supongamos que estamos indagando qué pro~ [

porción de los mexicanos deportados a México de los Estados


Unidos desean regresar a este último país. Para ello, se tienen ECUACIÓN 26: ESTIMADOR POR INTERVALO DE CONFIANZA
PARA LA PROPORCIÓN.
también datos procedentes de la encuesta a 50 mexicanos al
azar que han llegado al Aeropuerto de la Ciudad de México. Hagamos entonces el cálculo con R, con las siguientes ins-
Los datos en R son los siguientes, almacenados en la variable trucciones:
llamada Regresan. La pregunta fue si regresarían o no a E~ t.a­ l i m . inf <- p-qno r m(O . 975) * s q r t(p* {l - p) /n )
dos Unidos. l i m. sup ( - p +q norm (O . 975)*sqrt (p*(1-p)/n)
[1 ] ~ l no no sí n o si no n o n o sí s i n o no no si no si s i n o no s 1
[22 ) n o no .sí no n o n o si no n o no no n o s 1 no no si sí no si si no lim.in f
[ 43] no nú si no no no sí no
l im o sup
Calcular la proporción de deportados que desean regresar es
muy sencillo, significa sólo contar los valores iguales a "s í" y Como resultado, éncontramos que la proporción real de mi-
dividir este número entre el tamaño de muestra n; esto se grantes deportados que desean regresar a los Estados Unidos
hace con la siguiente instrucción: está, con un 95 % de confianza, entre 0.2269532 y 0.4930468.
En forma aproximada, la proporción real estará entre 0.23 y
n <- le ngth(Regr e san) 0.49.
p <- sum(Reg r e san== " si ") / n
Ahora, como seguramente ya sospechas, este procedimiento
p es frecuente y R puede hacerlo de forma automática. Para ello
Observa que pedimos a R que haga la suma de los valores se escribe la siguiente instrucción:
iguales a "sí" con un doble signo de igual. Ese doble signo prop . t e st (sum (Reg r esa n =="s i" ) , 50)
quiere decir que no estamos indicando que la variable es
Esta instrucción indica a R que se desea una prueba sobre la
igual a "sí", sino que estamos señalando que sume aquellos
valores donde sea iglJal a "sí". El resultado debe ser 0.36. El proporción, el número de eventos con la característica
deseada y el total de eventos observados. El resultado es el
36% de los deportados quiere regresar a Estados Unidos.
siguiente: ...
Como puedes ver, el estimador puntual de la proporción p l - samp l e pro p o r ti o n s t es t wi t h con t i nui t y c o r -
de una población, está dado entonús por la ecuación 25, rection
donde Xi = 1 si el evento posee la característica de interés y dat a: sum(Reg r e s an == " s í " ) out o f 50 , nu ll "p r oba -
Xi = O si no la tiene: b ility 0.5

~
A

p=
Lf=l X ¡ X-squa r ed 3 .38, df = 1 , p - val ue • 0. 065 99
n a lterna t i ve hyp o the ~ i s : t rue p is n o t equal to 0 .5
ECUACIÓN 2 5: ESTIMAD OR PUNTUAL DE LA PROPORCIÓN . 95 p ercent c o nf i dence in terval :
0 . 23 28 502 0.5085700
Ahora, ¿cómo se construye el estimador por intervalo de esta
proporción? Para ello consideramos que existe una probabi· sample e s t i ma t es :
Iidad de 95% de que la proporción real desconocida, p, quede p

comprendida en el intervalo de la ecuación 26. 0.36


No es idéntico a nuestro resultado, pero es bastante parecido. computacional cada vez avanza más y permite hacer minería
El estimador puntual sí es igual a 0.36, pero el intervalo del de textos en estas opiniones (O'Connor eta/.. 2010), de
95% de confianza está entre 0.23 y 0.51. Esto se debe a los manera estadística, para detectar tendencias.
cálculos particulares de esta función, pero podemos usarla
con toda confianza. Por otro lado, la estadística está presente en los medios de
comunicación. La utilizan desde los anuncios comerciales
También puedes, si lo deseas, construir el intervalo de con- para promover intereses particulares, hasta las revistas
fianza para una proporción en Excel. Se utiliza la misma fun- científicas para exponer avances en el conocimiento. Además,
ción que para la media, sólo hay que modificar la desviación cada vez más sitios de internet, sobre todo gubernamentales,
estándar. Para la proporción, la desviación estándar es ofrecen bases de datos que pueden ser exploradas y
'¡¡J(1- ¡J) . explotadas para obtener información interesante a partir de
ellas.
Nada más como dato curioso, para destacar lo interesante
que puede ser estudiar las proporciones, existen investiga- Todo lo anterior hace pensar que Wells tenía razón: el sentido
cIOnes que han encontrado cosas tan curiosas como el hecho estadístico, definido como la "unión de la cultura y el
de que 'existe una mayor proporción de personas con trastor- razonamiento esadístico" (Batanero Bernabeu et 01.,2013) , es
nos de bipolaridad y psicosis esquizofrénica entre quienes una habilidad indispensable para la vida cotidiana del siglo
son muy creativos, que entre quienes no lo son (Barrantes- 21.
Vidal, 2004), ¿qué te parece? La estadística sugiere que existe Para contribuir a la formación de este sentido estadístico
una relación real entre genio y locura. podemos describir brevemente un aspecto apasionante que
forma parte de él: las pruebas de hipótesis. Formulemos
16. Dos tipos de errores algunas hipótesis para comenzar este análisis. No las tomes
demasiado en serio, no estamos estableciendo posiciones, se
El día llegará en que el pensamiento estadistico será tan trata de jugar, un poco para explicar conceptos. Son
necesario para ejercer 1<'1 ciudadanía con eficiencia, como la propuestas derivadas de algunas investigaciones.
~apacidad de leer y escribir. H. G. WELLS.
1. Las mujeres sufren más por bajar de peso que los
Este novelista inglés, autor de La guerra de los mundos, La hombres (Pingitore et al., 1997).
máquina del tiempo y El hombre invisible. entre otras obras,
2. Los hombres tienen mayores habilidades matemáti-
se caracterizó por ser un excelente escritor de ciencia ficción
cas que las mujeres (Zhu, 2007).
y. por lo tanto. por tener una visión anticipada del futuro. Hoy
en día la estadística se ha convertido en un medio de comuni- 3. La presencia de mujeres disminuye conforme aumen-
cación muy poderoso. ta la jerarquía de los cargos laborales en México
(Zabludovsky, 2007). '
Algunos autores opinan que las encuestas y los sondeos son
la principal herramienta de construcción de la llamada 4. Los estudiantes que utilizan videos interactivos en
"opinión pública" (Almazán Llorente y Villarejo Ramírez, ambientes en línea tienen mayor desempeño y nivel
2012). que tiene repercusiones políticas sustanciales. A partir de satisfacción que quienes no disponen de ellos
de las redes sociales. se ha potenciado la expresión de (Zhang et al., 2006).
opiniones en medios como Twitter y Facebook, que 5. Las personas con depresión tienen mayor tendencia a'
presentan formas de discurso muy particulares. La lingüística generar adicción a internet (Torres, 2011).
1

6. Los jóvenes urbanos ·actuales dedican más tiempo a que siempre se construyen avances sobre las ideas anterio-
usar internet que a ver televisión (Fernandez-Planells res.
y Maz, 2012).
Este lenguaje cauteloso es indispensable en la investigación y
Todas estas afirmaciones -y muchas más que tú puedes pro- la construcción de conocimiento. Por supuesto, en una plática
poner- pueden resultar polémicas. Son afirmaciones contun- de café podemo.s emitir nuestras opiniones y hasta podemos
dentes y seguramente, si alguien las expresa, le pediríamos creer firmemente en ellas. Pero la investigación rigurosa no
qUe las fundamente y las justifique. Se dice que son afirma- acepta esto. Sólo se puede considerar como válida y útil una
ciones falsables, porque pueden ser desmentidas a través de afirmación comprobada contra los hechos y con ciertos pro-
hechos. También son verificables, porque pueden ser apoya- cedimientos rigurosos. Eso garantiza que el conocimiento
das o no por lo que ocurre en la realidad. avance con cuidado y calidad.
Además, son generalizaciones. Las afirmaciones no hablan de ¿Por qué tanta cautela? Si observas las hipótesis, todas ellas
casos particulares, sino que tratan de establecer reglas para se refieren a características de poblaciones completas .. Sin
muchos casos. Se habla de "los hombres", "las mujeres", ·"Ios embargo, para probarlas casi nunca podemos hacer medicio-
jóvenes urbanos". En fin, abarcan mucho. Por ello, en princi- nes en toda la población, sino sólo en una muestra limitada
pio, no podemos darlas por buenas así como así. por nuestras posibilidades reales. Si queremos estudiar a
todos los hombres o todas las mujeres o todos los jóvenes
Por último, son afirmaciones interesantes y útiles. De ser
urbanos actuales, seguramente esto será imposible. Para es-
ciertas. contribuirían a la construcción de soluciones a pro-
tudiar la hipótesis, tendremos que conformarnos con obser-
blemas relevantes educativos, sociales o de salud.
var la muestra y, a partir de ella, inferir o inducir que sus
Las afirmaciones que reúnen todas estas características se características son también las de toda la población. Eso im-
llaman hipótesis. El Diccionario de la Real Academia indica plica una buena selección de la muestra, el cuidado en las
que una hipótesis es la "suposición de algo pOSible o imposi- mediciones que realicemos y la rigurosidad en la forma de
ble para sacar de ello una consecuencia". Además, agrega que decidir con respecto a la hipótesis.
una rupótesis de trabajo es una "hipótesis que se establece
Por eso cuando se trata de verificar estas hipótesis, Se dice
provisionalmente como base de una investigación que puede
que hay elementos para apoyarlas o rechazarlas, pero no se
confirmar o negar la validez de aquella". ¿Observas el cuidado
dice tajantemente que son verdaderas o falsas. Además, se
en los términos? Se dice con claridad que la hipótesis puede
suelen analizar y matizar con mucho cuidado. Si se encuen-
ser falsa, incorrecta, imposible. Se pueden formular hipótesis
tran diferencias entre la habilidad matemática de hombres y
de trabajo, pero son provisionales, hasta que se confirme o
mujeres, se buscará si las causas son realmente biológicas o
niegue su validez.
neuronales, o si tienen que ver con desarrollos culturales y
Ahora, cuando existen datos que sustenten la hipótesis, en sociales. Solamente cuando se encuentra la causa exacta de la
general no se acostumbra decir que la hipótesis es verdadera. afirmación podría probarse la afirmación de forma contun-
Decimos que es válida y puede convertirse en una teoría. Esta dente.
teoría es una explicación útil para el fenómeno analizado. La
Si revisas los artículos de los cuales hemos extraído las hipó-
teoría puede continuar siendo válida hasta que llegue otra
tesis, los autores hacen afirmaciones modestas y cautelosas.
hipótesis más clara y mejor que la sustituya. Esto ha pasado
Dicen cosas como "los datos recabados sugieren que existe
normalmente en el conocimiento y es una gran ventaja, por-
una relación entre el uso de internet y la socialización, así
como entre el ver televisión y la relajación". Por lo general,
aún después de afirmar esto, se desmenuza, se analiza y se seleccionar la muestra se siguen criterios como los que he-
matiza con explicaciones posibles. mos explicado en la sección 14.
De lo anterior, surgen dos preguntas interesantes: Una vez que se cuenta con la muestra, se hacen mediciones
sobre de ella. Para hacer las mediciones deben tenerse una
• ¿Cómo se crean las hipótesis?
serie de cuidados que eviten que la información sea incorrec-
• ¿Cómo se verifican o prueban las hipótesis, ya sea pa- ta o sesgada. La propia medición puede modificar un fen6-
ra desecharse o para convertirse en conocimiento vá- meno y hacer que los resultados obtenidos sean falsos. Por
lido? ejemplo, si se va a medir el peso de un grupo de mujeres cada
semana, es posible que la conciencia de esta medición las
En cuanto a la primera pregunta, la formulación de hipótesis haga cuidarse y bajar un poco de peso, falseando el resultado.
es una de las maravillas de la mente humana. Por lo genera!,
Así que hay estrategias para evitar este tipo de problemas,
las hipótesis surgen de nuestro interés en algún fenómeno y
como veremos en la siguiente sección.
nuestra observación, intencional y sistemática, aunada al
conocimiento teórico que hayamos acumulado y tengamos Las mediciones generalmente se resumen a través de los es-
presente, Aunque se dan casos de chispazos creativos, por lo timadores puntuales o de intervalo que revisamos en la sec-
general las buenas hipótesis proceden ·de estudiosos de un ción anterior. Como hemos dicho, estos valores no son las
tema que se han dedicado a él un buen tiempo, que han leído características de la población, sino de la muestra. Así .que
y revisado otras teorías, explicaciones e hipótesis. Muchas habrá que manejarlos con pinzas para no quemarnos. Será
veces una hip6tesis consiste simplemente en modificar un muy importante tratarlos con cuidado y establecer reglas
poco otra hipótesis ya existente, para hacerla más precisa y para utilizarlos en la toma de decisiones.
. útil. .
Ahora, además, habrá que comparar las diferentes medicio-
La hipótesis suele COmbinar los hechos con las explicaciones nes muestrales para tratar de verificar las hipótesis. Por
teóricas; las observaciones del fenómeno con las lecturas ejemplo, para la hipótesis número uno habría que medir la
abundantes y sistemáticas. También puede haber un compo- percepción de sufrimiento de hombres y mujeres al querer
nente afectivo: el investigador estudia aspectos que le resul- bajar de peso y luego comparar ambas, para ver si la diferen-
tan interesantes, motivadores, apasionantes. cia es importante. O tal vez contabilizar la proporción de
hombres y mujeres que sufren al tratar de disminuir su peso.
Ahora, .¿cómo se prueban las hipótesis? Podríamos hacer una
Esto lo haremos midiendo una muestra de cada grupo, en
votación democrática para concluir por mayoría su veracidad
circunstancias lo más semejantes que se pueda, para que los
o falsedad; pero ... ¿tendría esto sentido? ¿Probaría algo esta
resultados sean confiables y comparables. Si estudiamos a las
votación, más allá de la inclinación de la mayoría de las per-
mujeres cuando están próximas a casarse, probablemente su
sonas? También podríamos pedirle opinión a una o varias
estrés será mayúsculo. Si estudiamos a los hombres cuando
personas expertas en el tema, lo cual resultaría valioso y cier-
salen del gimnasio o acaban de jugar futbol, será una situa-
tamente iluminador, pero tal vez si nos recetan un tratamiento
ción diferente. Todo esto son aspectos delicados.
para alguna enfermedad, preferiríamos que, además de con-
tar con opiniones favorables, se hubiera probado su eficacia. Por último, debemos comparar las dos mediciones y deter-
minar si su diferencia indica que se puede apoyar la hipótesis
Las hipótesis s·e prueban recolectando datos reales y verifi-
o no. En principio, es altamente probable que ambas medi-
cando si estos datos apoyan o contradicen la afirmación. Es-
ciones sean distintas, es casi imposible que nos queden idén-
tos datos proceden, por lo general, de una muestra. Para
ticas. La diferencia entre la medición de hombres y mujeres,
por ejemplo, podría deberse tan solo al hecho de que en am- teoría. Al hacer la prueba de hipótesis, si los datos indican
bos casos estamos tomando muestras aleatorias de la pobla- que la hipótesis nula podría creerse cierta de acuerdo con la
ción. ¿Qué tan diferentes deben ser para que podamos con- información recabada, rechazaremos la hipótesis alternativa.
concluir que esta diferencia apoya la hipótesis y no es sólo Los procedimientos estadísticos están hechos de manera que
resultado del azar? El problema es encontrar el punto de cor- es relativamente difícil rechazar la hipótesis nula. Así, ten-
te donde la diferencia es relevante, donde brinda información dremos cierta garantía de que, si vamos a hacerlo, será por-
valiosa para apoyar la hipótesis. Necesitamos un procedi- que los datos realmente brindan evidencia en ese sentido.
miento y reglas de decisión apropiadas para hacer esto. Expliquemos un poco más esto.
Por todas estas razones, la estadística es humilde y no pre- De acuerdo con los datos muestra les recabados, podremos
tende · encontrar verdades absolutas, sino afirmaciones que aceptar o rechazar lahipótesis nula, lo cual a su vez indicará
pueden considerarse ciertas con algún grado de confianza. si hay fundamento o no para la hipótesis alternativa. Sólo
Hipótesis que sean probablemente ciertas y no dogmática- podremos tomar una de dos decisiones: aceptar la hipótesis
mente ciertas. Así, la ciencia avanzará al modificar y mejorar nula, con lo cual se rechaza la hipótesis alternativa o, al con-
la~ hipótesis sucesivas, encontrando respuestas cada más trario, rechazar la hipótesis nula, con lo cual hay fundamento
acertadas y precisas para los problemas. para apoyar la hipótesis alternativa. En realidad, .existe una
Él propósito de una prueba de hipótesis puede ser en- tercera opción que es no decidir, conseguir más. datos y re-
tonces: verificar si ocurrió un cambio, si existe una diferencia plantear el problema.
significativa entre dos valores, si dos variables tienen una Ahora, considerando las dos primeras decisiones, podemos
relación de causa y efecto, etcétera. Este procedimiento co- estar en lo correcto o podemos estar equivocados, según la
mienza con el planteamiento de una pareja de enunciados, decisión tomada:
llamados hipótesis nula e hipótesis alternativa.
• Si rechazamos la hipótesis nula cuando en realidad es
La hipótesis nula (denotada por Ho) es una versión de algo verdadera, cometeremos un error del tipo l. También
como: "cualquier cambio o diferencia en los resultados se se le llama "falso positivo". Este término procede de la •
debe exclusivamente a variaciones aleatorias, es decir, al medicina. Si una persona se hace un estudio para ver si i
azar" o "la diferencia en los resultados en realidad no es sig- tiene una enfermedad, como cáncer o SIDA, el estudio
nificativa". De ahí el nombre de nula. La contraparte es la hi" puede indicar erróneamente que sí la posee cuando no es
pótesis alternativa (denotada por H¡ o H,) que contiene cierto. No es exactamente lo mismo, porque en estadística
el.cambio o diferencia que se anticipa como cierto. Es decir, la no nos referimos a casos particulares, sino a reglas gene-
hipótesis nula por lo general es nuestra hipótesis, lo que rales y conjuntos de datos. Pero la idea es que, si recha-
deseamos verificar. zamos la hipótesis nula, estaríamos dando por buena, de
Por ejemplo, en la proposición número uno del inicio de esta manera errónea en este caso, la hipótesis alternativa que
sección, la hipótesis nula podría ser: "el nivel de sufrimiento nos interesa. Por eso este caso se llama "falso positivo".
de los hombres y las mujeres, al tratar de bajar de peso, es • Si aceptamos la hipótesis nula cuando en realidad es fal-
semejante". La hipótesis alternativa, en cambio, se formularía sa, esto se conoce como un "falso negativo" o error del
como: "El nivel de sufrimiento de las mujeres, al tratar de tipo 11. Estaríamos descartando la hipótesis alternativa,
bajar de peso, es mayor que el de los hombres". Por lo general siendo ésta verdadera. Sería semejante a que la persona sí
la.hipótesis alternativa corresponde a lo que suponemos ver- tuviera la enfermedad y el estudio reportara que no la tiene.
dadero, según nuestras observaciones más el cotejo con la

Cada posible error tiene su costo.· Sería malo decirle a una errores. Esto hará que tomemos las decisiones con un nivel
persona que tiene la enfermedad cuando no la tiene; pero de confianza que nunca será del 100%.
también lo contrario, indicarle que no la tiene cuando sí es el
La probabilidad de cometer un error del tipo I se llama nivel
caso. Pensemos en otro ejemplo.
de significancia, y se denota por la letra griega a. Es la
Un juez debe condenar o dejar libre a un reo o presunto cul- probabilidad máxima que a(:eptaremos de cometer un error
pable. No sabe a ciencia cierta si es culpable, pero tiene un del tipo 1. Este valor es seleccionado por quien hace la prueba
conjunto de evidencias para juzgar. Si lo condena y no era de hipótesis y generalmente se usa 0.05. Con ello, el nivel de
culpable, estará cometiendo un falso positivo. Si lo deja libre confianza de la prueba estadística será de (1 - a)100% =
y era culpable, estará cometiendo un falso negativo. En este 95%. Con esto se reduce mucho la posibilidad de un falso
ejemplo se suele pensar que es más grave condenar a un positivo.
inocente que dejar libre a un culpable. Por eso existe un prin- Aunque es menos usual, también puede calcularse probabili-
cipio legal: "toda persona es inocente hasta que se demuestre dad de cometer un error de tipo 11, que se denota por p. Se
lo contrario".
llama potencia de la prueba a la probabilidad de rechazar
Veamos un último ejemplo. Si la alarma sísmica funciona con -correctamente- una hipótesis nula que realmente es falsa.
un 95% de confianza, quiere decir que el 95% de las veces La potencia es (1 - P)100%. La potencia se suele utilizar
que suene, habrá .habido realmente un temblor de cierta rele- cuando se desea dar una alta probabilidad a que se rechace la
vancia. El 5% de las veces, sonará por alguna otra causa que hipótesis nula.
.no fue un temblor, es decir, será un falso positivo o error del
Por ejemplo, si la hipótesis nula es que una planta química no
tipo 1. El falso negativo ocurrirá cuando suceda un temblor y
contamina el agua circundante, mientras que la hipótesis
la alarma no suene. Si se desactiva la alarma, se evitará por
alternativa es que sí la contamina, es conveniente reducir la
completo el error del tipo 1, pero siempre se cometerá el
probabilidad del falso negativo. En este caso deberíamos ha-
error del tipo 11. La alarma puede ser ligeramente imprecisa,
cer una prueba basada en la potencia. Sólo si los datos apo-
pero es mejor tener alarma que no tenerla.
yan de manera fehaciente a la planta química, estaremos
Más o menos de la misma forma funciona la estadística. Como tranquilos de que no contamina.
ya.te imaginarás, las cosas se complican porque ambos erro-
En la mayoría de los casos de investigación, las pruebas de
res están relacionados entre sí. Un juez podría adoptar la
hipótesis suelen basarse en los niveles de significancia y de
política de condenar a todos, para que no se le escape ningún
confianza, no en la potencia. Inicialmente, damos por buena
culpable, pero estaría maximizando su probabilidad de ,o n-
la hipótesis nula que, de cierta forma, representa la creencia
denar a gente inocente. Al contrario, podría dejar libres a
actual sobre el fenómeno. Si esta hipótesis es la verdadera, la
todos, pero estaría maximizando su probabilidad de no hacer
aceptaremos con un 95% de confianza y sólo en un 5% de las
cumplir la ley.
veces nos equivocaremos rechazándola . e inclinándonos a
La muestra funciona como las evidencias en un juicio. Cuando favor de la alternativa.
se generan conclusiones sobre una población a partir de
Se busca minimizar la probabilidad del falso positivo para
muestras, los errores son inevitables y lo único que podemos
hacer que sea difícil que la decisión apoye a la hipótesis al-
hacer es tratar de minimizar su probabilidad de ocurrencia
ternativa. De esta forma, sólo cuando los datos brinden una
de manera equilibrada. Tendremos que tolerar necesaria-
evidencia fuerte hacia la hipótesis alternativa, el procedi-
mente una pequeña probabilidad de ocurrencia para ambos
miento estadístico señalará que debe rechazarse la hipóteSIs
nula. Así, puedes considerar que, en general, trabajarás con Como deseamos comparar estos valores, una forma lógica de
una significancia del 5% y un nivel de confianza del 95%. hacer esto sería una resta: Pl - pz. Si laresta da un valor po-
sitivo, quiere decir que hay más aprobados en el primer gru-
Una vez definida la hipótesis a probar, su nivel de significan-
po. Si la resta da un valor negativo, quiere decir que hay más
cia y, en algunos casos, la potencia de la prueba, es necesario aprobados en el segundo.
calcular las mediciones que nos permitirán tomar la decisión
de aceptar o rechazar la hipótesis nula. En principio, las me- La hipótesis nula en este caso sería que ambas proporciones
diciones serán los estimadores muestrales que deseamos son iguales, para toda la población general de alumnos que
comparar, como medias, varianzas o proporciones. estudian estadística. Esto se escribe así:
Como hemos dicho, los estimadores proceden de una mues- Ho: Pl - pz = O
tra aleatoria y, por lo tanto, también son variables aleatorias
que siguen una distribuCión de probabilidad. Aquí entra nue- Observa que en la hipótesis no usamos los estimadores, sino
vamenteen juego el teorema del límite central que vimos en los parámetros desconocidos. Los estimadores son números
la sección 10. Como casi siempre usamos promedios o sumas obtenidos a partir de la muestra. En nuestro ·ejemplo,
de los datos muestra les, sabemos que estos valores tienden a P1 - P2 = 0.79 - .62 = 0.17. Estarás de acuerdo en que no es
parecerse a una distribución normal, lo cual facilita mucho sensato probar si 0.17 es igual a cero. Pero sabemos que los
los cálculos. valores Pi y P2 no son los valores reales, sino solo estimacio-
Para convertirlos en variables que se ajusten de manera per- nes de ellos. Lo que necesitamos probar es si esa diferencia
fecta a distribuciones conocidas y manejables, se les hacen de 0.17 brinda elementos para pensar que la diferencia real
algunas operaciones matemáticas sencillas. Generalmente se desconocida puede ser cero. Por eso las hipótesis siempre se
resta la media yse divide entre la desviación estándar. plantean con respecto a los parámetros, no a los estimadores.
Los valores resultantes de estas pequeñas modificaciones a Ahora, ¿cuál sería la hipótesis alternativa? Es la que estamos
los estimadores, se llaman estadísticos de prueba_ · Nos tratando de probar, que hay una mayor proporción aproba-
permiten medir y comparar aquello que nos interesa, de tal dos entre los alumnos que utilizaron los videos. Eso se plan-
manera que podamos obtener conclusiones razonables que tea de la siguiente forma: i
otros investigadores, en cualquier momento y parte del mun-
H,: Pl - P2· > O
I
do, puedan replicar. Si seguimos estos procedimientos, po-
dremos tener confianza en nuestros resultados y decisiones.
Pero, como tenemos una muestra aleatoria y no toda la po-
Por ejemplo, queremos comparar la proporción de alumnos blación, no basta con que haya una diferencia entre los esti-
aprobados en dos grupos de estadística, uno que complemen- madores. La diferencia debe ser relativamente grande para
tó su aprendizaje con videos de Khan Academy y otro que no. que apoye nuestra hipótesis. El número 0.034 parece peque-
Los alumnos se asignaron al azar, ni ,;, 100 con la primera ño, pero no podemos juzgar así, requerimos estándares de
metodología y n2 = 100 sin ella. En ellos, encontrámos comparación que no se basen en nuestra percepción u opi-
Xl = 79 aprobados en el primer grupo, Y X 2 = 62 en el se- nión, sino en normas que pueda seguir cualquier investigador.
gundo. La proporción de aprobados que usaron videos sería
f3¡ = X¡/nl = 0.79, mientras que la proporción de aprobados Cuando comparamos dos proporciones, el estadístico de
que no los usaron sería ti, = Xz/nz = 0.62. prueba está en la ecuación 27.
z= Pl-P2 El punto crítico ya lo sabemos obtener con R, como vimos en
la sección 10:
I (1 _ ) ni + n2
vp P nln2 qnorm(O.95)

ECUACIÓN 27: ESTADíSTICO DE PRUEBA PARA COMPARAR El número resultante es 1.644854. Antes de él estamos en la
PROPORCIONES. región de aceptación. Después, en la de rechazo. Ahora de-
En esta ecuación el valor de p se sustituye por el de la ecua- bemos verificar en cuál región está el valor del estadístico de
ción 28. prueba, que también podemos calcular con R.
Xl +X2 Al hacer la prueba anterior con los dos grupos de estudiantes,
p= hemos visto que existe una diferencia real entre las propor-
ni +n2
ciones estimadas. La pregunta es si esta diferencia realmente
ECUACIÓN 28: ESTIMACIÓN J}EL VALORP DE LA ECUACIÓN 27. se debe al cambio de metodología o sólo es resultado de la
Lo importante es que este valor Z sigue una distribución de aleatoriedad de la muestra. Para ello calculamos elestadísti-
probabilidad normal estándar o normal con media cero y ca de prueba Z, como se indica en la ecuación 29, en la cual
varianza uno. Los agregados a la diferencia se hicieron para p = 0.705, como se puede verificar con la ecuación 28.
lograr esto. 0.79 - 0.62
Ahora, el número que obtenemos en el estadístico de prueba Z= ~:::;::::;:;;::::::;:::;:;;:711010OO=+~l0000
no tiene una interpretación inmediata. Esa interpretación ";0.705(1 - 0.705) (100)(100)
está en función, precisamente, de su distribución de probabi- ECUACIÓN 29: CÁLCULUDEL ESTADíSTICO DE PRUEBA PARA
lidad. Recordemos la imagen de la distribución de probabili- COMPARAR PROPORCIONES.
dad de Z en la cual hemos marcado con gris el área o
probábilidad de 95% de aceptar Ha, dado que es verdadera, Si utilizamos nuestro software RStudio, escribiremos lo si-
en la figura 37. El área a la derecha, con blanco, es la probabi- guiente:
lidad de rechazar Ha, dado que es verdadera, es decir; es la nI <- lOO
probabilidad de cometer el error del tipo loa = 0.05. n2 <- lOO
Xl <- 79
'"o X2 <- 62
.o "l p1 <- X1/n1
2
Q. o
p2 <- X2/n2
q
o p <- (X1+X2) / (n1+n2)

-4 -2 O 2 4 Z <- (p1-p2)/(sqrt(p*(1-p))*sqrt((n1+n2)/(n1*n2)))
Z
Z
FIGURA 37: REGIÓN DE ACEPTACIÓN DE LA HIPÓTESIS NULA. El resultado debe quedarte Z = 2.635897. Para interpretar-
lo, usamos la siguiente regla de decisión. Si el valor Z queda
Lo único que necesitamos ahora es. comparar el valor del es-
dentro del intervalo de aceptación, es decir, si Z :5 ZO.9S, de-
tadístico de prueba con el punto crítico que separa las dos
bemos conservar como buena a la hipótesis nula, o no hay
áreas, la de aceptación (en gris) y la de rechazo (en blanco).
elementos para rechazarla. Si, en cambio Z > ZO,95' conviene largo de la intervención del capitán Pantaleón Pantoja, uno de
rechazar la hipótesis nula, con un 95% de confianza. En este sus elementos para convencer a sus superiores de las bonda-
último caso, habría elementos para apoyar la hipótesis alter- des de su estrategia, es apoyarse con estadísticas y datos.
nativa. ¿Qué sucede en nuestro ejemplo? Como hemos dicho, uno de los objetivos sustanciales de la
Como 2.635897 es definitivamente mayor que 1.644854, estadística es crear conocimiento para comprender proble-
quiere decir que el estadístico de prueba quedó ubicado en la mas y caminar hacia su solución. Por eso la estadística es un
región de rechazo, del lado derecho. De acuerdo con la regla gran apoyo para la investigación.
de decisión, debemos rechazar la hipótesis nula y considerar En la sección anterior comentamos cómo los procedimientos
que hay fundamentos para apoyar la hipóteSIs alternativa, estadísticos pueden ayudarte a tomar decisiones, a conocer a
con un 95% de confianza. una población entera a través de muestras manejables. Ade-
Observa que, aunque hay estos elementos de apoyo, no con- más, estos procedimientos tienen la gran ventaja de ser uni-
cluimos tajantemente que los alumnos aprenden mejor esta- versales. Cuando un investigador se apega a ellos, otros
dística si usan videos de Khan Academy, No lo hacemos, en investigadores pueden replicar sus pasos para observar si
primer lugar, porque sabemos que los datos con'tienen un obtienen los mismos resultados o si hubo algún cambio que
error muestral y no representan 'a toda la población. Pero deba ser explicado. Todo esto ayuda a que el conocimiento
también, en segundo lugar. aunque encontramos una mayor colectivo avance.
proporción de aprobados en el primer grupo, no es tan fácil Sin embargo, además de los procedimientos matemáticos
estar absolutamente seguros de que la causa única de ese rigurosos que hacen que-las decisiones sean cautelosas y bien
mayor número de aprobados es haber utilizado los videos. fundamentadas, la estadística también tiene algo que decir
, Como dijimos en la sección 11, establecer relaciones de causa sobre la forma en que se hacen las observaciones y los expe-
y efecto es algo peliagudo y debe hacerse con cuidado extre- rimentos.
mo. Veremos más sobre estos temas en la siguiente sección.
El investigador puede recabar datos de estas dos formas: con
observaciones o con experimentos. Las observaciones signi-
17. Rechazar o no la hipótesis, he ahí el dilema fican tomar nota, de manera intencional, sistemática y cuida-
dosa, de cómo ocurre el fenómeno que nos interesa. El
-Fíjese en esta lista- se rasca la frente el Tigre investigador trata de cuidar todos los detalles de sus obser-
Collazos-o Cuarenta y tres embarazadas en menos vaciones para poder obtener conclusiones de ellas. Sin em-
de un año. Los capellanes del cura Beltrán casaron bargo, está consciente de que puede haber muchos elementos
a unas veinte, pero, claro, el mal exige medidas más que influyan en las mediciones y que, probablemente, no
radicales que los matrimonios a la fuerza. Hasta
. ahora castigos y escarmientos no han cambiado el puede controlar pero sí cuantificar o al menos, considerar.
panorama: soldado que Hega a la selva se vUelve
,
La experimentación va más allá. Trata de aislar las variables 1
una pinga loca. MARIO VARGAS L.LOSA, Panta/eón y las
Visitadoras. que' estamos analizando, para identificar más claramente su 1
comportamiento. En la observación puede haber muchas :¡
En esta divertida novela que también ha -,
causas mezcladas., Si podemos controlar todas las otras va-
sido llevada al cine, Vargas Llosa plantea y resuelve el pro- riables y dejar que la única diferencia entre dos grupos sea la
blema de un pequeño pueblo tropical. Por supuesto, la anéc- variable que nos interesa, estaremos realizando un experi-
dota disfrutable es el pretexto para hacer una crítica al poder mento. El control de variables puede ser sencillo en estudios
y a la corrupción. Lo interesante para nosotros es que, a lo
de laboratorio, en física, biología o química. Es más dificil en ¿Qué propone la estadística, a través del diseño de experi-
estudios que tienen que ver con las personas, pero no es im- mentos, para evitar estos problemas? Varias cosas interesan-
posible. \es. Pensemos en un ejemplo. Un investigador ha
desarrollado una píldora que parece eficaz y sana para regu-
Platiquemos rápidamente un par de casos curiosos que plan-
lar el peso de las personas y .mantener un índice de masa
tea John Scott Armstrong (1985):
corporal apropiado. Suena bien, ¿no es verdad? Pero no pue-
Caso 1: En una escuela, un grupo de investigadores hizo la de patentarla ni comercializarla hasta asegurarse de su efica-
siguiente prueba. Los investigadores dieron información falsa cia. ¿Qué debe hacer?
a los maestros. Les dijeron que ciertos estudiantes tenían un Parece lógico que debe probar la píldora en algún grupo de
gran potencial y que se pronosticaba que tendrían un exce- personas. ¿Cuántas? Para ello podemos acudir a las estrate-
lente desempeño. El resto de los estudiantes, según los inves- gias de muestreo revisadas en la sección 14. ¿Cómo seleccio-
tigadores, tenía bajo potencial y tendría, por lo tanto nar a las personas? No puede hacer una selección aleatoria,
desempeño deficiente. En realidad los estudiantes habían porque es necesario que las personas estén dispuestas a par-
sido asignados al azar en cada grupo. Sin embargo, aquellos ticipar en el estudio. Así que sólo contará con un grupo de
de quienes se predijo mejor desempeño, tuvieron calificacio- personas dispuestas a probar la píldora, una vez que se ha
nes superiores al resto de sus compañeros. garantizado que no tiene efectos perjudiciales. Tal vez será un
Caso Z: En un experimento de la clase de psicología se pidió a conjunto de personas que están particularmente interesadas
los alumnos observar el ' comportamiento de varias ratas. Se en perder peso, lo cuallesda también características espe-
hicieron 12 grupos experimentales y se asignaron 5 ratas a ciales.
cada grupo. A la mitad de los grupos se les dijo que sus ratas Si administra la píldora' a todo el grupo, ¿con qué comparará
éran brillantes y a la otra mitad, que sus ratas eran tontas. En los resultados? Lo conveniente es dividir al grupo en dos sub-
realidad, no había diferencia entre los dos grupos. Las ratas conjuntos. A uno de ellos darle la píldora en la fórma que
tenían que salir de un laberinto. El número promedio de res- indique el tratamiento y al otro, no. Esto nos lleva a concluir
puestas correctas dé las ratas ' 'superdotadas'' fue de 2.3, que debe haber dos grupos, un grupo experimental, que
mientras que en las otras ratas fue de 1.5. recibirá el tratamiento, y un grupo control, que no lo recibirá.
¿Qué piensas de estas dos historias? Habría varios aspectos Hacer estos dos grupos tiene una ventaja adicional. Aunque
interesantes de analizar, pero lo que nos incumbe en este los participantes en el estudio no hayan s'ido seleccionados de
momento es que en ambos casos se pretende obtener datos manera aleatoria, el investigador sí puede hacer una asigna-
para. comprobar hipótesis. Existe toda una rama deIa estadís- ción aleatoria de los sujetos a cada uno de los grupos. De
tica inferencia\, llamada diseño de experimentos, que esta forma, los dos grupos tendrán una composición seme-
brinda reglas y procedimientos para crear grupos compara- jante, que no tendría por qué afectar los resultados o que, en
bies, aplicar tratamientos y, en genera\, evitar que la propia todo caso,los afectaría más o menos de la misma manera.
investigación -y aún el investigador- propicien la obtención
de resultados erróneos. Muy bien, pero hay otro problema. Las personas saben que
van a participar en un experimento. Saben que van a ser me-
Así por ejemplo, en los dos casos mencionados nos da la im- didas, pesadas y que el tratamiento tiene como objetivo con-
presión de que el encargado de recabar datos puede modifi- trolar el peso. Por cuestiones de ética, no se puede ocultar el
car -consciente o inconscientemente- los resultados. propósito de la investigación ni sus posibles consecuencias.
De hecho, cada participante debe firmar una hoja de consen-
timiento informado. Es muy posible que esto tenga un efecto ños cuasi experimentales, que son variantes que no cumplen
psicológico que afecte los resultados. Tal vez las personas con alguno de los elementos señalados.
cuidarán su alimentación o harán más ejercicio, con lo cual Los diseños experimentales son los más rigurosos y en los
parecerá haber un efecto del tratamiento, que no será reali- que se puede tener más confianza, pero existen muchas al-
dad. ¿Cómo controlar esta situación? ternativas distintas que pueden usarse según el problema a
Lo que se hace es dar a ambos grupos un tratamiento idénti- estudiar y las posibilidades reales del investigador.
co en apariencia. Si la píldora debe tomarse una vez al día, se Vamos a terminar con el ejemplo anterior. Supongamos que
crea otra píldora similar pero sin efecto alguno, llamada pla- se realizaron todos los pasos a conciencia. Tenemos un grupo
cebo. De esta forma, al recibir ambos grupos, control yexpe- A y un grupo B. A cada persona se le registró el peso al inicio
rimental, el mismo tratamiento, ambos tenderán a actuar del experimento y el peso al final. Por lo tanto, se cuenta con
igual. Así, si eventualmente hay una diferencia entre ambos, la diferencia entre ambos pesos para cada persona, dada por
podrá pensarse que sí se debe al tratamiento. el peso inicial menos el peso final. Si las diferencias son posi-
Ahorá, en este procedimiento debemos cuidar que las perso- tivas, significa que la persona perdió peso. Se contó con 50
nas no sepan si están recibiendo el tratamiento real o el pla- personas en cada grupo, es decir nA = 50 YnB = 50.
cebo. La forma de consentimiento informado debe incluir Consideramos que los dos grupos, A y B, son independientes.
este hecho, que pueden ser parte del grupo controlo del gru- Es decir, los resultados de uno de los grupos no tendrían por
po tratamiento o grupo experimental y que, mientras dure el qué afectar al otro. Así, tenemos dos muestras independientes.
experimento, no sabrán a cuál pertenecen. Esto se llama un
experimento ciego, porque los participantes no saben en A continuación te mostramos los datos de cada grupo, ya
qué grupo están. capturados en R:
> Grui.Jo.A
Pero, claro, el investigador también tiene su corazoncito. Le [1J 0.11967656 0.23537047 1.10293534 2.36861546 2.46314911
[6J -0.84399566 -0.37116228 1.35753234 -0.88180364 0.43482870
daría mucho gusto que la píldora que ha desarrollado sea [11] 0.17001775 -1.83632044 -1.30962457 0.62273184 1.58722164
eficaz. Puede ser que inclusive le presente un futuro econó- [161 -2.05955572 -1.904é2566 1.184225l6 1.43055262 O.83é07795
[21] -0.74806703 -0.45661128 1.05389584 0.40096047 0.09989615
mico promisorio y de gran prestigio. Cuando el investigador [26] -0.18041647 -0.89967388 -0.21127021 -0.30696527 -1.13274204
vea los datos de cada grupo, podría inclinarse a forzar un [31] -0.38329443 -1.12027454 0.73167712 -0.21544355 -0.15151972
[36] 2.49656545 -0.88765714 0.47929343 0.16900519 -0.50108544
poco las cosas para favorecer el resultado que más le convie- [41] 0.96845141 0.29539967 0.88745792 -2.02101630 -0.39451963
ne. Pero, si los participantes pueden ser ciegos, el investiga- [46] -1.05111516 -0.77984970 -O.3499243~ -0.50171229 0.75885050

dor también. Se trata de un experimento doble ciego > Grupo.B


cuando ni los sujetos ni el investigador saben qué grupo es [1 ) 1.822862493 1. 051161493 -0.231078892 -0.912462915
cada cuál, hasta que concluye el procedimiento. El investiga- [5) 1.595251127 1.450876179 2.131213545 1.411912575
[9) 1.103953156 0.382023171 -2.154815901 1.117820311
dor compara los resultados de un grupo A contra un grupo B, [13) 0.108140886 -0.586399718 -0.001323518 -1.566502908
sin saber cuál fue control y cuál experimental. Por supuesto, [17) 1.154494988 0.458050617 -1.150180807 1.468843814
[21) -2.181002830, 0.187088082 0.934205548 0.026210095
para ello requerirá la ayuda de alguien que haga las asigna-
[25) 0.556501871 0.075946391 -0.105633314 0.189486748
ciones y maneje los datos. Interesante, ¿no te parece? [29) -0.755511585 0.222160740 -2.006164906 -2.367499097
[33) -1. 041562415 0.544035247 1.543024815 1.982950783
Cuando la investigación cumple con todos y cada uno de los [37J -0.196474995 -0.403075329 -0.372767409 0.420613069
requisitos que hemos descrito, se llama un diseño experi- [41) 0.295670322 0.194476950 1.190110761 0.588356327
mental. Los requisitos son ciertamente complicados y pueden [45) 0.639061905 1.837313693 1.142471240 1.012107059
[49) -0.394775906 1.001523098
ser costosos. Por eso en algunas ocasiones se recurre a dise-
Realmente es difícil concluir algo a simple vista. En principio, ¿Qué necesitamos para proseguir? Un estadístico de prueba
podemos obtener los estimadores de la media y la desviación que incluya la diferencia que hemos planteado en las hipóte-
estándar de cada grupo. Ya sabes cómo hacerlo, ¿no es ver- sis, pero que se ajuste a una distribución de probabilidad
dad? Veamos las medias: conocida y manejable. En este caso, el estadístico de prueba
Med i a .A <~ mea n (Gru po~ A)
se llama t y sigue una distribución de probabilidad t de Stu-
dent, de la que ya hemos platicado en la sección 15. Lo tene-
Me dia .B < - me an( Grupo . B)
mos escrito en la ecuación:
Los valores son ílA = 0.0270B2B7 Y ílB = 0.2962555, respec-
tivamente. ¡Ah! Sospechamos ahora que el grupo experimen- t =
tal es el grupo B, porque las diferencias promedio son
positivas y mayores que las del grupo A. Pero, como bien sa-
bemos, esto no es suficiente para concluir.
ECUACiÓN 30: ESTADíSTICO DE PRUEBA T PARA COMPARAR LAS
Las desviaci,ones estándar son: MEDIAS DE DOS MUESTRAS INDEPENDIENTES CON VARIANZAS
DE .A < - sd (Grup o .A) DESCONOCIDAS .

DE . B <- sd(Gru p o .B) El estadístico se puede obtener con RStudio usando la si-
DE. A guiente instrucción:
DE. B t <- (Med i a. B- Me dia . A) j

Con ' los valores correspondientes de aA = 1.115515 Y s qrt (DE. B' 2 /1e n g t h (Grupo .B)+DE .A'2 / 1 en gth( Gr u po. A»

aB == 1.1371B3, que nos hablan de la dispersión que existió Con ello se obtiene el valor t = 1.194B35. Ahora, el estadísti-
en los datos de cada grupo. co de prueba se distribuye como una t de Student con k gra-
Planteamos ahora la hipótesis nula. Esta es la hipótesis de dos de libertad, donde k es el menor valor entre nA - 1 Y
que la píldora no tiene efecto y, por 10 tanto, las medias del nB -1.

cambio de peso en ambos grupo son iguales. Las variaciones Entonces, el valor del estadístico de prueba t se compara con
en el peso de cada persona se deben solamente al azar. Se el punto crítico de la distribución de probabilidad t de ·Stu-
escribe: dent para un nivel de confianza de 95 %, con 49 grados de
Ha: /lB - /lA =O libertad. El punto crítico, como vimos en.]a sección 15, es:
q t(O.95 , 49)
Ahora debemos expresar la hipótesis alternativa. La que le
interesa y le gusta al investigador. La píldora sí tiene efecto y Lo cual arroja un valor de 1.676551. Ahora debemos compa-
el investigador se hará rico y famoso. Hay una diferencia real rar el estadístico de prueba t con el punto crítico. Si
entre la media del cambio de peso del grupo B y del grupo A. t:5 1.676551, estaremos dentro del área de aceptación de Ha.
Lo escribimos como: Si t > 1.676551, la diferencia de pesos de las personas fue
positiva e importante, y hay fundamentos para rechazar Ha y,
Ha: /lB - /lA > O
por lo tanto, se apoya Ha. En nuestro caso, definitivamente
Como hemos dicho en la sección anterior, las hipótesis no se estamos dentro del área de aceptación de Ha. ¿Qué significa
hacen sobre los estimadores sino sobre los parámetros des- esto?
conocidos.
Quiere decir que no hay apoyo suficiente para pensar que la Todo esto también se puede realizar con Excel, sin mayor
píldora del investigador es efectiva. iMalas noticias! Parece problema. Coloca en una columna los datos del grupo A y en
que los resultados de ·ambos grupos fueron más o menos otra los del grupo B. Verifica que en la pestaña Datos aparez-
iguales, como lo indica la hipótesis nula. ca la opción Análisis de datos. Si no aparece, debes ir a Archi-
vo > Opciones> Complementos y verificar que esté marcada
La buena noticia es que podemos hacer todo este procedi- la opción Herramientas para el análisis.
miento mucho más rápido con una función de R que se escri-
be de la siguiente forma. Sólo debes indicar el nombre de la Hecho esto, podrás elegir de Análisis de datos, la Prueba t
variable donde están los datos de cada grupo y el tipo de hi- para dos muestras suponiendo varianzas desiguales. Se des-
pótesis alternativa que vas a usar: plegará una ventana de diálogo donde debes indicar en qué
columnas están tus variables. Con ello obteridrás el cuadro 5
t . test(Grupo.B,Grupo.A ,alternative="greater " )
de resultados. Puedes verificar que el valor del estadístico de
El resultado de esta instrucción es: prueba t es exactamente el mismo que calculamos con R.
Welch Two S?mple t-te,st CUADRO 5: PRUEBA T PARA COMPARAR DOS MEDIAS CON
da ta : Grup o .B and Grupo.A VARIANZAS DESCONOC IDAS Y DISTINTAS.

t = 1.1948, df = 97.964, p - value = 0 . 11 75 Grupo B Grupo A


alter na t i ve hypo t h es i s : t ru e d i f fe re nce i n mea n s i s Media 0.29625551 0.02708287
greater tha n O 1.29318427 1.24437318
Varianza
95 percent co n fide nce i nterva l : Observaciones 50 50
- 0 . 10 491 79 I nf Diferencia hipotética de las medias O
sampl e est imate s: Grados d e libertad 49
mean of x mean · of y Estadístico t 1.19483507
0. 2 9625551 0 . 0270828 7 P(T<=t) una cola 0.11751757
Valor crítico de t (una cola) 1.66055122
En el texto anterior puedes identificar el valor del estadístico
de prueba t, para compararlo con el punto crítico correspon- P(T<=t) dos colas 0.23503513
diente. Es el mismo valor que habíamos obtenido con la fór- Valor crftico de t (dos colas) 1.98446745
mula. Una forma cómoda de hacer esta prueba es observar el
p-value. Si p-value es mayor que .05, quiere decir que el esta- Así que puedes elegir a tu gusto, la herramienta que más te
dístico está en la región de aceptación, como en este caso, ya acomode y te convenga. Los resultados y la interpretación
que el p-value es 0.1175. Cuando el p-value es menor que son los mismos.
0.05, quiere decir que el estadístico de prueba t pertenece a
la región de rechazo. En conclusión, si aplicáramos más a menudo este tipo de ra-
zonamientos estadísticos cuidadosos para dar por buenas las
En la parte inferior del resultado anterior puedes ver tam- afirmaciones, podríamos tener un mundo mejor, con menos
bién la media de cada grupo, en el mismo orden en que colo- prejuicios y discriminación, más políticas acertadas y avan-
caste lbs datos. Son los mismos valores que ya habíamos ces, tanto científicos y tecnológicos, como sociales. De eso se
obtenido. trata la estadística, finalmente, y por eso pensamos que valía
la pena traer a Alicia a dar una vuelta por este divertido país.
18. Ejercicio: Hombres y mujeres que han recibido nacimiento, la fecha en que recibieron el premio y la edad en
el Óscar la que recibieron el premio.

Propósitos:
Pregunta 1: ¿Qué significa que las variables "FechaNac", "Fe-
• Emplear pruebas de inferencia estadística de ma- chaPremio" y "FechaDeceso" sean "factores"? ¿Puedo hacer
nera pertinente al tipo de datos. operaciones aritméticas (como 'suma o resta) con este tipo de
• Identificar los procedimientos básicos para el uso variables?
de pruebas de hipótesis en R y RStudio. Respuesta: Para R, éste es un tipo de variable de "cadena" o
¿Habrá alguna diferencia entre las edades de los actores y las de conjunto de letras, que el software toma de manera literal.
actrices ganadoras del Óscar? Este ejercicio se centrará en En este sentido, cada fecha es una categoría sin atributos
tratar de responder a la pregunta anterior. Para ello tendre- numéricos. Si quisiéramos utilizar las fechas como tales, R
mos que cargar la base de datos de los actores y actrices ga- tiene una función conocida como as. date') que te permite
nadores del Óscar por rol protagónico. Ambas están ubicadas convertir este tipo de valores "cadena" a valores "de fechas".
en www.inteligencianet.org.
Vamos a cargar la base de datos de los hombres: Pregunta 2: ¿Cuál es la media y desviación estándar de la
homb r es <- read. csv(file .choose(» edad de los ganadores del Óscar (sin importar el sexo)? Nos
referimos a la edad en que obtuvieron el Óscar.
Ahora carguemos la base de datos de las mujeres:
mu je r es < - read . csv(file . choose())
Respuesta: La edad promedio del ganador al Óscar es de
40.08 y su desviación es de 11.05. Para obtener estos valores
Una vez que hemos cargado las bases, es importante proce- sólo debemos escribir en RStudio el siguiente código, que
der como en los ejercicios anteriores: vamos a conocer la unirá en un solo vector las edades de hombres y mujeres:
estructura de las dos bases de datos. edad_ tOdOS ,- e (hombres$Edad,mujeres SEdad)
Conozcamos las dimensiones de la base de datos (el número media <- mean (edad_todosl
de filas, registros o casos y el número de columnas o varia-
desve st <- sd( edad_t odos)
bles).
dim(hombres) Para entender el código anterior vale la pena recordar que
debemos concatenar o unir dos vectores o listas de datos con
dirn(mu j eres)
la variable "Edad". Si quisiéramos conocer con mayor profun-
Solicitemos a R que nos indique la estructura de las variables didad la distribución de las edades, podríamos solicitar un
de ambas bases. histograma:
str (hombres) his t (edad_todos)
str (mu j eres)

Como puedes observar, ambas bases tienen las mismas va- Pregunta 3: ¿Qué edad deberla tener una persona para decir
riables y la misma cantidad de casos. ¿Suena lógico, no? Al- que es muy joven o muy grande para ganar un Óscar?
gunas de las variables que contienen son: el nombre de los
galardonados, la película en la que participaron, la fecha de
Respuesta: La pregunta anterior parece sugerir que desea- Calculemos la media de edad de los hombres y las mujeres.
mos buscar valores atípicamente bajos o altos. Quizá podría- mean (hombres$Edadl
mos pensar en calcular un intervalo que permitiera visualizar mean (mujeres$Edad)
edades "fuera de lo normal". Para lograr lo anterior bastaría
con sumar y restar a la media 1.96 desviaciones estándar si ¡Interesante! La media de los hombres es casi ocho años ma-
consideramos a=0.05: ¿Por qué 1.96 desviaciones? ¡Simple! Si yor a la de las mujeres. Sin duda parece que existen diferen-
fijamos como una edad atípicamente alta o baja a aquella con cias entre la edad de los ganadores del Óscar según el sexo.
una probabilidad de ocurrencia menor a a=0.05 y distribui-
mos esta probabilidad del lado derecho e izquierdo de la es-
cala (aj2), entonces, todos los casos que se encuentren a más Pregunta 4: ¿Qué prueba de hipótesis deberíamos de usar
o menos de 1.96 desviaciones representarán el 95% de los para verificar si la diferencia en las medias es estadísticamen-
datos. te significativa?

Prueba el comando pnorm (1 . 96) para comprobar lo anterior, Respuesta: seguro pensaste en usar una t de Student para
te dará el área bajo la curva normal, ubicada a la izquierda datos independientes, ¿Cierto? La verdad es que esta es una
del valor 1.96. Los casos por arriba o por abajo estarán fuera pregunta con trampa. En realidad los casos de la base de da-
del 95% de la normalidad y serán, por lo tanto, atípicos. tos no son una muestra ... ¡Son la población de todos quienes
han recibido Óscar! Por lo tanto no hay ninguna razón para
Así, una persona con una edad atípicamente baja para recibir hacer una prueba de hipótesis en tanto que no tenemos nin-
el Óscar tendría una edad de 18.41 años o menos, mientras guna población a la cuál inferir la diferencia de las medias.
que una persona con una edad atípicamente alta tendría una
edad de 61.75 años o más. Entonces será raro -aunque no Sin embargo, podemos considerar que nuestros datos son
imposible- que personas en estos dos rangos (menor de 18 o una muestra de todos los actores y actrices que, en un lapso
mayor de 61) obtengan un Óscar. mayor de tiempo, pudieran recibir el premio. Es deci'r, los
datos son una muestra de lo que podrá ocurrir en general en
entregas sucesivas de los Óscares. Entonces tiene sentido
Ahora sÍ. A responder nuestra pregunta: ¿Habrá alguna dife- aplicar la prueba t d Student. Para ello, usamos el siguiente
rencia entre las edades de los actores y las actrices ganadoras código:
del Óscar? . t.test(hombres$Edad,mujeres$Edad,

Exploremos gráficamente las diferencias. alternative="greater")

boxplot{hombres$Edad,mujeres$Edad,main="Edades de los Estamos pidiendo una prueba t de Student para comparar la


ganadores de un Óscar por sexo", edad de los hombres y mujeres, suponiendo que la primera
es mayor que la segunda.
names=c ("Hombres", "Mujeres ") )
Esta prueba arroja un estadístico de 5.0402 y un valor p de
Como seguro podrás observar, parece evidente que la edad
6.219 x 10- 7• Es decir, el estadístico de prueba es mayor que el
promedio de los ganadores hombres al Óscar es mayor que la
valor en tablas, que podemos calcular con R como:
de las mujeres. La dispersión se ve similar para ambos, aun-
que en el caso de las mujeres hay varios casos de edades atí- qt (0.95,86)

picamente altas. Ahora veamos más de cerca las diferencias Que arroja un valor de 1.66. Como este valor es mayor que el
de edad. valor absoluto del estadístico de prueba, rechazamos la hipó-
tesis nula de que ambas edades fueran iguales, en favor de 19. Tres sitios web interesantes
aceptar la hipótesis alternativa, que indica que la edad pro-
medio de los hombres es mayor que la de las mujeres. Intere- • Calculadora automática de tamaños de muestra. Le
sante, ¿no? indicas el tamaño de tu población, el margen de error
y el nivel de confianza, con lo cual te genera el tamaño
de muestra adecuado. También te da los márgenes de
También podemos generar muestras a partir de los datos error si tú le dices el tamaño de la muestra. Visítalo
anteriores. Por ejemplo; generamos una muestra de 20 casos en:
para la base de hombres y mujeres:
http://www.raosoft.com/samplesize.htrnl
muestrahombres <- as . vector (sample(hombres$Edad, ·
• La estadística inferencial explicada dentro de los mé-
20,re place=FALSE) )
todos de investigación, particularmente para las cien-
mu estra muj eres<~as.vector(sample(mujeres $ E dad, cias sociales. Todo el sitio es bueno e interesante.
20 ,replac e =FALSE)) Revísalo en:
Calculamos la media de ambas muestras. http://www.socialresearchmethods.net/kb/statinf.php
mea n (mue s trahombres) • Un bonito y completo capítulo dedicado a explicar de
mean (mue st ramu j eres ) manera didáctica y clara las pruebas de hipótesis.
Puedes descargarlo y guardarlo a partir de:
Lo más seguro que ocurrirá es que la media de la edad de los
hombres es mayor a la de las mujeres. iAhora sí! Con estos http://www.sagepub.com/upm-
datos podemos hacer una prueba tpara ver si el hecho de que dataj40007 _Chapter8.pdf
la media de la edad de los hombres sea mayor a la media de
la edad de las mujeres se puede inferir a la población (aun-
que de antemano sabemos que esto es cierto).
# Prueba t para datos independientes:
t.t est (rnue strahombres,mue stramujeres)

¿Encontraste una probabilidad asociada al valor de la prueba


menor a 0.05? Seguramente sí. Lo interesante sería que repi-
tieras este ejercicio unas 100 veces. ¿Será posible observar
que las diferencias no sean significativas o que inclusive, la
media de las mujeres sea mayor que la de los hombres? Segu-
ramente en por lo menos uno de los 100 intentos encontrarás
alguno de estos resultados. Aquí es justo donde entra la idea
de los errores tipo I y 11 que se plantearon en el libro.
ALMAZÁN LLORENTE, A. Y VILLARE)O RAMíREZ, C. (2012). Análisis
del discurso de la prensa sobre las encuestas
electorales en las elecciones generales de 1996.
Empiria. Revista de Metodología de Ciencias
Sociales(l): 97-120.
ARMSTRONG, ¡. S. (1985). Long Range Forecasting: From crystal
ball to computer. New York: Wiley lnterscience.
BARRANTES-VIDAL, N. (2004). Creativity & madness revisited
from current psychological perspectives. ¡ournal of
Consciousness Studies, 11(3-4): 58-78.
BATANERO BERNABEU, M. D. c., DiAZ, c., CONTRERAS GARCfA, J. M. Y
ROA GUZMÁN, R. (2013). El sentido estadístico y su
desarrollo . Números(83): 7-18.
BATANERO, C. (2001). Didáctica de la Estadística. Granada:
Universidad de Granada.
BATANERO, C. (2004). Los retos de la cultura estadística.
Yupana, 1(1): 27-37.
BOLSTAD, W. M. (2013). Introduction to Bayesian Statistics: :
Wiley.
FEINGOLD, A. (1988). Cognitive gender differences are
disappearing. American Psychologist, 43(2): 95.
FERNANDEZ-PLANELLS,A. y MAZ, M. F. (2012). La televisión e
Internet hoy: diferentes roles. Usosy consumos en el
tiempo libre de jóvenes de Barcelona y Lima. Revista
lCON014. Revista Científica de Comunicación y
Tecnologías Emergentes, 10(3): 176-201.
FORO CONSULTIVO CIENTípICO y TECNOLÓGICO. (2012). Madres
Cientfjicas 2012. Fecha de consulta: 05/07 2014, en:
<http://www.foroconsultivo.org.mx/documentos/ac
ertadistic%tras/DiadelasMadres_2012.pdf>
GARPIELD, J. Y BEN-ZVI, D. (2007). How students learn statistics
revisited: A current review of research on teaching and
learning statistics. lnternational Statistical Review,
75(3): 372-396.
Hsu, M. K., WANG, $. W. y CHIU, K. K. (2009). Computer attitude.
statistics anxiety and self-efficacy on statistical'
software adoption behavior: An empirical study of
online MBA learners. Computers in Human Behavior word problems. Applied Cognitive Psychology, 16(3):
25(2) : 412-420. . ' 325-342.
INEGI. (2014). Esperanza de vida. Fecha de consulta: 05/05 SALKIND, N. j. (2012) . Statisticsfor People who (think They)
2014, en: Hate Statistics: Excel 2010 Edition: Sage Publications.
<http://cuentame.inegi.gob.mx/impresion/poblacion SECRETARIA DEL MEDIO AMBIENTE DF. (2014) . Índice
/esperanza.asp> Metropolitano de la Calidad del Aire. Fechade
LEHMANN, E. L. (2011) . Fisher, Neyman, and the Creation of consulta: 21/07 2014, en:
Classical Statistics: Springer. <http://www.calidadaire.df.gob.mx/calidadaire/inde
MAPC!TE. (2012). Going with the wind: Data Visualization by x.php?opcion=2&opcioninfoproductos=22>
Hint.fm. Fecha de consulta: 05/05 2014, en: SOSA, W (2014). Qué es (y qué no es) la Estadística. Buenos
<http://www.mapcite.com/POSTS/2012/AUGUST/G Aires: Siglo XXI.
OING-WITH-THE-WIND-DATA-VISUALlZATION-BY- STATISTICS BRAIN. (2014). FacebookStatistics. Fecha de
HINTFM.ASPX> consulta: 11/07 2014, en:
MELETIOU-MAVROTHÉRIS, M. (2003). Technological tools in the <http://www.statisticbrain.com/facebook-
introductory statistics classroom: effects on student statistics/>
understanding ofinferential statistics.lnternational STEWART, B. W, KLEIHUES, P. y CANCER, 1. A F. R. o. (2003) .
jdurnal of Computers for Mathematical Learning, World cancer report (Vol. 57): IARC press Lyon.
8(3): 265-297. THE WORLD BANK. (2014). Mexico I Data. Fecha de consulta:
O'CONNOR, B., BALASUBRAMANYAN, R., ROUTLEDGE, B. R. Y SMITH, 04/262014, en:
N. A (2010). From tweets ta poI/s: Linking text <http://data.worldbankorg/country/mexico>
sentiment to public opinion time series. ¡CWSM, 11: TORRES, E. (2011). Understanding Internet Addiction:
122-129. Depression and Social Support. San Francisco Bay:
OMS. (2014). Obesidad y sobrepeso. Fecha de consulta: 17/07 Alliant International University.
2014, en: UTTS, j. (2003). What eduCated citizens should know about
<ht'tp://www.who.int/mediacentre/factsheets/fs311 statistics and probability. American Statistician, 57(2):
/es/> 74-79.
ONWUEGBUZIE, Aj. y WILSON, V. A (2003). Statistics Anxiety: VANDENBOSCH, L. y EGGERMONT, S. (2012). Understanding
Nature, etiology, antecedents, effects, and treatments-- Sexual Objectification: A Comprehensive Approach
a comprehensive review ofthe literature. Teaching in Toward Media Exposure and Girls' lnternalization of
Higher Education, 8(2): 195-209. Beauty Ideals, Self-Objectification, and Body
ORGANIZATION, W H. (2014). Global Health Observatory (GHO). Surveillance. journal of Communication, 62(5): 869-
Fecha de consulta: 05/05 2014, en: . 887.
<http://www.who.int/gho/en/> YAU, N. (2011) . Visualize This: The FlowingData Guide ta
PARKER, G. (2012). A clinical approach to diagnosing Design, Visualization, and Statistics: Wiley.
depression in adults. Medicine Today, 4(08). ZABLUDOVSKY, G. (2007). Las mujeres en México: trabajo,
PINGITORE, R, SPRING, B. y GARFIELDT, D. (1997). Gender educación superior y esferas de poder. Política y
differences in body satisfaction. Obesity Research, cultura(28) : 09-41.
5(5): 402-409. ZHANG, D., ZHOU, L., BRIGGS, R. O. y NUNAMAKER jR, j. F. (2006) .
QUILICI, j. L. Y MAYER, R E. (2002). Teaching students to lnstructional video in e-Iearning: Assessing the impact
recognize structural similarities between statistics
olinteractive video on learning effectiveness.
lnformation & Management, 43(1): 15-27.
ZHU, Z. (2007). Gender Differences in Mathematica/ Problem
So/ving Patterns: A Review 01 Literature. International
Education )ournal, 8(2): 187-203.

Alicia en el pufs de las estadísticas con P y Excel,


se terminó de imprimir el 14 de agosto de
2015 en los talleres de Tipos Futura, S. A.
de C. V. Francisco González Bocanegra 47-8,
Col. Ampliación MoreIos, México, D.F.
Se tiraron 300 ejemplares con interiores en
papel Cultural color paja de 90grs, y forros
en cartulina Ccuché cubierta de 250 grs. La
edición estuvo al cuidado de la autora, Dra.
MariCarmen González Videgaray y la Unidad
de Servidos Editoriales de la FES Acatlán-UNAM.