Vous êtes sur la page 1sur 68

Estadísticas para

arqueólogos
CONTRIBUCIONES INTERDISCIPLINARES a la arqueología
Editor de la serie: Jelmer Eerkens, Universidad de California en Berkeley, Berkeley, CA, EE.UU.
Fundador Editor: Roy S. Dickens, hijo tardío de la Universidad de Carolina del Norte, Chapel Hill, Carolina
del Norte, EE.UU.

Para obtener una lista completa de los títulos de esta serie, por favor visite la serie en línea en:
http://www.springer.com/series/6090

EL LABORATORIO ARQUEÓLOGO
El análisis de los datos arqueológicos
La prohibición de EB

Auriñaciense líticos ECONOMÍA


Perspectivas ecológicas del suroeste de Francia
Brooke S. cuchillas

ESTUDIOS DE CASO EN AMBIENTAL ARQUEOLOGÍA, 2ª edición


Elizabeth J. Reitz, Margaret Scarry, y Sylvia J. Scudder

IMPERIO Y economía nacional


Terence N. D'Altroy y Christine A. Hastorf

PREHISTORIA EUROPEA: UN ESTUDIO


Editado por Saurunas Miliasuskas

LA EVOLUCIÓN DE CAZADORES-RECOLECTORES
La evidencia arqueológica complejo desde el Pacífico Norte
Ben Fitzhugh

Los cazadores FAUANL extinción en UNA ISLA


SOCIEDAD pigmeos Hippotamus de Chipre Alan
H. Simmons

Un cazador-recolector PAISAJE
Suroeste de Alemania en el Paleolítico y el Neolítico
Michael A. Jochim

ORGANIZACIÓN DE LA COMUNIDAD
mississippian La Fase Potencias en el sureste de
Missouri Michael J. O'Brien

SACRIFICIO nuevas perspectivas sobre y el cuerpo humano RITUAL


tratamientos en ANTIGUOS MAYAS DE LA SOCIEDAD Editado por
Vera Tiesler y Andrea Cucina

TELEOBSERVACIÓN EN ARQUEOLOGÍA
Editado por James Wiseman y Farouk El-Baz

EL Hopewell Scioto y sus vecinos Documentación


Bioarhcoaelogical y el entendimiento cultural por D. Troy
Caso y Christopher Carr

La toma y visualización de HUMAN BODY PARTS como trofeo por los amerindios Editado por
Richard J. Chacon y David H. tinte
Estadísticas para
arqueólogos
Un enfoque de sentido común

Segunda edicion

Robert D. Drennan
123
El Dr. Robert D. Drennan
Universidad de Pittsburgh
Departamento de Antropología
Pittsburgh PA 15260
Estados Unidos
drennan@pitt.edu

ISSN 1568-2722
ISBN 978-1-4419-0412-6 e-ISBN 978-1-4419-0413-3

DOI 10.1007 / 978-1-4419-0413-3


Springer Heidelberg Dordrecht Londres Nueva

York Biblioteca del Congreso de control el número:


2009926038

c Springer Science + Business Media, LLC 2004 de 2009


Todos los derechos reservados. Este trabajo no puede ser traducida o copiado en su totalidad o en parte,
sin el permiso por escrito del editor (Springer Science + Business Media, LLC, 233 Spring Street, New
York, NY 10013, EE.UU.), a excepción de extractos breves en relación con los exámenes o análisis
académico. Uso en conexión con cualquier forma de almacenamiento y recuperación de información, la
adaptación electrónico, software informático, o por metodología similar o diferente ahora conocido o
desarrollado en el futuro está prohibido.
La utilización de esta publicación de nombres comerciales, marcas registradas, marcas de servicio y
términos similares, aunque no se identifican como tal, no debe ser tomado como una expresión de opinión
en cuanto a si son o no están sujetos a derechos de propiedad.

Impreso en papel libre de ácido


Springer es parte de Springer Science + Business Media (www.springer.com)
Prólogo a la segunda edición

Este libro pretende ser una introducción a los principios básicos de estadística y técnicas
para el arqueólogo. Crece principalmente de mi experiencia en la enseñanza de cursos
de análisis cuantitativo para estudiantes universitarios y licenciados en arqueología lo
largo de varios años. El libro se establece específicamente en el contexto de la
arqueología, no porque los temas tratados son únicamente de naturaleza arqueológica,
sino porque muchas personas les resulta mucho más fácil de entender el análisis
cuantitativo en un contexto familiar - una en la que ellos puedan entender fácilmente el
naturaleza de los datos y la utilidad de las técnicas. Los principios y técnicas, sin
embargo, son todos aplicabilidad mucho más amplia. Los antropólogos físicos,
antropólogos culturales, sociólogos, psy-psi-, politólogos, y especialistas en otros
campos hacen uso de estos mismos principios y técnicas. La mezcla particular de los
temas, el énfasis relativo dado ellos, y el enfoque exacto tomada aquí, sin embargo, sí
reflejan mi propia visión de lo que es más útil en el análisis de los datos específicamente
arqueológicos.
Es imposible dejar de notar que muchos aspectos de Informa-ción arqueológica son
numéricos, y que el análisis arqueológico tiene inevitablemente un componente
cuantitativo. enfoques estadísticos estándar se aplican comúnmente en straightfor-Ward,
así como formas inusuales e ingeniosas a problemas arqueológicos, y los nuevos
enfoques se han inventado para hacer frente a las peculiaridades especiales de análisis
arqueológico. La literatura sobre el análisis cuantitativo en la arqueología ha crecido al
tamaño prodi-giosos. Parte de esta literatura es muy buena, mientras que algunos de los
que sólo se revela que la publicación de las estadísticas en la arqueología es una
actividad abierta, incluso para aquellos cuya comprensión de los principios estadísticos
más fundamentales es primitivo, en el mejor. El artículo intenta señalar, que publicó
única de trabajo en la que una de estas categorías tiene en sí se convierten en un género
reconocible. Este libro no trata de evaluar o criticar de un modo tal, sino que está
motivada en parte por la percepción de que, como grupo, los que somos responsables de
la formación de arqueólogos en el análisis cuantitativo puede reclamar sólo un éxito
relativo hasta la fecha. En consecuencia, este libro es en parte una discusión de cómo el
análisis de datos cuantitativos se realiza en la arqueología pero en mayor parte una
discusión de cómo el análisis de datos cuantitativos que se podría hacer en la
arqueología. Su enfoque es decididamente en algunos principios fundamentales y la
forma en que se pueden aplicar más útil en la arqueología. Es tentador para discutir las
numerosas variaciones en pero está motivada en parte por la percepción de que, como
grupo, los que somos responsables de la formación de arqueólogos en el análisis
cuantitativo puede reclamar el éxito sólo mixta hasta la fecha. En consecuencia, este
libro es en parte una discusión de cómo el análisis de datos cuantitativos se realiza en la
arqueología pero en mayor parte una discusión de cómo el análisis de datos cuantitativos
que se podría hacer en la arqueología. Su enfoque es decididamente en algunos
principios fundamentales y la forma en que se pueden aplicar más útil en la arqueología.
Es tentador para discutir las numerosas variaciones en pero está motivada en parte por
la percepción de que, como grupo, los que somos responsables de la formación de
arqueólogos en el análisis cuantitativo puede reclamar el éxito sólo mixta hasta la fecha.
En consecuencia, este libro es en parte una discusión de cómo el análisis de datos
cuantitativos se realiza en la arqueología pero en mayor parte una discusión de cómo el
análisis de datos cuantitativos que se podría hacer en la arqueología. Su enfoque es
decididamente en algunos principios fundamentales y la forma en que se pueden aplicar
más útil en la arqueología. Es tentador para discutir las numerosas variaciones en este
libro es en parte una discusión de cómo el análisis de datos cuantitativos se realiza en la
arqueología pero en mayor parte una discusión de cómo el análisis de datos cuantitativos
que se podría hacer en la arqueología. Su enfoque es decididamente en algunos
principios fundamentales y la forma en que se pueden aplicar más útil en la arqueología.
Es tentador para discutir las numerosas variaciones en este libro es en parte una discusión
de cómo el análisis de datos cuantitativos se realiza en la arqueología pero en mayor
parte una discusión de cómo el análisis de datos cuantitativos que se podría hacer en la
arqueología. Su enfoque es decididamente en algunos principios fundamentales y la
forma en que se pueden aplicar más útil en la arqueología. Es tentador para discutir las
numerosas variaciones en

v
vi Prólogo a la segunda edición

estas aplicaciones que podrían hacerse en el análisis de los datos arqueológicos y


ejemplos pro-vide de las formas en que estos principios han sido efectivamente puestos
a trabajar por los arqueólogos. Tengo, sin embargo, trató de resistir estas tentaciones en
un esfuerzo por mantener el foco firmemente en los principios básicos y proporcionar
breves y explicaciones claras de ellos. Es para mantener la simplicidad y la claridad que
tanto los ejemplos utilizados en el texto y los problemas de la práctica en los extremos
de los capítulos se componen en lugar de seleccionarse de datos arqueológicos reales.
Asumo que los lectores de este libro sabe lo suficiente sobre la arqueología no a las
descripciones necesidad e imágenes de agujeros de poste, pisos de la casa, raspadores, o
fragmentos - de que todos sabemos lo que significa decir que hemos llevado a cabo un
estudio regional y medido las áreas de 53 sitios.
La mayoría de las técnicas de este libro son bastante estándar, ya sea en las
estadísticas “clásicas”, desarrollado entre 1920 y 1950 o en el más reciente de la
escuela “análisis exploratorio de datos”. El enfoque o, quizás más importante, la
actitud general de este libro se deriva en última instancia de la obra de John W.
Tukey y sus colegas y estudiantes, progenitores de análisis exploratorio de datos, o
EDA, para abreviar. Como es habitual en los libros generales sobre estadísticas, no
he incluido citas bibliográficas en el texto, pero Lecturas aparece al final. En este
libro se inclina hacia la terminología de la EDA, aunque los términos más
tradicionales equivalentes suelen mencionarse. Donde hace las explicaciones fáciles
de entender en el contexto de la arqueología, la terminología utilizada aquí es
simplemente no estándar.
Los arqueólogos (y otros) a veces son tan cuidadoso de las estadísticas como los
niños de la escuela son de la clase que sostiene la disciplina más imponente entre los
maestros. Estadísticas parece un lugar lleno de reglas de la lógica de los cuales es opaca,
pero la menor infracción de los cuales puede llevar un golpe doloroso en los nudillos
con una regla. Esta actitud, sin duda ha sido reforzada por las críticas que toman el
trabajo publicado en la arqueología a la tarea de romper las reglas estadísticas sagrados.
Puede venir como una sorpresa para muchos saber que existe una serie de versiones
contradictorias de muchas reglas STATIS-tica. Los estadísticos, como los practicantes
de cualquier otra disciplina, a menudo no están de acuerdo acerca de cuáles son los
enfoques productivos y aplicaciones legítimas. El uso de herramientas estadísticas a
menudo implica hacer juicios subjetivos.
En resumen, las reglas de estadísticas no estaban en las tablas de piedra que Moisés
trajo del monte. Este libro aboga abiertamente el derrocamiento de reglas que se
encuentran en algunos textos (por la razón y el sentido común en lugar de la fuerza y de
la violencia). Ya que pretende ser una introducción a los principios estadísticos, largos
argumentos en contra de los enfoques alternativos no son apropiados. Una cuestión, sin
embargo, es de tal importancia central que debe ser mencionado. El enfoque adoptado
para la prueba de importancia aquí no implica rígida insistencia en cualquiera de
rechazar o no rechazar una “hipótesis nula”. En la arqueología es mucho más
informativo en la mayoría de los casos, simplemente para indicar qué tan probable es
que la hipótesis nula es correcta. La formulación rigurosa de la hipótesis nula, entonces,
no recibe la atención que todo lo consume aquí que a veces se dedica a la otra parte. En
este enfoque para las pruebas de significación y de varios temas relacionados con el
muestreo, he seguido el ejemplo de George Cowgill (ver
Prólogo a la segunda edición vii

Lecturas recomendadas al final del libro), aunque no he llevado a la práctica todas


las sugerencias sensatas a fondo que ha hecho. (Un obstáculo para seguir algunas
de sus sugerencias sigue siendo, como se señaló, que pocos de los programas de
ordenador statis-tics disponibles proporcionan la información necesaria en su
salida.) A los que se les enseñó que las pruebas de significación se construye sobre
la roca de rechazar o no rechazar la hipótesis nula, recomiendo una dedicada
atención a los puntos Cowgill hace.
El enfoque adoptado para las pruebas de significación hace pensar claramente
pobla-ciones, las muestras y los procedimientos de muestreo especialmente
importantes. De hecho, en muchos contextos, hace que el simple uso de muestras
para hacer declaraciones sobre las poblaciones a las que venían de un enfoque más
atractivo que las pruebas de significación. Es por esta razón que las muestras y el
muestreo se les da mucha tratamiento más largo aquí que es común en los libros de
introducción a la estadística. Parte I de este libro es sobre la exploración de lotes de
números en formas que son interesantes y útiles en sí mismas, sino que son
especialmente seleccionados por su relevancia cuando se consideran los lotes SAM-
ples de las poblaciones más grandes. Parte II se desarrolla esta noción de lotes como
muestras y hace un asalto frontal a algunos de los principios centrales que se
relacionan muestras de poblaciones. Parte III presenta un conjunto bastante estándar
de pruebas básicas de la fuerza y la importancia de las relaciones entre dos variables,
junto con los enfoques alternativos derivan directamente de muestreo de estimación.
Parte IV vuelve a tomar una serie de cuestiones diferentes relacionadas con el
muestreo - cuestiones de especial importancia en la arqueología. Estos capítulos se
relacionan más directamente con las de la Parte II, pero que se han colocado más
adelante para no interrumpir la progresión constante de ideas que vincula a las partes
II y III. Finalmente, la Parte V intenta una introducción rápida a la exploración de
los conjuntos de datos-multivari comió para el patrón. Que nos lleva de nuevo a la
actitud análisis exploratorio de datos más fuertemente reflejada en la Parte I. junto
con enfoques alternativos derivados directamente de muestreo de estimación. Parte
IV vuelve a tomar una serie de cuestiones diferentes relacionadas con el muestreo -
cuestiones de especial importancia en la arqueología. Estos capítulos se relacionan
más directamente con las de la Parte II, pero que se han colocado más adelante para
no interrumpir la progresión constante de ideas que vincula a las partes II y III.
Finalmente, la Parte V intenta una introducción rápida a la exploración de los
conjuntos de datos-multivari comió para el patrón. Que nos lleva de nuevo a la
actitud análisis exploratorio de datos más fuertemente reflejada en la Parte I. junto
con enfoques alternativos derivados directamente de muestreo de estimación. Parte
IV vuelve a tomar una serie de cuestiones diferentes relacionadas con el muestreo -
cuestiones de especial importancia en la arqueología. Estos capítulos se relacionan
más directamente con las de la Parte II, pero que se han colocado más adelante para
no interrumpir la progresión constante de ideas que vincula a las partes II y III.
Finalmente, la Parte V intenta una introducción rápida a la exploración de los
conjuntos de datos-multivari comió para el patrón. Que nos lleva de nuevo a la
actitud análisis exploratorio de datos más fuertemente reflejada en la Parte I. pero
se han colocado más adelante para no interrumpir la progresión constante de ideas
que vincula a las partes II y III. Finalmente, la Parte V intenta una introducción
rápida a la exploración de los conjuntos de datos-multivari comió para el patrón.
Que nos lleva de nuevo a la actitud análisis exploratorio de datos más fuertemente
reflejada en la Parte I. pero se han colocado más adelante para no interrumpir la
progresión constante de ideas que vincula a las partes II y III. Finalmente, la Parte
V intenta una introducción rápida a la exploración de los conjuntos de datos-
multivari comió para el patrón. Que nos lleva de nuevo a la actitud análisis
exploratorio de datos más fuertemente reflejada en la Parte I.
En la arqueología, como en la mayoría de los campos, conceptos cuantitativos vienen
fácil y natural para algunos, y sólo a un costo considerable para los demás. La ausencia
de un producto natural Inclina-ción hacia el razonamiento numérico es a menudo
reforzada por la aceptación social de profesar la ignorancia de las matemáticas - una
aceptación social alimentada por la idea de que la matemática es un arcano y sujeto
especializado de ninguna utilidad para muchas personas. Una persona por lo demás bien
educada puede profesar una completa incapacidad de comprender nada acerca de los
números más allá de la suma y la resta sin incurrir en los dis-Dain de esperar si él o ella
admitió a las habilidades verbales tan limitado como para hacer que todo en el diario,
pero los cómics ininteligible.
Diversos grados de talento natural no debe ser más sorprendente para mathemat-
ICS que para escribir, jugar al fútbol, o de otras actividades. La opinión de que la
matemática es solamente un mal necesario de la escuela primaria, sin embargo,
agrava el problema mediante el fomento de los que han encontrado razonamiento
cuantitativo difícil minimizar su importancia y para evitar el desarrollo de
habilidades cuantitativas que podrían ser útiles para ellos. En consecuencia, un buen
número de estudiantes parecen embarcarse en estudios de grado de dist-logía
equipado solamente con el álgebra de la escuela secundaria - víctimas, tal vez, de la
misma clase de malos consejos Yo mismo recibí en su primer año de primer
semestre en la universidad, cuando mi consejero académico despectivamente
desestimado el curso de matemáticas tenía la intención de inscribirse en tan
irrelevante para mis intereses.
viii Prólogo a la segunda edición

Este libro está escrito con la esperanza de proporcionar herramientas útiles para el
análisis cuantitativo de la arqueología a los que, naturalmente, expertos en el
razonamiento cuantitativo, así como a aquellos que se encuentran las matemáticas no
sólo es difícil, sino incluso intimidante. No es ningún desafío a las estadísticas actuales
a los que ya están cómodos con y expertos en matemática pensar-ción; que sólo requiere
un empujón en la dirección correcta. El desafío perenne de libros como éste, sin
embargo, es presentar un análisis cuantitativo con eficacia a aquellos a los que no es
algo natural. Es con especial preocupación para este último grupo que fue elegido el
enfoque adoptado aquí. Parte de ese enfoque consiste en hundir la derecha por delante
de las herramientas de este libro es sobre sin una serie de capítulos preliminares ponen
tierra-trabajo básico, la importancia de las cuales sólo se hace evidente más adelante.
Estos “puntos básicos” son,
Afortunadamente, es posible acercarse a las herramientas estadísticas básicas con el
sentido común y en un lenguaje común con el fin de transmitir no sólo la mecánica de
uso de las herramientas estadísticas, sino también una verdadera comprensión de la
forma en que las herramientas de trabajo. El uso productivo de las herramientas
estadísticas en manantiales arqueología no tanto a partir del conocimiento Mathe-
matical abstracto como de la comprensión intuitiva sólida de principios, aplicados con
sentido común y constante atención al producto final deseado - es decir, el objetivo de
la investigación final. Vale la pena hacer una pausa para enfatizar que este libro,
diversión-talmente, se trata de herramientas - herramientas para la identificación de
patrones en números y herramientas para la evaluación de la precisión y la fiabilidad
con los patrones que identificamos en nuestros patrones reales de datos rep-resienten en
el mundo más amplio de nuestra conclusiones realmente están a punto. Al igual que con
las herramientas de carpintería, por ejemplo, hábil uso de herramientas estadísticas no
requiere conocimientos com-pleta de cómo se hacen las herramientas. En consecuencia,
no he intentado mostrar cómo ecuaciones estadísticas se derivan de ciertos supuestos
través de la lógica Mathe-matical (el enfoque adoptado por algunos libros en las
estadísticas). Como potente y elegante como el lenguaje de la matemática abstracta que
sea, sigue siendo totalmente impen-etrable a muchos arqueólogos. Siempre he
encontrado que es muy útil para evitar un enfoque matemático abstracto. Esto parece
especialmente importante para los que ya están asustado ante la idea de las matemáticas.
No he tratado de mostrar cómo ecuaciones estadísticas se derivan de ciertos supuestos
través de la lógica Mathe-matical (el enfoque adoptado por algunos libros en las
estadísticas). Como potente y elegante como el lenguaje de la matemática abstracta que
sea, sigue siendo totalmente impen-etrable a muchos arqueólogos. Siempre he
encontrado que es muy útil para evitar un enfoque matemático abstracto. Esto parece
especialmente importante para los que ya están asustado ante la idea de las matemáticas.
No he tratado de mostrar cómo ecuaciones estadísticas se derivan de ciertos supuestos
través de la lógica Mathe-matical (el enfoque adoptado por algunos libros en las
estadísticas). Como potente y elegante como el lenguaje de la matemática abstracta que
sea, sigue siendo totalmente impen-etrable a muchos arqueólogos. Siempre he
encontrado que es muy útil para evitar un enfoque matemático abstracto. Esto parece
especialmente importante para los que ya están asustado ante la idea de las matemáticas.
Aunque aprender a utilizar una sierra de mesa no requiere el desarrollo de la
capacidad de hacer una, hábil uso de una sierra de mesa requiere una cierta
comprensión de los Princi-ples según el cual hace su trabajo. Falta de comprensión
de estos principios básicos dará lugar a erróneas y desigual de corte e incluso el
dedo cortado ocasional o peor. De la misma manera, hábil uso de herramientas
estadísticas requiere cierto entienden-ción de los principios subyacentes. Sin esa
comprensión, incluso muy afilado de herramientas estadísticas producen sólo
resultados de crudo, y pueden causar lesiones (aunque generalmente no del tipo que
requiere atención médica).
Por esta razón, también he tratado de evitar el enfoque de libro de cocina común a
los libros de estadística aplicada. Recetas fáciles para la apelación análisis estadístico
fuerte, espe-cialmente a aquellos que tengan miedo de las matemáticas. Hay un
verdadero trabajo mental parece ser necesario; sin conceptos difíciles necesitan ser
dominadas; sólo tiene que seguir cuidadosamente las instrucciones. Este enfoque puede
realmente trabajar en disciplinas en las que ciertos tipos de datos se producen
regularmente en ciertos formatos. Sólo las mayoría de las tareas de análisis de datos de
rutina se pueden Suc-cessfully manejados de esta manera, sin embargo, y los datos
arqueológicos no son de rutina. La naturaleza del registro arqueológico y la manera en
que debemos extraer
Prólogo a la segunda edición ix

datos de los que inevitablemente producen idiosincrasia que los practicantes de otras
disciplinas se les enseña a evitar a través del diseño de investigación apropiado. El
hacer frente a tales datos desordenado requiere que el arqueólogo tiene una mejor
comprensión de los principios que subyace en que un enfoque de libros de cocina
puede proporcionar.
Este libro, a continuación, busca un término medio. Se trata más que
simplemente proporcionar instrucciones para el uso de herramientas estadísticas;
sin embargo, no tiene ninguna pretensión de proporcionar una justificación
matemática completa para ellos. Su objetivo es ayudar al lector a comprender los
principios subyacentes herramientas estadísticas suficientemente bien como para
usarlos con habilidad en el contexto del análisis de los datos arqueológicos. El lector
que tenía en mente, mientras que la escritura es principalmente el graduado o
estudiante de grado de la arqueología teniendo un primer curso de análisis de datos
arqueológicos. Como la mayoría de los libros de texto, este es el libro el autor
siempre quiso pero nunca encontró por su propio curso. Espero que también puede
ser útil para los arqueólogos que deseen desarrollar o consolidar las habilidades en
el uso de la herramienta estadística si están inscritos en cursos o no.
Las herramientas estadísticas discutidas en este libro de ninguna manera
constituyen el conjunto completo cada vez que necesita el arqueólogo. Son
herramientas básicas de uso general, pero existen muchas otras herramientas
especializadas. Algunas de las herramientas que aquí se presentan son muy simples
y fáciles de aplicar, requiere nada más que lápiz y papel o tal vez una calculadora
ordinaria. Otros son más complicados o implican cálculos muy complicados. Doy
por sentado que ningún esfuerzo arqueológico serio análisis de datos estará bajo-
tomada con la ayuda de un ordenador. Aprender a usar paquetes de software
estadístico es mejor incorporar directamente en el proceso de aprendizaje de las
herramientas estadísticas. Así pues, he omitido las explicaciones menudo requieren
mucho tiempo y complejas de cómo com-pute ciertas estadísticas complicadas con
la mano.
Muchos de los resultados y ejemplos de este libro fueron producidos con
SYSTAT R; otros paquetes que podrían usarse son demasiado numerosos, incluso
a la lista. Desde los Possibili-dades son tan variados (y cambian tan continuamente),
es inútil tratar de incorporar instrucciones para utilizar el software estadístico en
este libro. Asumo, sin embargo, que el libro va a ser usado en conjunción con algún
paquete de programas estadísticos y los manuales correspondientes, y algunos
comentarios generales sobre el uso de tales “statpacks” están incluidos.
Casi cualquier paquete de software proporcionará opciones y alternativas que no se
discuten en este libro. Algunos manuales de software proporcionan una buena
explicación de lo que son estas opciones y citas bibliográficas para aquellos interesados
en aprender más acerca de ellos; otros manuales no lo hacen. (Esta es una característica
de la pena con un peso en la elección de software estadístico.) Encuentros fortuitos con
opciones en el software estadístico puede proporcionar un medio útil para la ampliación
de la experiencia de uno en el análisis cuantitativo. Por otro lado, pueden distraer la
atención del analista de la tarea en cuestión a las muchas otras tareas que podrían
realizarse, pero que en realidad no hay necesidad de llevar a cabo. El carpintero
profesional no elige primero una herramienta bastante y luego ir en busca de algo para
usarlo en. Tan,
X Prólogo a la segunda edición

ser apropiado) para poner en uso la herramienta adecuada para llevar a cabo la tarea
en cuestión. La mecánica de cálculos complicados y programas informáticos pueden
complicado tanto la atención desvíe de los asuntos centrales de principio relativas a
los trabajos a realizar. En estadística, como en los varios deportes a partir del cual
se deriva el clich'e, es imposible recordar demasiado a menudo para mantener el ojo
en la bola.

EXPRESIONES DE GRATITUD

La persona más responsable de “infectar” yo (su palabra, no la mía) con el Atti-tud


hacia las estadísticas representada aquí es Lee Sailer. Mark Aldenderfer y Doug
precio previsto reacciones muy útiles para el manuscrito de la primera edición. Me
he negado obstinadamente a aceptar algunos de los consejos generosamente
ofrecido por los tres, sin embargo, por lo que no pueden ser culpados por cualquier
deficiencia. Jeanne Ferrary Drennan ha puesto al día con una gran cantidad de
maldición como he tratado de enseñar en los cursos de análisis de datos
arqueológico con textos que no me gusta, y ella se dedica la mayor parte de una
vacaciones de diciembre para ayudar a sofocar el primer borrador de este libro en
forma para su uso en clase en enero. Se lanzó en una vez más con la ayuda vital para
obtener el manuscrito de la segunda edi-ción listo para enviar al editor, al igual que
Adam Menzies y Scott Palumbo. Mis la mayoría gracias especiales se reservan para
los graduados y de licenciatura los estudiantes (y los asistentes de enseñanza) que
han luchado valientemente junto mientras trataba de dar suficiente coherencia a este
enfoque para el análisis de datos en la arqueología de utilizarlo en los cursos que se
llevaron - a veces utilizando textos contradecía, utilizando a veces no hay texto en
absoluto, y por último el uso de versiones sucesivas de este libro. Ellos han
contribuido más de lo que saben a lo que la claridad de la exposición que aquí puede
tener.

Pittsburgh, PA Robert D. Drennan


Contenido

parte I Exploración numérica

1 Los lotes de números . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Parcelas


y hojas del tallo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Back-to-Back
Parcelas y hojas del tallo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 histogramas . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Múltiples racimos o picos . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Práctica . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2 El nivel o Centro de un lote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 El significado . .


. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 la mediana . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Los valores atípicos y
Resistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 La eliminación de
valores atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 La media
truncada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 ¿Qué Índice de
Uso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Lotes con dos centros .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Práctica . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3 La propagación o dispersión de un lote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 El rango . .


. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 El Midspread o
rango intercuartil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 La desviación estándar y la varianza
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 La desviación estándar recortado . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 ¿Qué Índice de Uso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . 34 Práctica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . 36

4 La comparación de los lotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37


El diagrama de caja y-Dot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Extracción del Nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 La
eliminación de la propagación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
unusualness . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 La
estandarización de la base de la media y la desviación estándar . . . . . . . . . . . . . . . . . . 48 Práctica . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

xi
xii
Contenid
o

5 La forma o distribución de un lote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Simetría . . . . . . .


. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 transformaciones ... . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Corrección de asimetría . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 La distribución normal . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 Práctica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

6 categorías . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Las proporciones de columna y fila ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.. 69
Proporciones y densidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
Gráficos de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
Categorías y sub-lotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Práctica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

Parte II Muestreo

7 Muestras y poblaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
¿Qué es el muestreo? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
¿Por qué muestra? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
¿Cómo nos muestra? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
representatividad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Diferentes tipos de muestreo y Bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
El uso de muestras no aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
... 88
La población objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Práctica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

8 Diferentes muestras de la misma población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 Todas las muestras


posibles de un determinado tamaño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 Todas las
muestras posibles de un determinado tamaño más grande . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 El
“Lote Especial” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 El error
estándar... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

9 Confianza y medias poblacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Introducción


a una muestra aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 Lo Poblaciones Podría ser que
la Muestra han venido de? . . . . . . . . . . . . . . . . . . . . 109 Confianza frente de precisión . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 Poner un punto más fino en las probabilidades - t de
Student . . . . . . . . . . . . . . . . . . . . . . . . . . 118 Los rangos de error para los niveles de confianza específicos
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 Las poblaciones finitas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 A Complete Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . 124 ¿Qué tan grande una muestra necesitamos? . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . 126 Supuestos y métodos robustos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . 128 Práctica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . 130
Contenido xiii

10 Las medianas y remuestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133


el Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
Práctica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

11 Categorías y proporciones de la población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139


¿Qué tan grande una muestra necesitamos? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . 142
Práctica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

Parte III Dos relaciones entre las variables

12 Comparación de dos medias de las muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


147 La confianza, el significado y Fuerza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 Comparación
mediante la prueba t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 El T
para una muestra de prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 La
hipótesis nula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 Resultados
estadísticos e Interpretaciones ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 Supuestos y métodos
robustos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 Práctica . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

13 Comparación de las medias de más de dos muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 Comparación


con medios estimados y rangos de error . . . . . . . . . . . . . . . . . . . . . . . 166 Comparación por análisis de
varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 Fuerza de Diferencias . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 Diferencias entre las poblaciones frente a las
relaciones
entre las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
Supuestos y métodos robustos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 Práctica . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

14 La comparación de proporciones de las diferentes muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181


Comparación con proporciones estimadas y rangos de error . . . . . . . . . . . . . . . . . 181 La comparación con
chi-cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 Las medidas de fuerza . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 El Efecto de tamaño de la muestra
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 Las diferencias entre las poblaciones
frente a las relaciones entre variables . 191 Supuestos y métodos robustos . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . 191 Posdata: la comparación de proporciones a una expectativa teórica . . . . . . . .
. . . 193 Práctica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . 196

15 Relacionar una variable de medición a otra variable de medición . 199 Mirando el panorama general .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 Las relaciones lineales . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 El mejor ajuste Línea Recta . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 Predicción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 ¿Qué tan bueno es la mejor opción? . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 Importancia y Confianza . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . 211
xiv
Contenid
o

Análisis de Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213


Supuestos y métodos robustos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
Práctica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220

16 Rangos Relativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223


El cálculo de correlación de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
Significado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
Supuestos y métodos robustos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
Práctica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228

parte IV Temas Especiales de muestreo

17 El muestreo de una población con Subgrupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


233
El agrupamiento de las estimaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . 234
Los beneficios de Muestreo estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236

18 El muestreo de un sitio o región con unidades espaciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239


Espacial unidades de muestreo: Puntos, transectos, y Quadrats . . . . . . . . . . . . . . . . . . . . 240 Estimación
de proporciones poblacionales ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 Medios de
estimación de la población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 densidades .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249

19 Muestreo sin encontrar nada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251

20 Muestreo y Realidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255

Parte V Analisis multivariable

21 Enfoques multivariantes y variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263


Un conjunto de datos de muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . 264
Tipos de variables, los datos que faltan, y Statpacks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267

22 Las similitudes entre los casos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271


Distancia euclidiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
Distancia euclidiana con variables estandarizadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274 Cuándo utilizar
Distancia euclidiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276 Las variables de presencia
/ ausencia: Coincidencia simple y coeficientes de Jaccard . 277 Conjuntos de variables mixtas:
Coeficientes Anderberg de Gower y de . . . . . . . . . . . . . . . . 280 Las similitudes entre las unidades familiares
Ixcaquixtla . . . . . . . . . . . . . . . . . . . . . . . . . . . 281

23 Escalamiento multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285


Configuraciones en diferente número de dimensiones . . . . . . . . . . . . . . . . . . . . . . . . 286
La interpretación de la configuración ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
Contenido xv

24 Análisis de Componentes Principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299


Correlaciones y variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
componentes de extracción ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
Llevar a cabo el análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303

25 Análisis de conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
309 Solo vínculo Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310 La
agrupación completa de ligamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312 La
agrupación de vinculación promedio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
¿Qué vinculación Criterio elegir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 Como muchos
de estos grupos para definir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 La agrupación
de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 La agrupación de
los datos de los hogares Ixcaquixtla. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318

Índice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
327
Capítulo 1
Los lotes de números

Parcelas y hojas del tallo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Back-to-


Back Parcelas y hojas del tallo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 histogramas . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Múltiples racimos o picos. . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Práctica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

Un lote es un conjunto de números que están relacionados entre sí debido a que son
diferentes instancias de la misma cosa. El ejemplo más simple de un lote de números
es un conjunto de mediciones de diferentes ejemplos de la misma clase de cosa. Por
ejemplo, las longitudes de un grupo de raspadores, los diámetros de un grupo de
agujeros de poste, y las áreas de un grupo de sitios son tres lotes de números. En
estos casos, longitud, diámetro, y la zona son variables y cada raspador, agujero de
correos, y el sitio es un caso.
La longitud de un rascador, el diámetro de un agujero de poste, y el área de un
sitio no, juntos, hacer un lote de números porque son completamente no relacionada.
La longitud, anchura, espesor y peso de un rascador no lo hacen, juntos, hacer un
lote porque no son diferentes instancias de la misma cosa; es decir, que son
diferentes magnitudes de medida para un solo caso. La longitud, anchura, espesor y
peso de cada uno de 20 raspadores hacen, no un lote de números, pero cuatro. Estos
cuatro lotes pueden estar relacionados entre sí porque son cuatro variables medidas
por los mismos 20 casos. Los diámetros de un conjunto de 18 hoyos para los postes
de un sitio y los diámetros de un conjunto de 23 agujeros de poste de otro sitio
pueden considerarse un único lote de números (el diámetro variable medida durante
41 casos, ignorando por completo qué sitio apareció cada agujero poste en).
También se pueden considerar dos lotes relacionados de números (el diámetro
variable medida durante 18 casos en un sitio y 23 casos en otro sitio). Finalmente
se pueden considerar dos lotes relacionados de números de una manera diferente (el
diámetro variable medida durante 41 casos y el sitio variable clasificado para los
mismos 41 casos). Esta última, sin embargo, nos lleva a un tipo diferente de lotes o
variable, y es más fácil cumplir con lotes de mediciones por ahora.

RD Drennan, Estadísticas para arqueólogos, Aportes Interdisciplinarios 3


a la arqueología, DOI 10.1007 / 978-1-4419-0413-3 1,
c Springer Science+Business Media, LLC 2004 de 2009
4 CAPÍTULO 1

Diagramas de tallo y hojas

Una lista de las mediciones no se presta muy bien a hacer interesantes obser-vaciones,
por lo que el primer paso en la exploración de un lote de números es para organizarlos.
Si el lote es un conjunto de mediciones, el diagrama de tallo y hojas es la herramienta
fundamental órgano-izational. Considere el lote de números en la tabla1.1.
Ordenándoles a lo largo de una escala a menudo nos puede ayudar a ver patrones.
Figura1.1 muestra cómo se producen un diagrama de tallo y hojas que hace exactamente
esto para los números en la tabla 1.1. En primer lugar, los números se dividen en una
sección de tallo y una sección de la hoja. En el primer caso, por ejemplo, 9,7 se convierte
en un tallo de 9 y una hoja de 7. La hoja para cada número se coloca en el diagrama de
tallo al lado del vástago para ese número. Las líneas en la figura.1.1conectar algunos de
los núm-fibras a las hojas correspondientes en sus posiciones finales en el diagrama de
tallo y hojas. (No todas las conexiones se dibujan en evitar una confusión sin esperanza
de líneas.)
Varias características de este lote de números son inmediatamente evidente en el
diagrama de tallo y hojas. En primer lugar, los números tienden a agruparse juntos
en aproximadamente 9 a 12 cm. La mayoría cae en este rango. Dos más (14,2 y 7,6
cm) caerá un poco fuera de este rango, y uno (44,6 cm) se sitúa muy lejos del resto.
Es un fenómeno bastante común que los lotes de números a juntas montón como
este. También es relativamente frecuente que uno o unos pocos números en un lote
a caer lejos del montón donde la mayoría de los números de mentir. Tales números
que caen lejos del montón a menudo se llaman los valores extremos, y vamos a
discutir con más detalle más adelante. Por ahora es suficiente tener en cuenta que a
menudo nos examinamos estos valores atípicos con una mirada escéptica. Un
agujero de poste de 44,6 cm de diámetro es ciertamente un agujero post muy inusual
en este lote, y podríamos sospechar que alguien simplemente ha escrito la medición
abajo equivocado. Una revisión rápida de dibujos de campo o fotografías debe ser
suficiente para determinar si se ha cometido un error tal y, si es así, para corregirlo.
Si, en efecto, esta medida parece correcto, entonces una de las características
sobresalientes de este lote es que un agujero de entrada, simplemente no parece
encajar con el resto del grupo.
diagramas de tallo y hojas se pueden hacer en diferentes escalas (es decir, utilizando
diferentes inter-Vals en el tallo), y la selección de una escala adecuada es esencial para
la producción de un diagrama de tallo y hojas útiles. Mesa1.2muestra otro lote de
números en un diagrama de tallo y hojas en la misma escala que en el ejemplo anterior.
Los números aquí, sin embargo, se extienden a lo largo de una gran distancia tal que las
características del lote no son

Tabla 1.1. Los diámetros de 13


agujeros de poste en el Negro
Site (cm)

9.7 11.7
9.2 11.1
12.9 7.6
11.4 11.8
9.1 14.2
44.6 10.8
10.5
LOTES DE NÚMEROS 5

Figura 1.1. Un diagrama de tallo y hojas de los números de la Tabla1.1.

claramente identificada. En mesa1.3los mismos números producen un diagrama de


tallo y hojas más denso cuando el vástago está estructurado de manera diferente. En
primer lugar, los números se rompen de manera diferente en secciones de tallo y
hojas - no en el punto decimal, pero entre las unidades y decenas. Puesto que hay
dos dígitos para cada hoja, comas se utilizan para indi-cado de la separación entre
hojas. Para evitar en gran medida el aumento de la densidad, dos posiciones se les
permite en el vástago para cada sección de vástago, la posición inferior
correspondiente a la mitad inferior de los números que podrían ajustarse a esa
sección de vástago y la parte superior correspondiente a la mitad superior (como se
indica por las notaciones a la derecha de la gráfica de tallo y hojas). Las
características del lote son mucho más claros en esta parcela. El conjunto números
montón de aproximadamente 130 a 160. Y una luz inusualmente
6 CAPÍTULO 1

Tabla 1.2. Demasiado escasa de tallo y hoja Parcela de pesos


de 17 rasquetas del Sitio Negro

Peso
(gramos) Tallos Hojas

169 5
168
148,7 148 7 167
166
154,5 154 5 165
164 7
169,5 169 5 163
162
145,1 145 1 161 2
160
157,9 157 9 159
158
137,8 137 8 157 9
156
151,9 151 9 155
154 5
146,2 146 2 153
152 0
164,7 164 7 151 9
150
149,3 149 3 149 3
148 7
141,3 141 3 147
146 29
161,2 161 2 145 1
144
146,9 146 9 143 0
142
152,0 152 0 141 3
140
143,0 143 0 139
138
132,6 132 6 137 8
136
115,3 115 3 135
134
133
132 6
131
130
129
128
127
126
125
124
123
122
121
120
119
118
117
116
115 3
LOTES DE NÚMEROS 7

Tabla 1.3. Parcela y hojas de vástago a una escala apropiada de pesos de 17


Raspadores del Sitio Negro

Peso (gramos) Tallos Hojas


148,7 14 87
154,5 15 45
169,5 dieciséis 95 17 (175,0-179,9)
145,1 14 51 17 (170,0-174,9)
diecis
157,9 15 79 éis 95 (165,0-169,9)
diecis
137,8 13 78 éis 12,47 (160,0-164,9)
151,9 15 19 15 79 (155,0-159,9)
146,2 14 62 15 19,20,45 (150,0-154,9)
164,7 dieciséis 47 14 51,62,69,87,93 (145,0-149,9)
149,3 14 93 14 13,30 (140,0-144,9)
141,3 14 13 13 78 (135,0-139,9)
161,2 dieciséis 12 13 26 (130,0-134,9)
146,9 14 69 12 (125,0-129,9)
152,0 15 20 12 (120,0-124,9)
143,0 14 30 11 53 (115,0-119,9)
132,6 13 26
115,3 11 53

raspador parece ser un valor atípico. Este patrón ciertamente se puede detectar
(especialmente en retrospectiva) en la Tabla1.2, Pero es mucho más claro en la
Tabla 1.3.
Mesa 1.4muestra una densa todavía diagrama de tallo y hojas de los mismos números.
Tallo y secciones de hojas se separan como en la tabla1.4, Pero sólo una posición se
permite en el vástago para cada sección de vástago. En esta escala, el agrupamiento de
los números es todavía evidente, pero lo que parecía un caso atípico en la tabla1.4ha
llegado tan cerca del montón que ya no parece muy diferente. Las características del lote
están menos claramente muestran en este diagrama de tallo y hojas, ya que llena los
números muy cerca entre sí.
Mesa 1.5es otro diagrama de tallo y hojas de los mismos números. Éste es demasiado
densa. Simplemente no hay suficiente espacio en el tallo de las hojas que se extienden
lo suficiente como para mostrar el patrón. El valor atípico de la Tabla1.3ya no es
aparente (aunque todavía está allí - es sólo oscurecido por la escala apropiada). Incluso
es difícil evaluar la magnitud del agrupamiento de los números. Puede crear el siguiente
paso en la dirección de más densos diagramas de tallo y hojas para estos números usted
mismo. Tiene un tallo que consiste solamente en 1, con todas las hojas en una línea
próxima a la misma.
Una escala apropiada para un diagrama de tallo y hojas evita los dos extremos
visto en las Tablas 1.2 y 1.5. Las hojas deben hacer una o más ramas o racimos de
hojas que sobresalen de la madre. Esto no puede suceder si se extienden a lo largo
de un tallo que es simplemente demasiado larga como en la tabla1.2. Al mismo
tiempo, las hojas se debe permitir a extenderse lo suficiente para que los valores
extremos se pueden notar y dos o más racimos, si se producen, se pueden distinguir
unos de otros. Este último puede no sucede si las hojas se amontonan como en la
tabla1.5. Tablas 1.3 y 1.4 muestran diagramas de tallo y hojas a escalas que son más
clara, aunque la tabla1.3 definitivamente muestra los patrones con más claridad que
la tabla 1.4 hace.
CAPÍTULO
8 1

Tabla 1.4. Demasiado denso un diagrama de tallo y hojas de pesos de 17 rasquetas


Del Sitio Negro

Peso (gramos) Tallos Hojas


148,7 14 87
154,5 15 45
169,5 dieciséis 95
145,1 14 51 17
dieci
157,9 15 79 séis 12,47,95
137,8 13 78 15 19,20,45,79
151,9 15 19 14 13,30,51,62,69,87,93
146,2 14 62 13 26,78
164,7 dieciséis 47 12
149,3 14 93 11 53
141,3 14 13
161,2 dieciséis 12
146,9 14 69
152,0 15 20
143,0 14 30
132,6 13 26
115,3 11 53

Diferentes estadísticos hacen diagramas de tallo y hojas de manera ligeramente


diferente. Hay varios enfoques para extendiendo o comprimiendo la escala. El
formato exacto seguido es menos importante que para mostrar lo más claramente
posible los patrones que deben observarse en el lote de números. Dos principios
esenciales están involucrados. En primer lugar, las distancias entre los números se
representan visualmente como las distancias espaciales a lo largo de la escala
numérica vertical en el gráfico. Y segundo, el número de números en cada uno de
una serie de intervalos iguales se representa visualmente como una distancia
espacial a lo largo de cada fila horizontal de los números. Sin embargo, las secciones
de tallo se dividen, es importante que cada sección de vástago corresponden a un
rango de números igual a la de todas las demás secciones del tallo. Sería una mala
idea de estructurar un tallo con las posiciones correspondientes a, por ejemplo, 3,0-
3,3, 3. 4-3,6, y 3.7 a 3.9 debido a que los intervalos son desiguales. Es decir, una
gama más amplia está incluido entre 3,0 y 3,3 que en los otros dos intervalos. Habrá
tienden a ser más largas filas de hojas para ese intervalo más grande, simplemente
porque es un intervalo más grande, y que interfiere con el principio de separación
horizontal que permite que el diagrama de tallo y hojas para hacer su trabajo.
Los diagramas de tallo y hojas de este libro tienen números más bajos en la parte
inferior y los números más altos en la parte superior. Esto hace que sea más fácil
hablar acerca de los números y las parcelas en los mismos términos y hojas del tallo
ya que los números más bajos son más bajos en la parcela y los números más altos
son más altos en la parcela. Es más común para diagramas de tallo y hojas que se
pueden extraer con números más bajos en la parte superior y los números más altos
en la parte inferior. Esto es unfor-tunate ya que añade un pequeño elemento y
totalmente innecesario de confusión, pero de cualquier manera, el tallo y hojas
gráfico muestra los mismos patrones.
Por último, los diagramas de tallo y hojas en las tablas de este capítulo tienen las
hojas de cada línea en orden numérico. Esto no hace ninguna diferencia en la
observación de los tipos de
LOTES DE NÚMEROS 9

Tabla 1.5. Mucho demasiado denso un diagrama de tallo y hojas de pesos de 17 rasquetas
Del Sitio Negro

Peso (gramos) Tallos Hojas


148,7 1 487
154,5 1 545
169,5 1 695
145,1 1 451
157,9 1 579
137,8 1 378
151,9 1 519
146,2 1 462 1 519.520.545.579.612.647.695
164,7 1 647 1 153.326.378.413.430.451.462.469.487.493
149,3 1 493
141,3 1 413
161,2 1 612
146,9 1 469
152,0 1 520
143,0 1 430
132,6 1 326
115,3 1 153

Tabla 1.6. Diámetros de 15


agujeros de poste en el Smith
Site (cm)

20.5 19.4
17.2 16.4
15.3 18.8
15.9 15.7
18.3 18.9
17.9 16.8
18.6 8.4
14.3

patrones que han sido señalar aquí, pero hace que sea más fácil de hacer algunas de
las cosas que haremos con los diagramas de tallo y hojas en los capítulos 2 y 3. Se
hace dibujando un diagrama de tallo y hojas un poco más de tiempo, pero vale la
pena el esfuerzo, como veremos más adelante.

PARCELAS DE REGRESO A LA vástago trasero y hojas

El diagrama de tallo y hojas es una herramienta fundamental no sólo para la exploración


de un solo lote, sino también para los lotes de comparación. El lote de números en la
tabla1.6 consta de diámetros de perforación de correos desde el Sitio Smith, que es
posible que desee comparar con el lote de diámetros de perforación de correos desde el
Sitio Negro (tabla 1.1). Estos lotes se pueden relacionar
10 CAPÍTULO 1

Tabla 1.7. Regreso a la vuelta de tallo y hoja


Parcela de Correos diámetros de los agujeros de la Negro
Smith y Sitios (Tablas 1.1 y 1.6)

negro sitio Smith sitio

6 44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20 5
19 4
18 3689
17 29
diecis
éis 48
15 379
2 14 3
13
9 12
874111
85 10
721 9
8 4
67

ya que son medidas de la misma variable (diámetro de agujeros de poste), aunque


están implicados dos conjuntos diferentes de agujeros de poste. Mesa1.7 muestra un
gráfico de tallo y hoja de regreso a la parte posterior en la que se colocan las hojas
que representan ambos lotes de números en lados opuestos de la misma raíz.
LOTES DE NÚMEROS 11

Vemos el montón de agujeros de poste en diámetros de 9-12 cm que vimos para


el Sitio Negro en la Fig. 1.1, Así como el valor atípico, o inusualmente grande
agujero poste 44,6 cm de diámetro. Para el sitio Smith vemos un montón de números
también, pero este montón de números cae un poco más alto en el tallo del racimo
para el Sitio Negro. rápidamente se observa, entonces, que los agujeros de poste en
el Sitio Smith son, en general, de mayor diámetro que las del sitio de Negro. Este
patrón general es inconfundible en el diagrama de tallos y hojas a pesar de que el
agujero de post-44,6 cm en el lugar Negro es de lejos el más grande de hoyos en
cualquier sitio. También hay un valor atípico entre los huecos de los postes en el
Sitio Smith - en este caso un valor atípico baja mucho menor que la generalidad de
los agujeros de poste en el lugar. Si este agujero posterior se encontraban en el sitio
de Negro en lugar del sitio Smith, no sería casi tan inusual, pero al Sitio Smith es
claramente un inadaptado.

HISTOGRAMAS

El diagrama de tallo y hojas es una innovación de análisis de datos exploratorio. A pesar


de que sin duda ha aparecido en la literatura arqueológica, hay una forma tradicional de
dibujo parcelas con información similar que es probablemente más familiar para los
arqueólogos más. Es el histograma, y se corresponde precisamente a la trama de tallo y
hoja. El histograma es lo suficientemente familiar que no es necesaria ninguna
explicación detallada de aquí. Mesa1.8proporciona un diagrama de tallo y hojas de las
zonas de 29 sitios en el valle del río Kiskiminetas. Figura1.2muestra que un histograma
de este mismo lote de números es simplemente un diagrama de tallo y hojas en caja-in
vuelta en su lado con los números sí mismos eliminado como hojas. La mayor parte de
los mismos patrones que hemos señalado hasta ahora en diagramas de tallo y hojas se
puede observar en los histogramas también. Al hacer un histograma, uno se enfrenta a
la misma elección de la escala o intervalo que ya hemos discutido para el diagrama de
tallo y hoja, y aplicar precisamente las mismas consideraciones. Histogramas tienen la
ventaja de ser un poco más elegante y estéticamente agradable, así como de ser más
familiar para los arqueólogos. diagramas de tallo y hojas, por el contrario, tienen la
ventaja de que el detalle completo de los números reales es a todos los presentes, y esto
hace que sea posible utilizarlos de manera que histogramas no se pueden utilizar, como
veremos en los capítulos2 y 3. En términos generales, sin embargo, el diagrama de tallo
y hoja y el histograma sirven fundamentalmente el mismo propósito.

MANOJOS o picos MÚLTIPLES

El lote de números en la tabla 1.8también demuestra otra de las características de


los lotes que a veces se hace evidente, ya sea en un diagrama de tallo y hojas o una
su-togram. Vemos el agrupamiento habitual de los números en el diagrama de tallo
y hojas. En este caso, sin embargo, hay dos racimos distintos y separados, uno entre
aproximadamente 1 y 5 ha y otra entre aproximadamente 7 y 16 ha. Los mismos
racimos son evidentes en el histograma (Fig.1.2), Donde los dos racimos separados
aparecen como dos colinas o
12 CAPÍTULO 1

Tabla 1.8. Áreas de 29 Sitios en el


Kiskiminetas valle del río

Superficie De tallo y hoja


solar (ha) parcela

12.8 15 3
11.5 14 0
14.0 13 49
1.3 12 388
10.3 11 0257
9.8 10 367
2.3 9 089
15.3 8 27
11.2 7 4
3.4 6
12.8 5
13.9 4 5
9.0 3 48
10.6 2 0239
9.9 1 37
13.4
8.7
3.8
11.7
1.7
12.3
11.0
2.9
10.7
7.4
8.2
2.0
2.2
4.5

picos. patrón tal de múltiples racimos o picos es una clara indicación de tipos distintos
de los casos - en este caso dos clases distintas de sitios. Nos probable que podríamos
llamar los sitios grandes y pequeños sitios, y el patrón que se observa en el diagrama de
tallo y hojas o el histograma indica que los dos son claramente separada. Es decir, en la
discusión de estos como sitios grandes y pequeños, no estaríamos dividiendo
arbitrariamente arriba en sitios grandes y pequeños, sino más bien responde a una
característica innata de este lote de números. Vemos rápidamente que los sitios de gran
tamaño son más numerosos, pero hay suficientes sitios pequeños para formar un pico
claro y separado. Este no es un caso de valores atípicos, pero en su lugar, de dos
conjuntos de sitios, cada uno lo suficientemente numerosos como para formar su propio
pico en el histograma.
La presencia de picos múltiples en un lote es siempre una indicación de que dos o
más fundamentalmente diferentes tipos de cosas han sido lanzados juntos y medido. Para
tomar un ejemplo ridícula, podría medir los diámetros de una serie de platos y tapas de
registro. Si presenté estos como una única lista de mediciones de
LOTES DE NÚMEROS 13

Figura 1.2. Un histograma de las zonas de 29 sitios en el valle del río Kiskiminetas.

objetos redondos, que se vería inmediatamente en un diagrama de tallo y hojas que


había dos picos separados. Sin saber nada acerca de los objetos excepto sus
diámetros, que se imaginaría que dos tipos fundamentalmente diferentes de las cosas
hubieran sido medidos. Usted sería correcto para subdividir el lote en dos lotes sin
jus-tificación más allá que el modelo que viste en el diagrama de tallo y hojas. Una
de las primeras cosas que usted puede hacer, sin embargo, sería buscar más
información sobre la naturaleza de los objetos que puedan aclarar sus diferencias.
Su reacción, en descubrir que ambos platos y tapas de registro se incluyeron entre
los objetos medidos, bien podría ser “No es de extrañar; Ahora entiendo!”Esta es
una reacción perfectamente apropiado y pondría sustancia detrás de una división
hecha por motivos puramente formal (es decir,
Para repetir, lotes con múltiples picos no pueden analizarse más. La única cor-rection
para este problema es para subdividir el lote en lotes separados para análisis por
separado. En el mejor de los mundos posibles, podemos identificar otras características
de los objetos en cuestión para que nos ayuden en la toma de la división. Si no es así,
hay que hacerlo sim capas sobre la base del diagrama de tallo y hojas o histograma,
trazando una línea divisoria en la escala de número en el punto más bajo del valle que
separa los picos. Esto es especialmente fácil para los números ilustrados en la Fig.1.2.
El punto más bajo del valle aquí es de alrededor de 6 hectáreas. No hay sitios en absoluto
de este tamaño, por lo que los sitios pequeños son claramente aquellos que van de 1 a 5
ha, y los sitios de gran tamaño son los que van del 7 al 16 ha. Si no hay un espacio real
en la parte inferior del valle, como la hay en este caso, simplemente dónde trazar la línea
que divide puede no ser tan obvio, pero debe hacerse, sin embargo, antes de proceder a
cualquier análisis adicional.
14 CAPÍTULO 1

Statpacks
El diagrama de tallo y hoja es tal manera un simple para mostrar los números en
un proceso por lotes que se puede producir de forma rápida y fácilmente con lápiz
y papel. Cuando el trabajo-ción con lápiz y papel, sólo es necesario tener cuidado
para alinear los números de forma vertical, de manera que los patrones son
representados con precisión. También es fácil de usar un procesador de textos para
producir un diagrama de tallo y hojas. Como cuando se trabaja con lápiz y papel,
es importante alinear los números de forma vertical. Este hap-plumas
automáticamente siempre que los espectáculos fuente elegida todos los caracteres
(o al menos a todos los números) como la misma anchura. Fuentes en el que 1, por
ejemplo, es más estrecho que 2 no funcionan para diagramas de tallo y hojas
porque los números va a salir de la alineación. La manera más fácil de hacer que
los gráficos de tallo y hojas, por supuesto, es con un paquete estadístico de
ordenador, o statpack para abreviar. A statpack llevará a cabo toda la operación de
forma automática, incluyendo la elección de una escala o intervalo apropiado para
el vástago. Algunos statpacks todavía no incluyen herramientas de análisis
exploratorio de datos (EDA) como diagramas de tallo y hojas, pero muchos lo
hacen.
Los histogramas son más tiempo para dibujar muy bien de diagramas de
tallo y hojas, pero muchos statpacks hacen un muy buen trabajo de ella.
paquetes estadísticos verdaderos son los mejores para esta tarea, ya que sus
programadores tenían en mente exactamente los objetivos discutidos en este
capítulo cuando escribieron los programas. Numerosos programas gráficos de
barras que empate podrían parecer a primera vista otra opción, pero los
gráficos de barras, mientras que superficialmente similar a los histogramas,
son en realidad una herramienta diferente que vamos a explorar más a fondo
en el capítulo6.

PRÁCTICA

en las Tablas 1.9 y 1.10son dos lotes de números - mediciones de las longitudes de
raspadores recuperados a partir de dos sitios. Los rascadores están hechos de
pedernal o sílex. Estas cifras podrían ser considerados como un único lote de
números (longitudes de raspadores, sin tener en cuenta qué materia prima que se
hicieron a partir y en qué sitio se

Tabla 1.9. Raspadores de Pine Ridge


cueva
Longitud
Materia prima Longitud (mm) Materia prima (mm)
Esquisto 25.8 Esquisto 25.9
Esquisto 6.3 Esquisto 23.8
Pedernal 44.6 Esquisto 22.0
Esquisto 21.3 Esquisto 10.6
Pedernal 25.7 Pedernal 33.2
Esquisto 20.6 Esquisto 16.8
Esquisto 22.2 Esquisto 21.8
Esquisto 10.5 Pedernal 48,3
Esquisto 18.9
LOTES DE NÚMEROS 15

Tabla 1.10. Raspadores de las salinas del sitio Willow

Materia prima Longitud (mm) Materia prima Longitud (mm)


Esquisto 15.8 Pedernal 49.1
Pedernal 39.4 Pedernal 41.7
Pedernal 43.5 Esquisto 15.2
Pedernal 39.8 Esquisto 21.2
Esquisto 16.3 Pedernal 30.2
Pedernal 40.5 Pedernal 40.0
Pedernal 91.7 Esquisto 20.2
Esquisto 21.7 Pedernal 31.9
Esquisto 17.9 Pedernal 42.3
Pedernal 29.3 Pedernal 47.2
Pedernal 39.1 Pedernal 50.5
Pedernal 42.5 Esquisto 10.6
Pedernal 49.6 Esquisto 23.1
Esquisto 13.7 Pedernal 44.1
Esquisto 19.1 Pedernal 45.8
Pedernal 40.6

vino de). También forman dos lotes relacionados en dos formas diferentes.
Podríamos dividir el lote único en dos lotes en función de qué sitio los raspadores
fueron recuperados en. (Esta es la forma en que los números se presentan en las
tablas.) O podríamos dividir el lote único en dos lotes según la cual la materia prima
que se hicieron de (despreciando el sitio que vinieron).

1. Hacer un diagrama de tallo y hojas de longitudes de raspador, el tratamiento de todo


el conjunto de raspadores como un solo lote. Experimentar con diferentes intervalos
para el vástago para considerar qué intervalo produce la parcela en más útil. ¿Qué
patrones que se ve en la trama?
2. Haz un diagrama de tallo y hoja de regreso a la parte de atrás de longitudes de
raspador, el tratamiento de la chatarra-ers desde el sitio Willow Flats como un
lote y los de Pine Ridge cueva como otro lote. (Es decir, ignorar la materia prima
de la que se hicieron los raspadores por el momento.) ¿Cómo los dos lotes se
comparan entre sí? ¿Ha observado algunos patrones que ayuda a interpretar el
diagrama de tallo y hojas de todos los raspadores como un solo lote?
3. Haz un diagrama de tallo y hoja de regreso a la parte de atrás de longitudes de
raspador, el tratamiento de los raspadores de sílex como un lote y los raspadores
de sílex como otro lote. (Es decir, esta vez ignoran qué sitio los raspadores de
procedencia.) ¿Cómo estos dos lotes com-Pare el uno al otro? ¿Ha observado
algunos patrones de este tiempo que ayuda a interpretar el diagrama de tallo y
hojas de todos los raspadores como un solo lote?
Capitulo 2
El nivel o Centro de un lote

El significado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 la
mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Los valores
atípicos y Resistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 La eliminación de
valores atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 La media truncada
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 ¿Qué Índice de Uso . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Lotes con dos centros . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Práctica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

Como vimos en el capítulo 1, Los números en un lote a menudo manojo juntos. Si


comparamos dos lotes relacionados de números, el grupo principal en un lote bien
puede tener números más altos en general que el grupo principal en el otro lote.
Podemos decir que estos lotes tienen diferentes niveles o centros. Es conveniente
utilizar un índice numérico del nivel de tales comparaciones. Los varios de estos
índices de uso común se conocen tradicionalmente como medidas de tendencia
central.

EL SIGNIFICADO

El índice más familiar del centro de un lote es las estadísticas medias, fuera más
comúnmente conocida como el promedio. Cálculo de la media es igual que todo lo
que aprendimos en la escuela primaria: la suma de todos los números en el lote se
divide por el número de números en el lote. Dado que este es un cal-culación tan
familiar, que proporciona una buena oportunidad para introducir alguna notación
matemática que es particularmente útil en las estadísticas. La ecuación que expresa
el cálculo de la media es decir
X= 
xn
donde x representa cada número en un lote, individualmente, n es el número de x de y
X es la media o promedio de x (pronunciado “x bar”).

RD Drennan, Estadísticas para arqueólogos, Aportes Interdisciplinarios 17


a la arqueología, DOI 10.1007 / 978-1-4419-0413-3 2,
c Springer Science+Business Media, LLC 2004 de 2009
CAPITULO
18 2
Tabla 2.1. Copos de pesos recuperados de los pozos en forma de
campana de dos
Back-to-back de tallo y hoja de
los pesos de la escama (g) trama

Pit 1 Pit 2 Pit 1 Pit 2

9.2 11.3 6 28
12.9 9.8 27
11.4 14.1 26
9.1 13.5 25
28.6 9.7 24
10.5 12.0 23
11.7 7.8 22
10.1 10.6 21
7.6 11.5 20
11.8 14.3 19
14.2 13.6 18
10.8 9.3 17
diecis
10.9 éis
15
X 12.33 11.42 2 14 13
Maryla
nd 11.10 11.30 13 56
9 12 0 X
X 874 11 35Md
Maryland 851 10 69
21 9 378
8
6 7 8

La letra griega Σ (Sigma mayúscula) significa “la suma de” y es un símbolo que
se utiliza con frecuencia en las estadísticas. Σ x significa simplemente “la suma de
todos los x de.” Las fórmulas con Σ puede parecer formidable, pero, como acabamos
de ver, Σ es simplemente la abreviatura de un cálculo relativamente simple y
familiar. Σ es prácticamente el único símbolo matemático utilizado en este libro que
no es común en álgebra básica.
Mesa 2.1se presentan algunos datos sobre pesos de copos se recuperaron a partir de
dos pozos de almacenamiento en forma de campana en el mismo sitio. La trama de back-
to-back de tallo y hoja revela que los copos de Pit 1 manojo juntos entre 9 y 12 g, con
un valor atípico en 28,6 g (a la que, probablemente, no queremos prestar demasiada
atención). Los copos de Pit 2 también agruparse, aunque el pico es más dispersa e incluso
puede tener una ligera tendencia a partirse en dos. El centro del lote de copos de Pit 2
parece ser un poco más alto en el conjunto que para aquellos de Pit 1. Para los copos de
Pit 1, la media (calculada sumando los 12 pesos y dividiendo el total por
12) es 12,33 g. Para Pit 2, la media (calculada sumando los 13 pesos y dividiendo
el total por 13) es 11,42 g. Ambos medios se indican en sus posiciones aproximadas
a lo largo del vástago en el diagrama de tallo y hojas.
NIVEL O CENTRO de un lote 19

Podemos estar bastante contento con la media como un índice del Centro de Pit 2; sí
apunta a algo así como el centro del pelotón principal en el lote, como se ve en el
diagrama de tallo y hojas. Cuando nos fijamos en el hueco 1, sin embargo, tenemos una
causa de preocupación. La media parece estar muy por encima del centro del pelotón
principal en el lote. Se “se detuvo” muy fuertemente por el alto valor atípico en 28,6 g,
lo que tiene un impacto importante en la suma de los pesos. Ya que sólo se observa que
el lote Pit 1 tiene un nivel algo más bajo que el Pit 2 lotes, es alarmante que la media
para el área 1 es en realidad más alto que la media para Pit 2. Una comparación de medias
para estos dos lotes sugeriría que copos de Pit 1 tendían a pesar más que los de Pit 2 -
una conclusión exactamente opuesta a la que llegamos al examinando el diagrama de
tallo y hojas. En este caso, la media no se está comportando muy bien. Es decir, que no
está proporcionando un índice útil del centro del lote Pit 1 con el propósito de comparar
ese lote a la fosa 2 lotes. Hay reglas duras y rápidas para juzgar ho cuando la media está
comportando muy bien lo suficiente para usar como un índice del centro. Por último, es
una cuestión de juicio subjetivo que requiere una cuidadosa exploración de lotes con
diagramas de tallo y hojas, la comprensión real de lo que queremos un índice de centro
a hacer, y la práctica.

LA MEDIANA

Si la media no se comporta muy bien debido a la forma de un lote, la mediana puede


ser un índice más útil de la central. La mediana es simplemente el número del medio
en el lote (si el lote contiene un número impar de números) o a medio camino entre
los dos números medios (si contiene un número par de números). El diagrama de
tallo y hojas es útil para encontrar la mediana, ya que hace más fácil contar desde la
parte superior o la parte inferior para el número del medio. Es especialmente fácil
de hacer esto si las hojas se han colocado en orden numérico en cada línea del
diagrama de tallo y hojas. La alternativa a la trama de tallo y hoja, el histograma, no
se puede utilizar para encontrar la mediana porque, mientras que el histograma
representa la forma general del lote, que no contiene los números reales.
Para encontrar la mediana del peso de copos de Pit 1, en primer lugar contamos
el número de escamas. Puesto que hay 12 (un número par), la mediana será a medio
camino entre los dos números medios. Los dos números centrales serán el sexto y
séptimo, cuentan ricamente en ya sea el número más alto o más bajo. Por ejemplo,
contando las hojas en el diagrama de tallo y hojas para Pit 1 desde la parte inferior
o el número más bajo, tenemos los primeros cinco números: 7.6, 9.1, 9.2, 10.1 y
10.5; a continuación, el sexto y séptimo números: 10,8 y 11,4. Como alternativa,
contando las hojas de la parte superior o el número más alto, tenemos los primeros
cinco números: 28,6, 14,2, 12,9, 11,8, y 11,7; a continuación, el sexto y séptimo:
11.4 y 10.8, el mismo que antes. A medio camino entre el 10,8 y el 11,4 es 11,1.
Así que la mediana del peso de copos de Pit 1 es 11,10 g (Md= 11.10 g).
Para Pit 2, hay 13 escamas, así que la mediana será el número del medio, o el
séptimo desde ya sea el más alto o más bajo. Contando las hojas de la parte superior
nos los seis primeros números da: 14,3, 14,1, 13,6, 13,5, 12,0, y 11,5; El séptimo:
11.3. Contando las hojas de la parte inferior nos da los primeros seis números: 7.8,
9.3, 9.7, 9.8,
20 CAPITULO 2

10.6, 10.9; El séptimo: 11.3, exactamente igual que antes. Así, la mediana del peso
de copos de Pit 2 es 11,30 g (Md= 11.30 g).
Medianas para ambos lotes se indican en el diagrama de tallo y hojas en la Tabla
2.1, Y ambos indican puntos que son visualmente más satisfactorio indicaciones de
los centros de los dos lotes. La comparación de los niveles de los dos bloques de
acuerdo a sus medianas también parece más razonable que nuestro intento de utilizar
sus medios para este fin. El peso medio de las escamas en el hoyo 2 es ligeramente
superior a la de Pit 1, que es de hecho la conclusión llegamos a basado en la
observación del patrón general de la trama de tallo y hoja.

Los valores atípicos Y RESISTENCIA

Puede parecer sorprendente que la media y la mediana se comportan de manera tan


diferente en este ejemplo. Después de todo, ambos son bastante índices
ampliamente utilizadas del nivel de un lote. Y, sin embargo, la comparación de los
dos lotes en este ejemplo y por medio de las medianas dieron conclusiones opuestas
acerca de qué lote tenía un centro superior. Claramente, es la media de los copos de
Pit 1 que parece extraño. Su peculiarmente posición alta es atribuible enteramente
en el sentido de que el uno alto valor atípico (la escama que pesa 28,6 g) tiene en
los cálculos. Mientras tira de la media hasta sustancialmente, este valor atípico, por
el contrario, no tiene cualquier efecto sobre la mediana. Si en lugar de un peso de
28,6 g, este escamas había pesado 12,5 g, el peso medio de copos de Pit 1 no habría
cambiado en absoluto. La escama más pesado es simplemente el primer número que
contamos pasado para llegar a la mitad del lote, que permanece en el mismo lugar,
independientemente de qué tan alto es el valor más alto. De hecho, la mediana no
depende en absoluto de los valores reales de los números, ya sea en la mitad superior
o la mitad inferior del lote. Mientras no hay ningún cambio que se mueve de un
número desde la parte superior a la parte inferior o viceversa, la mediana de los
restos exactamente lo mismo.
Este es un ejemplo de un principio general. La media de un lote es fuertemente
afectada por cualquier valor atípico que pueden estar presentes. La mediana es
totalmente afectado por ellas. En la jerga estadística, la mediana es muy resistente.
La media no es en absoluto resistentes.

eliminar los valores extremos

La media tiene propiedades especiales que lo convierten en un índice


particularmente útil del centro de un lote, pero los valores extremos puede presentar
un serio problema al hacer la media un índice muy inexacta. Sería bueno para
eliminar los valores atípicos si podía, y, como resulta, a menudo nos sea posible. En
primer lugar, siempre debemos examinar cuidadosamente fuera liers. A veces se
indican errores en la recopilación de datos o la grabación. Esta posibilidad ya se
abordó en el capítulo 1, donde se sugirió que la
NIVEL O CENTRO de un lote 21

agujero poste extraordinariamente grande en el ejemplo en la Fig. 1.1podría haber


sido el resultado de un error de medición o en el registro de datos. error un tipo
podría ser corregido por referencia a fotografías y dibujos de la excavación, lo que
elimina el valor atípico.
Incluso si resulta que es un valor atípico, de hecho, un valor correcto, todavía puede
ser deseable para eliminarla. Como un ejemplo clásico de una situación de este tipo,
considere la empresa de confección de pedidos por correo de LL guisante, Inc.,
especializada (por supuesto) en el famoso chaquetón.
L.L. Pea emplea despachantes diez, nueve de los cuales se pagan cada uno $ 8.00
por hora, mientras que el décimo gana $ 52.00 por hora. El salario medio en la sala
de envío LL guisante, entonces, es de $ 8.00 por hora, mientras que el salario
promedio es de $ 12.40 por hora. Una vez más, la media se ha elevado
sustancialmente por un valor atípico, mientras que la mediana ha sido
completamente no afectado. Una cuidadosa revisión de los registros de nómina
revela que es, de hecho, es cierto que nueve empleados de envío se pagan $ 8.00 por
hora, mientras que uno gana $ 52.00 por hora. También revela, sin embargo, que el
empleado muy bien pagado es Edelbert guisante, sobrino del LL, el fundador de la
empresa, que pasa la mayor parte de sus horas de “trabajo” en la cafetería de la
empresa de todos modos. Si nuestro interés se centra en los salarios de los
empleados de envío, claramente no hay razón para incluir joven Edelbert entre
nuestros datos.
A menudo es sensata para eliminar valores atípicos en un solo tal manera. Si una
buena razón se puede encontrar, aparte de sólo el número aberrante en los datos
(como en el caso de Edelbert guisante), podemos sentir muy cómodo sobre la
eliminación de valores atípicos. En el ejemplo de proceso por lotes en la tabla2.1Pit
1, tal vez tendríamos en cuenta que las escamas inusualmente pesada fue de una
forma muy diferente de todos los demás, o de una materia prima muy diferente. En
este último caso, podríamos reducir nuestro lote a lascas de obsidiana, por ejemplo,
en lugar de todas las escamas, con el fin de eliminar una sola escama de sílex muy
pesado. Incluso si tales razones externas no se pueden encontrar a lo justifique, un
valor extremo distante puede ser eliminado simplemente sobre la base de su
medición. Hay, sin embargo, otros tratamientos que se ocupan de los valores
extremos sin que parezca que de alguna manera estamos manipulando nuestros
datos, dejando fuera los casos que no nos gusta.

La media truncada

La sistemáticamente media recortada elimina valores extremos de ambos extremos


superior e inferior de un lote de una manera equilibrada. Al considerar el nivel de
un lote, es el grupo central de números que más importa. No es infrecuente que los
números altos y más bajos a straggle lejos de este grupo en un hombre-ner errática,
y es importante que no debe confundirse por ejemplo mal comportamiento por parte
de unos pocos números. La media recortada evita eficazmente tal confusión por la
simple eliminación de alguna proporción de los números altos y más bajos en el lote
de la consideración.
Por ejemplo, podríamos calcular un 5% recortado media de los pesos de copos de Pit
1 en la Tabla 2.1. Para un 5% media recortada, eliminamos el más alto 5% del lote
22 CAPITULO 2

y el 5% más bajo del lote. Hay 12 números en este lote, de modo que eliminamos 5% de
12 números de cada extremo. Desde 0.05 × 12 = 0.60, y 0,60 rondas de hasta 1, quitamos
un número de la parte superior y un número de la parte inferior. (Para decidir cuántos
números de quitar para la media recortada que siempre ronda.) En este caso, a
continuación, se elimina el número más alto (28,6) y el número más bajo (7.6) del lote.
Después de la eliminación de los números altos y más bajos, tenemos un lote de números
recortado diez (nT =10). La media truncada es simplemente la media ordinaria de los
números diez restantes, una vez que el más alto y el más bajo se han eliminado. Para Pit
1 el 5% media recortada, XT , Es la suma de los números restantes dividido por n T(Es
decir, 10), o 11,17 g. Para Pit 2, un 5% media recortada también requiere la eliminación
de un único número de cada extremo del lote (0.05 × 13 = 0.65, que se redondea hasta
1). El total de los números restantes se divide por nT (Es decir, 11), para X T = 11.48 g.
Podemos ver que la media recortada, a diferencia de la media normal, es
resistente a los efectos de los valores extremos. En este ejemplo, los medios
recortadas 5% son bastante similares a las medianas. Ellos nos llevaría a concluir
que las escamas en el hoyo 2, en general, pesan poco más de escamas en el hoyo 1,
al igual que la observación del diagrama de tallo y hojas nos hace conocer que
debemos concluir.
En el 5% recortado media calculada anteriormente, 5% es la fracción de recorte.
La fracción de recorte se puede ajustar para adaptarse a las necesidades de una
situación particular. Custom-principalm ente, la fracción de recorte es algún
múltiplo del 5% (5%, 10%, 15%, etc.). Las fracciones de recorte más
frecuentemente utilizados son probablemente 5% y 25%. El 25% media recortada a
veces se llama la midmean porque es la media de la mitad central de los números
(un cuarto de los números de haber sido eliminado de la parte superior de la tanda
y un cuarto de la parte inferior).
Como un ejemplo final, un 25% recortado media de los pesos de copos de Pit 1
en la Tabla 2.1 requiere la eliminación de los tres más altos y los tres números más
bajos (0.25 × 12 =3). La media de los seis números restantes es 11,05 g. Para los
pesos de copos de Pit 2, un 25% media recortada requiere la eliminación de cuatro
números de la parte superior e inferior (0.25 ×13 = 3.25, que se redondea hasta 4).
La media de los cinco números restantes es 11,26 g. Al igual que con el 5% media
recortada, los efectos indeseables de los valores atípicos se han evitado por
completo; y la comparación de medias muestra que Pit 2 escamas son, en general,
ligeramente más pesado que Pit 1 copos.

Statpacks

Cualquier paquete estadístico determinará la media y la mediana para un lote


de núm-bras. No muchos, sin embargo, proporcionar a la media recortada
como una opción definida. Lo que es probable que tenga que hacer para
conseguir su statpack para calcular una media recortada se hacen el mismo
recorte. Usted puede simplemente omitir los números a ser recortadas al
introducir los datos inicialmente o se puede eliminar aquellos casos (o código
como los datos que faltan por cualquier prestación de su statpack hace que para
han-dling datos que faltan). Luego, su statpack puede calcular fácilmente la
media de los números restantes.
NIVEL O CENTRO de un lote 23

Vale la pena señalar que la mediana se podría considerar como el último en


medias truncadas, el 50% de media recortada. La eliminación de la mitad superior
del lote y la mitad inferior de la nada hojas de lote, pero el punto medio o mediana.

QUE INDICE DE USO

La mediana, la media y la media recortada son todos los índices numéricos del
centro de un lote. por lo tanto surge la pregunta, ¿cuál debemos utilizar? Esta
pregunta no tiene una respuesta sencilla. A veces es mejor utilizar la media, la
mediana a veces, a veces la media recortada. Depende de las características del lote
en ques-ción y de lo que va a hacer con el índice numérico de la central una vez que
lo tienes. La media es la más familiar, y que es una pena teniendo en cuenta las
ventajas, ya que casi todo el mundo se siente cómodo si usted les dice lo que la
media de un lote de números es. Si el lote no tiene valores extremos que hacen que
el valor de una media engañosa, entonces bien puede ser la mejor opción. La
mediana es ligeramente menos familiar, pero es muy resistente, por lo que se utiliza
con bastante frecuencia para lotes con valores atípicos.
Como veremos en los capítulos siguientes, la media tiene algunas propiedades
especiales que lo hacen muy útil en las estadísticas. Por tanto, es a menudo la
tentación de utilizar la media, incluso cuando el lote tiene valores atípicos que lo
afectan. La media truncada se puede poner a trabajar en al menos algunas de las
mismas formas en que el puede significar, sin embargo, sin la interferencia de los
valores atípicos. Eso es lo que hace que el valor de media recortada discutir, a pesar
de que es más complicado de calcular que sea la media o la mediana y el menos
conocido entre los arqueólogos. La mediana, por desgracia, no se puede usar en
estas formas especiales. A pesar de que es bastante sencillo y útil para la tarea inicial
de la comparación de los lotes y, a continuación, la mediana no será tan importante
para nosotros más adelante en este libro como la media y la media recortada.

Lotes con dos centros

A veces el examen de un diagrama de tallo y hojas deja claro que un lote contiene
dos o más racimos bastante distintas, como se discutió en el Capítulo 1. Vamos a
llamar a este tipo de lotes de dos vertientes o multi-visera. (La metáfora del pico se
deriva a partir del histograma, donde un grupo de números se asemeja a una colina
o un pico, pero es bastante fácil pensar en un diagrama de tallo y hojas en estos
términos también.)
Mesa 2.2proporciona las áreas (en metros cuadrados) de estructuras excavadas en los
sitios Negro-Smith. El gráfico muestra tallo y hojas que estas estructuras forman dos
grupos sep-Arate sobre la base de sus áreas. Hay grandes estructuras, sobre todo desde
alrededor
2 2
15 a 21 m Y estructuras pequeñas, de aproximadamente 3 a 7 m . Tendría poco sentido
hablar del centro de este lote, ya que claramente tiene dos centros. Si no tiene mucho
CAPITULO
24 2

Tabla 2.2. Superficies de Estructuras en la


Sitios negro-Smith
2
Área (m ) De tallo y hoja parcela
18.3 26 8
18.8 25
dieciséis.7 24
6.1 23 4
5.2 22
21.2 21 2
19.8 20 07
4.2 19 128
18.3 18 33789
3.6 17 59
20.0 dieciséis 27
7.5 15 03
15.3 14
26.8 13 6
5.4 12
18.7 11
6.2 10
7.0 9
20.7 8
18.9 7 05
19.2 6 1277
6.7 5 244689
19.1 4 259
23.4 3 6
4.5
dieciséis.2
5.6
17.5
5.9
6.7
4.9
17.9
15.0
13.6
5.4
5.8

sentido hablar de su centro, entonces tiene aún menos sentido para calcular un índice
de numeri-cal de su centro. Si lo intentamos, los resultados serían sin sentido. La
media, por ejemplo, del lote en la Tabla2.2 sería 12.95 m2. Este valor cae entre los
dos grupos distintos, no hay estructuras que caracterizan a todos. A los 15 años.15
m2, la mediana también fracasarían para caracterizar el centro de nada significativo.
Queremos por lo tanto ni siquiera calcular estos dos valores.
NIVEL O CENTRO de un lote 25

Lo primero que hay que hacer si ves un lote de dos alcanzó su máximo en un diagrama
de tallo y hojas se separan en dos lotes diferentes - antes de calcular los índices de centro.
Esto no es una regla misteriosa que debe ser memorizado. Simplemente es la única
práctica que tenga sentido para cualquier persona que mantiene firmemente en su mente
lo que los índices de centro están haciendo y cómo se comportan. En un caso como éste,
hay que pensar que hay básicamente dos tipos diferentes de estructuras representadas,
quizás casas y graneros. Otra información relativa a estas estructuras podría ser
examinado por las pruebas pertinentes a tal noción. En cualquier caso, antes de seguir el
análisis cuantitativo el lote debe ser roto en dos lotes, y las estructuras de gran tamaño
de forma separada a las pequeñas estructuras. Nos gustaría hacer el descanso en unos 10
2
o 11 metros en el medio de la gran diferencia visible en el diagrama de tallo y hojas.
2
Las 16 estructuras pequeñas que son menos de 10 m tienen un área promedio de 5.67
2 2
m (Y un área mediana casi idéntica de 5.70 m ). Las 20 estructuras grandes tienen un
2 2
área media de 18.77 m (Y, una vez más, un área mediana casi idéntica de 18.75 m ).
Por tanto pequeñas áreas de la estructura y las zonas de estructura grande, entonces, o
bien la media o la mediana proporcionarían índices significativos y útiles de la central.
(Localízalos lo largo del tallo en el diagrama de tallo y hojas, y se verá que son de hecho
en el centro del pelotón principal de números para cada sub-lotes.) Romper un lote de
dos alcanzó su punto máximo en dos lotes ha hecho es posible calcular los índices
numéricos de los centros de los dos lotes que tengan sentido.
Los lotes como el de la tabla 2.2se refieren a menudo en términos generales como
bimodal, después de que el modo de término que se refiere a la única categoría más
común en un diagrama de tallo y hojas o histograma. A veces, el modo se utiliza
como un índice del centro de un lote. En mesa2.2, El modo estaría a unos 5 m2,
donde caen seis estructuras. Es claro que esto es algo así como el centro del lote de
estructuras pequeñas, pero no lo hará como un índice del centro de todo el lote. Hay
un modo secundario en unos 18 m2, en los que caen cinco estructuras. Esto es algo
así como el centro de la hornada de grandes estructuras. Sólo si exactamente el
mismo número de estructuras cayó a 5 m2 y 18 m2 en lotes sería esto realmente
tiene dos modos. En sentido estricto, tiene un modo y un modo secundario en lugar
de dos modos. Sin embargo, tales lotes multipeaked se refieren a menudo como
bimodal.

PRÁCTICA

1. volver vistazo a los datos sobre las longitudes de rascador dados en las Tablas 1.9 y
1.10. Calcular los índices adecuados de centro para poner un punto más fino en la
comparación ya se ha hecho con un diagrama de tallo y hojas entre Pine Ridge y las
longitudes de los Planos del sauce rascador. Pruebe la media, la mediana, y una media
truncada (con lo que el recorte de la historia fracción cree que es más apropiado).
¿Qué índice de centro tiene más sentido para la comparación de longitudes rascadores
entre los dos sitios? ¿Por qué? (Tenga en cuenta que las comparaciones de los niveles
deben estar basadas en el mismo índice. No se debe comparar la media de un lote a
la mediana para otro.) Suma-Rize la comparación de longitudes de raspador que ha
hecho entre los dos sitios. Es decir, lo que tiene todo esto le ha hablado de longitudes
de rascador en los dos sitios?
26 CAPITULO 2

2. Utilizando los datos de las Tablas 1.9 y 1.10una vez más, hacer lo mismo con
raspadores de sílex y raspadores de sílex, sin tener en cuenta qué sitio los raspadores
de procedencia. Pruebe la media, la mediana y la media recortada de nuevo. ¿Qué
índice tiene más sentido para la comparación de las longitudes de los rascadores
hechos de diferentes materias primas? ¿Por qué? ¿Cómo resumiría todos juntos las
comparaciones que haya realizado entre el sílex y raspadores de sílex y de entre el
sitio Planos del sauce y Pine Ridge Cave?
Capítulo 3
La propagación o dispersión de un lote

El rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 El Midspread
o rango intercuartil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 La desviación estándar y la varianza . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 La desviación estándar recortado . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 ¿Qué Índice de Uso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Práctica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . 36

Algunos lotes de números están muy estrechamente agrupados juntos, mientras que
otros son mucho más extendidas. Esta propiedad se hace referencia en el análisis
exploratorio de datos según lo separado (o en términos estadísticos más
tradicionales como la dispersión), y es a menudo una característica informativa de
un lote al que se debe prestar atención. Al igual que es conveniente tener un índice
numérico para el nivel o el centro de un lote, también es conveniente tener un índice
numérico para la difusión o dispersión, de un lote. Una vez más, hay varios
diferentes índices numéricos que se comportan de manera diferente y por lo tanto
se utilizan en diferentes circunstancias.

EL RANGO

El índice simple de la propagación de un lote es su gama. La gama de estadísticas


es exactamente lo que es en la conversación diaria: la diferencia entre el número
más bajo y el número más alto en el lote. Mesa3.1presenta los mismos números de
examen-ples que discutimos en el capítulo anterior. El rango para los pesos de copos
recuperados de Pit 1 es la diferencia entre 28,6 y 7,6 g, o 21,0 g (28.6 g - 7.6 g =
21.0 g). El rango para los pesos de copos recuperados de Pit 2 es la diferencia entre
14,3 y 7,8 g, o 6,5 g (14.3 g - 7.8 g = 6.5 g).
Nos damos cuenta de inmediato que la gama sufre del mismo problema que sufre las
medias de: no es en absoluto resistentes. De hecho, incluso es menos resistente que la
media. No sólo es fuertemente afectada por los valores extremos, que bien puede
depender totalmente de los valores atípicos. El examen del diagrama de tallo y hoja
revela cómo engañosa el rango es en este caso. Los dos lotes aquí tienen diferenciales
bastante similares, pero probablemente diría que los pesos de copos de Pit 2 están más
extendidas que las

RD Drennan, Estadísticas para arqueólogos, Aportes Interdisciplinarios 27


a la arqueología, DOI 10.1007 / 978-1-4419-0413-3 3,
c Springer Science+Business Media, LLC 2004 de 2009
CAPÍTULO
28 3
Tabla 3.1. Copos de pesos recuperados de los pozos en forma de campana de
dos
los pesos de la escama
(g) Back-to-back de tallo y hoja de trama

Pit 1 Pit 2 Pit 1 Pit 2

9.2 11.3 6 28
12.9 9.8 27
11.4 14.1 26
9.1 13.5 25
28.6 9.7 24
10.5 12.0 23
11.7 7.8 22
10.1 10.6 21
7.6 11.5 20
11.8 14.3 19
14.2 13.6 18
10.8 9.3 17
dieci
10.9 séis
15
¯
X 12.33 11,42 2 14 13
Maryland 11.10 11.30 13 56
9 12 0
Distancia 21.0 6.5 74 11 35
Midspread 3.7 3.7 851 10 69
21 9 378
8
6 7 8

de Pit 1 porque el montón central (que siempre es la parte más importante de la


carga) es más dispersa a lo largo del tallo. Sin embargo, el rango para Pit 1 es mucho
mayor, por completo debido a la muy alta valor atípico en el lote Pit 1. Aunque el
rango es fácil de calcular y de fácil comprensión para todos, es probable que sea
muy engañoso a menos que todos los valores atípicos se pueden quitar. No es muy
usado como un índice de propagación.

LA MIDSPREAD OR rango intercuartil

El midspread es el rango de la media medio de un lote. El 25% más alto de los


números y el 25% más bajo de los números están por lo tanto en cuenta. Podría
pensarse como una especie de intervalo de recorte, de nuevo a la media recortada
discutido en el capítulo pensar2.
En la práctica el midspread se encuentra mediante la localización de los cuartiles
y restando el cuartil inferior del cuartil superior. El cuartil superior es algo así como
la mediana de la mitad superior del lote y el cuartil inferior es algo así como
EL SPREAD o dispersión de un lote 29

la mediana de la mitad inferior de la carga, aunque las reglas utilizadas para


encontrar los cuartiles difieren ligeramente de los utilizados para encontrar la
mediana. (En el análisis exploratorio de datos los cuartiles son a menudo llamados
las bisagras.) Para encontrar los cuartiles, antes divida la cantidad de números en el
lote 4. Si el resultado es una fracción, alrededor de ella hasta el siguiente número
entero. Luego, cuente en que muchos números a partir del número más alto en el
lote para llegar al cuartil superior y desde el número más bajo en el lote para llegar
al cuartil inferior.
Por ejemplo, hay 12 copos de Pit 1 para el que los pesos se dan en la Tabla 3.1.
Dividimos 12 por 4 y obtenemos 3. El cuartil superior es la tercera num-ber desde
la parte superior del tallo y hojas, o 12,9 g. El cuartil inferior es el tercer número de
la parte inferior del tallo y hojas, o 9,2 g. El midspread es entonces 12.9 g - 9.2 g =
3.7 g. Para Pit 2, tenemos un lote de 13 pesos;(13/4) = 3.25, que redondeamos hasta
4. El cuartil superior es el cuarto número de la parte superior del tallo y hojas, o 13,5
g. El cuartil inferior es el cuarto número de la parte inferior del tallo y hojas, o 9,8
g. El midspread es por lo tanto 13.5 g - 9.8 g = 3.7 g.
El midspread nos da mejores resultados para este ejemplo que el intervalo, lo que
indica que ambos lotes se separan hacia fuera en el mismo grado (a midspread de
3,7 g para ambos lotes). Esto es al menos cerca de la marca de utilizar un índice
numérico que muestra el lote 1 Pit a ser mucho más dispersa que el Pit 2 lotes.
El procedimiento para encontrar la midspread también revela por qué se llama a veces
el rango intercuartil (al menos por aquellos que nunca use dos sílabas cuando cinco lo
harán). El midspread es simplemente el rango entre los cuartiles, y rango intercuartil es
el término tradicional para ello. El midspread se utiliza más en el análisis exploratorio
de datos que en las estadísticas tradicionales, y funciona especialmente bien con la
mediana para darnos una indicación rápida del nivel y la propagación de un lote.

LA DESVIACIÓN varianza y STANDARD

La varianza y la desviación estándar se basan en la media. Son considerar-hábilmente


más engorroso de calcular que el rango o la midspread, y carecen de algunos de los
significados de inmediato intuitiva que la gama y tiene midspread. Tienen propiedades
técnicas, sin embargo, que los hace extraordinariamente útil, y por lo que será de gran
importancia para muchos de los siguientes capítulos.
El concepto básico sobre el que se basa la varianza es el de la diferencia con respecto
a la media. Es evidente que la gran mayoría de los números en un lote es probable que
sea bastante diferente de la media del lote. Podemos ver fácilmente cómo los diferentes
cualquier número en un lote es de la media restando la media de la misma. Las dos
primeras columnas de la Tabla3.2 ilustrar este procedimiento para todos los números en
el lote de pesos de copos de Pit 2 de la Tabla 3.1. Como es lógico, los números más altos
en el lote tener desviaciones positivas de la media (porque están por encima de la media),
y los números inferiores tienen desviaciones negativas de la media (ya que están por
debajo de la media). Los números en los extremos de la tanda, por supuesto, se desvían
muy fuertemente de la media en
30 CAPÍTULO 3

Tabla 3.2. El cálculo de los pesos estándar Deviationof la escama de Pit 2 (tabla3.1)

Las desviaciones desviaciones al cuadrado respecto a


respecto a la media la media
2
X (sol) X-X X-X
14.3 2.88 8.29
14.1 2.68 7.18
13.6 2.18 4.75
13.5 2.08 4.33
12.0 0.58 0.34
11.5 0.08 0.01
11.3 -0.12 0.01
10.9 -0.52 0.27
10.6 -0.82 0.67
9.8 -1.62 2.62
9.7 -1.72 2.96
9.3 -2.12 4.49
7.8 -3.62 13.10
2
X = 11.42  (X - X ) = -0.06  X - X = 49.02
(suma de cuadrados)
2
s2 =  (X - X ) = 49.02 = 4.09
norte - 1 12
√ 2 √
s= s = 4.09 = 2.02

ya sea positivo o sentido negativo. El más extendido es un lote, los más fuertes
desviaciones de la media existen.
Si queremos resumir estas desviaciones numéricamente, podría ocurrir a
nosotros para tomar la media de las desviaciones. Esto no va a hacer, sin embargo,
porque podemos ver que las desviaciones siempre debe ser igual a 0; por lo tanto,
su media siempre será 0. De hecho, una forma diferente de pensar en la media es
considerarla un “punto de equilibrio”, que hace que estas desviaciones se suman a
0. (Se puede observar que la segunda columna de la tabla3.2 de hecho se suma a -
0.06 en vez de 0. Esto es una consecuencia de error de redondeo, que se produce
comúnmente. Todas las desviaciones se han redondeado a dos dígitos después del
punto decimal, y en este caso por pura casualidad un poco más de redondeo a la baja
se ha producido de redondeo.)
Lo que nos interesa, como un índice de propagación, es el conjunto de
desviaciones de la media sin sus signos. Podríamos simplemente soltar los signos y
sumar los valores absolutos de las desviaciones, pero resulta ser preferible para
deshacerse de los signos elevando al cuadrado las desviaciones de la media. (Los
cuadrados de las desviaciones de la media son, por supuesto, todos positivos, como
cuadrados deben ser todos.) Este cálculo se muestra en la tercera columna de la
Tabla3.2. Es esta tercera columna que resumimos. Esta suma se refiere a veces como
la suma de las desviaciones al cuadrado de la media o simplemente la suma de los
cuadrados.
Esta suma de los cuadrados tendrá, en igualdad de circunstancias, ser más grande
para un lote grande de números que para un lote más pequeño debido a un lote
grande tiene más desviaciones a sumar. Para llegar a un índice que no se ve afectada
por el tamaño del lote, pero sólo
EL SPREAD o dispersión de un lote 31

por su extensión, lo que necesitamos es algo así como la desviación media cuadrada
de la media. En lugar de dividir la suma de los cuadrados por la cantidad de números
en el lote, sin embargo, lo dividimos por uno menos que el número de números en
el lote. Hacemos esto por razones puramente técnicas para hacer el resultado más
útil en futuros capítulos donde se toma lotes de números para ser muestras de
poblaciones más grandes. La ecuación de la varianza, entonces, es

2
s2 =  (X - X)
norte - 1
donde S2 es la varianza de x, X es la media de x, y n es el número de números en el
lote de x.
Mesa 3.2proporciona un ejemplo de los cálculos que se corresponden con este
EQUA-ción. La varianza tiene un carácter más bien arbitraria en comparación con
el rango o la midspread. El valor de la varianza no es tan fácil relacionar de manera
intuitiva a los valores en el lote como fue el caso con la gama o midspread. Al menos
podemos eliminar el efecto confuso de cuadrar las desviaciones tomando la raíz
cuadrada de la varianza. El resultado es s, la desviación estándar:

√ 2
s = s2 =  (X - X)
norte - 1
La desviación estándar, a diferencia de la varianza, es al menos expresada en las
mismas unidades que la lote original. Así, es apropiado pensar en la desviación
estándar de los pesos de copos de Pit 2 no sólo como 2,02, pero 2,02 g. Si
relacionamos la desviación estándar para el diagrama de tallo y hojas en la tabla3.1,
Vemos que el estándar Devia-ción delinea la parte del tallo dentro de la cual la
mayoría de los pesos de copos caen. Es decir, la mayoría de los pesos están dentro
de 2,02 g por encima o por debajo de la media de 11,42 g, es decir, la mayoría de
los pesos son entre 9,40 (11.42 g - 2.02 g = 9.40 g) y 13,44 g (11.42 g + 2.02 g =
13.44 g). Estos dos números (9,40 y 13,44 g) pro-vide una aproximación de los
límites de la manojo principal de números. Eso es lo que significa decir que la
mayoría de los pesos escamas son dentro de una desviación estándar de la media.
Sólo unos pocos caída más de una desviación estándar de la media, es decir, más
allá de 2,02 g de la media. Podemos (y lo harán) especificar mucho más acerca de
esta forma de usar la desviación estándar en los capítulos posteriores. Por el
momento, baste decir que la desviación estándar proporciona a menudo
simplemente este tipo de indicación acerca de la propagación de un lote.
La desviación estándar no se comporta de manera satisfactoria para los pesos de
copos de Pit 1. Tabla 3.3muestra el cálculo de la desviación estándar para este lote.
Cuando primero compararon estos dos lotes de números (los pesos de escamas de
los pozos 1 y 2) sobre la base de los diagramas de tallo y hojas de la Tabla2.1,
Observamos que los pesos de copos de Pit 1 fueron (a excepción de la alta outlier)
más estrechamente agrupado hasta que los de Pit 2. La varianza y la desviación
estándar para los pesos de copos de Pit 1, sin embargo, son mucho más grandes que
los de Pit 2, lo que indica una mucho más grande
32 CAPÍTULO 3

Tabla 3.3. El cálculo de la desviación estándar de los pesos de la escama de Pit 1 (tabla3.1)

Las desviaciones desviaciones al cuadrado respecto a


respecto a la media la media
2
X (sol) X-X X-X
28.6 dieciséis.27 264,71
14.2 1.87 3.50
12.9 0.57 0.32
11.8 -0.53 0.28
11.7 -0.63 0.40
11.4 -0.93 0.86
10.8 -1.53 2.34
10.5 -1.83 3.35
10.1 -2.23 4.97
9.2 -3.13 9.80
9.1 -3.23 10,43
7.6 -4.73 22.37
2
X = 12.33  (X - X ) = -0.06  X - X = 323.33
(suma de cuadrados)
2
s2 =  (X - X ) = 323.33 = 29.39
norte - 1 11
√ 2 √
s= s= 29.39 = 5.42

difusión de los copos de Pit 1 - exactamente enfrente de la conclusión del diagrama


de tallo y hojas indica claramente.
Mesa 3.3muestra muy claramente por qué la varianza y la desviación estándar
son tan grandes para Pit 1: el valor de la escama más pesado se desvía muy
fuertemente de la media. Que una sola escama es responsable de una alta suma de
los cuadrados tales y por lo tanto para una alta varianza y la desviación estándar
tales. Es evidente que, al igual que la media, la varianza y la desviación estándar no
son en absoluto resistentes a los efectos de los valores extremos. El uso de la
varianza o la desviación estándar como un índice numérico de la propagación de un
lote, entonces, no es una idea buena en absoluto si el lote tiene valores atípicos.
Mesa 3.3 también proporciona una ilustración conveniente de por qué la media
carece de resistencia a lo largo de las líneas de las observaciones hechas en el
Capítulo 2. Think of the mean as the balance point of a see-saw. The high outlier is
like a person far out at one end of the see-saw. In order to make the see-saw balance,
the mean must be moved substantially toward that end so that most of the numbers
are on the other side. In that position it is far off to one side of the center of the main
bunch of numbers. It was precisely this undesirable effect that we complained about
in Chapter 2.

THE TRIMMED STANDARD DEVIATION


The basic idea of the trimmed standard deviation is exactly like that of the trimmed
mean: outliers are excluded from the sample so that they will not have an undue
THE SPREAD OR DISPERSION OF A BATCH 33

Table 3.4. Calculating the 5% Trimmed Standard Deviation


of Flake Weights from Pit 1 (Table 3.1)

Original batch Winsorized batch Deviations from mean Squared deviations from mean
2

x (g) xW (g) xW − XW xW − XW
28.6 14.2 2.95 8.70
14.2 14.2 2.95 8.70
12.9 12.9 1.65 2.72
11.8 11.8 0.55 0.30
11.7 11.7 0.45 0.20
11.4 11.4 0.15 0.02
10.8 10.8 −0.45 0.20
10.5 10.5 −0.75 0.56
10.1 10.1 −1.15 1.32
9.2 9.2 −2.05 4.20
9.1 9.1 −2.15 4.62
7.6 9.1 −2.15 4.62
2
XW = 11.25  (xW − XW ) = 0.00  xW − XW = 36.16
(sum of squares)
2 2 36.16
s =  (xW − XW ) = = 3.29
W
n−1 11
2
sT = (n − 1)sW = (12 −1)3.29 = 2.01
nT − 1 (10 −1)

effect on the result. Calculation of the trimmed standard deviation, however, becomes
more involved. Instead of simply reducing the size of the batch by trim-ming off
numbers at the top and bottom, we must maintain the size of the batch by replacing
trimmed numbers with the numbers next in line for trimming. Table 3.4 shows this
process for calculating a 5% trimmed standard deviation of the batch of flake weights
from Pit 1. When, in Chapter 2, we calculated the 5% trimmed mean of this same batch,
we trimmed the single highest and lowest number from the batch. This time, we replace
the highest number with the next highest number (the high-est number that remained in
the batch after trimming). Thus 28.6 g becomes 14.2 g. Similarly, we replace the lowest
number with the next lowest number (the lowest number that remained in the batch after
trimming). Thus 7.6 g becomes 9.1 g.
The new batch that results is a Winsorized batch. The Winsorized variance is
calculated simply as the ordinary variance of this Winsorized batch. Note, though,
that the mean involved in calculating the Winsorized variance is the mean of the
Winsorized batch (which is not the same as the trimmed mean) and that the trimmed
standard deviation is not simply the square root of the variance of the Winsorized
batch. The trimmed standard deviation is derived from the Winsorized variance by
the following equation:
2
(n − 1)s
W
sT=
nT− 1
34 CHAPTER 3

Statpacks

Midspreads and standard deviations are pretty common fare in statpacks, and
statpacks are truly helpful here because calculating a standard deviation with
a calculator is time consuming (unless your calculator has a special key for
doing it automatically). Trimmed standard deviations, however, are much less
often provided for in statpacks. Just as in calculating a trimmed mean with
your statpack, you are likely to have to adjust the batch yourself first. In this
case instead of replacing extreme values with missing data, you replace
extreme values with the adjacent nonextreme value in the data. Once this
modification has been made, the batch has been Winsorized, and the variance
your statpack calculates on these numbers is the Winsorized variance, which
you can con-vert into the trimmed standard deviation with your calculator, as
illustrated in Table 3.4. Be sure not to forget this last step!

where sT is the trimmed standard deviation, n is the number of numbers in the


untrimmed batch, sW2 is the variance of the Winsorized batch, and nT is the number
of numbers in the trimmed batch.
Table 3.4 shows the full calculation of the trimmed standard deviation for the
flake weights from Pit 1. Comparison of the calculation columns for Tables 3.3 and
3.4 shows quite clearly how the trimmed standard deviation avoids the over-
whelming effect of outliers.
Just as the trimmed mean can be calculated for various trimming fractions, so
can the trimmed standard deviation. In Chapter 2 we calculated a 25% trimmed
mean of the flake weights from Pit 1 by trimming the three highest and the three
lowest numbers from the batch. Calculation of the 25% trimmed standard deviation
would begin with the creation of a Winsorized batch of 12 numbers in which the
three highest numbers were replaced with the fourth highest and the three lowest
numbers were replaced with the fourth lowest. From there on the calculation of the
variance of the Winsorized batch and the trimmed standard deviation follow exactly
the same path we have just taken for the 5% trimmed standard deviation. When a
trimmed mean and standard deviation are used, the trimming fraction should always
be specified.

WHICH INDEX TO USE

The range, the midspread, the standard deviation, and the trimmed standard devi-ation
are all numerical indexes of the spread of a batch. Just as we asked when to use which
index of the center of the batch, we must ask when to use which index of spread. The
answer parallels that given in Chapter 2. The range is very widely understood but so
badly affected by outliers that it is not often of much use. The mid-spread has been
emphasized in exploratory data analysis. It is not as familiar as it
THE SPREAD OR DISPERSION OF A BATCH 35

should be to archaeologists, but it is easy to find and of wide utility for basic descrip-
tive purposes. Its resistance to the effects of outliers makes it particularly attractive.
The standard deviation is quite widely familiar (at least the term is, whether or not
many archaeologists are really at home with the concept or not). Its statistical prop-
erties, like those of the mean, will serve us well in the rest of this book. It is of such
importance that we will spend some effort on techniques to overcome its poor resis-
tance to the effects of outliers. Some of these techniques are based on the trimmed
standard deviation. Indexes of center and spread work together in pairs: the median
with the midspread, the mean with the standard deviation, or the trimmed mean with
the trimmed standard deviation (both with the same trimming fraction). Using the
median together with the standard deviation, for example, is like wearing one white
sock and one brown sock – only worse.

Table 3.5. Areas of Bronze Age Sites


Near Nanxiong

Site area (ha)

Early Bronze Age Late Bronze Age

1.8 10.4
1.0 5.9
1.9 12.8
0.6 4.6
2.3 7.8
1.2 4.1
0.8 2.6
4.2 8.4
1.5 5.2
2.6 4.5
2.1 4.1
1.7 4.0
2.3 11.2
2.4 6.7
0.6 5.8
2.9 3.9
2.0 9.2
2.2 5.6
1.9 5.4
1.1 4.8
2.6 4.2
2.2 3.0
1.7 6.1
1.1 5.1
6.3
12.3
3.9
36 CHAPTER 3

PRACTICE

Imagine you have conducted a regional survey of a small valley north of Nanxiong and have carefully measured
the areas of the surface scatters that indicate the Bronze Age sites you encountered. The areas (in hectares) are
given in Table 3.5.
1. Begin to explore these two batches of numbers with a back-to-back stem-and-leaf plot.
2. Continue your exploration by calculating the median, the mean, and the 10% trimmed mean for each batch
and then the index of spread that corresponds to each of these indexes of level. Which pair of indexes makes
most sense to use here? Why?
3. Based on the stem-and-leaf plots and the indexes of level and spread, what obser-vations would you make
about changes in site size from Early Bronze Age to Late Bronze Age near Nanxiong?

Vous aimerez peut-être aussi