Académique Documents
Professionnel Documents
Culture Documents
arqueólogos
CONTRIBUCIONES INTERDISCIPLINARES a la arqueología
Editor de la serie: Jelmer Eerkens, Universidad de California en Berkeley, Berkeley, CA, EE.UU.
Fundador Editor: Roy S. Dickens, hijo tardío de la Universidad de Carolina del Norte, Chapel Hill, Carolina
del Norte, EE.UU.
Para obtener una lista completa de los títulos de esta serie, por favor visite la serie en línea en:
http://www.springer.com/series/6090
EL LABORATORIO ARQUEÓLOGO
El análisis de los datos arqueológicos
La prohibición de EB
LA EVOLUCIÓN DE CAZADORES-RECOLECTORES
La evidencia arqueológica complejo desde el Pacífico Norte
Ben Fitzhugh
Un cazador-recolector PAISAJE
Suroeste de Alemania en el Paleolítico y el Neolítico
Michael A. Jochim
ORGANIZACIÓN DE LA COMUNIDAD
mississippian La Fase Potencias en el sureste de
Missouri Michael J. O'Brien
TELEOBSERVACIÓN EN ARQUEOLOGÍA
Editado por James Wiseman y Farouk El-Baz
La toma y visualización de HUMAN BODY PARTS como trofeo por los amerindios Editado por
Richard J. Chacon y David H. tinte
Estadísticas para
arqueólogos
Un enfoque de sentido común
Segunda edicion
Robert D. Drennan
123
El Dr. Robert D. Drennan
Universidad de Pittsburgh
Departamento de Antropología
Pittsburgh PA 15260
Estados Unidos
drennan@pitt.edu
ISSN 1568-2722
ISBN 978-1-4419-0412-6 e-ISBN 978-1-4419-0413-3
Este libro pretende ser una introducción a los principios básicos de estadística y técnicas
para el arqueólogo. Crece principalmente de mi experiencia en la enseñanza de cursos
de análisis cuantitativo para estudiantes universitarios y licenciados en arqueología lo
largo de varios años. El libro se establece específicamente en el contexto de la
arqueología, no porque los temas tratados son únicamente de naturaleza arqueológica,
sino porque muchas personas les resulta mucho más fácil de entender el análisis
cuantitativo en un contexto familiar - una en la que ellos puedan entender fácilmente el
naturaleza de los datos y la utilidad de las técnicas. Los principios y técnicas, sin
embargo, son todos aplicabilidad mucho más amplia. Los antropólogos físicos,
antropólogos culturales, sociólogos, psy-psi-, politólogos, y especialistas en otros
campos hacen uso de estos mismos principios y técnicas. La mezcla particular de los
temas, el énfasis relativo dado ellos, y el enfoque exacto tomada aquí, sin embargo, sí
reflejan mi propia visión de lo que es más útil en el análisis de los datos específicamente
arqueológicos.
Es imposible dejar de notar que muchos aspectos de Informa-ción arqueológica son
numéricos, y que el análisis arqueológico tiene inevitablemente un componente
cuantitativo. enfoques estadísticos estándar se aplican comúnmente en straightfor-Ward,
así como formas inusuales e ingeniosas a problemas arqueológicos, y los nuevos
enfoques se han inventado para hacer frente a las peculiaridades especiales de análisis
arqueológico. La literatura sobre el análisis cuantitativo en la arqueología ha crecido al
tamaño prodi-giosos. Parte de esta literatura es muy buena, mientras que algunos de los
que sólo se revela que la publicación de las estadísticas en la arqueología es una
actividad abierta, incluso para aquellos cuya comprensión de los principios estadísticos
más fundamentales es primitivo, en el mejor. El artículo intenta señalar, que publicó
única de trabajo en la que una de estas categorías tiene en sí se convierten en un género
reconocible. Este libro no trata de evaluar o criticar de un modo tal, sino que está
motivada en parte por la percepción de que, como grupo, los que somos responsables de
la formación de arqueólogos en el análisis cuantitativo puede reclamar sólo un éxito
relativo hasta la fecha. En consecuencia, este libro es en parte una discusión de cómo el
análisis de datos cuantitativos se realiza en la arqueología pero en mayor parte una
discusión de cómo el análisis de datos cuantitativos que se podría hacer en la
arqueología. Su enfoque es decididamente en algunos principios fundamentales y la
forma en que se pueden aplicar más útil en la arqueología. Es tentador para discutir las
numerosas variaciones en pero está motivada en parte por la percepción de que, como
grupo, los que somos responsables de la formación de arqueólogos en el análisis
cuantitativo puede reclamar el éxito sólo mixta hasta la fecha. En consecuencia, este
libro es en parte una discusión de cómo el análisis de datos cuantitativos se realiza en la
arqueología pero en mayor parte una discusión de cómo el análisis de datos cuantitativos
que se podría hacer en la arqueología. Su enfoque es decididamente en algunos
principios fundamentales y la forma en que se pueden aplicar más útil en la arqueología.
Es tentador para discutir las numerosas variaciones en pero está motivada en parte por
la percepción de que, como grupo, los que somos responsables de la formación de
arqueólogos en el análisis cuantitativo puede reclamar el éxito sólo mixta hasta la fecha.
En consecuencia, este libro es en parte una discusión de cómo el análisis de datos
cuantitativos se realiza en la arqueología pero en mayor parte una discusión de cómo el
análisis de datos cuantitativos que se podría hacer en la arqueología. Su enfoque es
decididamente en algunos principios fundamentales y la forma en que se pueden aplicar
más útil en la arqueología. Es tentador para discutir las numerosas variaciones en este
libro es en parte una discusión de cómo el análisis de datos cuantitativos se realiza en la
arqueología pero en mayor parte una discusión de cómo el análisis de datos cuantitativos
que se podría hacer en la arqueología. Su enfoque es decididamente en algunos
principios fundamentales y la forma en que se pueden aplicar más útil en la arqueología.
Es tentador para discutir las numerosas variaciones en este libro es en parte una discusión
de cómo el análisis de datos cuantitativos se realiza en la arqueología pero en mayor
parte una discusión de cómo el análisis de datos cuantitativos que se podría hacer en la
arqueología. Su enfoque es decididamente en algunos principios fundamentales y la
forma en que se pueden aplicar más útil en la arqueología. Es tentador para discutir las
numerosas variaciones en
v
vi Prólogo a la segunda edición
Este libro está escrito con la esperanza de proporcionar herramientas útiles para el
análisis cuantitativo de la arqueología a los que, naturalmente, expertos en el
razonamiento cuantitativo, así como a aquellos que se encuentran las matemáticas no
sólo es difícil, sino incluso intimidante. No es ningún desafío a las estadísticas actuales
a los que ya están cómodos con y expertos en matemática pensar-ción; que sólo requiere
un empujón en la dirección correcta. El desafío perenne de libros como éste, sin
embargo, es presentar un análisis cuantitativo con eficacia a aquellos a los que no es
algo natural. Es con especial preocupación para este último grupo que fue elegido el
enfoque adoptado aquí. Parte de ese enfoque consiste en hundir la derecha por delante
de las herramientas de este libro es sobre sin una serie de capítulos preliminares ponen
tierra-trabajo básico, la importancia de las cuales sólo se hace evidente más adelante.
Estos “puntos básicos” son,
Afortunadamente, es posible acercarse a las herramientas estadísticas básicas con el
sentido común y en un lenguaje común con el fin de transmitir no sólo la mecánica de
uso de las herramientas estadísticas, sino también una verdadera comprensión de la
forma en que las herramientas de trabajo. El uso productivo de las herramientas
estadísticas en manantiales arqueología no tanto a partir del conocimiento Mathe-
matical abstracto como de la comprensión intuitiva sólida de principios, aplicados con
sentido común y constante atención al producto final deseado - es decir, el objetivo de
la investigación final. Vale la pena hacer una pausa para enfatizar que este libro,
diversión-talmente, se trata de herramientas - herramientas para la identificación de
patrones en números y herramientas para la evaluación de la precisión y la fiabilidad
con los patrones que identificamos en nuestros patrones reales de datos rep-resienten en
el mundo más amplio de nuestra conclusiones realmente están a punto. Al igual que con
las herramientas de carpintería, por ejemplo, hábil uso de herramientas estadísticas no
requiere conocimientos com-pleta de cómo se hacen las herramientas. En consecuencia,
no he intentado mostrar cómo ecuaciones estadísticas se derivan de ciertos supuestos
través de la lógica Mathe-matical (el enfoque adoptado por algunos libros en las
estadísticas). Como potente y elegante como el lenguaje de la matemática abstracta que
sea, sigue siendo totalmente impen-etrable a muchos arqueólogos. Siempre he
encontrado que es muy útil para evitar un enfoque matemático abstracto. Esto parece
especialmente importante para los que ya están asustado ante la idea de las matemáticas.
No he tratado de mostrar cómo ecuaciones estadísticas se derivan de ciertos supuestos
través de la lógica Mathe-matical (el enfoque adoptado por algunos libros en las
estadísticas). Como potente y elegante como el lenguaje de la matemática abstracta que
sea, sigue siendo totalmente impen-etrable a muchos arqueólogos. Siempre he
encontrado que es muy útil para evitar un enfoque matemático abstracto. Esto parece
especialmente importante para los que ya están asustado ante la idea de las matemáticas.
No he tratado de mostrar cómo ecuaciones estadísticas se derivan de ciertos supuestos
través de la lógica Mathe-matical (el enfoque adoptado por algunos libros en las
estadísticas). Como potente y elegante como el lenguaje de la matemática abstracta que
sea, sigue siendo totalmente impen-etrable a muchos arqueólogos. Siempre he
encontrado que es muy útil para evitar un enfoque matemático abstracto. Esto parece
especialmente importante para los que ya están asustado ante la idea de las matemáticas.
Aunque aprender a utilizar una sierra de mesa no requiere el desarrollo de la
capacidad de hacer una, hábil uso de una sierra de mesa requiere una cierta
comprensión de los Princi-ples según el cual hace su trabajo. Falta de comprensión
de estos principios básicos dará lugar a erróneas y desigual de corte e incluso el
dedo cortado ocasional o peor. De la misma manera, hábil uso de herramientas
estadísticas requiere cierto entienden-ción de los principios subyacentes. Sin esa
comprensión, incluso muy afilado de herramientas estadísticas producen sólo
resultados de crudo, y pueden causar lesiones (aunque generalmente no del tipo que
requiere atención médica).
Por esta razón, también he tratado de evitar el enfoque de libro de cocina común a
los libros de estadística aplicada. Recetas fáciles para la apelación análisis estadístico
fuerte, espe-cialmente a aquellos que tengan miedo de las matemáticas. Hay un
verdadero trabajo mental parece ser necesario; sin conceptos difíciles necesitan ser
dominadas; sólo tiene que seguir cuidadosamente las instrucciones. Este enfoque puede
realmente trabajar en disciplinas en las que ciertos tipos de datos se producen
regularmente en ciertos formatos. Sólo las mayoría de las tareas de análisis de datos de
rutina se pueden Suc-cessfully manejados de esta manera, sin embargo, y los datos
arqueológicos no son de rutina. La naturaleza del registro arqueológico y la manera en
que debemos extraer
Prólogo a la segunda edición ix
datos de los que inevitablemente producen idiosincrasia que los practicantes de otras
disciplinas se les enseña a evitar a través del diseño de investigación apropiado. El
hacer frente a tales datos desordenado requiere que el arqueólogo tiene una mejor
comprensión de los principios que subyace en que un enfoque de libros de cocina
puede proporcionar.
Este libro, a continuación, busca un término medio. Se trata más que
simplemente proporcionar instrucciones para el uso de herramientas estadísticas;
sin embargo, no tiene ninguna pretensión de proporcionar una justificación
matemática completa para ellos. Su objetivo es ayudar al lector a comprender los
principios subyacentes herramientas estadísticas suficientemente bien como para
usarlos con habilidad en el contexto del análisis de los datos arqueológicos. El lector
que tenía en mente, mientras que la escritura es principalmente el graduado o
estudiante de grado de la arqueología teniendo un primer curso de análisis de datos
arqueológicos. Como la mayoría de los libros de texto, este es el libro el autor
siempre quiso pero nunca encontró por su propio curso. Espero que también puede
ser útil para los arqueólogos que deseen desarrollar o consolidar las habilidades en
el uso de la herramienta estadística si están inscritos en cursos o no.
Las herramientas estadísticas discutidas en este libro de ninguna manera
constituyen el conjunto completo cada vez que necesita el arqueólogo. Son
herramientas básicas de uso general, pero existen muchas otras herramientas
especializadas. Algunas de las herramientas que aquí se presentan son muy simples
y fáciles de aplicar, requiere nada más que lápiz y papel o tal vez una calculadora
ordinaria. Otros son más complicados o implican cálculos muy complicados. Doy
por sentado que ningún esfuerzo arqueológico serio análisis de datos estará bajo-
tomada con la ayuda de un ordenador. Aprender a usar paquetes de software
estadístico es mejor incorporar directamente en el proceso de aprendizaje de las
herramientas estadísticas. Así pues, he omitido las explicaciones menudo requieren
mucho tiempo y complejas de cómo com-pute ciertas estadísticas complicadas con
la mano.
Muchos de los resultados y ejemplos de este libro fueron producidos con
SYSTAT R; otros paquetes que podrían usarse son demasiado numerosos, incluso
a la lista. Desde los Possibili-dades son tan variados (y cambian tan continuamente),
es inútil tratar de incorporar instrucciones para utilizar el software estadístico en
este libro. Asumo, sin embargo, que el libro va a ser usado en conjunción con algún
paquete de programas estadísticos y los manuales correspondientes, y algunos
comentarios generales sobre el uso de tales “statpacks” están incluidos.
Casi cualquier paquete de software proporcionará opciones y alternativas que no se
discuten en este libro. Algunos manuales de software proporcionan una buena
explicación de lo que son estas opciones y citas bibliográficas para aquellos interesados
en aprender más acerca de ellos; otros manuales no lo hacen. (Esta es una característica
de la pena con un peso en la elección de software estadístico.) Encuentros fortuitos con
opciones en el software estadístico puede proporcionar un medio útil para la ampliación
de la experiencia de uno en el análisis cuantitativo. Por otro lado, pueden distraer la
atención del analista de la tarea en cuestión a las muchas otras tareas que podrían
realizarse, pero que en realidad no hay necesidad de llevar a cabo. El carpintero
profesional no elige primero una herramienta bastante y luego ir en busca de algo para
usarlo en. Tan,
X Prólogo a la segunda edición
ser apropiado) para poner en uso la herramienta adecuada para llevar a cabo la tarea
en cuestión. La mecánica de cálculos complicados y programas informáticos pueden
complicado tanto la atención desvíe de los asuntos centrales de principio relativas a
los trabajos a realizar. En estadística, como en los varios deportes a partir del cual
se deriva el clich'e, es imposible recordar demasiado a menudo para mantener el ojo
en la bola.
EXPRESIONES DE GRATITUD
xi
xii
Contenid
o
6 categorías . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Las proporciones de columna y fila ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.. 69
Proporciones y densidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
Gráficos de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
Categorías y sub-lotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Práctica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Parte II Muestreo
7 Muestras y poblaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
¿Qué es el muestreo? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
¿Por qué muestra? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
¿Cómo nos muestra? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
representatividad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Diferentes tipos de muestreo y Bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
El uso de muestras no aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
... 88
La población objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Práctica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
15 Relacionar una variable de medición a otra variable de medición . 199 Mirando el panorama general .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 Las relaciones lineales . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 El mejor ajuste Línea Recta . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 Predicción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 ¿Qué tan bueno es la mejor opción? . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 Importancia y Confianza . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . 211
xiv
Contenid
o
25 Análisis de conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
309 Solo vínculo Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310 La
agrupación completa de ligamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312 La
agrupación de vinculación promedio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
¿Qué vinculación Criterio elegir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 Como muchos
de estos grupos para definir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 La agrupación
de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 La agrupación de
los datos de los hogares Ixcaquixtla. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
Índice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
327
Capítulo 1
Los lotes de números
Un lote es un conjunto de números que están relacionados entre sí debido a que son
diferentes instancias de la misma cosa. El ejemplo más simple de un lote de números
es un conjunto de mediciones de diferentes ejemplos de la misma clase de cosa. Por
ejemplo, las longitudes de un grupo de raspadores, los diámetros de un grupo de
agujeros de poste, y las áreas de un grupo de sitios son tres lotes de números. En
estos casos, longitud, diámetro, y la zona son variables y cada raspador, agujero de
correos, y el sitio es un caso.
La longitud de un rascador, el diámetro de un agujero de poste, y el área de un
sitio no, juntos, hacer un lote de números porque son completamente no relacionada.
La longitud, anchura, espesor y peso de un rascador no lo hacen, juntos, hacer un
lote porque no son diferentes instancias de la misma cosa; es decir, que son
diferentes magnitudes de medida para un solo caso. La longitud, anchura, espesor y
peso de cada uno de 20 raspadores hacen, no un lote de números, pero cuatro. Estos
cuatro lotes pueden estar relacionados entre sí porque son cuatro variables medidas
por los mismos 20 casos. Los diámetros de un conjunto de 18 hoyos para los postes
de un sitio y los diámetros de un conjunto de 23 agujeros de poste de otro sitio
pueden considerarse un único lote de números (el diámetro variable medida durante
41 casos, ignorando por completo qué sitio apareció cada agujero poste en).
También se pueden considerar dos lotes relacionados de números (el diámetro
variable medida durante 18 casos en un sitio y 23 casos en otro sitio). Finalmente
se pueden considerar dos lotes relacionados de números de una manera diferente (el
diámetro variable medida durante 41 casos y el sitio variable clasificado para los
mismos 41 casos). Esta última, sin embargo, nos lleva a un tipo diferente de lotes o
variable, y es más fácil cumplir con lotes de mediciones por ahora.
Una lista de las mediciones no se presta muy bien a hacer interesantes obser-vaciones,
por lo que el primer paso en la exploración de un lote de números es para organizarlos.
Si el lote es un conjunto de mediciones, el diagrama de tallo y hojas es la herramienta
fundamental órgano-izational. Considere el lote de números en la tabla1.1.
Ordenándoles a lo largo de una escala a menudo nos puede ayudar a ver patrones.
Figura1.1 muestra cómo se producen un diagrama de tallo y hojas que hace exactamente
esto para los números en la tabla 1.1. En primer lugar, los números se dividen en una
sección de tallo y una sección de la hoja. En el primer caso, por ejemplo, 9,7 se convierte
en un tallo de 9 y una hoja de 7. La hoja para cada número se coloca en el diagrama de
tallo al lado del vástago para ese número. Las líneas en la figura.1.1conectar algunos de
los núm-fibras a las hojas correspondientes en sus posiciones finales en el diagrama de
tallo y hojas. (No todas las conexiones se dibujan en evitar una confusión sin esperanza
de líneas.)
Varias características de este lote de números son inmediatamente evidente en el
diagrama de tallo y hojas. En primer lugar, los números tienden a agruparse juntos
en aproximadamente 9 a 12 cm. La mayoría cae en este rango. Dos más (14,2 y 7,6
cm) caerá un poco fuera de este rango, y uno (44,6 cm) se sitúa muy lejos del resto.
Es un fenómeno bastante común que los lotes de números a juntas montón como
este. También es relativamente frecuente que uno o unos pocos números en un lote
a caer lejos del montón donde la mayoría de los números de mentir. Tales números
que caen lejos del montón a menudo se llaman los valores extremos, y vamos a
discutir con más detalle más adelante. Por ahora es suficiente tener en cuenta que a
menudo nos examinamos estos valores atípicos con una mirada escéptica. Un
agujero de poste de 44,6 cm de diámetro es ciertamente un agujero post muy inusual
en este lote, y podríamos sospechar que alguien simplemente ha escrito la medición
abajo equivocado. Una revisión rápida de dibujos de campo o fotografías debe ser
suficiente para determinar si se ha cometido un error tal y, si es así, para corregirlo.
Si, en efecto, esta medida parece correcto, entonces una de las características
sobresalientes de este lote es que un agujero de entrada, simplemente no parece
encajar con el resto del grupo.
diagramas de tallo y hojas se pueden hacer en diferentes escalas (es decir, utilizando
diferentes inter-Vals en el tallo), y la selección de una escala adecuada es esencial para
la producción de un diagrama de tallo y hojas útiles. Mesa1.2muestra otro lote de
números en un diagrama de tallo y hojas en la misma escala que en el ejemplo anterior.
Los números aquí, sin embargo, se extienden a lo largo de una gran distancia tal que las
características del lote no son
9.7 11.7
9.2 11.1
12.9 7.6
11.4 11.8
9.1 14.2
44.6 10.8
10.5
LOTES DE NÚMEROS 5
Peso
(gramos) Tallos Hojas
169 5
168
148,7 148 7 167
166
154,5 154 5 165
164 7
169,5 169 5 163
162
145,1 145 1 161 2
160
157,9 157 9 159
158
137,8 137 8 157 9
156
151,9 151 9 155
154 5
146,2 146 2 153
152 0
164,7 164 7 151 9
150
149,3 149 3 149 3
148 7
141,3 141 3 147
146 29
161,2 161 2 145 1
144
146,9 146 9 143 0
142
152,0 152 0 141 3
140
143,0 143 0 139
138
132,6 132 6 137 8
136
115,3 115 3 135
134
133
132 6
131
130
129
128
127
126
125
124
123
122
121
120
119
118
117
116
115 3
LOTES DE NÚMEROS 7
raspador parece ser un valor atípico. Este patrón ciertamente se puede detectar
(especialmente en retrospectiva) en la Tabla1.2, Pero es mucho más claro en la
Tabla 1.3.
Mesa 1.4muestra una densa todavía diagrama de tallo y hojas de los mismos números.
Tallo y secciones de hojas se separan como en la tabla1.4, Pero sólo una posición se
permite en el vástago para cada sección de vástago. En esta escala, el agrupamiento de
los números es todavía evidente, pero lo que parecía un caso atípico en la tabla1.4ha
llegado tan cerca del montón que ya no parece muy diferente. Las características del lote
están menos claramente muestran en este diagrama de tallo y hojas, ya que llena los
números muy cerca entre sí.
Mesa 1.5es otro diagrama de tallo y hojas de los mismos números. Éste es demasiado
densa. Simplemente no hay suficiente espacio en el tallo de las hojas que se extienden
lo suficiente como para mostrar el patrón. El valor atípico de la Tabla1.3ya no es
aparente (aunque todavía está allí - es sólo oscurecido por la escala apropiada). Incluso
es difícil evaluar la magnitud del agrupamiento de los números. Puede crear el siguiente
paso en la dirección de más densos diagramas de tallo y hojas para estos números usted
mismo. Tiene un tallo que consiste solamente en 1, con todas las hojas en una línea
próxima a la misma.
Una escala apropiada para un diagrama de tallo y hojas evita los dos extremos
visto en las Tablas 1.2 y 1.5. Las hojas deben hacer una o más ramas o racimos de
hojas que sobresalen de la madre. Esto no puede suceder si se extienden a lo largo
de un tallo que es simplemente demasiado larga como en la tabla1.2. Al mismo
tiempo, las hojas se debe permitir a extenderse lo suficiente para que los valores
extremos se pueden notar y dos o más racimos, si se producen, se pueden distinguir
unos de otros. Este último puede no sucede si las hojas se amontonan como en la
tabla1.5. Tablas 1.3 y 1.4 muestran diagramas de tallo y hojas a escalas que son más
clara, aunque la tabla1.3 definitivamente muestra los patrones con más claridad que
la tabla 1.4 hace.
CAPÍTULO
8 1
Tabla 1.5. Mucho demasiado denso un diagrama de tallo y hojas de pesos de 17 rasquetas
Del Sitio Negro
20.5 19.4
17.2 16.4
15.3 18.8
15.9 15.7
18.3 18.9
17.9 16.8
18.6 8.4
14.3
patrones que han sido señalar aquí, pero hace que sea más fácil de hacer algunas de
las cosas que haremos con los diagramas de tallo y hojas en los capítulos 2 y 3. Se
hace dibujando un diagrama de tallo y hojas un poco más de tiempo, pero vale la
pena el esfuerzo, como veremos más adelante.
6 44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20 5
19 4
18 3689
17 29
diecis
éis 48
15 379
2 14 3
13
9 12
874111
85 10
721 9
8 4
67
HISTOGRAMAS
12.8 15 3
11.5 14 0
14.0 13 49
1.3 12 388
10.3 11 0257
9.8 10 367
2.3 9 089
15.3 8 27
11.2 7 4
3.4 6
12.8 5
13.9 4 5
9.0 3 48
10.6 2 0239
9.9 1 37
13.4
8.7
3.8
11.7
1.7
12.3
11.0
2.9
10.7
7.4
8.2
2.0
2.2
4.5
picos. patrón tal de múltiples racimos o picos es una clara indicación de tipos distintos
de los casos - en este caso dos clases distintas de sitios. Nos probable que podríamos
llamar los sitios grandes y pequeños sitios, y el patrón que se observa en el diagrama de
tallo y hojas o el histograma indica que los dos son claramente separada. Es decir, en la
discusión de estos como sitios grandes y pequeños, no estaríamos dividiendo
arbitrariamente arriba en sitios grandes y pequeños, sino más bien responde a una
característica innata de este lote de números. Vemos rápidamente que los sitios de gran
tamaño son más numerosos, pero hay suficientes sitios pequeños para formar un pico
claro y separado. Este no es un caso de valores atípicos, pero en su lugar, de dos
conjuntos de sitios, cada uno lo suficientemente numerosos como para formar su propio
pico en el histograma.
La presencia de picos múltiples en un lote es siempre una indicación de que dos o
más fundamentalmente diferentes tipos de cosas han sido lanzados juntos y medido. Para
tomar un ejemplo ridícula, podría medir los diámetros de una serie de platos y tapas de
registro. Si presenté estos como una única lista de mediciones de
LOTES DE NÚMEROS 13
Figura 1.2. Un histograma de las zonas de 29 sitios en el valle del río Kiskiminetas.
Statpacks
El diagrama de tallo y hoja es tal manera un simple para mostrar los números en
un proceso por lotes que se puede producir de forma rápida y fácilmente con lápiz
y papel. Cuando el trabajo-ción con lápiz y papel, sólo es necesario tener cuidado
para alinear los números de forma vertical, de manera que los patrones son
representados con precisión. También es fácil de usar un procesador de textos para
producir un diagrama de tallo y hojas. Como cuando se trabaja con lápiz y papel,
es importante alinear los números de forma vertical. Este hap-plumas
automáticamente siempre que los espectáculos fuente elegida todos los caracteres
(o al menos a todos los números) como la misma anchura. Fuentes en el que 1, por
ejemplo, es más estrecho que 2 no funcionan para diagramas de tallo y hojas
porque los números va a salir de la alineación. La manera más fácil de hacer que
los gráficos de tallo y hojas, por supuesto, es con un paquete estadístico de
ordenador, o statpack para abreviar. A statpack llevará a cabo toda la operación de
forma automática, incluyendo la elección de una escala o intervalo apropiado para
el vástago. Algunos statpacks todavía no incluyen herramientas de análisis
exploratorio de datos (EDA) como diagramas de tallo y hojas, pero muchos lo
hacen.
Los histogramas son más tiempo para dibujar muy bien de diagramas de
tallo y hojas, pero muchos statpacks hacen un muy buen trabajo de ella.
paquetes estadísticos verdaderos son los mejores para esta tarea, ya que sus
programadores tenían en mente exactamente los objetivos discutidos en este
capítulo cuando escribieron los programas. Numerosos programas gráficos de
barras que empate podrían parecer a primera vista otra opción, pero los
gráficos de barras, mientras que superficialmente similar a los histogramas,
son en realidad una herramienta diferente que vamos a explorar más a fondo
en el capítulo6.
PRÁCTICA
en las Tablas 1.9 y 1.10son dos lotes de números - mediciones de las longitudes de
raspadores recuperados a partir de dos sitios. Los rascadores están hechos de
pedernal o sílex. Estas cifras podrían ser considerados como un único lote de
números (longitudes de raspadores, sin tener en cuenta qué materia prima que se
hicieron a partir y en qué sitio se
vino de). También forman dos lotes relacionados en dos formas diferentes.
Podríamos dividir el lote único en dos lotes en función de qué sitio los raspadores
fueron recuperados en. (Esta es la forma en que los números se presentan en las
tablas.) O podríamos dividir el lote único en dos lotes según la cual la materia prima
que se hicieron de (despreciando el sitio que vinieron).
El significado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 la
mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Los valores
atípicos y Resistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 La eliminación de
valores atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 La media truncada
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 ¿Qué Índice de Uso . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Lotes con dos centros . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Práctica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
EL SIGNIFICADO
El índice más familiar del centro de un lote es las estadísticas medias, fuera más
comúnmente conocida como el promedio. Cálculo de la media es igual que todo lo
que aprendimos en la escuela primaria: la suma de todos los números en el lote se
divide por el número de números en el lote. Dado que este es un cal-culación tan
familiar, que proporciona una buena oportunidad para introducir alguna notación
matemática que es particularmente útil en las estadísticas. La ecuación que expresa
el cálculo de la media es decir
X=
xn
donde x representa cada número en un lote, individualmente, n es el número de x de y
X es la media o promedio de x (pronunciado “x bar”).
9.2 11.3 6 28
12.9 9.8 27
11.4 14.1 26
9.1 13.5 25
28.6 9.7 24
10.5 12.0 23
11.7 7.8 22
10.1 10.6 21
7.6 11.5 20
11.8 14.3 19
14.2 13.6 18
10.8 9.3 17
diecis
10.9 éis
15
X 12.33 11.42 2 14 13
Maryla
nd 11.10 11.30 13 56
9 12 0 X
X 874 11 35Md
Maryland 851 10 69
21 9 378
8
6 7 8
La letra griega Σ (Sigma mayúscula) significa “la suma de” y es un símbolo que
se utiliza con frecuencia en las estadísticas. Σ x significa simplemente “la suma de
todos los x de.” Las fórmulas con Σ puede parecer formidable, pero, como acabamos
de ver, Σ es simplemente la abreviatura de un cálculo relativamente simple y
familiar. Σ es prácticamente el único símbolo matemático utilizado en este libro que
no es común en álgebra básica.
Mesa 2.1se presentan algunos datos sobre pesos de copos se recuperaron a partir de
dos pozos de almacenamiento en forma de campana en el mismo sitio. La trama de back-
to-back de tallo y hoja revela que los copos de Pit 1 manojo juntos entre 9 y 12 g, con
un valor atípico en 28,6 g (a la que, probablemente, no queremos prestar demasiada
atención). Los copos de Pit 2 también agruparse, aunque el pico es más dispersa e incluso
puede tener una ligera tendencia a partirse en dos. El centro del lote de copos de Pit 2
parece ser un poco más alto en el conjunto que para aquellos de Pit 1. Para los copos de
Pit 1, la media (calculada sumando los 12 pesos y dividiendo el total por
12) es 12,33 g. Para Pit 2, la media (calculada sumando los 13 pesos y dividiendo
el total por 13) es 11,42 g. Ambos medios se indican en sus posiciones aproximadas
a lo largo del vástago en el diagrama de tallo y hojas.
NIVEL O CENTRO de un lote 19
Podemos estar bastante contento con la media como un índice del Centro de Pit 2; sí
apunta a algo así como el centro del pelotón principal en el lote, como se ve en el
diagrama de tallo y hojas. Cuando nos fijamos en el hueco 1, sin embargo, tenemos una
causa de preocupación. La media parece estar muy por encima del centro del pelotón
principal en el lote. Se “se detuvo” muy fuertemente por el alto valor atípico en 28,6 g,
lo que tiene un impacto importante en la suma de los pesos. Ya que sólo se observa que
el lote Pit 1 tiene un nivel algo más bajo que el Pit 2 lotes, es alarmante que la media
para el área 1 es en realidad más alto que la media para Pit 2. Una comparación de medias
para estos dos lotes sugeriría que copos de Pit 1 tendían a pesar más que los de Pit 2 -
una conclusión exactamente opuesta a la que llegamos al examinando el diagrama de
tallo y hojas. En este caso, la media no se está comportando muy bien. Es decir, que no
está proporcionando un índice útil del centro del lote Pit 1 con el propósito de comparar
ese lote a la fosa 2 lotes. Hay reglas duras y rápidas para juzgar ho cuando la media está
comportando muy bien lo suficiente para usar como un índice del centro. Por último, es
una cuestión de juicio subjetivo que requiere una cuidadosa exploración de lotes con
diagramas de tallo y hojas, la comprensión real de lo que queremos un índice de centro
a hacer, y la práctica.
LA MEDIANA
10.6, 10.9; El séptimo: 11.3, exactamente igual que antes. Así, la mediana del peso
de copos de Pit 2 es 11,30 g (Md= 11.30 g).
Medianas para ambos lotes se indican en el diagrama de tallo y hojas en la Tabla
2.1, Y ambos indican puntos que son visualmente más satisfactorio indicaciones de
los centros de los dos lotes. La comparación de los niveles de los dos bloques de
acuerdo a sus medianas también parece más razonable que nuestro intento de utilizar
sus medios para este fin. El peso medio de las escamas en el hoyo 2 es ligeramente
superior a la de Pit 1, que es de hecho la conclusión llegamos a basado en la
observación del patrón general de la trama de tallo y hoja.
La media truncada
y el 5% más bajo del lote. Hay 12 números en este lote, de modo que eliminamos 5% de
12 números de cada extremo. Desde 0.05 × 12 = 0.60, y 0,60 rondas de hasta 1, quitamos
un número de la parte superior y un número de la parte inferior. (Para decidir cuántos
números de quitar para la media recortada que siempre ronda.) En este caso, a
continuación, se elimina el número más alto (28,6) y el número más bajo (7.6) del lote.
Después de la eliminación de los números altos y más bajos, tenemos un lote de números
recortado diez (nT =10). La media truncada es simplemente la media ordinaria de los
números diez restantes, una vez que el más alto y el más bajo se han eliminado. Para Pit
1 el 5% media recortada, XT , Es la suma de los números restantes dividido por n T(Es
decir, 10), o 11,17 g. Para Pit 2, un 5% media recortada también requiere la eliminación
de un único número de cada extremo del lote (0.05 × 13 = 0.65, que se redondea hasta
1). El total de los números restantes se divide por nT (Es decir, 11), para X T = 11.48 g.
Podemos ver que la media recortada, a diferencia de la media normal, es
resistente a los efectos de los valores extremos. En este ejemplo, los medios
recortadas 5% son bastante similares a las medianas. Ellos nos llevaría a concluir
que las escamas en el hoyo 2, en general, pesan poco más de escamas en el hoyo 1,
al igual que la observación del diagrama de tallo y hojas nos hace conocer que
debemos concluir.
En el 5% recortado media calculada anteriormente, 5% es la fracción de recorte.
La fracción de recorte se puede ajustar para adaptarse a las necesidades de una
situación particular. Custom-principalm ente, la fracción de recorte es algún
múltiplo del 5% (5%, 10%, 15%, etc.). Las fracciones de recorte más
frecuentemente utilizados son probablemente 5% y 25%. El 25% media recortada a
veces se llama la midmean porque es la media de la mitad central de los números
(un cuarto de los números de haber sido eliminado de la parte superior de la tanda
y un cuarto de la parte inferior).
Como un ejemplo final, un 25% recortado media de los pesos de copos de Pit 1
en la Tabla 2.1 requiere la eliminación de los tres más altos y los tres números más
bajos (0.25 × 12 =3). La media de los seis números restantes es 11,05 g. Para los
pesos de copos de Pit 2, un 25% media recortada requiere la eliminación de cuatro
números de la parte superior e inferior (0.25 ×13 = 3.25, que se redondea hasta 4).
La media de los cinco números restantes es 11,26 g. Al igual que con el 5% media
recortada, los efectos indeseables de los valores atípicos se han evitado por
completo; y la comparación de medias muestra que Pit 2 escamas son, en general,
ligeramente más pesado que Pit 1 copos.
Statpacks
La mediana, la media y la media recortada son todos los índices numéricos del
centro de un lote. por lo tanto surge la pregunta, ¿cuál debemos utilizar? Esta
pregunta no tiene una respuesta sencilla. A veces es mejor utilizar la media, la
mediana a veces, a veces la media recortada. Depende de las características del lote
en ques-ción y de lo que va a hacer con el índice numérico de la central una vez que
lo tienes. La media es la más familiar, y que es una pena teniendo en cuenta las
ventajas, ya que casi todo el mundo se siente cómodo si usted les dice lo que la
media de un lote de números es. Si el lote no tiene valores extremos que hacen que
el valor de una media engañosa, entonces bien puede ser la mejor opción. La
mediana es ligeramente menos familiar, pero es muy resistente, por lo que se utiliza
con bastante frecuencia para lotes con valores atípicos.
Como veremos en los capítulos siguientes, la media tiene algunas propiedades
especiales que lo hacen muy útil en las estadísticas. Por tanto, es a menudo la
tentación de utilizar la media, incluso cuando el lote tiene valores atípicos que lo
afectan. La media truncada se puede poner a trabajar en al menos algunas de las
mismas formas en que el puede significar, sin embargo, sin la interferencia de los
valores atípicos. Eso es lo que hace que el valor de media recortada discutir, a pesar
de que es más complicado de calcular que sea la media o la mediana y el menos
conocido entre los arqueólogos. La mediana, por desgracia, no se puede usar en
estas formas especiales. A pesar de que es bastante sencillo y útil para la tarea inicial
de la comparación de los lotes y, a continuación, la mediana no será tan importante
para nosotros más adelante en este libro como la media y la media recortada.
A veces el examen de un diagrama de tallo y hojas deja claro que un lote contiene
dos o más racimos bastante distintas, como se discutió en el Capítulo 1. Vamos a
llamar a este tipo de lotes de dos vertientes o multi-visera. (La metáfora del pico se
deriva a partir del histograma, donde un grupo de números se asemeja a una colina
o un pico, pero es bastante fácil pensar en un diagrama de tallo y hojas en estos
términos también.)
Mesa 2.2proporciona las áreas (en metros cuadrados) de estructuras excavadas en los
sitios Negro-Smith. El gráfico muestra tallo y hojas que estas estructuras forman dos
grupos sep-Arate sobre la base de sus áreas. Hay grandes estructuras, sobre todo desde
alrededor
2 2
15 a 21 m Y estructuras pequeñas, de aproximadamente 3 a 7 m . Tendría poco sentido
hablar del centro de este lote, ya que claramente tiene dos centros. Si no tiene mucho
CAPITULO
24 2
sentido hablar de su centro, entonces tiene aún menos sentido para calcular un índice
de numeri-cal de su centro. Si lo intentamos, los resultados serían sin sentido. La
media, por ejemplo, del lote en la Tabla2.2 sería 12.95 m2. Este valor cae entre los
dos grupos distintos, no hay estructuras que caracterizan a todos. A los 15 años.15
m2, la mediana también fracasarían para caracterizar el centro de nada significativo.
Queremos por lo tanto ni siquiera calcular estos dos valores.
NIVEL O CENTRO de un lote 25
Lo primero que hay que hacer si ves un lote de dos alcanzó su máximo en un diagrama
de tallo y hojas se separan en dos lotes diferentes - antes de calcular los índices de centro.
Esto no es una regla misteriosa que debe ser memorizado. Simplemente es la única
práctica que tenga sentido para cualquier persona que mantiene firmemente en su mente
lo que los índices de centro están haciendo y cómo se comportan. En un caso como éste,
hay que pensar que hay básicamente dos tipos diferentes de estructuras representadas,
quizás casas y graneros. Otra información relativa a estas estructuras podría ser
examinado por las pruebas pertinentes a tal noción. En cualquier caso, antes de seguir el
análisis cuantitativo el lote debe ser roto en dos lotes, y las estructuras de gran tamaño
de forma separada a las pequeñas estructuras. Nos gustaría hacer el descanso en unos 10
2
o 11 metros en el medio de la gran diferencia visible en el diagrama de tallo y hojas.
2
Las 16 estructuras pequeñas que son menos de 10 m tienen un área promedio de 5.67
2 2
m (Y un área mediana casi idéntica de 5.70 m ). Las 20 estructuras grandes tienen un
2 2
área media de 18.77 m (Y, una vez más, un área mediana casi idéntica de 18.75 m ).
Por tanto pequeñas áreas de la estructura y las zonas de estructura grande, entonces, o
bien la media o la mediana proporcionarían índices significativos y útiles de la central.
(Localízalos lo largo del tallo en el diagrama de tallo y hojas, y se verá que son de hecho
en el centro del pelotón principal de números para cada sub-lotes.) Romper un lote de
dos alcanzó su punto máximo en dos lotes ha hecho es posible calcular los índices
numéricos de los centros de los dos lotes que tengan sentido.
Los lotes como el de la tabla 2.2se refieren a menudo en términos generales como
bimodal, después de que el modo de término que se refiere a la única categoría más
común en un diagrama de tallo y hojas o histograma. A veces, el modo se utiliza
como un índice del centro de un lote. En mesa2.2, El modo estaría a unos 5 m2,
donde caen seis estructuras. Es claro que esto es algo así como el centro del lote de
estructuras pequeñas, pero no lo hará como un índice del centro de todo el lote. Hay
un modo secundario en unos 18 m2, en los que caen cinco estructuras. Esto es algo
así como el centro de la hornada de grandes estructuras. Sólo si exactamente el
mismo número de estructuras cayó a 5 m2 y 18 m2 en lotes sería esto realmente
tiene dos modos. En sentido estricto, tiene un modo y un modo secundario en lugar
de dos modos. Sin embargo, tales lotes multipeaked se refieren a menudo como
bimodal.
PRÁCTICA
1. volver vistazo a los datos sobre las longitudes de rascador dados en las Tablas 1.9 y
1.10. Calcular los índices adecuados de centro para poner un punto más fino en la
comparación ya se ha hecho con un diagrama de tallo y hojas entre Pine Ridge y las
longitudes de los Planos del sauce rascador. Pruebe la media, la mediana, y una media
truncada (con lo que el recorte de la historia fracción cree que es más apropiado).
¿Qué índice de centro tiene más sentido para la comparación de longitudes rascadores
entre los dos sitios? ¿Por qué? (Tenga en cuenta que las comparaciones de los niveles
deben estar basadas en el mismo índice. No se debe comparar la media de un lote a
la mediana para otro.) Suma-Rize la comparación de longitudes de raspador que ha
hecho entre los dos sitios. Es decir, lo que tiene todo esto le ha hablado de longitudes
de rascador en los dos sitios?
26 CAPITULO 2
2. Utilizando los datos de las Tablas 1.9 y 1.10una vez más, hacer lo mismo con
raspadores de sílex y raspadores de sílex, sin tener en cuenta qué sitio los raspadores
de procedencia. Pruebe la media, la mediana y la media recortada de nuevo. ¿Qué
índice tiene más sentido para la comparación de las longitudes de los rascadores
hechos de diferentes materias primas? ¿Por qué? ¿Cómo resumiría todos juntos las
comparaciones que haya realizado entre el sílex y raspadores de sílex y de entre el
sitio Planos del sauce y Pine Ridge Cave?
Capítulo 3
La propagación o dispersión de un lote
El rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 El Midspread
o rango intercuartil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 La desviación estándar y la varianza . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 La desviación estándar recortado . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 ¿Qué Índice de Uso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Práctica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . 36
Algunos lotes de números están muy estrechamente agrupados juntos, mientras que
otros son mucho más extendidas. Esta propiedad se hace referencia en el análisis
exploratorio de datos según lo separado (o en términos estadísticos más
tradicionales como la dispersión), y es a menudo una característica informativa de
un lote al que se debe prestar atención. Al igual que es conveniente tener un índice
numérico para el nivel o el centro de un lote, también es conveniente tener un índice
numérico para la difusión o dispersión, de un lote. Una vez más, hay varios
diferentes índices numéricos que se comportan de manera diferente y por lo tanto
se utilizan en diferentes circunstancias.
EL RANGO
9.2 11.3 6 28
12.9 9.8 27
11.4 14.1 26
9.1 13.5 25
28.6 9.7 24
10.5 12.0 23
11.7 7.8 22
10.1 10.6 21
7.6 11.5 20
11.8 14.3 19
14.2 13.6 18
10.8 9.3 17
dieci
10.9 séis
15
¯
X 12.33 11,42 2 14 13
Maryland 11.10 11.30 13 56
9 12 0
Distancia 21.0 6.5 74 11 35
Midspread 3.7 3.7 851 10 69
21 9 378
8
6 7 8
Tabla 3.2. El cálculo de los pesos estándar Deviationof la escama de Pit 2 (tabla3.1)
ya sea positivo o sentido negativo. El más extendido es un lote, los más fuertes
desviaciones de la media existen.
Si queremos resumir estas desviaciones numéricamente, podría ocurrir a
nosotros para tomar la media de las desviaciones. Esto no va a hacer, sin embargo,
porque podemos ver que las desviaciones siempre debe ser igual a 0; por lo tanto,
su media siempre será 0. De hecho, una forma diferente de pensar en la media es
considerarla un “punto de equilibrio”, que hace que estas desviaciones se suman a
0. (Se puede observar que la segunda columna de la tabla3.2 de hecho se suma a -
0.06 en vez de 0. Esto es una consecuencia de error de redondeo, que se produce
comúnmente. Todas las desviaciones se han redondeado a dos dígitos después del
punto decimal, y en este caso por pura casualidad un poco más de redondeo a la baja
se ha producido de redondeo.)
Lo que nos interesa, como un índice de propagación, es el conjunto de
desviaciones de la media sin sus signos. Podríamos simplemente soltar los signos y
sumar los valores absolutos de las desviaciones, pero resulta ser preferible para
deshacerse de los signos elevando al cuadrado las desviaciones de la media. (Los
cuadrados de las desviaciones de la media son, por supuesto, todos positivos, como
cuadrados deben ser todos.) Este cálculo se muestra en la tercera columna de la
Tabla3.2. Es esta tercera columna que resumimos. Esta suma se refiere a veces como
la suma de las desviaciones al cuadrado de la media o simplemente la suma de los
cuadrados.
Esta suma de los cuadrados tendrá, en igualdad de circunstancias, ser más grande
para un lote grande de números que para un lote más pequeño debido a un lote
grande tiene más desviaciones a sumar. Para llegar a un índice que no se ve afectada
por el tamaño del lote, pero sólo
EL SPREAD o dispersión de un lote 31
por su extensión, lo que necesitamos es algo así como la desviación media cuadrada
de la media. En lugar de dividir la suma de los cuadrados por la cantidad de números
en el lote, sin embargo, lo dividimos por uno menos que el número de números en
el lote. Hacemos esto por razones puramente técnicas para hacer el resultado más
útil en futuros capítulos donde se toma lotes de números para ser muestras de
poblaciones más grandes. La ecuación de la varianza, entonces, es
2
s2 = (X - X)
norte - 1
donde S2 es la varianza de x, X es la media de x, y n es el número de números en el
lote de x.
Mesa 3.2proporciona un ejemplo de los cálculos que se corresponden con este
EQUA-ción. La varianza tiene un carácter más bien arbitraria en comparación con
el rango o la midspread. El valor de la varianza no es tan fácil relacionar de manera
intuitiva a los valores en el lote como fue el caso con la gama o midspread. Al menos
podemos eliminar el efecto confuso de cuadrar las desviaciones tomando la raíz
cuadrada de la varianza. El resultado es s, la desviación estándar:
√ 2
s = s2 = (X - X)
norte - 1
La desviación estándar, a diferencia de la varianza, es al menos expresada en las
mismas unidades que la lote original. Así, es apropiado pensar en la desviación
estándar de los pesos de copos de Pit 2 no sólo como 2,02, pero 2,02 g. Si
relacionamos la desviación estándar para el diagrama de tallo y hojas en la tabla3.1,
Vemos que el estándar Devia-ción delinea la parte del tallo dentro de la cual la
mayoría de los pesos de copos caen. Es decir, la mayoría de los pesos están dentro
de 2,02 g por encima o por debajo de la media de 11,42 g, es decir, la mayoría de
los pesos son entre 9,40 (11.42 g - 2.02 g = 9.40 g) y 13,44 g (11.42 g + 2.02 g =
13.44 g). Estos dos números (9,40 y 13,44 g) pro-vide una aproximación de los
límites de la manojo principal de números. Eso es lo que significa decir que la
mayoría de los pesos escamas son dentro de una desviación estándar de la media.
Sólo unos pocos caída más de una desviación estándar de la media, es decir, más
allá de 2,02 g de la media. Podemos (y lo harán) especificar mucho más acerca de
esta forma de usar la desviación estándar en los capítulos posteriores. Por el
momento, baste decir que la desviación estándar proporciona a menudo
simplemente este tipo de indicación acerca de la propagación de un lote.
La desviación estándar no se comporta de manera satisfactoria para los pesos de
copos de Pit 1. Tabla 3.3muestra el cálculo de la desviación estándar para este lote.
Cuando primero compararon estos dos lotes de números (los pesos de escamas de
los pozos 1 y 2) sobre la base de los diagramas de tallo y hojas de la Tabla2.1,
Observamos que los pesos de copos de Pit 1 fueron (a excepción de la alta outlier)
más estrechamente agrupado hasta que los de Pit 2. La varianza y la desviación
estándar para los pesos de copos de Pit 1, sin embargo, son mucho más grandes que
los de Pit 2, lo que indica una mucho más grande
32 CAPÍTULO 3
Tabla 3.3. El cálculo de la desviación estándar de los pesos de la escama de Pit 1 (tabla3.1)
Original batch Winsorized batch Deviations from mean Squared deviations from mean
2
x (g) xW (g) xW − XW xW − XW
28.6 14.2 2.95 8.70
14.2 14.2 2.95 8.70
12.9 12.9 1.65 2.72
11.8 11.8 0.55 0.30
11.7 11.7 0.45 0.20
11.4 11.4 0.15 0.02
10.8 10.8 −0.45 0.20
10.5 10.5 −0.75 0.56
10.1 10.1 −1.15 1.32
9.2 9.2 −2.05 4.20
9.1 9.1 −2.15 4.62
7.6 9.1 −2.15 4.62
2
XW = 11.25 (xW − XW ) = 0.00 xW − XW = 36.16
(sum of squares)
2 2 36.16
s = (xW − XW ) = = 3.29
W
n−1 11
2
sT = (n − 1)sW = (12 −1)3.29 = 2.01
nT − 1 (10 −1)
effect on the result. Calculation of the trimmed standard deviation, however, becomes
more involved. Instead of simply reducing the size of the batch by trim-ming off
numbers at the top and bottom, we must maintain the size of the batch by replacing
trimmed numbers with the numbers next in line for trimming. Table 3.4 shows this
process for calculating a 5% trimmed standard deviation of the batch of flake weights
from Pit 1. When, in Chapter 2, we calculated the 5% trimmed mean of this same batch,
we trimmed the single highest and lowest number from the batch. This time, we replace
the highest number with the next highest number (the high-est number that remained in
the batch after trimming). Thus 28.6 g becomes 14.2 g. Similarly, we replace the lowest
number with the next lowest number (the lowest number that remained in the batch after
trimming). Thus 7.6 g becomes 9.1 g.
The new batch that results is a Winsorized batch. The Winsorized variance is
calculated simply as the ordinary variance of this Winsorized batch. Note, though,
that the mean involved in calculating the Winsorized variance is the mean of the
Winsorized batch (which is not the same as the trimmed mean) and that the trimmed
standard deviation is not simply the square root of the variance of the Winsorized
batch. The trimmed standard deviation is derived from the Winsorized variance by
the following equation:
2
(n − 1)s
W
sT=
nT− 1
34 CHAPTER 3
Statpacks
Midspreads and standard deviations are pretty common fare in statpacks, and
statpacks are truly helpful here because calculating a standard deviation with
a calculator is time consuming (unless your calculator has a special key for
doing it automatically). Trimmed standard deviations, however, are much less
often provided for in statpacks. Just as in calculating a trimmed mean with
your statpack, you are likely to have to adjust the batch yourself first. In this
case instead of replacing extreme values with missing data, you replace
extreme values with the adjacent nonextreme value in the data. Once this
modification has been made, the batch has been Winsorized, and the variance
your statpack calculates on these numbers is the Winsorized variance, which
you can con-vert into the trimmed standard deviation with your calculator, as
illustrated in Table 3.4. Be sure not to forget this last step!
The range, the midspread, the standard deviation, and the trimmed standard devi-ation
are all numerical indexes of the spread of a batch. Just as we asked when to use which
index of the center of the batch, we must ask when to use which index of spread. The
answer parallels that given in Chapter 2. The range is very widely understood but so
badly affected by outliers that it is not often of much use. The mid-spread has been
emphasized in exploratory data analysis. It is not as familiar as it
THE SPREAD OR DISPERSION OF A BATCH 35
should be to archaeologists, but it is easy to find and of wide utility for basic descrip-
tive purposes. Its resistance to the effects of outliers makes it particularly attractive.
The standard deviation is quite widely familiar (at least the term is, whether or not
many archaeologists are really at home with the concept or not). Its statistical prop-
erties, like those of the mean, will serve us well in the rest of this book. It is of such
importance that we will spend some effort on techniques to overcome its poor resis-
tance to the effects of outliers. Some of these techniques are based on the trimmed
standard deviation. Indexes of center and spread work together in pairs: the median
with the midspread, the mean with the standard deviation, or the trimmed mean with
the trimmed standard deviation (both with the same trimming fraction). Using the
median together with the standard deviation, for example, is like wearing one white
sock and one brown sock – only worse.
1.8 10.4
1.0 5.9
1.9 12.8
0.6 4.6
2.3 7.8
1.2 4.1
0.8 2.6
4.2 8.4
1.5 5.2
2.6 4.5
2.1 4.1
1.7 4.0
2.3 11.2
2.4 6.7
0.6 5.8
2.9 3.9
2.0 9.2
2.2 5.6
1.9 5.4
1.1 4.8
2.6 4.2
2.2 3.0
1.7 6.1
1.1 5.1
6.3
12.3
3.9
36 CHAPTER 3
PRACTICE
Imagine you have conducted a regional survey of a small valley north of Nanxiong and have carefully measured
the areas of the surface scatters that indicate the Bronze Age sites you encountered. The areas (in hectares) are
given in Table 3.5.
1. Begin to explore these two batches of numbers with a back-to-back stem-and-leaf plot.
2. Continue your exploration by calculating the median, the mean, and the 10% trimmed mean for each batch
and then the index of spread that corresponds to each of these indexes of level. Which pair of indexes makes
most sense to use here? Why?
3. Based on the stem-and-leaf plots and the indexes of level and spread, what obser-vations would you make
about changes in site size from Early Bronze Age to Late Bronze Age near Nanxiong?