Vous êtes sur la page 1sur 10

Historia de la estadstica

Se puede afirmar que la historia de la estadstica comienza alrededor de 1749 aunque, con
el tiempo, ha habido cambios en la interpretacin de la palabra estadstica. En un principio,
el significado estaba restringido a la informacin acerca de los estados. Este fue extendido
posteriormente para incluir toda coleccin de informacin de cualquier tipo,y ms tarde fue
extendido para incluir el anlisis e interpretacin de los datos. En trminos modernos,
"estadstica" significa tanto conjuntos de informacin recopilada, por ejemplo registros de
temperatura, contabilidad nacional, como trabajo analtico que requiera inferencia estadstica.
Las actividades estadsticas a menudo se asocian con modelos expresados mediante el uso
de probabilidades, y requieren de la teora de probabilidades para tener una firme base
terica: Ver Historia de las probabilidades.
Un gran nmero de conceptos de la estadstica han tenido un importante impacto en un
amplio rango de ciencias. Estos incluyen el diseo de experimentos y enfoques a la inferencia
estadstica como la inferencia bayesiana, para cada uno de los cuales se puede considerar
que tiene su propia secuencia en el desarrollo de las ideas que subyacen en la estadstica
moderna.

Introduccin[editar]
En el siglo XVIII, el trmino "estadstica" designaba la coleccin sistemtica de
datos demogrficos y econmicos por los estados. A principios del siglo XIX, el significado de
"estadstica" fue ampliado para incluir la disciplina ocupada de recolectar, resumir y analizar
los datos. Hoy la estadstica es ampliamente usada en el gobierno, los negocios y todas las
ciencias. Las computadoras electrnicas han acelerado la estadstica computacional y ha
permitido a los estadsticos el desarrollo de mtodos que usan recursos informticos
intensivamente.
El trmino "estadstica matemtica" designa las teoras matemticas de
la probabilidad e inferencia estadstica, las cuales son usadas en la estadstica aplicada. La
relacin entre estadstica y probabilidades se fue desarrollando con el tiempo. En el siglo XIX,
las estadsticas usaron de forma gradual la teora de probabilidades, cuyos resultados iniciales
fueron encontrados en los siglos XVII y XVIII, particularmente en el anlisis de los juegos de
azar (apuestas). Para 1800, la astronoma usaba modelos probabilsticos y teoras
estadsticas, particularmente el mtodo de los mnimos cuadrados, el cual fue inventado
por Legendre y Gauss. La incipiente teora de las probabilidades y estadsticas fue
sistematizada y extendida por Laplace; despus de este, las probabilidades y estadsticas han
experimentado un continuo desarrollo. En el siglo XIX, el razonamiento estadstico y los
modelos probabilsticos fueron usados por las ciencias sociales para el avance las nuevas
ciencias de psicologa experimental y sociologa, y por las ciencias fsicas
en termodinmica y mecnica estadstica. El desarrollo del razonamiento estadstico estuvo
fuertemente relacionado con el desarrollo de la lgica inductiva y el mtodo cientfico.
La estadstica puede ser considerada no como una rama de las matemticas, sino como una
ciencia matemtica autnoma, como las Ciencias de la computacin y la investigacin de
operaciones. A diferencia de las matemticas, la estadstica tuvo sus orgenes en
la administracin pblica. Fue usada en la demografa y la economa. Con el nfasis en el
aprendizaje de los datos y en la elaboracin de las predicciones ms acertadas, la estadstica
se ha solapado con la Teora de la decisin y la microeconoma. Con el enfoque de los datos,
la estadstica se ha solapado con la ciencia de la informacin y las Ciencias de la
computacin.

Etimologa[editar]
El trmino estadstica, en ltima instancia, deriva la palabra del neolatn statisticum
collegium (consejo de estado) y la palabra italiana statista (hombre de estado o poltico). La
palabra alemana statistik, introducida primeramente por Godofredo Achenwall (1749),
originalmente designaba el anlisis de datos acerca del estado, significando la ciencia del
estado (llamado posteriormente aritmtica poltica en idioma ingls). A principios del
siglo XIX, adquiri el significado de coleccin y clasificacin de datos. El trmino fue
introducido en Inglaterra en 1792 por sir John Sinclair cuando public el primero de los
21 volmenes titulados Statistical account of Scotland.1
De esta forma, el propsito original principal de la statistik eran los datos usados por el
gobierno y los cuerpos administrativos (a menudo centralizados). La coleccin de datos
acerca de estados y localidades contina, en mayor parte a travs de servicios estadsticos
nacionales e internacionales. En particular, los censos proveen frecuentemente informacin
actualizada acerca de la poblacin.
El primer libro en tener estadsticas en su ttulo fue Contributions to Vital Statistics por
Francis GP Neison, registrado a la Medical Invalid and General Life Office (1 era edicin 1845,
2nda ed. 1846, 3. ed. 1857).[cita requerida]

Orgenes en probabilidades[editar]
El uso de los mtodos estadsticos se remonta al menos al siglo V a. C. El
historiador Tucdides en su Historia de la Guerra del Peloponeso2 describe como los
atenienses calculaban la altura de la muralla de Platea, contando el nmero de ladrillos de una
seccin expuesta de la muralla que estuviera lo suficientemente cerca como para contarlos. El
conteo era repetido varias veces por diferentes soldados. El valor ms frecuente (la moda en
trminos ms modernos) era tomado como el valor del nmero de ladrillos ms probable.
Multiplicando este valor por la altura de los ladrillos usados en la muralla les permita a los
atenienses determinar la altura de las escaleras necesarias para trepar las murallas.
En el poema pico indio Majabhrata (libro 3: la historia del rey Nala), el
rey Ritupama estimaba el nmero de frutas y hojas (2095 frutas y 50,00,000 hojas (5 crores))
en dos grandes hojas de un rbol Vibhitaka contndolos en un solo vstago. Este nmero era
luego multiplicado por el nmero de vstagos en las ramas. Este estimado fue posteriormente
verificado y se hall que estaba muy cerca del nmero verdadero. Con el conocimiento de
este mtodo Nala pudo subsecuentemente reconquistar su reino.
El primer escrito de estadstica fue encontrado en un libro del siglo IX titulado Manuscrito
sobre el descifrado de mensajes criptogrficos, escrito por Al-Kindi (801-873). En su libro, Al-
Kindi da una descripcin detallada sobre el uso de las estadsticas y anlisis de frecuencias en
el descifrado de mensajes, este fue el nacimiento tanto de la estadstica como del
criptoanlisis.3 4
La Prueba del Pyx es una prueba de pureza de la moneda del Royal Mint, que ha sido llevada
a cabo regularmente desde el siglo XII. La prueba en s misma est basada en mtodos de
muestreo estadstico. Despus de acuar una serie de monedas originalmente de 10 libras
de plata una moneda singular era colocada en el Pyx (una caja en la Abada de
Westminster). Despus de un tiempo ahora una vez al ao las monedas son retiradas y
pesadas. Luego, una muestra de monedas retiradas de la caja es probada por pureza.
La Nuova Crnica, una historia de Florencia del siglo XIV escrita por el banquero florentino y
oficial Giovanni Villani, incluye mucha informacin estadstica.sobre la poblacin, ordenanzas,
comercio, educacin y edificaciones religiosas, y ha sido descrito como la primera introduccin
de la estadstica como elemento positivo en la historia,5 aunque ni el trmino ni el concepto de
la estadstica como campo especfico exista an. Esto se demostr que era incorrecto
despus del hallazgo del libro de Al-Kindi sobre anlisis de frecuencias.3 4
Aunque era un concepto conocido por los griegos, la media aritmtica no fue generalizada a
ms de dos valores hasta el siglo 16. La invencin del sistema decimal por Simon Stevin en
1585 parece haber facilitado estos clculos. Este mtodo fue adoptado por primera vez en
astronoma por Tycho Brahe, el que intentaba reducir errores en sus estimados de las
localizaciones de varios cuerpos celestiales.
La idea de la mediana se origin en el libro de navegacin de Edward Wright (Certaine errors
in navigation) en 1599 en una seccin concerniente a la determinacin de una localizacin con
un comps. Wright sinti que este valor era el que ms probablemente estuviera correcto en
una serie de observaciones.
John Graunt en su libro Natural and Political Observations Made upon the Bills of Mortality,
estim la poblacin de Londres en 1662 a travs de registros parroquiales. El saba que haba
cerca de 13,000 funerales al ao en Londres y que de cada once familias tres personas
moran por ao. El estimo de los registros parroquiales que el tamao promedio de las familias
era 8 y calcul que la poblacin de Londres era de cerca de 384,000. Laplace en 1802 estim
la poblacin de Francia con un mtodo similar.
Los mtodos matemticos de la estadstica surgieron de la teora de probabilidades, la cual
tiene sus races en la correspondencia entre Pierre de Fermat y Blaise
Pascal (1654). Christiaan Huygens (1657) provey el primer tratamiento cientfico sobre el
tema que se conozca hasta la fecha. El libro Ars Conjectandi de Jakob Bernoulli (pstumo
1713) y La doctrina de las probabilidades (1718) de Abraham de Moivre trataron el tema como
una rama de las matemticas. En su libro, Bernoulli introdujo la idea de representar certeza
completa como el nmero 1 y la probabilidad como un nmero entre cero y uno.
Galileo luch contra el problema de errores en las observaciones y haba formulado
ambiguamente el principio de que los valores ms probables de cantidades desconocidas
seran aquellos que hicieran los errores en las ecuaciones razonablemente pequeos. El
estudio formal en teora de errores puede ser originado en el libro de Roger Cotes (Opera
Miscellanea, pstumo 1750). Tobias Mayer, en su estudio de los movimientos de
la Luna (Kosmographische Nachrichten, Nremberg, 1750), invent el primer mtodo formal
para estimar cantidades desconocidas generalizando el promedio de las observaciones bajo
circunstancias idnticas al promedio de los grupos de ecuaciones similares.
Un primer ejemplo de lo que posteriormente fue conocido como la curva normal fue estudiado
por Abraham de Moivre, quien traz esta curva en Noviembre 12, 1733.6 De Moivre estaba
estudiando el nmero de caras que ocurran cuando una moneda justa era lanzada.
En sus memorias Un intento por mostrar la emergente ventaja de tomar la media de un
nmero de observaciones en astronoma prctica preparada por Thomas Simpson en 1755
(impreso en 1756) aplicaba por primera vez la teora a la discusin de errores en
observaciones. La reimpresin (1757) de sus memorias sostiene el axioma que errores
positivos y negativos son igualmente probables, y que hay ciertos valores lmites dentro de los
cuales todos los errores se encuentran; los errores continuos son discutidos y se provee una
curva de probabilidad. Simpson discuti varias posibles distribuciones de error. Primero
consider la distribucin uniforme y despus la distribucin triangular discreta simtrica,
seguida por la distribucin triangular continua simtrica.
Ruder Bokovic en 1755 se bas en su trabajo sobre la forma de la Tierra propuesto en el
libro De litteraria expeditione per pontificiam ditionem ad dimetiendos duos meridiani gradus a
PP. Maire et Boscovicli para proponer que el verdadero valor de una serie de observaciones
sera aquel que minimizara la suma de los errores absolutos. En terminologa moderna este
valor es la media.
Johann Heinrich Lamber en su libro de 1765 Anlage zur Architectonic propuso
el semicrculo como una distribucin de errores:
con 1 = x = 1.
Pierre-Simon Laplace (1774) hizo su primer intento de deducir una regla para la
combinacin de observaciones desde los principios de la teora de las probabilidades. El
represent la ley de a probabilidad de errores mediante una curva y dedujo una frmula
para la media de tres observaciones.
Laplace en 1774 not que la frecuencia de un error poda ser expresada como una
funcin exponencial de su magnitud una vez descartado el signo. 7 8 Esta distribucin es
ahora conocida como distribucin de Laplace.
Lagrange propuso una distribucin parablica de errores en 1776:
con -1 = x = 1.
Laplace en 1778 public su segunda ley de errores en la cual not que la
frecuencia de un error era proporcional a la funcin exponencial del cuadrado de
su magnitud. Esto fue descubierto subsecuentemente por Gauss (posiblemente
en 1797) y es ahora mejor conocida como distribucin normal, la cual es de
importancia central en la estadstica.9 Esta distribucin fue referida como
normal por primera vez por Pierce en 1873, quien estaba estudiando las
medidas de error cuando un objeto era dejado caer sobre una superficie de
madera.10 Escogi el trmino normal debido a su ocurrencia frecuente en
variables que ocurran en la naturaleza.
Lagrange tambin sugiri en 1781 otras dos distribuciones para errores una
distribucin coseno:
con -1 = x = 1 y una distribucin logartmica
con -1 = x = 1 donde || es el --valor absoluto-- de x.
Laplace obtuvo una formula (1781) para la ley de facilidad de un error (un
trmino acuado por Joseph Louis Lagrange, 1774), pero esta conllevaba
a ecuaciones inmanejables. Daniel Bernoulli (1778) introdujo el principio
del mximo producto de las probabilidades de un sistema de errores
concurrentes.
Laplace, en una investigacin del movimiento de Saturno y Jpiter en
1787, generaliz el mtodo de Mayer usando diferentes combinaciones
lineales de un grupo de ecuaciones.
En 1802 Laplace estim la poblacin en Francia a 28,328,612.11 l calcul
este nmero usando la cantidad de nacimientos del ao anterior y el dato
del censo de tres comunidades. Los datos de los censos de estas
comunidades mostraron que tenan 2,037,615 personas y que el nmero
de nacimientos era de 71,866. Asumiendo que estas muestras eran
representativas de Francia, Laplace produjo un estimado para la
poblacin entera.
El mtodo de los mnimos cuadrados, el cual era usado para minimizar
errores en la medicin de datos, fue publicado independientemente
por Adrien-Marie Legendre (1805), Robert Adrain (1808), y Carl Friedrich
Gauss (1809).Gauss haba usado el mtodo en s famosa prediccin en
1801 de la localizacin del planeta enano Ceres. Las observaciones en
las que Gauss bas sus clculos fueron hechas por el monje italiano
Piazzi. Posteriormente se dieron demostraciones por Laplace (1810,
1812), Gauss (1823), Ivory (1825, 1826), Hagen (1837), Bessel (1838),
Donkin (1844, 1856), Herschel (1850), Crofton (1870), y Thiele (1880,
1889).
El trmino error probable (der wahrscheinliche Fehler) la desviacin
media fue introducido en 1815 por el astrnomo alemn Frederik
Wilhelm Bessel.
Antoine Augustin Cournot en 1843 fue el primero en usar el trmino
mediana (valeur mdiane) para el valor que divide la distribucin de
probabilidad en dos mitades iguales.
Otros contribuyentes a la teora de errores fueron Ellis (1844), De
Morgan (1864), Glaisher (1872), y Giovanni Schiaparelli (1875).
[cita requerida]
La formula de Peters (1856) para , el "error probable" de una
sola observacin fue ampliamente usada e inspir tempranamente
la estadstica robusta (resistente a valores atpicos: ver criterio de Peirce).
En el siglo 19 los autores de la teora estadstica incluan a included
Laplace, S. Lacroix (1816), Littrow (1833), Dedekind (1860), Helmert
(1872), Laurant (1873), Liagre, Didion, De
Morgan, Boole, Edgeworth,12 and K. Pearson.13 y K. Pearson.14
Gustav Theodor Fechner us la mediana (centralwerth) en fenmenos
sociolgicos y sociolgicos.15 Anteriormente haba sido usado solamente
en astronoma y campos relacionados.
Las primeras pruebas de la distribucin normal fueron inventadas por el
estadstico alemn Wilhelm Lexis en 1870. El nico conjunto de datos
disponible para l, en que le era posible mostrar que estaba normalmente
distribuido, era la frecuencia de nacimientos.
Francis Galton estudi una variedad de caractersticas humanas altura,
edad, peso, tamao de las pestaas, entre otras y encontr que michos
de estos factores podan ser ajustados a una distribucin normal. 16
Francis Galton en 1907 entreg un artculo a la revista Nature acerca de
la utilidad de la mediana.17 El examin la precisin de 787 intentos de
adivinar el peso de un buey en una feria de campo. El peso real era de
1208: la mediana de todas las conjeturas fue 1198 libras. Las conjeturas
fuern marcadamente no normales en su distribucin.
El noruego Anders Nicolai Kir introdujo el concepto de muestreo
estratificado en 1895.18 Arthur Lyon Bowley introdujo el muestreo
aleatorio en 1906. [20] Jerzy Neyman en 1934 hizo evidente que el
muestreo aleatorio estratificado era en general un mejor mtodo de
estimacin que el muestreo intencional (por cuota). 19
El nivel de significacin del 5 % parece ser introducido por Fisher en
1925.20 Fisher expres que las desviaciones que excedan dos veces la
desviacin estndar eran consideradas significativas. Previamente a esto
las desviaciones que excedan tres veces el error probable eran
consideradas significativas. Para una distribucin simtrica el error
probable la mitad del rango intercuantil. El cuantil superior de la
distribucin normal estndar est entre 0.66 y 0.67, su error probable es
aproximadamente 2/3 de la desviacin estndar. Parece que el criterio de
Fisher del 5% tena sus races en la prctica previa.
En 1929 Wilso y Hilferty re-examinaron los datos de Pierce de 1873 y
descubrieron que en realidad no estaba realmente normalmente
distribuida.21

Notas[editar]
Ver Ian Hacking's The emergence of probability22 and James
Franklin's The science of conjecture: evidence and probability before
Pascal.23 Para historias del desarrollo del concepto de probabilidad
matemtica. En la era moderna, el trabajo de Andri Kolmogrov ha sido
imprescindible para la formulacin del modelo fundamental de Teora de
Probabilidades.24

Inferencia[editar]
Charles S. Peirce (1839-1914) formul teoras frecuentistas de estimacin
y prueba de hiptesis (1877-1878) y (1883), cuando introdujo
la confianza. Pierce tambin introdujo experimentos aleatorios
controlados y a ciegas con diseo de medidas repetidas. 25 Pierce invent
un diseo ptimo para experimentos sobre gravedad.

Estadsticas bayesianas[editar]

Pierre-Simon, marques de Laplace, uno de los principales desarrolladores de


la estadstica bayesiana

El trmino "bayesiano" se refiere a Thomas Bayes (1702 1761), quin


prob un caso especial de lo que se conoce hoy como Teorema de
Bayes. Sin embargo fue Pierre-Simon Laplace (17491827) quien
introdujo una visin general del teorema y lo aplic a mecnica celeste,
estadsticas mdicas, confiabilidad y jurisprudencia. Cuando el
conocimiento disponible era insuficiente para especificar una prior
informada, Laplace usaba priores uniformes, de acuerdo a su principio de
razn insuficiente.26 Laplace asumi priores uniformes ms por claridad
matemtica que por razones filosficas.27 Laplace tambin introdujo
versiones primitivas de priores conjugadas y el teorema de von Mises y
Bernstein, de acuerdo a los cuales, las posteriores correspondientes a
priores inicialmente diferentes convergen asintticamente con el
crecimiento del nmero de observaciones.28 Esta temprana inferencia
bayesiana, que usaba priores uniformes de acuerdo con el principio de
Laplace de razn insuficiente, fue llamado probabilidad inversa (debido
a su inferencia hacia atrs desde las observaciones a los parmetros, o
de efectos a causas).29 ).
Despus de los aos veinte, la probabilidad inversa fue suplantada en su
mayora por una coleccin de mtodos desarrollados por Ronald A.
Fisher, Jerzy Neyman y Egon Pearson. Sus mtodos fueron llamados
estadstica frecuentista.29 Fisher rechaz el enfoque bayesiano,
escribiendo que la teora de la probabilidad inversa est fundada sobre
un error, y debe ser rechazada por completo.30 Al final de su vida, sin
embargo, Fisher expres un gran respeto por los ensayos de Bayes, los
cuales Fisher crea que haban anticipado su propio enfoque fiducial a la
probabilidad; Fisher an mantena que la visin de Laplace de las
probabilidades era sinsentido falaz.30Neyman comenz como un
cuasibayesiano, pero con el tiempo desarroll los intervalos de
confianza (un mtodo clave estadsticas frecuentistas) porque la teora
completa sera mejor si estuviera construida desde el comienzo sin
referencia al bayesianismo y las priores.31 La palabra bayesiano apareci
en 1930 y para 1960 se convirti en el trmino preferido por aquellos que
no estaban satisfechos con las limitaciones de las estadsticas
frecuentistas.29 32
En el siglo XX, las ideas de Laplace fueron desarrolladas posteriormente
en dos direcciones, dando origen a las corrientes objetivas y subjetivas en
la pctica bayesiana. En la corriente objetiva, el anlisis estadstico
depende solo del modelo asumido y el dato analizado. 33 No hay
necesidad de involucrar decisiones subjetivas. En contraste, los
estadsticos subjetivos niegan la posibilidad de un anlisis
completamente objetivo en el caso general.
En el subsiguiente desarrollo de las ideas de Laplace, las ideas subjetivas
predominaron sobre las objetivas. La idea de que la probabilidad
debera ser interpretada como el grado de creencia subjetivo en una
proposicin fue propuesto, por ejemplo, por John Maynard Keynes a
comienzos de la dcada de 1920. Esta idea fue llevada ms lejos por
Bruno de Finetti en Italia (Fondamenti Logici del Ragionamento
Probabilistico, 1930) y Frank Ramsey en Cambridge (The Foundations of
Mathematics, 1931).34 El enfoque fue diseado para resolver problemas
con la definicin frecuentista de la probabilidad, pero tambin con el
anterior enfoque objetivo de Laplace.33 El mtodo subjetivo bayesiano fue
sucesivamente desarrollado y popularizado en los aos cincuenta por
L. J. Savage.
La inferencia objetiva bayesiana fue desarrollada con posterioridad
por Harold Jeffreys, cuyo libro "Theory of probability" apareci en 1939.
En 1957, Edwin Thompson Jaynes promovi el concepto de entropa
mxima para construir priores, el cual es un principio importante en la
formulacin de mtodos objetivos, principalmente para problemas
discretos. En 1965, el segundo volumen de Dennis Lindley "Introduction
to probability and statistics from a bayesian viewpoint" llev los mtodos
bayesianos a un pblico ms amplio. En 1979, Jos-Miguel Bernardo
introdujo el anlisis referencial,33 el cual ofrece un marco de trabajo
general aplicable para el anlisis objetivo. Otros de los ms populares
proponentes del bayesianismo incluyen a I. J. Good, B. O. Koopman,
Howard Raiffa, Robert Schlaifer y Alan Turing
En los aos ochenta hubo un crecimiento dramtico en investigaciones y
aplicaciones de mtodos bayesianos, mayormente atribuibles al
descubrimiento de los mtodos Markov chain Monte Carlo, los cuales
eliminaron, muchos de los , y al creciente inters en aplicaciones
complejas y no estndares.35 A pesar del crecimiento de la investigacin
bayesiana, la mayora de la enseanza universitaria est basada en
estadsticas frecuentistas.36 Sin embargo, los mtodos bayesianos son
ampliamente aceptados y usados, por ejemplo, en el campo
de aprendizaje de mquinas.37

Estadsticas en la actualidad[editar]
Durante el siglo 20, la creacin de instrumentos precisos para la
investigacin en agricultura, problemas de salud
pblica (epidemiologa, bioestadsticas, etc.), control de calidad industrial
y propsitos econmicos y sociales (tasa de desempleo, econometra,
etc.) necesitaron de los avances substanciales en la prctica de la
estadstica.
Hoy el uso de la estadstica se ha ampliado ms all de sus orgenes.
Individuos y organizaciones usan las estadsticas para entender los datos
y hacer decisiones informadas a travs de las ciencias naturales y
sociales, medicina, negocios y otras reas.
La estadstica es generalmente considerada no como una rama de las
matemticas, sino como un campo distintivo e independiente.
Muchas universidades mantienen separados los departamentos de
matemtica y estadstica. La estadstica es tambin enseada en
departamentos tan diversos como psicologa, pedagoga y salud pblica.

Importantes contribuyentes a la
estadstica[editar]
Thomas Bayes

George E. P. Box

Pafnuty Chebyshev
David R. Cox

Gertrude Cox

Harald Cramr

Francis Ysidro Edgeworth

Bradley Efron

Bruno de Finetti

Ronald A. Fisher

Francis Galton

Carl Friedrich Gauss

William Sealey Gosset (Student).

Andrey Kolmogorov

Pierre-Simon Laplace

Erich L. Lehmann

Aleksandr Lyapunov

Abraham De Moivre

Jerzy Neyman

Blaise Pascal

Karl Pearson

Charles S. Peirce

Adolphe Quetelet

C. R. Rao

Walter A. Shewhart

Charles Spearman

Thorvald N. Thiele
John Tukey

Abraham Wald