AnalDatos New

Introduccin al anlisis estadstico de datos de datos
Juan A. Garzn / USC
No hay medida sin error ni hortera sin transistor

(Refranero popular)
Sobre errores e incertidumbres

Toda medida est afectada de un error: Llamamos error a la diferencia entre el resultado de una medida y en valor buscado (o valor verdadero). Es una cantidad desconocida de la que solo podremos conocer, o hacer hiptesis, su comportamiento estadstico
Errores estadsticoso
Valor buscadoo
Errores estadsticos y sistemticoso
Error ocasional
- Errores estadsticos: se pueden hacer hiptesis sobre su comportamiento y evolucin - Errores sistemticos: son muy difciles de estimar. Se pueden acotar mediante la medida de un valor patrn

La incertidumbre es una cantidad que permite asignar un cierto grado de conanza al resultado de una medida y determinar la probabilidad de que el resultado de la medida est mas o menos cerca del valor buscado.
Ejemplo: Se ha medido una variable a y el resultado nal ha proporcionado un valor a=10.4, con una incertidumbre a=0.4. Escribimos: a =10.6 0.4 Si suponemos que la incertidumbre tiene un comportamiento gaussiano el resultado indica que (como ya veremos) el valor que estamos midiendo: - tiene una probabilidad del 68% de estar entre 10.2 y 11.0 (a 1 desviacin tpica) - tiene una probabilidad del 95% de estar entre 9.8 y 11.4 (a 2 desviaciones tpicas) - etc.
(Interpretacin inversa de la probabilidad)

- Incertidumbres estadsticas: Son las debidas a los errores estadsticos. Se pueden reducir aumentando el nmero de datos (aumentando la estadstica) - Incertidumbres no estadsticas: Son las debidas a todos los errores no estadsticos (sistemticos, ocasionales,...). Solo se pueden reducir mejorando el procedimiento de medida. Se pueden acotar midiendo un valor patrn.
En rigor, ambas incertidumbres no deben de componerse y deben de ser representadas por separado. Ejemplo: g = 9.817 (0.023)noest (0.015)est
m.s-2
Propagacin de incertidumbres estadsticas
Dos variables: Sea la variable x relacionada con las variables a y b a travs de la relacin analtica: x = f(a,b) Si se conocen las incertidumbres estadsticas a y b, la incertidumbre estadstica de x viene dada por la relacin: 2x = (f/a)2.2a + (f/b)2.2b
La extrapolacin a varias variables es inmediata
Algunos casos particulares: x = a+b o x = a-b x = ab o x = a/b Ejemplos : (x) 2 = (a)2 + (b)2 (x/x) 2 = (a/a)2 + (b/b)2
Incertidumbres estadsticas y sistemticas

Ejemplo: Se desea calcular la aceleracin de la gravedad mediante un experimento de caida libre. Para ello se deja caer un cuerpo desde una altura h=2.100m y se mide varias veces el tiempo de llegada al suelo obtenindose los siguientes resultados, en segundos:
0.654, 0.658, 0.655, 0.652, 0.654, 0.654, 0.655, 0.652, 0.653 y 0.654 El valor medio de las medidas es: La dispersin de las medidas es: La dispersin o incertidumbre en <t> <t> = 1nti = 0.6541 n-1 = 1(n-1)(ti-<t>)2 = 0.0017 t = 1n n-1 = 0.0005
Frmulas: g = 2 2.100m 0.6541 s2 = 9.817 m.s-2 Incertidumbres:
La incertidumbre de la altura h suponemos que es no estadstica. No se dice nada de ella as que suponemos que solo se ha medido una vez con una precisin de 1mm (ltima cifra signicativa). En este caso, la resolucin est dada por:
h = 0.001m 12 = 0.0003m gNoEstad = g.dhh = 9.8 0.0003 2.1 = 0.0014 gEstad = g. 2 dtt = 9.8 1.4 0.0005 0.65 = 0.011
y:
Finalmente : g = 9.817 ( 0.001)NoEstad ( 0.011)Estad m.s-2

En rigor, una probabilidad (o una densidad de probabilidad) est asociada a la magnitud que se mide amed, no a la que se busca abusc. Cuando se escribe (suponiendo incertidumbres gaussianas) que el resultado de una medida ha sido: amed = 100 1 Su signicado es Si abusc fuese mayor o igual que 99, amed estara a menos de una desviacion tipica de abusc Si abusc fuese menor o igual que 101, amed estara a menos de una desviacion tipica de abusc Es decir: 99 y 101 denen un intervalo tal que: Si abusc estuviese dentro de dicho intervalo, la probabilidad de haber observado nuestra medida sera mayor del 68%.
De idntica forma se interpretaran el intervalo (98,102), asociado a un probabilidad del 95.4%, ... etc.
Interpretacin inversa de la probabilidad: En un ejemplo como el anterior, es habitual decir: El valor buscado a tiene una probabilidad del 68% de encontrarse en el intervalo (99,101)
Sin embargo, dicha as, la expresin es incorrecta, puesto que el valor buscado est o no est en dicho intervalo y no se le puede asociar una probabilidad
Sobre intervalos e ndices de conanza

Alrededor del valor medio de una distribucin se pueden denir un intervalo de conanza relacionado con la probabilidad de que una medida est o no dentro de dicho intervalo (que no tiene por que estar centrado en el valor medio). A la probabilidad asociada a dicho intervalo se le denomina nivel de conanza o (1-). A se la denomina, a veces, signicacion estadistica.
Ejemplo: En una distribucin gaussiana
1-=95% /2 /2
As, en una distribucin gaussiana, al intervalo centrado en su valor medio con un anchura de 4 le corresponde un nivel de conanza del 95%. En el caso de distribuciones no simtricas (como la distribucin de Poisson) dado un cierto nivel de conanza, el intervalo de conanza puede ser elegido no simtrico. En ese caso, se puede elegir un intervalo centrado o bien aquel que sea menor.
La medida
Ej: Medida de la longitud de una varilla con una regla Se dan varias posibilidades:
a: La medida proporciona siempre el mismo valor
30
b: La medida proporciona distintos valores

30
# (num.) medidas
20
# (num.) medidas
24
20
10
10
1
0 19.0 19.2
7
19.4
9 2
19.6
1
19.8 20.0
19.0
19.2
19.4
19.6
19.8
20.0
Longitud (cm)
Longitud (cm)
Aparentemente es el caso mas favorable Sin embargo: - La repeticin de la medida no aporta ventajas - No se puede obtener mejor resultado que el proporcionado por la precisin del aparato de medida: el intervalo mnimo de medida (Ej: L=19.5)
Aparentemente es el caso mas desfavorable Sin embargo (bajo ciertas condiciones): - La repeticin de la medida permite mejorar el conocimiento de la magnitud medida - La calidad (incertidumbre) de la medida se puede mejorar tanto como se quiera aumentando el nmero de medidas
Tablas, Histogramas y distribuciones

Cuando se dispone de una serie de medidas de una misma magnitud el primer paso es agruparlas en una tabla y representarlas en forma de histograma o distribucin. Ejemplo:
Sea un conjunto de 24 medidas de la longitud de una varilla. Existen diversas formas de agrupar los datos:
Inicio de intervalo(cm) 19,0 19,1 19,2 19,3 19,4 19,5 19,6 19,7 19,8 19,9 Anchura del intervalo(cm) 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 Total: Num. de entradas 0 0 1 4 7 9 2 0 1 0 24 Num. Entradas/ Ancuhra Intervalo 0,0 0,0 10,0 40,0 70,0 90,0 20,0 0,0 10,0 0,0 240,0 Num. Entradas/ Anchura.NumSucesos 0,00 0,00 0,40 1,70 2,90 3,80 0,80 0,00 0,40 0,00 10,00
Histograma
Distribuciones
Tablas, Histogramas y Distribuciones

10 8 # Cuentas 6 4 2 0 1 19.0 19.2 19.4 19.6 4 2 1 19.8 20.0 7 9
Histograma: Suma de altura de las barras = Nsucs
Longitud (cm) 100 # Cuentas/ Intervalo 80 60 40 20 0 10 19.0 19.2 19.4 19.6 40 20 10 19.8 20.0 70
90
Distribucin: Integral (suma de supercie de las barras) = Nsucs

(Esta ser la distribucin que deba de compararse con una distribucin matemtica no normalizada)
Longitud (cm) 3,80 #Cuentas/NTot/Invervalo 3,04 2,28 1,52 0,80 0,76 0 0,40 19.0 19.2 19.4 19.6 0,40 19.8 20.0 2,90 3,80
Distribucin normalizada: Integral (suma de supercie de las barras) = 1

(Esta ser la distribucin que deba de compararse con una distribucin matemtica normalizada)
1,70
Longitud (cm)
Medidas caractersticas de una distribucin

Sea un conjunto de N medidas: x1, x2, x3...xN
Medidas de centralizacin:
- Valor medio o media aritmtica:
x= i=1 xi/N
Si los datos estn agrupados en k intervalos, cada uno centrado en mj y con nj entradas:
k x=j=1 (nj/N) mj
k j j x= j=1 p.m
siendo nj /N = pj la probabilidad (frecuentista) de obtener una medida en el intervalo j

(nota: ambas deniciones de valor medio pueden diferir ligeramente)
- Mediana, xM: Es aquel valor tal que, ordenados en magnitud los datos, hay un mismo nmero de ellos por encima y por debajo de dicho valor - Moda, xm: Es el valor mas frecuente

Sea un conjunto de N medidas: x1, x2, x3...xN
Medidas de dispersin:
- Desviacin tpica:
s = i=1 (xi- x)2/N

N
sN-1 = i=1 (xi- x)2/(N-1)

N
Si los datos estn agrupados en intervalos o clases,
s =j=1 (xj- x)2.pj

k
- Varianza: Es el cuadrado de la desviacin tpica: V = s2
Otras medidas:
- Residuo:
ri = xi - x
- Momento de orden k:
k = 1 N j=1 (xj- x )k
Nota: Los momentos son tambin medidas de dispersin: La varianza es el momento de orden 2: V=2

Algunos comentarios: Las medidas caractersticas permiten reducir un nmero muy grande de datos a unos pocos valores: el valor de centralidad, el de dispersin.... Si se conoce la distribucin matemtica de los datos, la prdida de informacin es muy pequea e, incluso, nula. - El valor medio es quizs la medida de centralidad mas utilizada. - Es fcil de calcular y de programar en las calculadoras de bolsillo por mtodos recurrentes. Utiliza la informacin de todos los datos. - Sin embargo: Es muy sensible a algn dato anmalo. No verica, en general, que: x2 = x 2 - La mediana solo tiene en cuenta el orden de los datos, y no su magnitud, por lo que no se altera mucho si alguna observacin tiene un gran error. S verica, por ejemplo, que x2M = xM2 - El uso de los ordenadores han facilitado su clculo por lo que su uso se est extendiendo - La moda es til en aquellos casos en que los datos siguen una distribucin matemtica no normalizable (P. Ej._ Distribucin de Breit-Wigner o de Cauchy) - Los tres valores son aproximadamente iguales si los datos tienen una distribucin casi simtrica
Las medidas caractersticas dependen del tipo de distribucin que siguen los datos y apenas cambian cuando el nmero de medidas se hace muy grande

Ejemplo:
Sea el caso de un conjunto de datos que se han ido agrupando en un histograma segn se tomaban (no se dispone de los valores individuales) Utilizamos las frmulas para datos agrupados:
30
Valor medio: Mediana: Moda:
x = 19.45
xM = 19.45 =(19.4+19.5)/2 xm = 19.5
# (num.) medidas
20
10
Varianza: V = 0.15 Desviacin tpica: s = 0.12
1
0 19.0 19.2
9 2 1
19.8 20.0
19.4
19.6
Longitud (cm)
Comentarios: - Obsrvese que se verica la desigualdad de Tchebychev, que dice: El nmero de medidas entre el valor medio x y k veces la desviacin tpica s es como mnimo: 100(1- 1 )%
k2
Ej: Para k= 2, entre 19.18 y 19.66, hay 21 medidas ( > 18 = 24[1-0.25])
Anlisis estadstico de datos

El anlisis de datos permite extraer de una medida o de un conjunto de medidas la informacin que requiere el observador. Tras una toma de datos, suele darse algunos de los casos siguientes: - Los datos se distribuyen siguiendo alguna cierta distribucin matemtica conocida
El problema consiste en determinar el o los parmetros caractersticos de la distribucin y su incertidumbre: un nmero que permita estimar (en ausencia de errores sistemticos graves) cuan probable es que los valores medidos se encuentren a una cierta distancia de los valores buscados: Ej. Distribuciones binomial, Poisson, gaussiana, Chi2...
- Los datos se distribuyen siguiendo una distribucin fsica para la que se puede disponer o no de un modelo fsico
El problema consiste en determinar la mejor forma funcional de la distribucin, y los parmetros que la denen, con sus incertidumbres, asignando algn ndice de calidad (o de conanza) a las diversas formas funcionales propuestas. Ej. Distribucin de masa invariante de los productos de la desintegracin de una partcula inestable, los niveles de energa en un espectro....
- El resultado ha sido negativo y no se tienen datos

En este caso, si existe algn modelo previo, el problema consiste en estimar cotas a los parmetros del modelo, con sus incertidumbres: Ej. Probabilidad de desintegracin del protn
Distribuciones matemticas y distribuciones fsicas

Distribuciones matemticas:
Los datos se distribuyen siguiendo alguna distribucin matemtica conocida:
Ejemplos de la medida de una misma variable fsica con un comportamiento aproximadamente gaussiano. La medida de la izquierda tiene mejor resolucin (menor dispersin) que la medida de derecha)
Resonancia: Distribucin de Breit-Wigner
Distribuciones fsicas:
Los datos se distribuyen siguiendo una distribucin fsica para la que se puede disponer o no, totalmente o parcialmene, de un modelo fsico:
Fondo polinmico
El logbook (o cuaderno de bitcora)

El logbook es un cuaderno donde se escriben los datos de un experimento, se anotan las incidencias, comentarios... Normalmente consta la siguiente informacin: - Fecha y hora de la toma de datos y nombre de los investigadores: - Disposicin geomtrica del experimento y cualquier consideracin que se considere til para el posterior anlisis. - Lista de datos que toman - Anlisis previo e inmediato de los datos. Este aspecto es muy importante: El anlisis previo muestra que la toma de datos est siendo correcta y que puede continuarse. En el caso en que se detecte algn problema, es el momento de modicar la conguracin del experimento, tomar datos durante mas tiempo, modicar los intervalos de medida... Consejos: En el logbook debe de escribirse con la mayor claridad posible para que cualquier investigador (incluido el que hace las anotaciones; olvidar es muy fcil) pueda entender con posterioridad el trabajo realizado Es preferible ser redundante a ser parco en los comentarios. Toda informacin (fuente utilizada, energa de la radiacin, fecha de calibracin, tensin del detector, umbrales en la electrnica, etc.) puede ser til con posterioridad En el caso de contajes, ajustar los tiempos de medida de acuerdo con el ritmo de cuentas. Si se repiten medidas y los resultados entre ellas son compatibles sumar los resultados para mejorar la incertidumbre
Pgina del logbook de un experimento en el detector de neutrinos subterraneo de Kamiokande en el momento de detectar un neutrino proveniente del acelerador KEK, situado a mas de 250km de distancia
Algunos logbooks famosos
1956: Luis Alvarez

Cuaderno describiendo el diseo de un cmara de burbujas de su invencin.
1977: Martin Perl 1973: Raymond Davis

Cuaderno con comentarios sobre un tanque con nitrato de calcio para estudiar el fondo de neutrones a distintas profundidades de la mina.
1974: Burton Richter

Descubrimiento de la partcula J/ Hoja mostrando el nmero de hadrones producidos en la aniquilacin e+e- en funcin de la energa en el centro de masas
Descubrimiento del lepton tau. Cuaderno mostrando los datos experimentales obtenidos y las curvas correspondientes a diversos decaimientos en dos o tres partculas.
Mas logbooks menos famosos
Probabilidad y Densidad de Probabilidad

Probabilidad:
Sea un conjunto discreto de posibles medidas exclusivas de una variable a: A={a1, a2... ak}. La funcin real P es una probabilidad si se verica: a) P(ai) 0 i b) P(ai o aj) = P(ai) + P(aj) c) ik P(ai) = 1
(Axiomas de Kolmogorov)
Ejemplo: Cul es la probabilidad de obtener cara (c) o cruz (f) lanzando una moneda al aire? 1. Por b) y c) P(c) + P(f) = 1 2. Por hiptesis de simetra: P(c) = P(f) 1. y 2. P(c) = P(f) = 0.5 Problema: Qu ocurre si la moneda no es simtrica y no es cierta la hiptesis 2.?
Probabilidad (Denicin frecuentista) Dado un conjunto discreto de N medidas de una variable a: A={a1, a2... ak}, se dene: P(ai) = ni/N siendo ni el nmero de observaciones del resultado a =ai.
Ejemplo: Cul es la probabilidad de obtener cara (c) o cruz (f), lanzando una moneda al aire, si ha lanzado 100 veces y se han obtenido 54 veces cara y 46 veces cruz? P(c) = 56/100 = 0.54 y P(f) = 44/100 = 0.46
Problema: Para obtener un resultado mas preciso hay que realizar mas medidas (y ello no siempre es posible). Qu ocurre si estamos sesgando los lanzamientos y el recuento no es correcto?

Funcin densidad de probabilidad: f(x)
Sea A=(xi,xf) un intervalo continuo de posibles medidas exclusivas de una variable x. Una funcin real f x) es una funcin de densidad de probabilidad si verica: a) f(x) 0 x(xi,xf) b)
xf xi f(x)dx
=1
Por extensin se puede denir la probabilidad de un subconjunto BA P(B), como: P(B) = B f(x)dx
Funcin de distribucin o Funcin cumulativa: F(x) x Se dene como: F(x) = xif(x)dx

Ejemplo: Funcin de densidad f(x) y funcin de distribucin F(x) de la posicin de una aguja de un reloj.
Por denicin: P(x1,x2) = x f(x)dx 1

x2
x1 x2
F(x2) F(x1)
x1
x2
Parmetros caractersticos de distribuciones matemticas

Al igual que para las distribuciones experimentales de datos, a las distribuciones matemticas de probabilidad (discretas y continuas) se le pueden asignar las medidas de centralidad y de dispersin correspondientes: Distribuciones discretas Distribuciones contnuas
Valor esperado o media: E(x)
Varianza: V=E[(x-)2]
Desviacin tpica:
Medidas caractersticas de distribuciones matemticas

Los parmetros caractersticos de la distribucin de unos datos son estimadores de los parmetros caractersticos de la correspondiente distribucin matemtica. As: x es un estimador de Vdat. es un estimador de Vmat. En el caso de datos con distribucin gaussiana, el valor medio x se distribuye alrededor del valor esperado segn una distribucin gaussiana con dispersin: 1 x = sN-1 VN siendo N el nmero de medidas.
Obsrvese que sN-1 es una caracterstica de la distribucin experimental y permanece aproximadamente constante cuando N se hace muy grande. x decrece como 1/VN y se hace ms pequeo segn aumenta el nmero de medidas. Por eso, es benecioso aumentar el numero de medidas (aunque llega un momento en que no es prctico y es mejor mejorar otros aspectos del experimento)
sN-1 es un estimador centrado de la dispersin matemtica mat. El factor (N-1) corrige el hecho de estar calculado con el valor medio de x en vez de con el valor esperado .

Probabilidad condicionada:
Sea el caso en que se miden dos variables a y b con valores posibles, no exclusivos, contenidos respectivamente en los conjuntos A={a1, a2... ak} y B={b1, b2... bm}. Se dene P(ai|bj), o la probabilidad de ai condicionada a que se ha producido bj, a aquella cantidad que verica: P(ai y bj) = P(ai|bj)P(bj) = P(bj|ai) P(ai) Si P(ai|bj) = P(ai) ai y bj son independientes P(ai y bj)=P(ai)P(bj)
Ejemplo: En la baraja espaola sean, por ejemplo, las siguientes observaciones: a oro : P(a) = 10/40 = 1/4 b rey: P(b) = 4/40 = 1/10 a y b rey de oros: P(a y b) = 1/40 Segn la denicin: P(a|b) = (1/40) / (1/10) = 1/4 ( Probabilidad de ser oro, si es un rey) P(b|a) = (1/40) / (1/4) = 1/10 ( Probabilidad de ser rey, si es un oro) Se verica: P(a|b) = P(a) y P(b|a) =P(b) Ser rey y ser oro a la vez son observaciones independientes

Teorema de Bayes:
A partir de la denicin de probabilidad condicional es fcil observar que: P(ai|bj) = P(bj|ai)P(ai) P(bj )
Esta relacin permite calcular una probabilidad condicionada, conocidas las probabilidades individuales y la probabilidad condicional inversa
Ejemplo: En la Faculta de Fsica de la Univ. de Santiago de Compostela, en la especialidad de Fsica de Partculas hay un 70% de chicos. En toda la Facultad hay el mismo nmero de chicas y de chicos y la proporcin de estudiantes que eligen la especialidad de Fsica de Partculas es del 30%. Qu probabilidad hay de que un cierto estudiante est en la especialidad de Partculas? Probabilidad (F. Partculas|Chico) = Prob (Chico|FPartculas). Prob(FPartculas)/Prob (Chico) luego: Probabilidad (F. Partculas|Chico) = 0.7 0.3 / 0.5 = 0. 42 = 42%
Anlisis Bayesiano
El uso del teorema de Bayes se puede extender mas all del concepto de probabilidad y aplicarlo en el llamado test de hiptesis. Esta tcnica estadstica intenta asignar una probabilidad a una cierta hiptesis cmo si se tratase de una variable. Si Hi es una hiptesis, de entre un conjunto de posibles hiptesis vlidas, y a es una cierta observacin, o un conjunto de datos, el teorema de Bayes aplicado a una hiptesis dice:
P(Hi|a) =
P(a|Hi)P(Hi) P(a )
Anlisis Bayesiano
Comentarios: - El teorema supone aplicar una probabilidad a una hiptesis P(Hi), lo que es algo complicado (Ej: cul es el espacio de hiptesis, como se normaliza su probabilidad...?) - Una misma hiptesis se puede expresar de forma diferente pudiendo dar lugar a resultados diferentes. (Ej: masa>0 o masa3>0 son matemticamente iguales. Qu condicin se aplica? ) - El anlisis bayesiano permite tener en cuenta la informacin previa acerca de una cierta hiptesis algo que las tcnicas clsicas no hacen (desperdiciando informacin) o hacen a posteriori (ignorando la informacin previa)
Ejemplo: Se mide una cierta magnitud a, obtenindose el valor a=93. En otro momento se mide nuevamente de forma independiente obtenindose el valor a=101. Qu se puede decir del valor de a? Las tcnicas clsicas consideran las dos medidas independientes. Las tcnicas bayesianas tienen en cuenta la medida previa, lo que, de alguna forma, reduce el espacio de posibles los posibles resultados de a deformando su distribucin de probabilidad y proporcionando un valor ligeramente diferente.
Analisis Bayesiano
Un ejemplo: La masa del neutrino del electrn: Durante mucho tiempo diversos experimentos proporcionaban para el neutrino masas negativas. En ese caso no se puede aplicar el anlisis clsico de intervalos de conanza y niveles de conanza. Es mejor proceder a un tipo de anlisis alternativo conocido como anlisis bayesiano.
PDG 1994
m2 < 0!
Tcnicas clsicas: La masa del neutrino (en concreto m2) se determina en el decaimiento del tritio, como la masa restante de los productos de la desintegracin. Debido a la dicultad de corregir los errores sistemticos, el anlisis clsico ha proporcionado valores negativos! con una probabilidadde ser positiva del 3.5%! Tcnicas bayesianas: Imponen a priori la condicin de que la masa sea positiva (y m2>0). Proporcionan, por tanto, valores positivos (aunque la estimacin de intervalos de probabilidad se hace mas complicada)
Anlisis bayesiano
Un ejemplo de la vida corriente:
IMDb: IMovieDatabase, la mejor base de datos sobre cine IMDb: Su clasificacin sobre las mejores pelculas
IMDb: Su procedimiento para valorar las pelculas
Norma bsica: Precaucin y sentido comn

- Precaucin al tomar medidas caractersticas precisas sobre un nmero pequeo de intervarlos: El resultado puede depender de la eleccin de intervalos
- Precaucin al trabajar con histogramas con muchos intervalos conteniendo muy pocos sucesos. Es mejor agrupar los intervalos y trabajar con menos intervalos aunque mas poblados.
Algunas distribuciones de probabilidad
Distribucin Binomial
Los recuentos de una cierta magnitud discreta se agrupan siguiendo una distribucin Binomial si podemos suponer que se dan las siguientes condiciones: 1. La magnitud solo admite dos valores: Exito o Fracaso (o Cara o Cruz, Si o No,...) 2. La probabilidad de xito (o fracaso) es constante 3. El nmero de recuentos es siempre el mismo La expresin analtica de una distribucin binomial depende de 1 parmetro, p, y es de la forma:
Representa la probabilidad de obtener k xitos, en N intentos, siendo la p la probabilidad de tener un xito en un intento.
Ejemplos: - El nmero de veces que salen 6 caras, con una moneda en 10 intentos - El nmero de veces que sale un 2 con un dado, cada 10 intentos - El nmero de veces que una partcula sale hacia detrs en el experimento de Rutherford en intervalos iguales de tiempo
Distribucin Binomial
Algunos casos de distribucin binomial:
Comentario: Todo recuento de una variable de la que solo hay dos valores posibles, y sus probabilidades son constantes en el tiempo, sigue una distribucin binomial.
Distribucin de Poisson
Un conjunto de contajes (de una magnitud discreta) se agrupan siguiendo una distribucin de Poisson si podemos suponer que se dan las siguientes condiciones: 1. La produccin de cada cuenta es independiente y aleatoria 2. La probabilidad de cada suceso (cada cuenta) es constante 3. Los sucesos se producen a ritmo constante La expresin analtica de una distribucin de Poisson depende de 1 parmetro es de la forma:
La variable k solo toma valores enteros, aunque el parmetro puede no ser entero.
El parmetro es el valor esperado de las medidas!
Ejemplos: - El nmero de desintegraciones radiactivas de una fuente de larga vida media por unidad de tiempo - El nmero de latas de refresco por kilmetro en la cuneta de una carretera - El nmero entradas en un intervalo de un histograma
Comentario: En general, todos los contajes de sucesos independientes y de baja probabilidad, que se producen a ritmo constante, se supone que se distribuyen segn una distribucin de Poisson
La distribucin de Poisson se obtiene como lmite de la distribucin binomial cuando se hace: p 0 y N manteniendo p.N = cte. Requrdese que, en la binomial: = N.p y V = N.p.(1-p) Tras el clculo de los lmites: = N.p y V= .(1-p) V= (Poisson)
/2 Distribucin de Poisson: Intervalos de conanza
k Distribuciones de Poisson que denen el intervalo de conanza (1,2) asociado al nivel de conanza (1-). (a): P(x>k)=1/2(1-) (b) P(x<k)=1/2(1-). Cualquier distribucin de Poisson con parmetro dentro de (1,2) contendr al valor k en su intervalo de probabilidad .
Ejemplo de intervalo de conanza no simtrico
Distribucin Gaussiana o Normal

Un conjunto de medidas (de una magnitud continua) se agrupan siguiendo una distribucin gaussiana si podemos suponer que se dan las siguientes condiciones: 1. Cada una de las medidas est afectada por innitos factores incontrolables y aleatorios 2. Cada uno de los factores modica la medida en una cantidad innitesimal 3. Los factores pueden afectar a la medida por exceso o por defecto con la misma probabilidad La expresin analtica de una distribucin gaussiana depende de 2 parmetros independientes: y , y toma la siguiente forma:
El factor constante que aparece delante de la exponencial es el factor de normalizacin.

Nota: La distribucin gaussiana no es integrable analticamente. Curiosamente, s es integrable la distribucin gaussiana bidimensional P(x,y).
Comentario: En general, toda las medidas continuas de una magnitud constante, realizadas con suciente precisin y sin sesgos y sin contribuciones importantes al error, se puede suponer que se agrupan segn una distribucin gaussiana
Distribucin Gaussiana o Normal

Su representacin grca es:
fmax 0.6 fmax 0.5 fmax
Ejemplo, en escala logartmica:
FWHM=2.32
Algunas propiedades:
Colas no gaussianas!
- f(x=)= 0.6 fmax - La Anchura de la Funcin a Mitad de la Altura, FWHM (Full Width at Half Maximum) = 2.32 - Valor de la integral entre distintos invervalos de probabilidad:
Extremo Inferior Extremo superior Integral
- -2 -3 -4
+ +2 +3 -4
68% 95,4% 99,7% 99,99%
Comparacin de distribuciones de Poisson y Gaussiana
Distribucin Normal Tipicada

La distribucin normal centrada de =0 y con anchura =1 se la llama distribucin normal tipicada o distribucin normal N(0,1)
Los valores de esta distribucin son los que habitualmente vienen en las tablas estadsticas o los que producen los generadores de nmeros aleatorios de los ordenadores. Transformacin para pasar de: N(0,1) Transformacin para pasar de: N(,) N(,): x = (xnorm +) N(0,1): xnorm = (1/) (x-)
Distribucin gaussiana: Intervalos de conanza
Ejemplo de intervalo de conanza simtrico
Distribucin Chi2 (o Chi Cuadrado)

Los resultados de la medida de una variable contnua se agrupan segn un distribucin Chi cuadrado, o Chi2 de k grados de libertad si se verica: -Dicha variable es la suma de los cuadrados de k variables con distribucin gaussiana N(0,1) -Dicha variable es la suma de los cuadrados de n variables con distribucin gaussiana N(0,1) entre las que existen n-k ligaduras o relaciones independientes que las relacionan
- La variable z toma solamente valores positivos. Sus parmetros caractersticos son:
- La distribucin de Chi2 es muy til en las tcnicas de determinacin paramtrica
Chi2 o Chi Cuadrado
Distribuciones de Chi cuadrado para diferentes grados de libertad, n
Chi2 o Chi Cuadrado
Ejemplo: Sean x, y y z tres variables que siguen una distribucin N(0,1) y tales que x+y+z=cte. Entonces, el resultado de la medida de la variable n=x2+y2+z2 sigue una distribucin Chi cuadrado con k=3-1=2 grados de libertad.
Ejemplo: Sea un conjunto de variables xi, que se miden independientemente y que siguen distribuciones normales de la forma N(i,i). Entonces, la cantidad, Texto
se espera que siga una distribucin de Chi2 con n grados de libertad.
Chi2 o Chi Cuadrado

Para la distribucin de Chi2 se dene el Nivel de Conanza (o C.L) asociado a un cierto valor de la funcin 2, como:
Esta cantidad est tabulada para diferentes valores del grado de libertad k
(y est incorporada a las funciones de la librera de casi todos los programas de anlisis estadstico de los ordenadores)
C.L
Resumen de principales distribuciones estadsticas

10
31. Probability
Table 31.1. Some common probability density functions, with corresponding characteristic functions and means and variances. In the Table, (k ) is the gamma function, equal to (k 1)! when k is an integer. Distribution Uniform Probability density function f (variable; parameters) f (x; a, b) = 1/(b a) 0 axb otherwise Characteristic function (u) eibu eiau (b a)iu (q + peiu )N Mean Variance 2 a+b 2 Np (b a )2 12 N pq
Binomial
f (r ; N, p) = r = 0, 1, 2, . . . , N ;
N! pr q N r r !(N r )! 0p1 ;
q =1p >0 exp[ (eiu 1)]

2 2 exp(iu 1 2 u )
Poisson
f (n ; ) =
n e ; n!
n = 0, 1, 2, . . . ;
Normal (Gaussian)
f (x; , 2 ) =
1 exp((x )2 /2 2 ) 2 < < ; 1 (2 )n/2 |V | >0
< x < ; Multivariate Gaussian f (x; , V ) =
T exp i u 1 2u V u
Vjk
T 1 exp 1 (x ) 2 (x ) V
< xj < ; 2 f (z ; n ) =
< j < ; z n/21 ez/2 ; 2n/2 (n/2)
|V | > 0 (1 2iu)n/2 n 2n
z0
(n+1)/2
Students t
[(n + 1)/2] 1 f (t; n) = (n/2) n < t < ;
t2 1+ n
n not required to be integer (1 iu/)k
n/(n 2) 0 for n 2 for n 3
Gamma
f (x; , k ) =
xk1 k ex ; 0<x<; (k ) k not required to be integer
k/
k/2
References: 1. H. Cram er, Mathematical Methods of Statistics, (Princeton Univ. Press, New Jersey, 1958). 2. A. Stuart and J.K. Ord, Kendalls Advanced Theory of Statistics, Vol. 1 Distribution
Test de hiptesis: Determinacin paramtrica

- Cuando unas medidas siguen una cierta distribucin matemtica conocida, sus parmetros caractersticos se pueden determinar a partir de las medidas caractersticas (valor medio, varianza...) de la distribucin de los datos Cuando las medidas siguen una distribucin desconocida, para la que se puede tener modelo o no, el problema es mas complicado y hay que recurrir a las tcnicas de test de hiptesis o de determinacin paramtrica: Consiste en determinar el valor de aquellos parmetros que caracterizan una cierta funcin que se supone que interpretan los datos
P. ej: Si se sospecha que unos datos {yi} siguen un comportamiento lineal con una variable x , que hemos variado durante la medida, de la forma: yi = a.xi + b se pretende determinar cuales son los valores de los parmetros a y b que mejor interpretan los datos observados y asignarles, adems, una incertidumbre
Los principales mtodos de determinacin paramtrica son: - Mtodo de mnimo Chi cuadrado - Mtodo de mxima verosimilitud
Mtodo del mnimo Chi2 para la determinacin paramtrica

Sea el caso en que se dispone de: - un conjunto de n medidas {yi} de la variable y, con varianzas respectivas i2 realizadas respectivamente para diferentes valores {xi} de la variable x y - se dispone de modelo, o teora, por la cual se debe de vericar que: y = f (x;a) siendo a ={ k parmetros desconocidos}
Si, efectivamente, los datos obedecen a dicha relacin: - cada yi es una medida del valor f(xi;a) afectada por la incertidumbre i y se espera, entonces, que - las cantidades: yi - f (xi;a) i
deben seguir, cada una de ellas, una distribucin N(0,1). yi - f (xi;a) Entonces, la cantidad s = 2 debe de seguir una distribucion Chi2 i
Mtodo del mnimo Chi2 para la determinacin paramtrica

yi - f (xi;a) s = 2 i el mtodo de mnimo Chi2 consiste en calcular aquel conjunto de valores de los k parmetros desconocidos que hacen mnimo el valor de s. Seguidamente se puede buscar el valor de s en la tabla de Chi2 y determinar el Nivel de Conanza asociado (que es la probabilidad de que hubieramos obtenido la observacin experimental {yi} si la relacin propuesta y= f (xi;a) fuese cierta) A partir de la funcin:
Procedimiento: El clculo de la familia de parmetros a que minizan el valor de s se puede puede realizar por: - Mediante un procedimiento analtico (este mtodo es muy sencillo para polinimios de cualquier orden) - Mediante un mtodo de minimizacin numrico con el ordenador (imprescindible para funciones complicadas)
Mtodo del mnimo Chi2

Interprertacin de los resultados: Sean unas medidas sobre los que se han hecho varios ajustes polinmicos por el mtodo de mnimos cuadrados. Se desea saber cul la mejor estimacin de parmetros. Se disponen de 8 medidas y se han probado polinomios de orden 2 (y=a+bx), 3 (y=a+bx+cx2) y 4 (y=a+bx+cx2 +dx3). Los resultados de los ajustes se muestran en la tabla:
N Nmero de puntos n: Nmero de parmetros k: nm. de grados de libertad Chi2 Chi2/k CL
8 8 8
2 3 4
6 5 4
12.3 7.2 6.4
2.1 1.4 1.6
La mejor eleccin es la de un polinomio cuadrtico, n=3. Al aadir mas parmetros, la calidad del ajuste mejora pero se pierde signicacin estadstica
Mtodo del mnimo Chi2
Una historia real

En 1974, un equipo de los laboratorios SLAC y LBL estaba realizando un estudio rutinario de la seccin ecaz total electrn-positrn en funcin de la energa en el centro de masas, para energas de unos pocos GeVs. La seccin ecaz era mas o menos constante, con valores de alrededor de unos 23 3 nb. Alrededor del valor de unos 3.2GeV la seccin ecaz tomaba un valor de unos 30nb. Este valor estaba a unas 2 desviaciones tpicas por encima del valor medio que se estaba observando, comportamiento relativamente esperable cuando se miden muchos puntos (la probabilidad de que una desviacin as tenga lugar es del orden de un 5%). A un investigador poco cuidadoso no le habra llamado la atencin y habra pasado de largo sobre dicho punto. Sin embargo, a aquellos investigadores s les llam la atencin por lo que decidieron aumentar la escala de la representacin y analizar con mayor detalle dicho efecto. Como consecuencia descubrieron un nuevo hadrn que no encajaba en el modelo de tres quarks existente entonces. Denominaron a dicha partcula que, con una masa de 3.105 0.003GeV, result ser un estado ligado de un quark encantado con su correspondiente antiquark. (La misma partcula se descubri casi simultaneamente en el laboratorio BNL, al otro lado de los EEUU, donde la llamaron partcula J). En 1976 el premio Nobel de Fsica fue concedido de forma compartida a los investigadores que dirigan los dos equipos responsables del descubrimiento: Burton Richter (SLAC) y Samuel Ting (BNL)
Moraleja: El premio Nobel puede estar merodeando alrededor de lo que parece un dato sin inters. Por lo tanto, investiga (tomando mas medidas) cualquier dato extrao antes de despreciarlo.
Ref. Daryl W. Preston: Experiments in Physics (J. Wiley & Sons)

AnalDatos New

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

AnalDatos New

Transféré par

Droits d'auteur :

Formats disponibles

Introduccin al anlisis estadstico de datos de datos

Juan A. Garzn / USC

No hay medida sin error ni hortera sin transistor

Sobre errores e incertidumbres

Errores estadsticos y sistemticoso

Sobre errores e incertidumbres

(Interpretacin inversa de la probabilidad)

Propagacin de incertidumbres estadsticas

Incertidumbres estadsticas y sistemticas

Frmulas: g = 2 2.100m 0.6541 s2 = 9.817 m.s-2 Incertidumbres:

Finalmente : g = 9.817 ( 0.001)NoEstad ( 0.011)Estad m.s-2

Sobre errores e incertidumbres

Sobre intervalos e ndices de conanza

b: La medida proporciona distintos valores

Tablas, Histogramas y distribuciones

Tablas, Histogramas y Distribuciones

Histograma: Suma de altura de las barras = Nsucs

Distribucin: Integral (suma de supercie de las barras) = Nsucs

Distribucin normalizada: Integral (suma de supercie de las barras) = 1

Medidas caractersticas de una distribucin

siendo nj /N = pj la probabilidad (frecuentista) de obtener una medida en el intervalo j

Medidas caractersticas de una distribucin

s = i=1 (xi- x)2/N

sN-1 = i=1 (xi- x)2/(N-1)

Si los datos estn agrupados en intervalos o clases,

s =j=1 (xj- x)2.pj

- Varianza: Es el cuadrado de la desviacin tpica: V = s2

Medidas caractersticas de una distribucin

Medidas caractersticas de una distribucin

Valor medio: Mediana: Moda:

Varianza: V = 0.15 Desviacin tpica: s = 0.12

Ej: Para k= 2, entre 19.18 y 19.66, hay 21 medidas ( > 18 = 24[1-0.25])

Anlisis estadstico de datos

- El resultado ha sido negativo y no se tienen datos

Distribuciones matemticas y distribuciones fsicas

Resonancia: Distribucin de Breit-Wigner

El logbook (o cuaderno de bitcora)

Algunos logbooks famosos

1956: Luis Alvarez

1977: Martin Perl 1973: Raymond Davis

1974: Burton Richter

Mas logbooks menos famosos

Probabilidad y Densidad de Probabilidad

Probabilidad y Densidad de Probabilidad

Funcin de distribucin o Funcin cumulativa: F(x) x Se dene como: F(x) = xif(x)dx

Por denicin: P(x1,x2) = x f(x)dx 1

Parmetros caractersticos de distribuciones matemticas

Valor esperado o media: E(x)

Medidas caractersticas de distribuciones matemticas

Probabilidad y Densidad de Probabilidad

Probabilidad y Densidad de Probabilidad

IMDb: Su procedimiento para valorar las pelculas

Norma bsica: Precaucin y sentido comn

Algunas distribuciones de probabilidad

/2 Distribucin de Poisson: Intervalos de conanza

Ejemplo de intervalo de conanza no simtrico

Distribucin Gaussiana o Normal

El factor constante que aparece delante de la exponencial es el factor de normalizacin.

Distribucin Gaussiana o Normal

Ejemplo, en escala logartmica:

68% 95,4% 99,7% 99,99%

Comparacin de distribuciones de Poisson y Gaussiana

Distribucin Normal Tipicada

Distribucin gaussiana: Intervalos de conanza