Académique Documents
Professionnel Documents
Culture Documents
2013
Paquete estadístico de MAPLE
En esta sección se tratan algunas funciones elementales del paquete estadístico.
Para utilizar el paquete de funciones estadísticas hay que cargarlo con el siguiente comando:
[> with(Statistics);
El paquete de estadística es una colección de herramientas de la matemática estadística y del
análisis de datos. El paquete es compatible con una amplia gama de tareas comunes de
estadística como el análisis de datos cuantitativos y gráficas, simulación y ajuste de curvas;
además posee más de 35 distribuciones de probabilidad.
Estadística Descriptiva
Algunas funciones pertenecientes al paquete estadístico de MAPLE permiten realizar cálculos
relacionados con la estadística descriptiva. Esto incluye la descripción de los datos de una
muestra a través de “estadísticos” que miden su ubicación, dispersión y forma así como sus
momentos, entre otros.
Veremos a continuación las funciones que resultan de interés para el curso.
Ingreso de los datos estadísticos
En general, los datos deben ser dados en forma de lista.
[> datos:= [1.1, 5.8, 3.4, 4.2, 3.9, 5, 0.9, 6.2];
datos:=[ 1.1, 5.8, 3.4, 4.2, 3.9, 5, 0.9, 6.2]
Cantidad de datos
La función Count calcula el tamaño de la muestra de datos.
[> Count(datos);
8
Media
La función de Mean calcula la media aritmética de un conjunto de datos.
[> Mean(datos);
3.812500000
Media Geométrica
[> GeometricMean(datos);
3.158836969
Mediana
[> Median(datos);
4.050000000
Moda
[> datos2:=[1,2,3,3,4,6,3,8,9,10,3,4,5,6];
datos2:=[ 1,2,3,3,4,6,3,8,9,10,3,4,5,6]
1
Métodos Teóricos en Ingeniería A (Dpto. de Ing. Qca., UNS)‐ Probabilidad y estadística. 2013
[> Mode(datos2);
3
[> datos3:=[1,2,3,3,6,6,3,8,9,10,3,4,5,6];
datos2:=[ 1,2,3,3,4,6,3,8,9,10,3,4,5,6]
[> Mode(datos3);
3
Esta función sólo está programada para devolver un solo valor modal, en los casos en que
existen múltiples modas (conjunto de valores modales), el valor modal detectado en primer
lugar será el que devuelve el comando.
Rango
El comando Range calcula el rango de un conjunto de datos, que se define como la diferencia
entre el mayor y el menor valor.
[> Range(datos);
5.300000000
Percentilo
[> datos:=[10,20,30,40,50,60,70,80];
datos:=[10,20,30,40,50,60,70,80]
[> Percentile(datos,15);
15.83333333
La definición de percentilo utilizada en Maple es ligeramente diferente a la definición dada en
teoría. Por lo tanto en algunos casos los resultados son similares pero no iguales.
Cuartilo
[> Quartile(datos,3);
15.83333333
De la misma manera que sucede para percentilo, la definición de cuartilo utilizada en Maple es
diferente a la definición dada en teoría. Por lo tanto en algunos casos los resultados son
similares pero no iguales.
Varianza
La función Variance calcula la varianza de la muestra del conjunto de datos.
[> Variance(datos);
600
Desviación estándar
La función StandardDeviation calcula, al igual que el comando Variance, la desviación estándar
de una muestra.
[> StandardDeviation(datos);
24.494897427
2
Métodos Teóricos en Ingeniería A (Dpto. de Ing. Qca., UNS)‐ Probabilidad y estadística. 2013
Coeficiente de Variación
El comando Variation calcula el coeficiente de variación de un conjunto de datos (Desviación
estándar dividida la media del conjunto de datos).
[> Variation(datos);
0.544331053951817
Momento de un conjunto de datos
El comando Moment calcula el momento de orden r de un conjunto de datos.
1 n r
Se utiliza la siguiente fórmula: M r = ∑ xi , donde n es el número de datos. Por ejemplo
n − 1 i =1
para r=3:
[> Moment(datos,3);
16200
Generación de la tabla de frecuencias
El comando FrequencyTable calcula la tabla de frecuencias para un conjunto de datos. Esto se
hace mediante la subdivisión de todos los datos del conjunto en un número especificado de
intervalos de clase y calculando el número de observaciones que caen en cada intervalo. Los
intervalos se consideran cerrados a la izquierda y abiertos a la derecha. El comando
FrequencyTable devuelve como resultado una matriz de 5 columnas. La primera columna
contiene los intervalos de clase. Las cuatro columnas restantes contienen las frecuencias
absolutas puntuales, la frecuencia relativa puntual en porcentaje, la frecuencia acumulada
absoluta y la frecuencia acumulada relativa en porcentaje.
bins = posint ‐ Si se establece esta opción como segundo argumento del comando
FrequencyTable, el conjunto de datos se divide en el número dado de subintervalos iguales. Si
no se usa el segundo argumento, el valor de intervalos de clase por defecto es 10.
[> FrequencyTable(datos3);
⎡ 1. .. 1.900000000 1. 7.142857143 1. 7.142857143⎤
⎢ ⎥
⎢ 1.900000000 .. 2.800000000 1. 7.142857143 2. 14.28571429⎥
⎢ ⎥
⎢ ⎥
⎢ 2.800000000 .. 3.700000000 4. 28.57142857 6. 42.85714286⎥
⎢ ⎥
⎢ 3.700000000 .. 4.600000000 1. 7.142857143 7. 50.00000000⎥
⎢ ⎥
⎢ ⎥
⎢ 4.600000000 .. 5.500000000 1. 7.142857143 8. 57.14285714⎥
⎢ ⎥
⎢ ⎥
⎢ 5.500000000 .. 6.400000000 4. 28.57142857 12. 85.71428571⎥
⎢ ⎥
⎢ ⎥
⎢ 6.400000000 .. 7.300000000 0. 0. 12. 85.71428571 ⎥
⎢ ⎥
⎢ 7.300000000 .. 8.200000000 1. 7.142857143 13. 92.85714286⎥
⎢ ⎥
⎢ ⎥
⎢ 8.200000000 .. 9.100000000 0. ⎥
⎢ 0. 13. 92.85714286 ⎥
⎢⎢ ⎥⎥
⎣ 9.100000000 .. 10. 1. 7.142857143 14. 100.0000000 ⎦
[> FrequencyTable(datos3, bins = 4);
⎡ 1. .. 3.250000000 6. 42.85714286 6. 42.85714286⎤
⎢ ⎥
⎢3.250000000 .. 5.500000000 2. 14.28571429 8. 57.14285714⎥⎥
⎢
⎢ ⎥
⎢5.500000000 .. 7.750000000 4. 28.57142857 12. 85.71428571⎥⎥
⎢
⎢ 14.28571429 14. 100.0000000⎥⎦
⎣ 7.750000000 .. 10. 2.
3
Métodos Teóricos en Ingeniería A (Dpto. de Ing. Qca., UNS)‐ Probabilidad y estadística. 2013
Gráficos Estadísticos
Histograma
El comando Histogram se utiliza para graficar un histograma de un conjunto de datos. En el
mismo comando se puede especificar el número de particiones en el cual se divide el rango
total de los datos (bincount), como así también el ancho de las barras (binwidth), el color de
las barras (color), la escala de frecuencias utilizadas (frequencyscale=relative o absolute), etc.
Pueden también utilizarse las opciones ya vistas en el comando plot para asignarle nombre al
gráfico y a los ejes, entre otras.
[> data2:= [‐1.96, ‐.814, 1.86, 1.96, .519, .739, ‐.0540, .702, .663, .591, .580, .475, .589, ‐1.33,
.0420, ‐.460, ‐.482, 1.58, .778, .530, ‐.507, ‐.233, ‐.195, .193, ‐.136];
datos2:=[-1.96, -.814, 1.86, 1.96, .519, .739, -.0540, .702, .663, .591, .580, .475, .589, -1.33,
.0420, -.460, -.482, 1.58, .778, .530, -.507, -.233, -.195, .193, -.136]
[> Histogram(datos2);
[> Histogram(data2, bincount=5, color=red, title=Histograma);
4
Métodos Teóricos en Ingeniería A (Dpto. de Ing. Qca., UNS)‐ Probabilidad y estadística. 2013
[> Histogram(data2, binwidth=0.5, frequencyscale=relative);
Gráficos de Frecuencias
El comando FrequencyPlot genera un polígono de frecuencias para los datos especificados. El
polígono de frecuencia es similar al histograma, excepto que tiene líneas que conectan los
valores de frecuencia mientras que el histograma tiene barras en los valores de frecuencia.
[> FrequencyPlot(data2);
[> FrequencyPlot(data2,bincount=6,frequencyscale=relative);
5
Métodos Teóricos en Ingeniería A (Dpto. de Ing. Qca., UNS)‐ Probabilidad y estadística. 2013
Gráficos de dispersión
El comando ScatterPlot genera un gráfico de dispersión de los datos de una muestra
especificados por parejas ((xi,yi), i=1..N). Por defecto los datos se grafican como puntos en el
plano (x,y). Opcionalmente, se puede mostrarlos en una curva. El primer argumento de esta
función es una lista o vector X que contiene a los datos (xi i=1,..n) y el segundo argumento es
una lista o vector Y que contiene a los datos (yi i=1,..n).
[> datos_x:=[1, 2.2, 3, 4, 5, 6.1, 7, 8.1, 10.1]:
[> datos_y:=[1.1,‐27,‐110,‐265,‐500,‐879.4,‐1275,‐2025.4,‐2945]:
[> ScatterPlot(datos_x, datos_y, color=black, symbolsize=25, labels=[X,Y], symbol=box,
color=blue );
Coeficiente de Correlación Muestral y Aproximación por cuadrados mínimos
Coeficiente de Correlación muestral
El comando Correlation calcula el coeficiente de correlación muestral de los datos de una
muestra especificados por parejas ((xi,yi), i=1..N). Para este comando se requieren dos listas o
vectores, al igual que en el comando anterior. La primera con los datos de las x y la segunda
con los datos de las y:
[> datos_x:=[1,2.2,3,4,5,6.1,7,8.1,10.1];
datos_x:=[1,2.2,3,4,5,6.1,7,8.1,10.1]
[> datos_y:=[1.1,‐27,‐110,‐265,‐500,‐879.4,‐1275,‐2025.4,‐2945];
datos_y:=[1.1,-27,-110,-265,-500,-879.4,-1275,-2025.4,-2945]
[> Correlation(datos_x,datos_y);
-.9520319525
Aproximación por cuadrados mínimos
El comando LinearFit ajusta funciones polinómicas y=a+bx+cx2+dx3+...
El primer argumento del comando LinearFit es una lista con los términos u operandos de la
función a ajustar (1 para el término independiente, x, x2, etc., para el resto de los términos). El
segundo y el tercer argumento corresponden a las listas o vectores de las variables
dependientes e independientes, x e y.
6
Métodos Teóricos en Ingeniería A (Dpto. de Ing. Qca., UNS)‐ Probabilidad y estadística. 2013
Modelo Lineal simple
[> LinearFit([1, t], datos_x, datos_y, t);
814.235252408847-330.189618745798 t
Modelo cuadrático
[>LinearFit([1, t, t^2], datos_x, datos_y, t);
-37.42117679 t2+79.17354635 t-13.22823198
7
Métodos Teóricos en Ingeniería A (Dpto. de Ing. Qca., UNS)‐ Probabilidad y estadística. 2013
Distribuciones de Probabilidad
El paquete estadístico contiene 37 distribuciones de probabilidad, y también proporciona la
posibilidad de crear nuevas distribuciones.
Distribuciones Discretas
El paquete estadístico incluye las siguientes distribuciones discretas de probabilidad, entre
otras:
Distribución binomial: Binomial(n, p), se utiliza para el cálculo de probabilidades en una serie
de éxito o fracaso. La variable aleatoria binomial indica el número de éxitos en un conjunto de
n ensayos, cada uno con probabilidad de éxito p.
Distribución hipergeométrica: Hypergeometric(N, X, z), z es el tamaño de la muestra, N es el
número total de elementos en el lote y X el número total de elementos que tiene la misma
característica que la variable aleatoria. Por ejemplo, si la variable aleatoria describe a los
elementos defectuosos X será igual al número total de defectuosos (M en las fórmulas dadas
en teoría). En otro caso, si la variable aleatoria describe a los elementos rojos, entonces X
corresponde a la cantidad total M de elementos rojos en el lote.
La distribución hipergeométrica es una consecuencia de una secuencia de repetición de
pruebas (tal como repartir las bolas de una urna) por el cual los elementos utilizados no son
reemplazados después de cada ensayo. En cada ensayo, se asume que un cierto número de
éxitos restantes que se podrían obtener. Esta distribución mide la probabilidad de alcanzar un
cierto número de éxitos después de que todos los ensayos se han completado.
Distribución de Poisson: Poisson[mu], donde mu es la media de la distribución.
Para utilizar las funciones anteriores o similares, el primer paso es definirlas utilizando el
comando RandomVariable; por ejemplo:
[> with(Statistics):
[> W:=RandomVariable(Poisson(mu)):
Luego si se requiere evaluar la probabilidad puntual, se utiliza el comando ProbabilityFunction,
[> ProbabilityFunction(W,x);
donde x es el valor donde se quiere evaluar la probabilidad.
Si se desea calcular la función de distribución acumulada, se utiliza el comando
CumulativeDistributionFunction,
[> CumulativeDistributionFunction(W,x);
que calcula la probabilidad acumulada hasta el valor x.
Por defecto, las funciones de probabilidad y de distribución acumulada se calculan usando
aritmética exacta. Para calcular ambas funciones de manera numérica, se debe especificar en
ambos comandos un tercer argumento con la opción = numeric o numeric= true, de la
siguiente manera:
[> ProbabilityFunction(W,x,numeric);
[> CumulativeDistributionFunction(W,x,numeric);
Otra opción para obtener el resultado numérico es anteponer el comando evalf para evaluar la
probabilidad puntual y la acumulada en forma numérica.
[> evalf(ProbabilityFunction(W,x));
[> evalf(CumulativeDistributionFunction(W,x));
8
Métodos Teóricos en Ingeniería A (Dpto. de Ing. Qca., UNS)‐ Probabilidad y estadística. 2013
A continuación se muestran una serie de ejemplos.
a) Dada una variable aleatoria X que responde a una distribución de Poisson con media 5,
calcular P(X=3) y P(X<=3)
[> with(Statistics):
[> W:=RandomVariable(Poisson(5)):
[> ProbabilityFunction(W,3,numeric);
.1403738958
[> CumulativeDistributionFunction(W,3,numeric);
.2650259153
b) Dada una variable aleatoria X que responde a una distribución de binomial con n=10 y
p=0.8, calcular P(X=8) y P(X<=8)
[> with(Statistics):
[> X:=RandomVariable(Binomial(10,0.8)):
[> ProbabilityFunction(X,8,numeric);
.3019898880
[> CumulativeDistributionFunction(X,8,numeric);
.6241903616
c) Calcular la probabilidad de encontrar 3 chips defectuosos en una muestra de 5 chips de una
caja que tiene 100 chips, con una proporción de sanos del 80 %. ¿Cuál es la probabilidad de
encontrar 3 defectuosos exactamente y cuál es la de encontrar como máximo 3 defectuosos?
[> with(Statistics):
[> Y:=RandomVariable(Hypergeometric(100,20,5)):
[> ProbabilityFunction(Y,3,numeric);
.04784856773
[> CumulativeDistributionFunction(Y,3,numeric);
.9946458058
Distribuciones Continuas
Entre las distribuciones continuas se encuentran la distribución normal y la uniforme.
Distribución normal: Normal(mu, sigma), mu es la media sigma es la desviación estándar de la
población
Distribución uniforme: Uniform(a, b), a y b son los límites inferior y superior de la distribución
En forma similar al caso de las distribuciones discretas, se deben definir las variables aleatorias
utilizando el comando RandomVariable, y luego se procede a la evaluación del valor puntual de
la función densidad de probabilidad, utilizando el comando PDF, o si desea calcular la función
de distribución acumulada el comando CDF o CumulativeDistributionFunction. Para evaluarlas
en forma numérica se debe adicionar el tercer argumento con la opción numeric o
numeric=true o anteponer el comando evalf.
9
Métodos Teóricos en Ingeniería A (Dpto. de Ing. Qca., UNS)‐ Probabilidad y estadística. 2013
A continuación se muestran una serie de ejemplos.
a) Dada una variable aleatoria X con una probabilidad uniformemente distribuida entre 2 y 5,
calcular P(X<=4).
[> X:= RandomVariable(Uniform(2,5)):
[> CDF(X,4,numeric);
.6666666667
[> CumulativeDistributionFunction(X,4,numeric);
.6666666667
b) Para el ejemplo anterior, evaluar la función de densidad de probabilidad en X=3
[> PDF(X,3,numeric);
.3333333333
c) Dada una variable aleatoria X que corresponde a una distribución normal con media 5 y
varianza 9, calcular la P(2<X<=7).
[> Y:= RandomVariable(Normal(5,3)):
[> Pmenorquesiete:= CDF(Y,7,numeric);
Pmenorquesiete := .7475074624
[> Pmenorquedos:= CDF(Y,2,numeric);
Pmenorquedos := .1586552540
[> P:=Pmenorquesiete‐Pmenorquedos;
P := .5888522084
Cálculo de la inversa de las distribuciones acumuladas (valor de x dado P(X≤x))
El comando Quantile calcula el valor de x correspondiente a la probabilidad P(X≤x) dada por la
variable aleatoria especificada.
a) Calcular el valor de L para el cual P(X≤L)=0.7475, para una distribución normal con media 5 y
desviación estándar 3
[> Y:=RandomVariable(Normal(5,3)):
[> Quantile(Y,0.7475,numeric);
6.999929919
b) Repetir el ejemplo anterior, con una distribución binomial con n=10 y p=0.5
[> X:=RandomVariable(Binomial(10,0.5)):
[> Quantile(X,0.7475,numeric);
6
10
Métodos Teóricos en Ingeniería A (Dpto. de Ing. Qca., UNS)‐ Probabilidad y estadística. 2013
Test de Hipótesis
El paquete estadístico de MAPLE provee una serie adicional de comandos que corresponden a
los métodos de análisis estadístico que se aplican a los datos de las muestras para extraer
conclusiones sobre la población. Por ejemplo, el Test de Hipótesis.
Todas las pruebas estadísticas que pueden realizarse generan un informe de los cálculos
principales. Para acceder a los informes, es necesario especificar el nivel de información
estadística con el siguiente comando:
[> infolevel[Statistics]:= 1
Para realizar el Test de Hipótesis para una población de media conocida se utiliza el comando
OneSampleZTest (X, mu0, sigma, test_options). Este comando sirve para determinar si la
media de la muestra es consistente con la media supuesta de la población, para el nivel de
significancia del test, y por lo tanto la hipótesis nula debe ser aceptada. El primer argumento X
es el conjunto de datos de la muestra utilizados para el análisis, el segundo, mu0, se asume
como la media de la población (hipótesis nula), y sigma es la desviación estándar de la
población. El último argumento, test_options, puede contener una o más opciones, algunas de
ellas son:
alternative='twotailed', 'lowertail', u 'uppertail': Esta opción se utiliza para especificar la
hipótesis alternativa a considerar cuando se realiza el análisis, (test de ambos lados: twotailed;
, test del lado derecho: uppertail o test del lado izquierdo: lowertail).
confidence=float: Esta opción se utiliza para especificar el nivel de confianza del intervalo y
debe ser un valor de punto flotante entre 0 y 1. Corresponde a (1 ‐α), donde α es el nivel de
significancia el test. En caso de no especificarlo, se toma por defecto en 0,95.
Ejemplo: En cierto proceso químico es importante que una solución tenga un pH exacto de
8.20. Sabemos que la desviación estándar de la población es de 0.02. Se tomaron 10
mediciones independientes y se encuentran los valores en la lista X, que conclusión puede
obtenerse con un nivel de significancia de 0.05?
[> X:=[8.18,8.17,8.19,8.15,8.16,8.16,8.22,8.17,8.21,8.18]:
[> OneSampleZTest(X, 8.2, 0.02, alternative='twotailed', confidence=.95);
Standard Z-Test on One Sample
-----------------------------
Null Hypothesis:
Sample drawn from population with mean 8.2 and known standard deviation 0.02
Alt. Hypothesis:
Sample drawn from population with mean not equal to 8.2 and known standard deviation 0.02
Sample size: 10
Sample mean: 8.179
Distribution: Normal(0,1)
Computed statistic: -3.32039
Computed pvalue: 0.000898913
Confidence interval: 8.166604099 .. 8.191395901
(population mean)
Result: [Rejected]
There exists statistical evidence against the null hypothesis
hypothesis = false, confidenceinterval = 8.166604099 .. 8.191395901, distribution =
Normal(0,1), pvalue = .8989127886e-3, statistic = -3.320391543
11
Métodos Teóricos en Ingeniería A (Dpto. de Ing. Qca., UNS)‐ Probabilidad y estadística. 2013
Observar que:
Computed statistic corresponde al estadístico muestral, el mismo es una medida cuantitativa,
derivada del conjunto de datos de la muestra, con el objetivo de estimar o inferir
ሺ௫ҧ ିఓబ ሻ
características de la población. El estadístico utilizado por MAPLE se calcula como:
ටఙ మൗ
Computed pvalue: el valor p (p‐value) es la probabilidad que permite declarar la significación
de una prueba. Si el valor p es inferior al nivel de significancia del test (α) esto indica un
rechazo de H0.
El comando OneSampleZTest reporta el intervalo de confianza (Confidence Interval) pero no
reporta el límite inferior y superior del intervalo de aceptación de la hipótesis nula, que en el
caso del ejemplo sería el que está centrado en mu0 [8.187604099, 8.212395901] y es el que
utilizamos para decidir si ݔҧ está dentro o fuera y aceptar o rechazar la hipótesis.
En nuestro ejemplo, ݔҧ = 8.179 no se encuentra dentro del intervalo [8.187604099,
8.212395901] por lo tanto debemos rechazar la hipótesis nula, resultado coincidente con el
reporte arrojado por MAPLE.
12