Vous êtes sur la page 1sur 66

ESTADISTICA Y

DISEÑOS
EXPERIMENTALES
DEFINICION
• La estadística es una ciencia que
proporciona un conjunto de métodos que
se utiliza para:
• Recolectar información.
• Resumir.
• Clasificar
• Analizar.
• Interpretar
Tradicionalmente se divide en:

• Estadística descriptiva • Estadística Inferencial


• Trata del resumen de • Hace predicciones de
datos: un todo o toma
• Tabular. decisiones en base a
• Grafico o numérico la información
• Tablas de frecuencia contenida en una
• Media, varianza, muestra.
desviación típica y • Se refiere también a la
estándar, coeficiente de teoría de la estimación
varianza
y prueba de hipótesis
• (mediante muestras)
• (población)
VARIABLES DISCRETAS Y
CONTINUAS
• Variable discreta.- toma valores separados entre si
(valores enteros).
• Variable continua.- Es aquella que teóricamente toma
cualquier valor dentro de un intervalo

• FUNCIONES.- Son ecuaciones las cuales dependen de


una variable.
• GRAFICAS.- Es unas representación de ciertos datos.
DISTRIBUCIONES DE FRECUENCIAS
• Ordenación de datos estadísticos asignado a cada dato
su frecuencia

• Datos cuantitativos.- Ej.


• Estatura de las personas.
• Numero de hijos por familia.

• Datos cualitativos.- son atributos o características ej.


• Color del cabello.
• Lugar de residencia
• Tabla de frecuencias.- arreglo tabular de las frecuencias
con que ocurre cada característica en que se han dividido
los datos.
• Longitud o ancho del intervalo.- Diferencia del extremo
mayor y el extremo menor del intervalo(amplitud de
variacion)
• Intervalo de clase.- intervalo en que se ha decidido
agrupar parcialmente los datos para un resumen de ellos.
• Frecuencia absoluta.- Es el numero de veces que se
repite un dato particular o fenómeno
• .
PROCEDIMIENTO PARA LA TABLA DE
FRECUENCIAS
1.- Amplitud de variación=dato mayor – dato menor

2.- Determinar el numero de clases(sturges)


Los intervalos (k) se puede estimar:

k=1+3,322log(n)
o también k≥√n
donde n es el numero de datos
3.- Determinar el tamaño de clase
La longitud que debe tener los intervalos:
𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑
l= 𝑘
4.- El primer intervalo debe contener el menor de los datos
y el ultimo el mayor de los datos
(en lo posible todos los intervalos deben tener la misma
longitud o ancho)
* Determinar los limites de clase
5.- Contar la frecuencia de cada clase (construcción de la
tabla)
Ejemplo 1: Los siguientes datos corresponden a
la longitud en cm de sábalos capturados en el Pilcomayo para
su estudio:
25 33 35 37 55 27 40 33 39 28
34 29 44 36 22 51 29 21 28 29
33 42 15 36 41 20 25 38 47 32
15 27 27 33 46 10 16 34 18 14
46 21 59 26 19 17 24 21 27 16

1.- 𝑘 ≥ 50 o 𝑘 = 1 + 3,332 log(𝑛)


k= 7,07
Finalmente construimos la tabla
clase interval Frecuenci Marca de Frecuenci Frecuenci Frecuenci
o a clase m a a relativa a
f acumulad acumulad
a a relativa

1 10 – 17 6 (10+17)/2 6 6/50 6/50


2 17 – 24 9 =12 15 9/50 15/50
3 21 – 27 13 18 28 13/50 28/50
4 27 – 33 11 24 39 11/50 39/50
5 33 – 39 5 30 44 5/50 44/50
6 39 – 45 5 36 49 5/50 49/50
7 45 - 51 1 42 50 1/50 1
48
A la tabla de frecuencias le sigue el grafico llamado:
HISTOGRAMA y el POLIGONO DE FRECUENCIAS
HOSTOGRAMA
14

12

10
FRECUENCIAS

0
6 12 18 24 30 36 42 48 54
MARCA DE CLASE
Frecuencia acumulada u ojiva
ojiva
60

50

40

30

20

10

0
6 12 18 24 30 36 42 48 54
DISTRIBUCIÓN DE FRECUENCIAS
PARA DATOS CUALITATIVOS
• Estas tablas de frecuencias para datos cualitativos
requieren solo del conteo del numero de elementos o
individuos que caen dentro de cierta clase o tienen
determinada característica:
• en la primera columna se registra las cualidades o
características.
• En la 2º columna se registra las frecuencias absolutas
Ejemplo 2.- Los siguientes datos corresponden al
numero de estudiantes distribuidos por lugar de origen.
Lugar de origen Numero de
estudiantes
Yacuiba 150
Carapari 43
V. Montes 25
Tarija 82

Nº estudiantes
160

140

120

100

80

60

40

20

0
Yacuiba Carapari V. montes Tarija
HISTOGRAMAS DOBLES
Ejemplo 3: Numero de estudiantes diferenciados por sexo y lugar de
origen
Sexo Yacuiba Carapari V Montes Tarija
Masculino 93 25 13 45
Femenino 57 18 12 37
Total 150 43 25 82

Numero de estudiante por sexo y lugar


Numero de estudiante por
160
de origen sexo y lugar de origen
100 93
140
120 57 80
100 57
60
80 45
37
37 40
60 25
93 18
40 20 13 12
18
20 12 45
25 0
13 Yacuiba carapari V Montes Tarija
0
Yacuiba carapari V Montes Tarija
Masculino Femenino
Masculino Femenino
DIAGRAMA CIRCULAR
• En otros caso se puede mostrarla proporción o
porcentaje.
Ejemplo 4:
El numero de trabajadores de una empresa
petrolera se distribuyen porcentualmente de
acuerdo a su tiempo de trabajo:
Tiempo de trabajo Porcentaje
menos de 5 años 20%
entre 5 a 10 años 50%
10 a 15 años 15%
15 a 20 años 10%
Mas de 20 años 5%
• Para considerar el diagrama circular se debe considerar
360º = 100%
100%→360
20 % → X
Porcentaje
X = 72º

5%
10% 20%

15%

50%
MEDIDAS DE POSICION Y
VARIABILIDAD
• Si estas medidas son extraídas de una muestra se llaman
ESTADISTICOS o ESTADIGRAFOS.
• Si son obtenidos de una población se llaman
PARAMETROS
Media Aritmética
Tendencia Central o Mediana
posición Moda

Desviación
media
Medidas de Variación o dispersión Desviación típica
: Varianza
Coeficiente de
variación
Asimetría o
deformación Coeficiente de
asimetría
Apuntamiento Curtosis
MEDIA ARITMETRICA 𝑥
• Es el promedio aritmético de todos los valores de la
muestra
observaciones
• Si tenemos : x1, x2, x3……………… xn
numéricas, la madia aritmética será:
x1 + x2,+ x3+………………+ xn
𝑥=
𝑛
𝑛
𝑖=1 𝑥𝑖
O sea : 𝑥 = 𝑛
Ejemplo 5.- Hallar la media de 3, 4, -2, 1, 4
Ventajas y desventajas
• Ventajas
• Es el promedio mas común
• Fácil de calcular
• Se presta a manipulación algebraica
• Desventajas
• Esta desproporcionalmente afectado por los valores extremos, por
lo que a veces no es representativo
Propiedades de la media aritmética
1.- 𝑀(𝑦) =𝑀(𝑥) ± 𝑘 donde
𝑦𝑖 =𝑥𝑖 ± 𝑘 para i =1, 2,3, ….n
2.- 𝑀(𝑦) =𝑘𝑀(𝑥) donde 𝑦𝑖 =𝑘𝑥𝑖
𝑛
3.- 𝑖 (𝑥𝑖 − 𝑥 ) = 0
𝑛 2 𝑛 2
4.- 𝑖 (𝑥𝑖 − 𝑥 ) = 𝑖 (𝑥𝑖 − 𝑥 ) + (𝑥 + 𝑘)
5.- 𝑀(𝑥1 +𝑥2 ) =𝑀(𝑥1 ) +𝑀(𝑥2 )
MEDIANA 𝑥, 𝑀𝑚𝑒, 𝑀𝑒, 𝑀𝑒(𝑥)
• La mediana es el valor que divide en dos partes iguales,
al conjunto de observaciones ordenadas respecto de sus
magnitudes, de tal manera que el numero de datos por
encima de la mediana sea igual al numero de datos por
debajo de la misma. Se designa por las letras Me. Tal
como sucede con la media, el método de determinación
depende de si los datos son agrupados o no
• CÁLCULO DE LA MEDIANA PARA DATOS NO
AGRUPADOS
𝑛+1
• Si n es numero impar: 𝑥=𝑥 2
𝑛 𝑛
𝑥 +𝑥 +1
2 2
• Si n es numero par: 𝑥= 2
• Ejemplo:
• los datos: 6, 8, 3, 4, 4, 8, 5, 8, 10
1.- ordenar de menor a mayor:
3, 4, 4, 5, 6, 8, 8, 8, 10 n=9
9+1
𝑥=𝑥 = 5; significa el 5º dato, por tanto
2
𝑥=6
• Datos: 5, 15, 18, 5, 9, 7, 12, 11
ordenar:
5, 5, 7, 9, 11, 12, 15, 18 n=8
8 8 8 8
𝑥 +𝑥 +1 𝑥 +𝑥 +1 𝑥 4 +𝑥 5
2 2 2 2
𝑥= = =
2 2 2
9+11
𝑥= 2
𝑥 = 10
• PASOS PARA DETERMINAR LA MEDIANA EN DATOS
AGRUPADOS
1. Se elabora la tabla de frecuencia de datos con sus
diferentes intervalos de clases, se ubican las frecuencias fi
y se calculan las frecuencias acumuladas Fi de esa
distribución.
2. Se determina la ubicación o posición de la mediana
en el intervalo de la distribución de frecuencia,
mediante la formula n/2 El resultado obtenido
determinará la clase donde se encuentra ubicada la
mediana, lo cual se conseguira en la clase la frecuencia
acumulada Fi sea igual o superior a este resultado
• APLICAR LA FORMULA:
EJEMPLO DATOS AGRUPADOS
Calcular la mediana

FRECUENCIA
INTERVALOS ABSOLUTA
2-8 4
8-14 3
14-20 5
20-26 5
26-32 3
CARACTERÍSTICAS DE LA MEDIANA
• La mediana no es afectada por los valores extremos de una
serie de valores, puesto que la misma no es calculada con
todos los valores de la serie.
• La mediana no esta definida algebraicamente, ya que para su
cálculo no intervienen todos los valores de la serie.
• La mediana en algunos casos no se puede calcular
exactamente y esto ocurre cuando en una serie de valores
para datos no agrupados el número de datos es par, en este
caso la mediana se calcula aproximadamente.
• La mediana se puede calcular en aquellas distribuciones de
frecuencia de clases abierta, siempre y cuando los elementos
centrales puedan ser determinados.
• La suma de los valores absolutos de las desviaciones de los
datos individuales con respecto a la mediana siempre es
mínima. (propiedad)
MODA 𝑀𝑜
• Se define como el valor que se da con mayor frecuencia,
se denota como 𝑀𝑜.
• Algunos conjunto de valores no tiene moda.
• Ejemplo:
• 2, 2, 5, 7, 4, 2; 𝑀𝑜 = 2 (unimodal)
• 2, 2, 5, 5, 5, 2. 3, 4 𝑀𝑜1 = 2; 𝑀𝑜2 = 5 (bimodal)
• 2, 3, 4, 5, 6 𝑛𝑜 𝑡𝑖𝑒𝑛𝑒 𝑚𝑜𝑑𝑎
Calculo de la Moda para datos agrupados
Posiciones de la media, mediana y moda
Ejemplo 6: Calculemos la media aritmética, la
mediana y la moda con los datos del ejemplo 1
25 33 35 37 55 27 40 33 39 28
34 29 44 36 22 51 29 21 28 29
33 42 15 36 41 20 25 38 47 32
15 27 27 33 46 10 16 34 18 14
46 21 19 26 19 17 24 21 27 16
Media aritmética.-
Consiste en sumar todos y cada uno de los valores = 1480
1480
𝑥= 50
= 29,6
Este valor promedio nos indica que cada vez que
capturemos un sábalo, la longitud esperada es de al
menos 29 cm
• Mediana.-
• Ordenar de menor a mayor mediante el arreglo de tronco
y hoja

1 5599076846
2 597176270954118789
3 433576338492
4 6241607
5 51
10, 14, 15, 15, 16, 16, 17 18, 19, 19, 20, 21, 21, 21, 22, 24,
25, 25, 26, 27, 27, 27, 27, 28, 28, 29, 29, 29, 32, 33, 33, 33,
33, 33, 34,34, 35, 36 ,37, 38, 39, 40, 41, 42, 44, 46, 46, 47,
51, 55
n=50
50 50
𝑥 +𝑥 +1 𝑥 25 +𝑥 26 𝑥 25 +𝑥 26
2 2
𝑥= = =
2 2 2
29+29
𝑥= =29
2
Moda.- 𝑥=33
Otras medidas POSICIÓNALES

• Cuando se estudio la mediana se pudo detectar que esta


divide la serie de valores en dos partes iguales, una
generalización de esta medida da origen a unas nuevas
medidas de posición denominadas:

• Cuartiles.- Dividen a la sucesión en cuatro partes.


• Deciles.- Dividen a la sucesión en diez partes.
• Percentiles.- Dividen a la sucesión en cien partes.
LOS CUARTILES.
• Son medidas posiciónales que dividen la distribución de
frecuencia en cuatro partes iguales. Se designa por el
símbolo Qc en la que c corresponde a los valores 1, 2 y 3.
El Q1 es el valor debajo del cual queda el 25 % de los
datos; Q3 deja el 75 % de los datos y Q2 divide la
distribución de frecuencia en dos partes iguales, un 50 %
que esta por debajo de los valores de Q2 y otro 50 % que
esta por encima del valor de Q2. El Q2 es igual a la
mediana.
CÁLCULO DE LOS CUARTILES
Para datos no agrupados no tiene ninguna utilidad practica calcular los
cuartiles. Para el cálculo de los cuartiles en datos agrupados en una
distribución de frecuencia existe un método por análisis gráfico y otro
por determinación numérica, por fines prácticos se utilizara él último
método. Para calcular los cuartiles por el método numérico se procede
de la siguiente manera:
QUINTILES

• Los quintiles o quintillas dividen la información en cinco


partes iguales, agrupándolas en porcentajes de 20, 40,
60, y 80 por ciento, en consecuencia debemos calcular
cuatro parámetros:
Gráficamente:
CÁLCULO DE LOS QUINTILES
LOS PERCENTILES
Son medidas posesiónales que dividen la distribución de frecuencia en 100
partes iguales. Con estos se puede calcular cualquier porcentaje de datos de
la distribución de frecuencia. Los percentiles son las medidas más utilizadas
para propósitos de ubicación de valor de una serie de datos ubicados en una
distribución de frecuencia. El número de percentiles de una distribución de
frecuencia es de 99. El percentil 50 es igual a la mediana y al cuartil 2, es decir
MEDIDAS DE DISPERSION O VARIABILIDAD
• Una medida de variabilidad es un numero que nos indica el
grado de dispersión en un conjunto de datos
• Si este valor es pequeño( respecto a la unidad de medida),
entonces hay gran uniformidad entre los datos
• Si esta valor es grande indica poca uniformidad entre datos.
• Cuando es cero quiere decir quiere decir que todos los datos
son iguales.
• Por tanto si no existiera la variabilidad, la mayoría de las
medidas estadísticas serian innecesarias
Para medir el grado de dispersión de una variable, se utilizan
principalmente los siguientes indicadores:
1. Rango o recorrido
2. Desviación media
3. Varianza y desviación típica o estándar
4. Coeficiente de variabilidad.
La amplitud A o Rango
• Es la diferencia entre el valor máximo menos el valor
mínimo.
𝐴 = 𝑋𝑀 − 𝑋𝑚

Ejemplo: 2, 3, 3, 5, 5, 8, 10, 12
𝑋𝑀 = 12; 𝑋𝑚 =2; A=10
La amplitud del ejemplo 1?
DESVIACION MEDIA ABSOLUTA DM
• Si tenemos : x1, x2, x3……………… xn observaciones
numéricas, o sea n datos o números
𝑛 𝑛
𝑖=1 𝑥𝑖 −𝑥 𝑖=1 𝑑𝑖
• La DM= =
𝑛 𝑛
𝑑𝑖 es la desviación respecto a la media
Ejemplo: hallar DM si los datos No agrupados son:
2, 3, 3, 4,5,6,7,9,10,12
DESVIACION MEDIA ABSOLUTA DM
• Cuando los datos están en una distribución de clases o
agrupados se aplica la siguiente formula:

• DM : Desviación media
• xi: Diferentes valores de la variable X
• fi : Número de veces que se repite la observación xi
• Media aritmética de la información
• n : Tamaño de la muestra.
• Ejemplo, encontrar la desviación media de los siguientes
datos agrupado:
Xi fi
122 3
131 5
140 9
149 12
158 5
167 4
176 2
VARIANZA
Su mayor utilidad se presenta en la estadística inductiva y
se puede interpretar como una medida de variación
promedio (o el promedio de la suma de los cuadrados). Se
obtiene dividiendo la variación total entre el numero de
unidades o medidas. Se designa por la letra S 2 su formula
de calculo es al siguiente:
Ejemplo: Calcular la varianza “S” para datos No agrupados
12,6,7,3,15,10,18,5

Ejemplo: Calcular la varianza “S” para datos Agrupados

Xi fi
122 3
131 5
140 9
149 12
158 5
167 4
176 2
FRECUENCI
# de clases limites de clases A
ABSOLUTA

1 50 52 3
2 52 54 11
3 54 56 15
4 56 58 15
5 58 60 3
6 60 62 1
7 62 64 2
COEFICIENTE DE VARIABILIDAD

Generalmente interesa establecer comparaciones de la


dispersión, entre diferentes muestras que posean distintas
magnitudes o unidades de medida. El coeficiente de
variabilidad tiene en cuenta el valor de la media aritmética,
para establecer un número relativo, que hace comparable
el grado de dispersión entre dos o mas variables, y se
define como:
Regresión y Correlación Lineal
• Es una técnica estadística que establece una ecuación
para estimar el valor desconocido de una variable (en ves
de valores de muchas otras variables)
REGRESIÓN LINEAL
Ajuste Rectilíneo (Método de los Mínimos Cuadrados)
• La forma general de una ecuación de línea recta es:
𝑌 = 𝑎 + 𝑏𝑋
X : Variable independiente
Y : Variable dependiente
a : Término independiente o intercepto
b : Coeficiente de X
Debemos establecer los parámetro “a” y “b” de la ecuación para
poder expresar los valores de la variable Y en función de los
valores de la variable X, esto es:

multipliquemos cada una de estas ecuaciones por su respectivo


valor de X
Las ecuaciones (1) y (2) son llamadas ecuaciones normales de la línea recta, de
donde se pueden despejar los parámetros a, b en función de los datos
originales.
De (1) tenemos:

Remplazando (3) en (2):


• El gorrito “ ^ ” colocado sobre el parámetro indica estimaciones fundamentadas, en los
datos muestrales.
CORRELACION
En el análisis conjunto para dos o más variables es básica la
búsqueda del tipo y grado de la relación que pueda existir
entre ellas, o si por el contrario, las variables sean
independientes entre sí y la relación que puedan mostrar se
debe únicamente al azar, o a través de terceras variables
Para cuantificar la calidad de la dependencia, entre las dos
variables, el indicador mas acostumbrado es el Coeficiente de
correlación, definido como

r : Coeficiente de correlación entre “X” y “Y”


Sx: Desviación típica de “X”
Sy: Desviación típica de “Y”
Sx,y : Covarianza entre “X” y “Y”
El coeficiente de correlación, es un indicador
del grado de la relación entre las dos
variables, el cual oscila en el intervalo
cerrado , es decir, .

• Tabla de Trabajo para el Calculo de L Coeficiente de


Correlación
Sin embargo, no todas las relaciones son tan ideales, en el
común de los casos –1< r <1. Empíricamente se afirma
que:
Mediante el uso correlación y regresión lineal Calcular el Gas In Situ (GOES) :

Presion Gp Z
psia MMscf -

6411 0,0 1,099


5947 6453,2 1,059
5509 12923,5 1,022
5093 19393,9 0,988
4697 25864,3 0,958
4319 32334,6 0,932
Ajuste Parabólico (Método Mínimos
Cuadrados)
• Dentro de la familia de modelos, es de aplicación común
el ajuste regresivo polinomial de grado s “ ”. Similarmente
con el procedimiento seguido en el ajuste rectilíneo,
vamos a encontrar las ecuaciones normales par una
parábola, de forma general
• es decir , , ......., .
Si cada una de estas ecuaciones la multiplicamos por su
respectivo valor de x, y repetimos la acción tenemos:
• sumando se obtienen las siguientes ecuaciones normales
Ejemplo:
En un experimento agropecuario, se toma una muestra de
15 unidades de una variedad de árbol frutal, se observa el
rendimiento en frutos de acuerdo con la cantidad de
fertilizante utilizado:
Viscosidad
Presion psia Factor Z (cp)
0 1 0,0122
200 0,979 0,0124
400 0,956 0,0126
600 0,933 0,0129
1000 0,889 0,0137
1200 0,869 0,0142
1400 0,852 0,0147
1600 0,837 0,0153
1800 0,826 0,016
2000 0,817 0,0168