Vous êtes sur la page 1sur 100

DISTRIBUCIONES CONTINUAS MÁS UTILIZADAS

Nombre de la
Formula aplicada
distribución Primer momento Segundo momento Observaciones Grafica

1  x−µ 2
1 −  
2 σ 
N ~ ( x, µ , σ 2 ) = e
2π σ
0,4

−∞≤x≤∞ 0,3

−∞≤µ ≤∞ Es la distribución más 0,2

0,1
utilizada sobre todo en
Normal σ ≥0 0

E (x) = µ V (x) = σ fenómenos físicos. -5 -3 -1


x
1 3 5

x 1  x−µ 2
1 −  

2 σ 
F ( x) = P( X ≤ x) = e d ( x)
−∞ 2π σ

1 2 Es la distribución más
1 − 2 [Z ]
N ~ ( z ,0,1) = e utilizada sobre todo en
2π fenómenos físicos. En
−∞ ≤ z ≤ ∞ este caso se 0,4

µ=o estandariza la variable 0,3

0,2
x en la variable z , de
Normal σ =1 E( z) = µ = 0 2
V (z) = σ = 1
0,1

estándar 2
la siguiente forma: 0
-5 -3 -1 1 3 5
z 1
1 − [z ] x

F ( z ) = P( Z ≤ z ) = ∫ 2π
e 2
d ( z) z=
x−µ
−∞ σ
DISTRIBUCIONES CONTINUAS MÁS UTILIZADAS (continuación)

Nombre de la
Segundo
distribución Formula aplicada Primer momento Observaciones Grafica
momento
x
1 −
G ( x, θ , α ) = α
xα −1e θ
τ (α )θ Para α = 2 y θ =1
x>0
θ ,α > 0 Aplicada en Teorías 0,4

0,3
de cola, tiempo de
 x 1 x 2  0,2

1 + θ + 2! (θ ) ... − x E (x) = αθ 2
V ( x) = αθ garantía de un
0,1
Gamma
F ( x, θ , α ) = p ( x ≤ x ) = 1 −  e θ producto 0

+ 1 ( x )α −1  0 2 4 6 8 10

 (α − 1)! θ 

x Caso particular de la distribución


1 −
E ( x, θ ) = e θ
Gamma α = 1y θ = 1
θ
x>0 Tiempo de un
1

servicio, tiempo de
θ >0 0,8

0,6
Exponencial vida de un objeto
x 0,4

F ( x, θ ) = P ( X ≤ x) = 1 − e θ E (x) = θ V ( x) = θ 2
0,2

0
0 1 2 3 4 5 6
PROBLEMA
En un Proceso Metalmecánico se fabrica una pieza cuyas especificaciones es
250 ± 2, si se sabe que la longitud promedio µ = 249 con una desviación
estándar σ = 4. Probabilidad de que el proceso cumpla con las especificaciones

x = longitud especificaciones = 248 − 252


P (248 < X < 252 ) = P (X < 252) − P (X < 248 )
 252 − 249   248 − 249 
= P Z <  − P Z < 
 4   4 
= P (Z < 0.75) − P (Z < −0.25) = 0.7734 − 0.4013 = 0.3721
APROXIMACION DE LA BINOMIAL A LA NORMAL

PROBLEMA

El 10 % de un proceso no productivo son unidades no conformes, si se toma


una muestra de 200 unidades ¿Cuál es la probabilidad de que más de 25 sean
no conformes?

X = número de unidades no conformes

n = 200 p = 0.1

P (X > 25) = 1 − P (X < 25)


25
200!
∑ (200 − x )! x! 0.1 (1 − 0.1)
x 200 − x
=1−
0
De otra Forma

P (X > 25) = 1 − P (X < 25)

Como
µ = np = 200 × 0.1 = 20 σ = np(1 − p ) = 200 × 0.1 × 0.9 = 18

Entonces

P (X > 25) = 1 − P (X < 25)


 25 − 20 
= 1 − P  z ≤ 
 18 
= 1 − P (z ≤ 1.178 )
= 1 − 0.8790 = 0.121
LA DISTRIBUCION GAMMA

Entre los muchos usos que tiene esta distribución se encuentran los siguientes:

• Tiempos de vida de sistemas eléctricos y mecánicos


• Abundancia de especies animales
• Períodos de incubación de enfermedades infecciosas
• Tiempo que transcurre hasta que un material se rompa sometido a diferentes
esfuerzos, etc.

La función de densidad de la distribución gamma es:

α y β son los parámetros de la distribución.

La media y la varianza de la distribución gamma son:


La expresión

Se conoce como la función gamma

Las propiedades más importantes de esta función son:

a) Para cualquier entero positivo n, Γ(n) = (n-1)!

Ejemplo Γ(5)=4!=24

b) Γ( ½) = π
c) c) Γ(n+1)=n Γ(n) = n!
La siguiente figura ilustra la función de densidad gamma para diversos valores de α y β

Cuando β= 1 se obtiene la distribución gamma estándar o función gamma incompleta es decir:

f(x)= 1/ Γ(α) xα-1e-x

La siguiente tabla muestra las probabilidades acumuladas de la función gamma estándar par
diversos valores de α :
x/α 1 2 3 4 5 6 7 8 9 10
1 0.632 0.264 0.080 0.019 0.004 0.001 0.00 0.00 0.00 0.00
2 0.865 0.594 0.323 0.143 0.053 0.017 0.005 0.001 0.00 0.00
3 0.950 0.801 0.577 0.353 0.185 0.084 0.034 0.012 0.004 0.001
4 0.982 0.908 0.762 0.567 0.371 0.215 0.111 0.051 0.021 0.008
5 0.982 0.960 0.875 0.735 0.560 0.384 0.238 0.133 0.068 0.032
6 0.993 0.983 0.938 0.849 0.715 0.554 0.394 0.256 0.153 0.084
7 0.998 0.993 0.970 0.918 0.827 0.699 0.550 0.401 0.271 0.170
8 0.999 0.997 0.986 0.958 0.900 0.809 0.687 0.547 0.407 0.283
9 1.00 0.999 0.994 0.979 0.945 0.884 0.793 0.676 0.544 0.413
10 1.00 0.997 0.990 0.971 0.933 0.870 0.780 0.667 0.542
11 0.999 0.995 0.985 0.962 0.921 0.857 0.768 0.659
12 1.00 0.998 0.992 0.980 0.954 0.911 0.845 0.758
13 0.999 0.996 0.989 0.974 0.946 0.900 0.834
14 1.00 0.998 0.994 0.986 0.968 0.938 0.891
15 0.999 0.997 0.992 0.982 0.963 0.930
Suponga que el tiempo de reacción a cierto estimulo en un individuo seleccionado al azar, tiene
una distribución gamma estándar con α = 2 seg.

Determine la probabilidad de que el tiempo de reacción sea

a) Cuando mucho 4 seg.


b) Más de 2 seg.
c) Entre 3 y 5 seg.

α = 2; como X es gamma estándar entonces β=1

Usando los valores de la tabla anterior para α = 2 se obtiene:

a) P(X ≤ 4)=0.908
b) P(X>2) = 1- P(X ≤ 2) = 1- 0.594 = 0.406
c) P(3≤ X ≥5) = 0.159

Dado un ejercicio o problema gamma es posible llevarlo a la forma gamma estándar:

P(X ≤ x) = P(X/β ≤ x/β ) es decir X/β sigue una distribución gamma estándar
PROBLEMA

El tiempo de supervivencia en semanas de un ratón expuesto a un nivel de radiación de 240


rads sigue una distribución gamma con α=8 y β=15 (ver datos de Survival Distributions:
Reliabiliy Applicactions in the Biomedical Services por A.J Gross y V. Clark,)

Cual es la probabilidad de que un ratón sobreviva

a) Máximo 120 semanas


b) Mas de 90 semanas
c) Entre 60 y 180 semanas

α = 8; β = 15; X: tiempo de supervivencia en semanas

a) P(X≤120) = P(X ≤ 120/15) = P(X≤ 8) = 0.547 por tabla con α = 8


b) P(X>90) 1- P(X ≤ 90) = 1- P(X ≤ 90/15) = 1-P(X≤6) = 1-0.256 = 0.744
c) P( 60 ≤ X ≥180)= P(X ≤ 12) – P(X ≤ 4) = 0.86
d) Determine el promedio y la varianza del tiempo de supervivencia
e) Resolver por Excel
PROBLEMA EXPONENCIAL
El tiempo promedio de duración de una bomba antes de fallar es de 0,5 años.
¿Cuál es la probabilidad de dure más de 1 año sin presentar fallas?

θ = 0.5 X = tiempo de duración

P (x ≥ 1) = 1 − P (x ≤ 1) = 1 − F (1)
 − 
x
 1

= 1 − 1 − e θ  = 1 −  1 − e

0.5
[
 =1− 1−e ]
−2
= e − 2 = 0.1353
   
PROBLEMA
El tiempo de duración de un interruptor eléctrico sigue una distribución
exponencial con θ = 2 años. Determine la probabilidad de que:
1. El tiempo de duración del interruptor sea superior a 3 años
2. Dos interruptores duren mas de 3 años de 5 interruptores seleccionados
3. A lo sumo 3 duren más de 2 años de 5 interruptores seleccionados

θ = 2.0 X = tiempo de duración

1.
P (x ≥ 3) = 1 − P (x ≤ 3) = 1 − F (3)
 − 
x
 − 
3

= 1 − 1 − e θ  = 1 − 1 − e 2 
   
[ ]
= 1 − 1 − e − 1.5 = e − 1.5 = 0.22
2.

X = número de int erruptores p = 0.22


En este caso

p = 0.22
n!
P (X = x ) = p x (1 − p )
n− x

(n − x )! x!
5!
P (x = 2 ) = 0.222 (1 − 0.22)
5−2
= 0.22
(5 − 2)!2!

Nota: Como pueden haber interruptores que duren más de 3 años y menos
usamos binomial
3.
X = número de int erruptores

 2
− 
P (X ≥ 2) = 1 − P (X ≤ 2) = 1 − 1 − e 2  = e − 1 = 0.3678
 
En este caso p = 0.3678

3
n!
P ( X ≤ 3) = ∑ (n − x )! x! p (1 − p)
x n− x

0
3
5! 5!
P ( X ≤ 3) = ∑ (5 − x )! x! 0.3678 (1 − 0.3678) 0.3678 0 (1 − 0.3678 ) +
x n− x 5 −0
=
0 (5 − 0)!0!
5! 5!
0.36781 (1 − 0.3678 ) + 0.3678 2 (1 − 0.3678 )
5 −1 5− 2

(5 − 1)!1! (5 − 2)!2!
5!
0.3678 3 (1 − 0.3678 )
5 −3
+ = 0.9287
(5 − 3)!3!
PROBLEMA

El tiempo promedio de atención de un cajero en un banco es de 1,2 min por


cliente, si el tiempo sigue una distribución exponencial, Determine la
probabilidad de que:

a. Un Cliente sea atendido en mas de 2 minutos


b. Se atiendan 2 clientes en 1 minuto
c. Si la P (X ≤ x ) = 0.15 cuál es el valor de x

a.

θ = 1.2 x = tiempo de atención

P (x ≥ 2) = 1 − P (x ≤ 2) = 1 − F (2)
 − 
x
 2

= 1 − 1 − e  = 1 − 1 − e
θ

1.2
[
 =1− 1−e
− 1.66
]= e − 1.66 = 0.189
   
RELACION ENTRE LA POISSON Y LA EXPONENCIAL

La primera relación es que el parámetro β es el inverso de λ, es decir:

entonces,

Ejemplo, si β es el tiempo entre llegadas de clientes a un banco, entonces λ es el numero de


clientes por minuto, si β es la distancia entre huecos en una avenida (en metros), entonces λ es
el numero de huecos por metros.

Si se reemplaza en la función de densidad de la exponencial, esta nos queda así:

Y la función de distribución:
b.

X = número de clientes

1 ciente 1
θ = 1.2 ∴ λ = = = 0.83 clientes
θ tiempo 1.2

e −0.83 0.832
P( X = x ) =
2!

En este caso

e −0.83 0.832
P( X = 2) = = 0.15 (15%)
2!
c.

x

P( X = x ) = F ( x ) = 1 − e 1.2
= 0.15
x
− −x
0.85 = e 1.2
∴ ln e = ln 0.85
1.2
− x = 1.2 ln 0.85
x = 0.19
α
x
− 
α
w (x, α , θ ) = x α − 1e  θ 
θ
WEIBULL x, α , θ > 0
 Esfuerzo
α
x
− 
F (x ) = 1 − e θ 

PROBLEMA

El Tiempo establecido para un esfuerzo en un material sigue una distribución WEIBULL con θ =
5yα=2

Determine

a. La Probabilidad de que ese tiempo exceda los 10 minutos

b. ()
La Fiabilidad R t del material para un tiempo de 20 minutos
X = tiempo de esfuerzo
θ =5 α =2

P( X > 10) = 1 − P ( X < 10) = 1 − F (10)


  10  
2

 −
5


= 1 − 1 − e   
 
2
 10 
− 
P( X > 10) = e  5 
= 0.18(1.8%)

Donde la Fiabilidad de la distribución de WeiBull esta definida como


α
x
− 
R(t ) = P (X ≥ t ) = e θ 

2
 20 
− 
R(t ) = P (X ≥ t ) = R(20) = P ( X ≥ 20) = e  2 
= 1.7 × 10 − 6 ≈ 0
Nombre Formula E(x) V(x) Observaciones

 Medidas
Físicas cuyo
BETA rango de
0 >0 valores este
entre 0 y 1

La función Acumulada es de la forma F(x,

Donde el entero menor mas próximo a β

=
PROBLEMAS DE DISTRIBUCION BETA

1. En el presupuesto familiar, la porción que se dedica ala saludo sigue una distribución beta,
B(2,2). Cuál es la probabilidad de que se invierta
a) Mas del 25% de presupuesto
b) Menos del 15%
c) Entre el 10 y el 22%
d) Calcule e interprete la esperanza
e) Calcule la varianza
2. La fracción de cierto mineral presente en muestras geológicas sigue una distribución beta,
B(0.34 , 7.63)
a) Qué cantidad de dicho mineral se espera encontrar en una muestra de 500 gramos.
b) Cuál es la probabilidad de que la proporción de ese mineral supere el 3%
3. El porcentaje promedio de ciertos tubos No Conformes que se producen en un proceso
durante un mes es del 2%.
4. Si dicha proporción sigue una distribución beta con parámetro β=8, determine la
probabilidad de que en un mes cualquiera, la proporción de Nop Conformes sea:
a) Máximo del 1.5%

b) Minino del 1%

c) Entre el 0.8 y el 1.2%


DISTRIBUCION UNIFORME CONTINUA

Definición:
La función de densidad de una v.a. continua X con distribución uniforme en el
[ ]
intervalo a, b esta dada por:

1
f ( x) = a ≤ x≤b
b−a

Gráficamente:

1
b-a

a b
(a + b )
E(X ) =
2

La demostración es inmediata, si se tiene en cuenta que para una v.a. continua, la esperanza
se define mediante


E( X ) = ∫ xf ( x)dx
−∞
Asi:
b
x ( a + b)
E( X ) = ∫ b − a dx =
a
2

También es inmediata dado que:


V ( X ) = E ( X 2 ) − [E ( X ) ] , donde
2

b b
x2
E ( X 2 ) = ∫ x 2 f ( x )dx = ∫ dx
a a
b−a
Finalmente

(b − a ) 2
V (X ) =
12

F ( x) = P ( X ≤ x) =
x x
1 x−a

−∞
f (t )dt = ∫
a
b−a
dt =
b−a

En consecuencia la descripción completa de la función de distribución de una v.a. uniforme


continua es:
0 si x < a 
 
 ( x − a) 
F ( x) =  si a ≤ x < b 
 (b − a) 
1 si b ≤ x 
PROBLEMA
El espesor del borde de un buje de bronce esta distribuido uniforme entre 0.95 y 1.05 m.m.
Si se selecciona un buje aleatoriamente, cual es la probabilidad de que el borde del espesor
sea:
b) Cuando mucho 1.01 mm
c) Mínimo 0.98 mm
d) Entre 0.98 y 1.03 mm
e) Exactamente 1 mm
f) Obtenga la función de distribución acumulada
g) Calcule el porcentaje de bordes cuyo espesor es mayor de 1.02 m.m.
h) Que espesor esta excedido por el 90% de los bordes mas altos.
i) Calcule la media y varianza del espesor
1. Suponga que X tiene una distribución uniforme en el intervalo [1.5, 5.5].
a. Calcule la media varianza y desviación estándar
b. Calcule P(X<2.5); P(X≤2.5 ); P(2<X<4); P(2≤X≤4); P(X>3); P(X≥3); P(X>6);
P(X<6); P(X<1); P(X>1)

2. Suponga que X sigue una distribución uniforme en el intervalo [-1, 1].


Calcule el valor de x tal que P (-x < X< x) = 0.90

3. La función de probabilidad del tiempo necesario para terminar una operación de ensamble es
f(x) = 0.1, para 30< x <40 segundos.
a) Calcule la proporción de ensambles que requieren mas de 35 segundos
b) Que tiempo de armado es el que excede el 90% de los ensambles
c) Calcule la media y la varianza el tiempo de ensamblado

4. Sea X una v.a. con distribución uniforme sobre el intervalo [a, b]. Si E(X)=10 y Var(X)=12,
encuentre los valores de a y b.
DITRIBUCION DE MUESTREO

POBLACION:
Conjunto de datos en el cual el investigador guarda un interés.

MUESTRA:
Es una parte o proporción de la población que se toma como base de estudio para inferir en la
población.

INFERIR: método deductivo de la investigación


DISTRIBUCION DE MUESTREO
Estadístico Formula aplicada Nombre Formula Original

1 x − µ 2
Normal n −
2  σ 
x−µ N ~ (x, µ , σ 2 ) = e
Z = estándar 2π σ
σ
para la −∞≤ x ≤∞
n
PARA LA muestra −∞≤ µ ≤∞ σ ≥0
MEDIA
x−µ τ [(v + 1) / 2] ( v +1)
t= t de f (t , v) = [1 + (t 2 / v)] 2
s πvτ [(v / 2)]
Student
n v>0 −∞<t <∞
n −1 y
1 −

(n − 1)s 2
Chi- f ( y , n − 1) = ( n −1)
y 2
e 2

χ2 = τ [(n − 1) / 2]2 2
σ2 Cuadrado
x>0
PARA LA
VARIANZA v1 v2 − ( v1 + v 2 ) (
τ [(v1 + v2 ) / 2]v1 2 v2 2
( v1 − 2 )

g ( f , v1 , v2 ) = f 2
(v2 + v1 f ) 2
s 21 F de πvτ [(v / 2)]
F= 2
s 2 Fisher v>0
−∞ < t < ∞
DISTRIBUCION DE MUESTRO DE LA MEDIA

Un estadístico esta distribuido normalmente cuando la muestra que se toma es grande,


conocido como el TEOREMA DEL LIMITE CENTRAL

Cuando el tamaño de la muestra es grande y la varianza de la población es conocida,

 x−µ 
z= 
σ / n 
Siendo el tamaño de la muestra no muy grande y es desconocida la varianza de la población se
aplica la t DE STUDENTS.

 x−µ 
t = 
 s/ n 
DISTRIBUCION DE MUESTREO DE LA VARIANZA
Cuando se estima la varianza de una población, mediante la muestra, se aplica la CHI-
CUADRADO.

(n − 1) s 2
χ2 =
σ2
Comparar si dos poblaciones poseen varianzas similares, es utilizada la DISTRIBUCIÓN F DE
FISHER

 σ 2 2 s 21 
F =  2 2 
 σ 1s 2 
Si se asume que las varianzas de las poblaciones son similares, entonces la formulación es la
siguiente:

 s 21 
F =  2 
s 2 
MUESTREO

Porción representativa de la población y está representada como un conjunto de variables


aleatorias.

DISTRIBUCIÓN DEL MUESTREO

Muestra: porción representativa de la población.

Sea x1 x 2 ,...x n una muestra en donde cada variable aleatoria sigue una distribución conocida
f (X ) .

Por lo que la función de probabilidad de muestreo


f (x1 , x2 ,...x n ) = f (x1 ) × f (x2 ) ( )
× ... × f x n considerando las variables independientes.
De la muestra se evalúa algunos estadísticos x , s, p, R que caracterizan la población y son
estimaciones de los parámetros µ , σ , p, R .

Existen diversos métodos estadísticos para evaluar o estimar estos estadísticos, entre estos
encontramos el método de la máxima verosimilitud (MV), que consiste en obtener el estadístico
maximizando la función de verso similitud f(L).
Ejemplo
Sea una muestra x1 x 2 ,...x n cuyas variables siguen una distribución exponencial. Mediante
el MV, estime el valor de la medida.
x
1 −
f (X ) = e θ
θ
n
1
n
1 −
x
1 −
x1
1 −
x2
1 −
xn
1 −
1
( x1 + x2 + ... + xn ) 1 − ∑ xi
f (L ) =
θ
∏θ e
i =1
θ
=
θ
e θ
×
θ
e θ
× ... ×
θ
e θ
=
θn
e θ
=
θn
e i =1

Linealizando tenemos que,


n
1 1
f (l ) = ln
θn

θ
∑x
i =1
i ln e

Derivando con respecto a θ


df (l ) 1 n 1 1 n
= − ln θ n + ∑ x i = −n + 2 ∑x i =0
dθ θ i =1 θ θ i =1
Despejando el valor de θ
n
1
θ = ∑ xi
n i =1
Problema

1. Sea una muestra x1 x 2 ,...x n cuyas variables siguen una distribución de Poisson. Obtener
mediante MV una estimación del parámetro λ.

e −λ λx
f (X ) =
x!

Como

n
n
e −λ λ x1 e − λ λ x2 e − λ λ x3 e −λ λ xn 1 ( x1 + x2 +...+ x n ) 1 ∑ xi
f (L ) = ∏ = × × ... × = n
e − nλ λ = n
e − nλ λ i =1

i =1 x! x1! x 2! x n!
∏x
i =1
i ∏x
i =1
i

Linealizando tenemos que,

n
f (l ) = −nλ ln e + ∑ x i ln λ
i =1
Derivando con respecto a λ

df (l ) 1 n
= −n + ∑ x i = 0
dλ λ i =1

1 n
λ= ∑ xi
n i =1
DISTRIBUCIÓN DEL MUESTREO

NOMBRE FORMULACIÓN SIMPLIFICADA APLICACIÓN


Normal x −µ Promedio con σ2 conocida
z =
σ/ n
T de student 2
x −µ Promedio con σ
t = desconocida
s/ n
Ch1 – cuadrado
2
χ =
(n − 1)s 2 Varianza σ
2

σ2
F de Fisher s12 2
Razón de varianzas σ 1 / σ 2
2
F =
s22 (comparación)
Problema

Calcular la probabilidad de que el promedio de una muestra de 5 unidades sea menor a 131, si
el proceso cuenta con un µ = 125 con una desviación estándar de σ = 6 .

 
 
 131 − 125 
P (x < 131) = P Z < = P (Z < 2.23) = 0.98
 6 
 
 5 
PROBLEMAS
1. Calcular la probabilidad de que el promedio de una muestra de 5 unidades sea menor a
131, si el proceso cuenta con un µ = 125 . Si la información seleccionada es 125, 120,
139, 128, y 135.
Calculamos la desviación muestral S = 7.63
 
 
 131 − 125 
P (x < 131) = P t < = P (t < 1.75) = 0.923
 7.63 
 
 5 

2. ¿Cuál es la probabilidad de que la varianza muestral S2 esté por encima de 25?, para una
2
muestra de 7 unidades seleccionadas de un proceso con σ = 36 .

( ) 
P s 2 > 25 = P  χ 2 >
(7 − 1)25  = 1 − P χ 2 < 4.16 = 1 − 0.345 = 0.6550
( )
 36 
3. Encuentre el valor de µ ( )
para P t1 < t < t 2 = 0.95 . Si se sabe que la muestra
seleccionada es de 5 con un promedio y una desviación muestral de x = 120 y s = 4.5

P (t < t1 ) − P (t < t2 ) = 0.975 − 0.025 = 0.95 = P (t < 2.776 ) − P (t < −2.776 )

Lo que implica que

120 − µ
2.776 =
4.5
5

Despejando µ

4.5
µ = 120 − 2.776 × =114.39
5
ESTIMACION PUNTUAL Y POR INTERVALO

ESTIMACION PUNTUAL, el parámetro de la población se infiere mediante el valor de un


estadístico, tomado de la muestra.

ESTIMACION POR INTERVALO, los parámetros de la población son estimados mediante un


intervalo de confianza cuya notación es la siguiente:
x − µ
Sea p(− z α ≤ Z ≤ z α ) = 1 − α entonces p(− z α ≤ ≤ z α ) = 1 − α
2 2 2
σ 2
n
despejando el valor de µ tenemos el int ervalo de la

σ σ
siguiente manera p(x − z α ≤ µ ≤ x + z α ) = 1 − α
2 n 2 n

donde α − 1 es la probabilid ad de certeza o confiabili dad


PROBLEMA

Sea x el promedio muestral. Deduzca si es un estimador insesgado de µ.


n
xi
x = ∑
i =1 n

Aplicando Esperanza
n x 
E (x ) = E ∑ i 
 i =1 n 

1 n
E (x ) = ∑ E (x )
n i =1

( )
Por definición E x = µ
n
1 1
( )
Entonces E x = ∑
n i =1
µ por lo que E (x ) = nµ = µ
n
estimador insesgado, es decir el

estadístico toma exactamente el valor del parámetro.


ESTIMACION DE LA MEDIA
VARIANZA CONOCIDA σ2

σ σ
x − Z∞ ≤ µ ≤ x + Z∞
2 n 2 n
VARIANZA DESCONOCIDA σ2

s s
x − t∞ ≤ µ ≤ x + t∞ con v = n −1 grados de
2 n 2 n
libertad

PROBLEMA.

Calcule el tamaño de muestra que se tomó en un intervalo de confianza para el promedio cuya
σ 2 = 36 , α = 0.05 y un error de estimación de 5 .
Tenemos que:

σ σ σ
x − Z∞ ≤ µ ≤ x + Z∞ , Se observa que el error de estimación es: e.e = Z ∞
2 n 2 n 2 n

Entonces

2∞ σ2 1.96 2 × 36
n=Z = = 5.53 ≈ 6
2
e.e 2 0.052

3. PARA DIFERENCIA DE MEDIAS CON VARIANZAS CONOCIDAS σ 12 y σ2


2

σˆ1 σˆ2 σˆ1 σˆ2


(x1 − x2 ) − Z ∞ + ≤ µ1 − µ2 ≤ ( x1 − x2 ) + Z ∞ +
2
n1 n2 2
n1 n2
4. PARA DIFERENCIAS DE MEDIAS CON VARIANZAS DESCONOCIDAS

1 1 1 1
(x1 − x2 ) − t ∞ sp + ≤ µ1 − µ2 ≤ (x1 − x2 ) + t ∞ s p +
2
n1 n2 2
n1 n2

2 2
(n1 − 1)s1 + (n2 − 1)s2
sp = con v = n1 + n2 − 2 grados delibertad
n1 + n2 − 2

PROBLEMA

Sea la siguiente información de las ventas de dos sucursales de una compañía multinacional

Sucursal 1 Sucursal 2
232 225
231 223
235 234
230 228
236

Preguntas

1. Construya un intervalo de confianza del 95% para el verdadero promedio de la sucursal 1


2
2. Construya un intervalo de confianza del 99% para la verdadera varianza σ de la sucursal 2.
3. ¿Se puede considerar similares las ventas promedio de las sucursales?, utilice un nivel de
significancia de 5%

RESPUESTA 1.

X = 232.8 s1 = 2.588, t 0.025,4 = 2.776


s s 2.588 2.588
x − t∞ ≤ µ ≤ x + t∞ = 232.8 − (2.776 ) ≤ µ ≤ 232.8 − (2.776 )
2 n 2 n 5 5

= 229.58 ≤ µ ≤ 236.012

ESTIMACION PARA LA VARIANZA


(n − 1)s 2 (n − 1)s 2
≤ σ2 ≤ con v = n −1 grados de libertad
χ 21 − α2 χ 2 α2

RESPUESTA 2.

S22 = 4.79, N = 4, χ 0.005(3 ) = 0.0717 χ 0.995 (3 ) = 12.84

(n − 1)s 2
≤σ 2

(n − 1)s 2
=
(4 − 1)4.792 ≤σ 2

(4 − 1)4.792
χ 21 − α2 χ 2 α2 12.84 0.0717
= 5.36 ≤ σ 2 ≤ 960.0
= 2.315 ≤ σ ≤ 60.98

REPUESTA 3.

s12 = 2.5882 , s22 = 4.792 , x1 = 232.5, x 2 = 227.5, n1 = 5, n2 = 5


1 1 1 1
(232.5 − 227.5) − 2.36sp + ≤ µ1 − µ2 ≤ (232.5 − 227.5) + 2.36s p +
5 5 5 5

(51 − 1)2.5882 + (5 − 1)4.792


sp = = 3.69 con v =5+5−2 = 7 grados delibertad
5+5−2

1 1 1 1
(232.5 − 227.5) − 2.36 × 3.69 + ≤ µ1 − µ 2 ≤ (232.5 − 227.5) + 2.36 × 3.69 +
5 5 5 5

ESTIMACION PARA LA RAZÓN DE VARIANZAS


2 2 2
s1 σ s
2
≤ 1 2 ≤ 21
s2 f α σ2 s2 fα
1−
2 2

con v 1 = n1 − 1 grados de libertad para la primera población


y v 2 = n2 − 1 grados de libertad para la segunda población

PROBLEMA

De la siguiente información se desea evaluar de que el supuesto de varianza similares es lo


correcto.
Prueba de resistencias

Método A Método B
3,51 3,62
3,52 3,62
3,52 3,64
3,51 3,63
3,65

Utilice un α = 0.10 ; confiabilidad del 90%

2 2
s1 = 0.00113 s2 = 0.00025

F α 
= F0.95,3,4 = 6.59
 1 − ,v1 , v2 
 2 

1 1
F α 
= F0.05,3,4 = = = 0.1096
 , v1 , v2 
2 
F α 
9.12
 1 − ,v2 , v1 
 2 
Tenemos que:
2
0.00113 σ 0.00113
≤ 12 ≤
0.00025(6.54) σ 2 0.00025(10.96 )
2
σ
9.85 ≤ 1 2 ≤ 41.24
σ2

ESTIMACION PARA LA PROPORCION


ˆ(1 − p
p ˆ) ˆ(1 − p
p ˆ) x
ˆ − Z∞
p ˆ + Z∞
≤p≤p donde ˆ=
p , x = el numero de
2
n 2
n n
exitos

ESTIMACION PARA LAS DIFERENCIAS DE PROPORCIONES


ˆ1(1 − p
p ˆ1 ) p
ˆ (1 − p
ˆ2 ) ˆ (1 − p
p ˆ1 ) p
ˆ (1 − p
ˆ2 )
ˆ2 − p
(p ˆ1 ) − Z ∞ + 2 ˆ2 − p
≤ p1 − p2 ≤ ( p ˆ1 ) + Z ∞ 1 + 2
2
n1 n2 2
n1 n2

x1
donde ˆ1 =
p , x1 = el numero de exitos de la primera población y
n1
x2
ˆ2 =
p , x2 = el numero de exitos de la segunda población
n2

EJEMPLO: Las obleas de silicio se almacenan y luego se parten en los muchos microchips que
se montaran en los circuitos. Se comparan dos métodos de ruptura. De 400 microchips partidos
por el método A, ya no se pueden utilizar 32 debido a las grietas. De 400 microchips partidos
con el método B, solo 28 son inútiles. Estimar las diferencia entre las proporciones de
microchips mal partidos con respecto a los métodos de ruptura. Usar un coeficiente de
confianza igual a 0.95. ¿Qué método de ruptura recomienda el lector?

Intervalos de confianza 95% donde Z α = 1.96 n1 = 400 y n2 = 400


2
368
Donde ˆ1 =
p = 0.92, y
400
372
ˆ2 =
p = 0.93
400

ˆ1 (1 − p
p ˆ1 ) p
ˆ (1 − p
ˆ2 ) ˆ (1 − p
p ˆ1 ) p
ˆ (1 − p
ˆ2 )
ˆ2 − p
(p ˆ1 ) − Z ∞ + 2 ˆ1 ) + Z ∞ 1
ˆ2 − p
≤ p1 − p2 ≤ (p + 2
2
n1 n2 2
n 1 n 2

0.92(0.08) 0.93(0.07) 0.92(0.08) 0.93(0.07)


(0.92 − 0.93) − Z0.025 + ˆ2 − p
≤ p1 − p2 ≤ (p ˆ1 ) + Z ∞ Z0.025 +
400 400 2
400 400

(0.01) − 1.96(0.01862) ≤ p1 − p2 ≤ (0.01) + 1.96(0.01862)

− 0.0264 ≤ p1 − p2 ≤ 0.0465
Los métodos de ruptura de microchips, vemos por medio del intervalo de confianza no son
considerablemente distintos, claro esta usando un intervalo de confianza del 95%. Aunque el
grupo preferiría usar el método B.

Las encuestas Time-Yankelovich, que se ven periódicamente en la revista Time, informan que
acerca de los resultados de consultas telefónicas a unas 1000 personas. En diciembre de
1983, el 60% de los que respondieron dijo que le preocupaba una guerra nuclear. En una
encuesta semejante en junio de 1983, solo el 50% dijo que le preocupaba la guerra nuclear. El
articulo que da estas cifras dice que cuando se comparan, “el error potencia de muestro es mas
o menos 4.5 %”. Explicar como se obtiene y que significa. A continuación, estimar la diferencia
verdadera en esas proporciones, en un intervalo de confianza del 95 %.
600 500
Donde ˆ1 =
p = 0.60, y ˆ2 =
p = 0.50
1000 1000

ˆ ˆ1 ) p
p1 (1 − p ˆ (1 − p
ˆ2 ) ˆ1 (1 − p
p ˆ1 ) p
ˆ (1 − p
ˆ2 )
ˆ1 − p
(p ˆ2 ) − Z ∞ + 2 ˆ1 − p
≤ p1 − p2 ≤ (p ˆ2 ) + Z ∞ + 2
2
n1 n2 2
n1 n2
0.60(0.40) 0.50(0.50) 0.60(0.40) 0.50(0.50)
(0.60 − 0.50) − Z0.025 + ≤ p1 − p2 ≤ (0.60 − 0.50) − Z0.025 +
1000 1000 1000 1000

(0.1) − 1.96(0.0221) ≤ p1 − p2 ≤ (0.1) + 1.96(0.0221)

0.0566 ≤ p1 − p2 ≤ 0.1434
PRUEBA DE HIPOTESIS

Es una herramienta aplicada para determinar si la afirmación que se presenta del valor de un
parámetro o una función es correcta.

HIPOTESIS NULA, H 0 es la afirmación que se realiza acerca del parámetro. Por ejemplo,

mg
afirmar que el promedio de la cantidad de aminoácido alanita para un niño es de 2.5 ,
100l
es indicar H 0 : µ = 2.5
HIPOTESIS ALTERNA, H1 es la negación de la hipótesis nula y plantea tres pruebas: una
bilateral y dos unilaterales. Para el ejemplo anterior tenemos las posibles hipótesis alterna:

H1 : µ ≠ 2.5 prueba bilateral


ó
H1 : µ < 2.5 prueba unilateral izq.
ó
H1 : µ > 2.5 prueba unilateral der.

TIPOS DE ERRORES EN UNA PRUEBA DE HIPOTESIS

Existen dos tipos de errores en una prueba de hipótesis, el ERROR TIPO I o NIVEL DE
SIGNIFICANCIA α ALFA, y el ERROR TIPO II β BETA.

ERROR TIPO I, es rechazar la hipótesis nula siendo esta verdadera.


ERROR TIPO II, es aceptar la hipótesis nula, siendo esta falsa.

PASOS PARA UNA PRUEBA DE HIPOTESIS

1. HIPOTESIS NULA H 0

2. HIPOTESIS ALTERNA H1

3. NIVEL DE SIGNIFICANCIA α

4. REGION DE RECHAZO
d ≤ dα ó d ≥ d1− α prueba bilateral
2
2

d ≤ dα prueba unilateral izquierda

d ≥ dα preuba unilateral derecha


Donde el valor de d depende del estadístico de prueba aplicado en el problema.

A continuación se presentas los estadísticos de prueba:


Para la media, los valores de d son :

x −µ x −µ
Z= ó t=
σ s
n n

Para la diferencia de medias


(x1 − x2 ) − (µ1 − µ2 )
Z=
σ12 σ 22
+
n1 n2
ó
(x1 − x2 ) − (µ1 − µ2 )
t=
1 1
sp +
n1 n2
2 2
(n1 − 1)s1 + (n2 − 1)s2
donde s p =
n1 + n2 − 2
con v = n1 + n2 − 2 grados de libertad

Para la varianza
5. CALCULOS

Se toma algunos de los estadísticos enunciados anteriormente.

6. DECISION ACERCA DE LA PRUEBA

En esta parte el investigador debe aceptar o rechazar la hipótesis nula H 0

Un procedimiento que conduce a una decisión sobre una hipótesis en particular recibe el
nombre de prueba de hipótesis. Los procedimientos de prueba de hipótesis dependen del
empleo de la información contenida en la muestra aleatoria de la población de interés. Si esta
información es consistente con la hipótesis, se concluye que ésta es verdadera; sin embargo si
esta información es inconsistente con la hipótesis, se concluye que esta es falsa. Debe hacerse
hincapié en que la verdad o falsedad de una hipótesis en particular nunca puede conocerse
con certidumbre, a menos que pueda examinarse a toda la población. Usualmente esto es
imposible en muchas situaciones prácticas. Por tanto, es necesario desarrollar un
procedimiento de prueba de hipótesis teniendo en cuenta la probabilidad de llegar a una
conclusión equivocada.

En la vida diaria ocurre un sin numero de sucesos que por medio del estudio estadístico se
logra acercar a una posible realidad; Siendo entonces la probabilística, los diferentes tipos de
distribuciones y la prueba de hipótesis herramientas importantes dentro de la estadística.

La prueba de hipótesis es el tópico en la estadística inferencial que trabaja con dar alguna
certeza de una teoría o creencia sobre un parámetro de una población usando datos obtenidos
de una muestra.

Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más
poblaciones.
La distribución exponencial es una de las más utilizadas, sus valores siempre son positivos, es
importante de que se trata de la única distribución continua cuya tasa de fallo es constante.

PROBLEMA
Se utiliza una marca particular de margarina dietética para determinar el nivel de ácido graso
polisaturado (en porcentaje). Se toma una muestra de seis paquetes y se obtienen los
siguientes datos: 16.8, 17.2, 17.4, 16.9, 16.5, 17.1. ¿Se puede afirmar que el promedio de
ácido polisaturado es de 17? Utilice un nivel de significancia de 0.01.

El parámetro de interés es el promedio de ácido polisaturado.


1. H 0 : µ = 17
2. H1 : µ ≠ 17
3. El nivel de significancia es: α = 0,01
4. Región de rechazo
Si t0 > t α Ó Si t0 < − tα
, n −1 , n −1
2 2

5. Cálculos:
_
x− µ
El estadístico de la prueba es t0 =
s
n
_
x = 16,983 , s 2 = 0,10166667 , entonces s = 0,10166667 = 0,31885
16,983333 − 17
t0 = = −0,1280 ≅ −0,13
0,31885
6
6. Decisión: dado que − t0 ,995 ( 5 ) = −4,032 < t0 = −0,13 ;

La muestra evidencia que no se debe rechazar la hipótesis nula H 0 de que el promedio de

ácido polisaturado es 17
PROBLEMA
Sea una muestra de 5 unidades en donde x = 15.3 , con una varianza poblacional de 5.3, contraste si se puede
afirmar H0 µ>18. Utilice un α=0.05
1. H0 : µ ≥ 18
2. H1 : µ ≤ 18
3. El nivel de significancia es: α = 0,05
4. Región de rechazo
5. Cálculos
x−µ 15.3 − 18
Z= = = −2.62
σ 2.30
n 5
6. Decisión: No se acepta H0, el promedio es menor que 18.
PRUEBA DE BONDAD DE AJUSTE

5.3 PRUEBA DE NORMALIDAD.

Es indispensable conocer que cuando se aplica una herramienta estadística en donde se


involucra variables continuas o cuantitativas es fundamental determinar si la información
obtenida en el proceso, tiene un comportamiento mediante una distribución normal. Para ello la
estadística posee algunas pruebas, entre ellas encontramos la prueba de Ji-cuadrado1,
Kolmogorov-Smirnov Lilliefors, Shapiro y Wilks o la prueba de Anderson Darling

PRUEBA DE NORMALIDAD MEDIANTE EL MÉTODO DE KOLMOGOROV SMIRNOV


LILLIEFORS.
La prueba de Kolmogorov Smirnov Lilliefors KSL es aplicada únicamente a variables continuas
y calcula la distancia máxima entre la función de distribución empírica de la muestra
seleccionada y la teórica, en este caso la normal.
Sea una muestra x1 ,..., x n la muestra ordenada de la siguiente forma x1 ≤ x 2 ≤ x3 ... ≤ x n . La

función de distribución empírica de esta muestra es de la forma:

(o − e )
1
En esta prueba toma el val or de la ji-cuadr ado χ2 = ∑ , dond e o es la obser vación
e2
obse rvada , e la observa ció n espera da. Este val or de Chi -c uadrad o se c ompara con el pu nto cr ític o
2
χ (1−α )( k −1) , c o n k −1 grad os de l ibe rtad.
0 x < x1


 k x k ≤ x ≤ x k +1
F n (x ) =  n

1 x ≥ xn



De tal manera que para contrastar la hipótesis de que el modelo generado de los datos es

F ( x ) se calcula el estadístico Dn = máx Fn ( x ) − F ( x ) cuya distribución, cuando F ( x ) es

cierta se ha tabulado. Si la distancia calculada Dn es mayor que la encontrada en las tablas

D (α , n ) , fijando un nivel de significancia α , rechazaremos el modelo F ( x ) . Es decir


Dn ≥ D(α , n )
Se toma la información a la salida de una de las maquinas de pesaje y estos son los
resultados:

Peso de las píldoras


en la primera
maquina al 5%
485
489
490
495
499
500
512
510
508
k x Fn( x) F( x) Fn(xh−1) −F(xh) Fn(xh) −F(xh) Dn (x)
1 485 0.111 0.08099 0.08099 0.030107
2 489 0.222 0.16130 0.030118 0.060895
3 490 0.333 0.18759 0.03462 0.145732
4 495 0.444 0.35377 0.02044 0.090665
5 499 0.555 0.50964 0.06520 0.045910
6 500 0.666 0.55428 0.00126 0.112376
7 508 0.777 0.83024 0.16357 0.052468 0.1635
8 510 0.888 0.87693 0.09915 0.011954
9 512 1.000 0.91378 0.02489 0.086212

La información de la muestra estimamos el promedio E ( x ) = µ = 498.666 y la desviación

estándar E (s ) = σ = 9.7724 .
 x i − 498.666 
Calculamos el valor de F ( x ) = p (Z ≤ z ) = p Z ≤  para cada uno de los
 9.7724 
valores xi de la muestra.

Ejemplo de ello, es cuando se toma el valor de x = 485 , el caculo de la norma estandarizada


resulta de la siguiente manera:

 485− 498.666
F(248) = p(Z ≤ z) = p Z ≤  = p(Z ≤ −1.398) = 0.0809
 9.7724 

Este procedimiento se realiza para cada uno de los valores obtenidos en la muestra selecciona.
Una vez calculado todos los valores se calculan las diferencias y se obtiene finalmente el valor
máximo de Dn es 0.16357963.
Para obtener la diferencia Fn (xh−1 ) − F(xh ) , por ejemplo tomando el primer valor x = 485 donde

F ( x k ) = 0.0809 ; un valor anterior de Fn ( x k −1 ) = 0 , por lo tanto la diferencia resultante es

0 − 0.0809 = 0.0809 .

En el caso de la diferencia Fn ( xh ) − F( xh ) los valores se realizan de la siguiente manera:

0.111 − 0.0809 = 0.0301

En la tabla de KSL se obtiene con n = 9 , D (0.05,9 ) = 0.271 , por lo que se acepta que la

muestra se distribuye normalmente.


REGRESION LINEAL SIMPLE
Es un modelo matemático que relaciona dos variables y , conocida como variable respuesta o variable
dependiente y la variable x , variable independiente o factor de incidencia. El modelo de regresión posee
la siguiente formulación:

y = β0 + β1 x + ε

Donde β 0 y β1 son parámetros conocido como intercepto y pendiente respectivamente y ε es el error

aleatorio cuyo comportamiento se asume como normal estándar ε ~ (0,1) . Estos parámetros son

estimados mediante el método de los mínimos cuadrados utilizando las siguientes formulaciones:

SS xy
βˆ1 = βˆ0 = y − x βˆ1
SS xx
Para determinar si un modelo de regresión es idóneo con respecto al fenómeno en estudio, es necesario

evaluar el coeficiente de determinación R 2 y el análisis de varianza.

Diagrama del modelo de regresión lineal

48

Variable dependiente 47

46

45

44

43
20 22 24 26 28
Variable independiente
EVALUACION DEL COEFICIENTE DE CORRELACION

A continuación se presenta la formulación, que permite evaluar el grado de correlación entre dos variables
o factores.

SS xy ∑ x∑ y (∑ x )2 (∑ y )2
r =
SS xx SS yy
SS xy = ∑ xy − n
SS xx = ∑ x2 − n
SS yy = ∑ y2 − n

En donde r es la estimación del coeficiente de correlación, SS xy es la suma de cuadrados de las

variables evaluadas, SS xx es la suma de cuadrados de la variable x y SS yy es la suma de cuadrados de


la variable y.
COEFICIENTE DE DETERMINACION

SS R
El coeficiente de determinación R 2 esta definido por la siguiente formulación: R2 = donde
SST
SS R esta definida como la suma de cuadrados de regresión y SST es la suma de cuadrados totales.

∑(y i − y..) = ∑(y i − y..) + ∑∑ ( y i − y)

SS T = SS R + SS E
LA TABLA DE ANALISIS DE VARIANZA

Suma
Grados
Fuente de de Cuadrados Valor de F
de
variación cuadrad medios de Fisher
libertad
os
CM R
f =
Regresión 1 SS R CM R CM E

Error n−2 SS E CM E
Total n −1 SST
PROBLEMA
La siguiente información es tomada del departamento de servicio al cliente de una empresa
prestadora de energía eléctrica
Numero
Numero de
promedio
Numero facturaciones
de quejas
de realizadas(en
(en
muestra miles)
cientos)
x
y
1 0.4402 0.015
2 0.4390 0.018
3 0.4448 0.018
4 0.4432 0.006
5 0.4428 0.008
6 0.4382 0.010
Mediante mínimos cuadrados determine le modelo de regresión y realice la idoneidad del
modelo aplicando el análisis de varianza
REGRESIÓN LINEAL MÚLTIPLE

Hacer una regresión lineal múltiple de un carácter a explicar con respecto a varios caracteres
explicativos es encontrar la combinación lineal de los caracteres explicativos para la cual la
varianza de la serie de los residuos es mínima.

En la mayor parte de los problemas de investigación en que se aplica el análisis de regresión,


se requiere más de una variable independiente en el modelo de regresión. La complejidad de la
mayoría de los mecanismos científicos es tal que, con objeto de estar en condiciones de
pronosticar una respuesta importante, se necesita un modelo de regresión múltiple. Cuando
éste es lineal en los coeficientes, recibe el nombre de modelo de regresión lineal múltiple. Para

el caso de k variables independientes x1 , x 2 ,....., x k , la media de Y x1 , x 2 ,...., x k está dada

por el modelo de regresión lineal múltiple:


µY x ,x
1 2 ,..., xk
= β 0 + β 1 x1 + ..... + β k x k
Y la respuesta estimada se obtiene de la ecuación de regresión muestral:

yˆ = b0 + b1 x1 + ... + bk x k ,

Donde cada coeficiente de regresión β i se estima mediante bi de los datos muéstrales con el
método de mínimos cuadrados. Igual que en el caso de una sola variable independiente con
frecuencia, el modelo de regresión lineal múltiple puede ser una representación adecuada de
una estructura más complicada dentro de ciertos rangos de las variables independientes.

Se pueden aplicar técnicas de mínimos cuadrados similares para estimar los coeficientes
cuando los modelos lineales involucran, a saber, potencias y productos de las variables
independientes. Por ejemplo, cuando k = 1 , el experimentador puede pensar que las medidas
µ Y x no caen sobre una línea recta pero se describen con más aproximación con el modelo de
regresión polinomial.

µ Y x = β 0 + β1 x + β 2 x 2 + ... + β r x r ,

Y la respuesta estimada se obtiene de la ecuación de regresión polinomial:

yˆ = b0 + b1 x + b2 x 2 + ... + br x r .

En ocasiones resulta confuso hablar de un modelo polinomial como un modelo lineal. Sin
embargo, los estadísticos generalmente se refieren a un modelo lineal como a aquél en el cual
los parámetros ocurren linealmente, sin importar cómo entran las variables independientes en
el modelo. Un ejemplo de un modelo no lineal es la relación exponencial dada por:

µ Y x = αβ x ,
La cual se estima con la ecuación de regresión:

yˆ = ab x .
Existen muchos fenómenos en la ciencia y en la ingeniería que son no lineales por naturaleza
y, cuando se conoce la estructura real, ciertamente se debe hacer un intento para ajustar el
modelo presente.

Ecuaciones normales para una regresión múltiple con r = 2 :

∑ y = nb 0 + b1 ∑ x1 + b2 ∑ x 2

∑x y = b ∑x
1 0 1 + b1 ∑ x12 + b2 ∑ x1 x 2

∑x 2 y = b0 ∑ x 2 + b1 ∑ x1 x 2 + b2 ∑ x 22
Se escriben las estimaciones por mínimos cuadrados de β 0 , β1 y β2 como b0 ,b1 y b2 .
n
Obsérvese que en la notación abreviada ∑ x1 significa ∑ x ,∑ x x
i =1
i1 1 2 significa

n n

∑ xi1 xi 2 , ∑ x1 y significa
i =1
∑x
i =1
i1 yi, etc.

ESTIMACIÓN DE LOS COEFICIENTES

En esta sección se obtendrán los estimadores de mínimos cuadrados de los parámetros


β 0 , β1 ,...., β k ajustando el modelo de regresión lineal múltiple:

µY x ,x
1 2 ,..., xk
= β 0 + β 1 x1 + β 2 x 2 + ..... + β k x k
a los puntos de datos
{(x1i , x2i ,...,xki , yi ); i = 1,2,...n Y n = k},
donde y i es la respuesta observada para los valores x1i , x 2 i ,..., x ki de las k variables

independientes x1 , x 2 ,..., x k . Cada observación ( x1i , x 2 i ,..., x ki , y i ) satisface la ecuación:

y i = β 0 + β1 x1i + β 2 x 2i + ... + β k x ki + ε i Ó

y i = b0 + b1 x1i + b2 x 2i + ... + bk x ki + ei

Donde εi y ei son los errores y residual respectivamente, asociados con la respuesta y i . Al

utilizar el concepto de mínimos cuadrados para llevar a los estimadores de b0 , b1 ,..., bk , se

minimiza la expresión:

n n
SSE = ∑ei2 = ∑( yi − b0 − b1x1i − b2 x2i − bk xki ).
i =1 i =1
Diferenciando SSE de cada vez con respecto a b0 , b1 , b2 ,..., bk , e igualando a cero, se

genera el conjunto de k + 1 ecuaciones normales:


n n
nb 0 + b 1 ∑ x 1i + b 2 ∑ x 2 i + ...
i =1 i =1
n n
+ bk ∑
i =1
x ki = ∑i =1
yi

n n n
b0 ∑ x1i + b1 ∑ x12i + b 2 ∑ x1i x 2 i + ...
i =1 i =1 i =1
n n
+ b k ∑ x1i x ki = ∑x 1i yi
i =1 i =1
n n n
b0 ∑ x ki + b1 ∑ x ki x1i + b2 ∑ x ki x 2 i + ...
i =1 i =1 i =1
n n
+ bk ∑ x ki2 = ∑ x ki y i
i =1 i =1

Estas ecuaciones se pueden resolver para b0 , b1 , b2 ,..., bk por cualquier método apropiado

para resolver sistemas de ecuaciones lineales.


Mínimos cuadrados

Hacer una estimación en el sentido de los mínimos cuadrados, es seleccionar en una familia de
modelos teóricos aquel para el cual la media de los cuadrados de la diferencias entre los datos
y el modelo, es mínima.
Error cuadrático

El error cuadrático de un estimador con respecto a un modelo es la esperanza del cuadrado de


las diferencias entre las observaciones y los valores que predice el modelo.

Revisión de la idoneidad del modelo:

Si suponemos que el modelo de regresión es adecuado, podemos usar la ecuación ajustada


para hacer inferencias. Antes de hacerlo así, es imperativo verificar las hipótesis en que se
basa el análisis. En el contexto del modelo de regresión con dos preeditores, nos preguntamos
si y i es igual a β 0 + β1 xi1 + β 2 xi 2 + ε i , donde los errores εi son independientes y tienen la

misma varianza σ2.


Toda la información sobre fallas de ajuste está contenida en los residuos:

e1 = y1 − yˆ1 = y1 − b0 − β1 x11 − b2 x12


e2 = y 2 − yˆ 2 = y 2 − b0 − β1 x 21 − b2 x 22
Μ
en = y n − yˆ n = y n − b0 − b1 x n1 − b2 x n 2

Los residuos deben trazarse de varias maneras para detectar desviaciones sistemáticas de las
hipótesis.
PROBLEMA

En la química analítica, el análisis de los rayos x fluorescentes es una herramienta para estimar
porcentajes de ingredientes en mezclas con multitud de componentes. Con frecuencia, la
estimación de concentraciones depende de gran medida de la habilidad del usuario para
ajustar los modelos de regresión adecuados. En un documento se aprobaron cuatro
suspensiones para propulsión que contenían cuatro ingredientes. Las concentraciones de los
componentes variaban en las suspensiones para producir estándares del tipo de calibración.
Los datos son:
y x1 x2 x3 x4
0.5514 1.1240 0.8980 0.8219 0.9906
0.4426 0.9285 0.8872 0.9308 0.9944
0.5631 1.1214 0.8030 0.7608 1.1221
0.5624 1.1635 0.8706 0.9272 0.9832
0.4505 0.9415 0.8064 0.9026 1.1127
0.5290 1.0712 0.8404 0.9662 1.0836
0.4702 0.9561 0.8731 0.8206 1.0290
0.5001 1.0186 0.8431 0.8346 1.0591
0.4425 0.9039 0.8314 0.7596 1.0994
La respuesta y i es la concentración medida de un integrante A. el valor medido x1 es la

“relación de intensidad” asociada con el integrante A, y los valores x 2 , x3 y x 4 son las

relaciones de intensidad para los componentes adicionales en la suspensión. Como resultado


de los efectos de mejora y absorción, la respuesta y se pronostica mejor después de realizar la
regresión en contra de los valores de intensidad asociados con todos los componentes.
Entonces el modelo es:

µY x1 , x 2 , x 3 ,x 4
= β 0 + β1x1 + β 2 x 2 + β 3 x 3 + β 4 x 4.
Se ajusta este modelo de regresión lineal múltiple a los datos proporcionados y entonces se
estima la concentración de ingredientes A para una mezcla cuyas relaciones de intensidad de
rayos X son, respectivamente, x1 = 1.091, x 2 = 0.855, x3 = 0.758 y x 4 = 1.005.
9 9
De los datos proporcionados se encuentra que n = 9 y ∑x
i =1
1i = 9.2287 ∑x
i =1
2i = 7.6532

9 9 9 9

∑x
i =1
3i = 7.6303 ∑x
i =1
4i = 9.4741 ∑x
i =1
2
1i = 9.5394 ∑x
i =1
2
2i = 6.5172

9 9 9 9

∑x
i =1
2
3i = 6.515 ∑x
i =1
2
4i = 9.9974 ∑x
i =1
1i 2 i = 7.8510 ∑x
i =1
1i x3i = 7.8257

9 9 9 9

∑x
i =1
1i x 4i = 9.7037 ∑x
i =1
2i x3i = 6.4943 ∑x
i =1
2i x 4i = 8.0421 ∑x i =1
3i x 4i = 8.0182

9 9 9 9 9

∑y
i =1
i = 4.5118 ∑ x1i y i = 4.6663 ∑ x 2i y i = 3.8375 ∑ x3i y i = 3.8226
i =1 i =1 i =1
∑x
i =1
4i y i = 4.7456
Insertando estos valores en las ecuaciones normales, se obtiene:

9b0 + 9.2287 b1 + 7.6532 b2 + 7.6303b3 + 9.4741b4 = 4.5118


9.2287b0 + 9.5394b1 + 7.8510b2 + 7.8257b3 + 9.7037b4 = 4.6663
7.6532b0 + 7.8510b1 + 6.5172b2 + 6.4943b3 + 8.0421b4 = 3.8375
7.6303b0 + 7.8257b1 + 6.4943b2 + 6.5015b3 + 8.0182b4 = 3.8226
9.4741b0 + 9.7037b1 + 8.0421b2 + 8.0182b3 + 9.9974b4 = 4.7456
La solución de este conjunto de ecuaciones de las estimaciones únicas:

b 0 = − 0 . 3004 , b1 = 0.5387, b2 = 0.1770, b3 = −0.0704, b4 = 0.1506.


Por tanto, la ecuación de regresión es:

ˆ = −0.3004 + 0.5387 x1 + 0.1770 x 2 − 0.0704 x 3 + 0.1506 x 4 .


y
Para una mezcla cuyas intensidades de rayos X son

x1 = 1.091, x 2 = 0.855, x3 = 0.758 y x 4 = 1.005 , la concentración estimada del


componente A es:

y = −0.3004+ (0.5387)(1.091) + (0.1770)(0.855) − (0.0704)(0.758) + (0.1506)(1.005)

y = 0.5366

Vous aimerez peut-être aussi