Académique Documents
Professionnel Documents
Culture Documents
UNIDAD 4 & 5
4: INFERENCIA ESTADISTICA
5: ANALISIS DE REGRESIÓN Y CORRELACIÓN
MATERIA
PROBABILIDAD Y ESTADISTICA
DOCENTE
I.S.C MA. DEL CARMEN BACA GUTIERREZ
TITULO DEL TRABAJO
TRABAJO DE INVESTIGACIÓN
PRESENTA
MAR SANTIAGO JOSÉ MIGUEL
INTRODUCCIÓN: ................................................................................................... 3
PRUEBA DE HIPÓTESIS...................................................................................... 15
MUESTRAS PEQUEÑAS...................................................................................... 24
CORRELACIÓN. ................................................................................................... 36
CONCUSIÓN: ....................................................................................................... 53
BIBLIOGRAFÍA ..................................................................................................... 54
2
INTRODUCCIÓN:
3
4: INFERENCIA ESTADISTICA
ESTIMACIÓN PUNTUAL Y POR INTERVALOS DE CONFIANZA.
Además, junto a esa estimación, y dado que muy probablemente no coincida con
el valor real del parámetro, acompañaremos el error aproximado que se comete al
realizarla.
Estimación puntual
Ejemplo:
En una ciudad se toma una muestra de 160 personas, de las cuales 49 practican
deporte. Determina y calcula un estimador puntual para la proporción de personas
que practican deporte en la ciudad.
Practican deporte.
4
Un conjunto de valores obtenido a partir de los datos muéstrales, en el que hay
una determinada probabilidad de que se encuentre el parámetro. A esta
probabilidad se le conoce como el nivel de confianza.
Ejemplo:
𝑝. 𝑞 𝑝. 𝑞
P E (P − 𝑧ꝏ . √ ; p + 𝑧ꝏ . √ )
2 𝑛 2 𝑛
= (0,377; 0,453)
5
ESTIMACIÓN DE LA MEDIA, DE LA DIFERENCIA DE MEDIAS, DE
LA PROPORCIÓN Y DE LA DIFERENCIA DE PROPORCIONES.
Estimación de la media:
La media muestral es una variable aleatoria que toma un valor según la muestra
concreta que se obtenga. Se denomina distribución muestral de la media a su
función de probabilidad.
6
0,4
𝑁 (𝜇, ) = 𝑁(𝜇, 0′ 063)
√40
Este valor nos dice que la medias muéstrales se encuentran en un 95% de los
casos como máximo a 1.96 desviaciones típicas de la media buscada, es
decir, nuestra media 𝑥̅ = 3, en un 95% de los casos, dista de la media poblacional
menos de 1,96.0,063=0,124 km.
Encontramos por tanto que a un nivel de confianza del 95%, la media poblacional
es de 3 km. con un error máximo de:
𝜎
𝐸=𝑘 = 0,124 𝑘𝑚
√𝑛
O lo que es lo mismo, existe una probabilidad del 95%, de que la media buscada
se encuentre en el intervalo de confianza (3-0,124, 3+0,124) = (2,976 , 3,124 ).
(𝑥̅ − 𝐸, 𝑋̅ + 𝐸)
𝜎
Siendo 𝑥̅ la media de la muestra, y 𝐸 = 𝑘 el error de estimación.
√𝑛
7
Para entender mejor el proceso, observa el gráfico interactivo en el que se supone
que la verdadera media de la población es µ=3.1 km. Comenzamos con el valor
k=1,96, que corresponde a una confianza del 95%. Luego hallamos el área roja,
que corresponde a las medias muéstrales que tienen una probabilidad de
aparición del 95%. Si la media muestral (mm) obtenida es, como en el caso que
nos ocupa, 𝑋̅ = 3, puedes comprobar como el intervalo de confianza contiene a la
media de la población.
(𝑥̅1 − 𝑥̅ 2 ) − (𝜇1 − 𝜇2 )
𝑧=
√𝜎1 ² + 𝜎2 ²
𝑛1 𝑛2
𝜎1 ² 𝜎2 ²
𝜇1 − 𝜇2 = (𝑥̅1 − 𝑥̅2 ) ± 𝑍√ +
𝑛1 𝑛2
Ejemplo:
8
Se lleva a cabo un experimento en que se comparan dos tipos de motores, A y B.
Se mide el rendimiento en millas por galón de gasolina. Se realizan 50
experimentos con el motor tipo A y 75 con el motor tipo B. La gasolina que se
utiliza y las demás condiciones se mantienen constantes. El rendimiento promedio
de gasolina para el motor A es de 36 millas por galón y el promedio para el motor
B es 24 millas por galón. Encuentre un intervalo de confianza de 96% sobre la
diferencia promedio real para los motores A y B. Suponga que las desviaciones
estándar poblacionales son 6 y 8 para los motores A y B respectivamente.
Solución:
𝜎𝐴2 𝜎𝐵2 36 64
𝜇𝐵 − 𝜇𝐴 = (𝑥̅𝐵 − 𝑥̅𝐴 ) ± 𝑍√ + = (42 − 36) ± 2.05√ +
𝑛𝐴 𝑛𝐵 50 75
La interpretación de este ejemplo sería que con un nivel de confianza del 96% la
diferencia del rendimiento promedio esta entre 3.43 y 8.57 millas por galón a favor
del motor B. Esto quiere decir que el motor B da más rendimiento promedio que el
motor A, ya que los dos valores del intervalo son positivos.
𝑝−𝑃
𝑧=
√𝑃𝑞
𝑛
9
𝑃𝑞
𝑃 = 𝑝 ± 𝑧√
𝑛
𝑝𝑞
𝑃 = 𝑝 ± 𝑧√
𝑛
Ejemplo:
Solución:
n=500
15
𝑝= = 0.03
500
Z (0.90) = 1.645
𝑝𝑞 (0.03)(0.97
𝑃 = 𝑝 ± 𝑧√ = 0.03 ± (1.645)√
𝑛 500
10
0.0237 < P < 0.0376
(𝑝1 − 𝑝2 ) − (𝑝1 − 𝑝2 )
𝑧=
𝑃1 𝑞1 𝑃2 𝑞2
√
𝑛1 + 𝑛2
𝑃1 𝑞1 𝑃2 𝑞2
𝑃1 − 𝑃2 = (𝑃1 − 𝑃2 ) ± 𝑍√ +
𝑛1 𝑛2
𝑃1 𝑞1 𝑃2 𝑞2
𝑃1 − 𝑃2 = (𝑃1 − 𝑃2 ) ± 𝑍√ +
𝑛1 𝑛2
Ejemplos:
11
Solución:
𝑃1 𝑞1 𝑃2 𝑞2
𝑃1 − 𝑃2 = (𝑃1 − 𝑃2 ) ± 𝑍√ +
𝑛1 𝑛2
(0.05)(0.95) (0.04)(0.96)
= (0.05 − 0.04) ± 1.645√ +
1500 2000
Como el intervalo contiene el valor de cero, no hay razón para creer que el nuevo
procedimiento producirá una disminución significativa en la proporción de artículos
defectuosos comparada con el método existente.
12
Tamaño de la población. Una población es una colección bien definida de objetos
o individuos que tienen características similares. Hablamos de dos tipos: población
objetivo, que suele tiene diversas características y también es conocida como la
población teórica. La población accesible es la población sobre la que los
investigadores aplicaran sus conclusiones.
Nivel de confianza. Son intervalos aleatorios que se usan para acotar un valor con
una determinada probabilidad alta. Por ejemplo, un intervalo de confianza de 95%
significa que los resultados de una acción probablemente cubrirán las expectativas
el 95% de las veces.
z2 . p . q
n=
d2
En donde:
z = nivel de confianza,
p = probabilidad de éxito, o proporción esperada
q = probabilidad de fracaso
d = precisión (error máximo admisible en términos de proporción)
13
Ejemplo:
TIPOS DE MUESTREO
MUESTREO PROBABILÍSTICO
MUESTREO NO PROBABILÍSTICO
14
PRUEBA DE HIPÓTESIS.
Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la
hipótesis nula y la hipótesis alternativa. La hipótesis nula es el enunciado que se
probará. Por lo general, la hipótesis nula es un enunciado de que "no hay efecto" o
"no hay diferencia". La hipótesis alternativa es el enunciado que se desea poder
concluir que es verdadero de acuerdo con la evidencia proporcionada por los
datos de la muestra.
15
Pruebas unilaterales o de una cola
Una prueba de una cola normalmente está asociada a una hipótesis alternativa
para la cual se conoce el signo de la potencial diferencia antes de ejecutar el
experimento y la prueba. En el ejemplo descrito más arriba, la hipótesis alternativa
referida a una prueba de una cola podría redactarse así: media (A) < media (B)
o media (A) > media (B), dependiendo de la dirección esperada de la diferencia.
Prueba de hipótesis:
Ho; Dato ≤ x
Prueba de hipótesis:
Ho; Parámetro ≥ x
Una prueba de dos colas se asocia a una hipótesis alternativa para la cual se
desconoce el signo de la potencial diferencia. Por ejemplo, supongamos que
16
deseamos comparar las medias de dos muestras A y B. Antes de diseñar el
experimento y ejecutar la prueba, esperamos que si se resalta una diferencia entre
las dos medias, realmente no sabemos si A debería ser superior a B o a la
inversa. Esto nos lleva a elegir una prueba de dos colas, asociada a la siguiente
hipótesis alternativa: Ha: media(A) ≠ media (B). Las pruebas de dos colas son con
diferencia las más utilizadas.
Prueba de hipótesis:
Ho; Parámetro = x
H1; Parámetro ≠ x
Ejemplo:
1.-Datos:
μ =70 años
s = 8.9 años
𝑥̅ = 71.8 años
n = 100
α = 0.05
17
2.-Establecemos la hipótesis
Ho; μ = 70 años.
3.-Nivel de significancia
α = 0.05, zα = 1.645
4.-Regla de decisión:
5.-Cálculos:
𝑋̅𝑅 −𝜇 71.8 − 70
𝑍𝑅 = 𝜎 = 8.9 = 2.02
√𝑛 √100
6. Decisión y justificación.
Las pruebas de dos muestras se utilizan para decidir si las medias de dos
poblaciones son iguales. Se requieren dos muestras independientes, una de cada
una de las dos poblaciones. Considérese, por ejemplo, una compañía
investigadora que experimentan con dos diferentes mezclas de pintura, para ver si
se puede modificar el tiempo de secado de una pintura para uso doméstico. Cada
mezcla es probada un determinado número de veces, y comparados
posteriormente los tiempos medios de secado de las dos muestras. Una parece
ser superior, ya que su tiempo medio de secado (muestra) es 30 minutos menor
que el de la otra muestra.
18
Pero, ¿son realmente diferentes los tiempos medios de secado de las dos
pinturas, o esta diferencia muestral es nada más la variación aleatoria que se
espera, aun cuando las dos fórmulas presentan idénticos tiempos medios de
secado? Una vez más, las diferencias casuales se deben distinguir de las
diferencias reales.
Prueba de media:
Se utiliza una prueba de una muestra para probar una afirmación con respecto a
una media de una población única
𝑥̅ − 𝜇
𝑧𝑝𝑟𝑢𝑒𝑏𝑎 = 𝜎
√𝑛
𝑥̅ − 𝜇
𝑡𝑝𝑟𝑢𝑒𝑏𝑎 = 𝑠
√𝑛
Ejemplo:
19
Comprobar la hipótesis 𝜇 = 1120 horas contta la hipótesis alternativa 𝜇 < 1200
horas, mediante un error tipo l de 0,05.
Datos:
𝜇 = 1120
n=8
x = 1070
S = 125
a = 0,05
Ho: u = 1220
𝑥̅ − 𝜇
𝑡𝑝𝑟𝑢𝑒𝑏𝑎 = 𝑠
√𝑛
1070 − 1120
𝑡𝑝𝑟𝑢𝑒𝑏𝑎 = 125 = -1,131
√8
20
PRUEBAS PARA PROPORCIÓN Y DIFERENCIA DE
PROPORCIONES
Las pruebas de proporciones son adecuadas cuando los datos que se están
analizando constan de cuentas o frecuencias de elementos de dos o más clases.
El objetivo de estas pruebas es evaluar las afirmaciones con respecto a una
proporción (o Porcentaje) de población. Las pruebas se basan en la premisa de
que una proporción muestral (es decir, x ocurrencias en n observaciones, o x/n)
será igual a la proporción verdadera de la población si se toman márgenes o
tolerancias para la variabilidad muestral. Las pruebas suelen enfocarse en la
diferencia entre un número esperado de ocurrencias, suponiendo que una
afirmación es verdadera, y el número observado realmente.
Prueba de proporciones
𝑥
𝑍𝑝𝑟𝑢𝑒𝑏𝑎 = 𝑛 − 𝑝𝑜
𝑝
√ 𝑜(1− 𝑝𝑜) . √𝑁 − 𝑛
𝑛 𝑁−1
21
Donde:
x = ocurrencias.
n = observaciones.
𝑥
= proporción de la muestra.
𝑛
𝑝𝑜 = proporción propuesta.
𝑛
. 1000% > 5%
𝑁
𝑥
− 𝑝𝑜
𝑍𝑝𝑟𝑢𝑒𝑏𝑎 = 𝑛
𝑝
√ 𝑜(1− 𝑝𝑜) . √𝑁 − 𝑛
𝑛 𝑁−1
Ejemplo:
3
Los datos son: 𝑝𝑜 = = 0.333
10
a = 0.025
n = 600
x = 200
22
n = 10000
Ho: P = Po
H1: P > Po
𝑛
. 100% > 5%
𝑁
600
. 100% = 6%
10000
𝑥 200
− 𝑝𝑜
𝑍𝑝𝑟𝑢𝑒𝑏𝑎 = 𝑛 = 600 − 0.333 = 1,84
𝑝𝑜(1− 𝑝𝑜) 𝑁 − 𝑛 0.333(1 − 0.333) 10000 − 6000
√ . √𝑁 − 1 √ . √ 10000 − 1
𝑛 600
23
MUESTRAS PEQUEÑAS.
Ejemplos:
El Instituto Eléctrico Edison publica cifras del número anual de Kilowatt-hora que
gastan varios aparatos electrodomésticos. Se afirma que una aspiradora gasta un
promedio de 46 kilowatt-hora al año. Si una muestra aleatoria de 12 hogares que
se incluye en un estudio indica que las aspiradoras gastan un promedio de 42
kilowatt-hora al año con una desviación estándar de 11.9 kilowatt-hora, ¿esto
sugiere con un nivel de significancia de 0.05 que las aspiradoras gastan, en
promedio, menos de 46 kilowatt-hora anualmente? Suponga que la población de
kilowatt-hora es normal.
Solución:
Datos:
μ= 46 kilowatt-hora
s= 11.9 kilowatt-hora
̅ = 42 kilowatt-hora
𝑋
n = 12
α = 0.05
Prueba de hipótesis
μ < 46 kilowatt-hora
Valores críticos
Regla de decisión:
24
Si t ≥ -1.796 No se rechaza Ho Si t < -1.796 Se rechaza Ho
Decisión y justificación:
Como –1.16 > -1.796, por lo tanto no se rechaza Ho y se concluye con un nivel de
significancia del 0.05 que el número promedio de kilowatt-hora que gastan al año
las aspiradoras no es significativamente menor que 46.
DISTRIBUCIÓN T DE STUDENT
z v
T= = Z√V
√V/v
Donde
Z es una variable aleatoria distribuida según una normal típica (de media nula
y varianza ).
V es una variable continua que sigue una distribución χ² con V grados de libertad.
Z y V son independientes
25
Z+μ
Si μ es una constante no nula, el cociente es una variable aleatoria que sigue
√V/v
Supóngase que se toma una muestra de una población normal con media μ y
varianza σ² Si es el promedio de las n observaciones que contiene la muestra
μ
aleatoria, entonces la distribución Z = σ
⁄ n
√
26
Propiedades de las distribuciones t
v+1
l[ 2 ] t 2 −v+1
h(t) = v (1 + ) 2 , −∞ < t < ∞
l (2) √ℜ: u v
27
Ejemplo:
Solución:
𝑥̅ − 𝜇 518 − 500
𝑡= 𝑠 = = 2.25
40
√𝑛 √25
28
otra. Otro de sus usos es en intervalos de confianza y pruebas de hipótesis para
las varianzas o desviaciones estándar. Empezaremos ilustrando la definición de la
distribución para proceder a ejemplos de uso práctico.
(𝑛 − 1). 𝑠 2
2
𝑥 =
𝜎2
𝑣 𝑥2
𝑌 = 𝑌0 . 𝑋 2 ( − 1)𝑒 − 2
2
29
También vemos que al aumentar el número de grados de libertad, la curva se
aproxima a la distribución normal.
•La varianza es igual a dos veces el número de grados de libertad (por lo tanto la
desviación estándar es la raíz cuadrada de 2ν):
𝜎2 = 2 ∗ 𝑣
•Cuando los grados de libertad son mayores o iguales que 2, el máximo valor de
valor de Y ocurre cuando
𝑥2 = 𝑣 − 2
30
Ejemplo del uso de χ2 en pruebas de desviación estándar.
La compañía de baterías Duramás ha desarrollado una nueva batería
para celulares. En promedio, la batería dura 60 minutos por carga. La desviación
estándar es de 4 minutos. Supongamos que el departamento de manufactura
corre una prueba de control de calidad. Ellos seleccionan 7 baterías al azar. La
desviación estándar de las baterías seleccionadas es de 6 minutos. ¿Qué valor de
la estadística chi-cuadrada tenemos para esta prueba?
Solución:
2
(𝑛 − 1). 𝑠 2 (7 − 1)62
𝑥 = = = 13.5
𝜎2 42
Problema 1
31
Solución Sabemos lo siguiente:
Tamaño de la muestra es n = 7.
El valor 𝑥 2 para la prueba es 13.5 (del Ejemplo 1). Dados estos valores, podemos
determinar la probabilidad acumulada de chicuadrada. Para ello, usamos una tabla
de la estadística 𝑥 2 con los valores de grados de libertad (6) y de chi-cuadrada
(13.5) o empleamos alguna herramienta como la calculadora Chi-Square
Distribution Calculator. De cualquiera de los dos obtenemos el valor de: 0.96.
32
5: ANALISIS DE REGRESIÓN Y CORRELACIÓN
Los métodos de regresión se usan para elegir la "mejor" relación funcional entre
las variables, es decir, la función o ecuación que mejor se ajuste a los datos.
Mientras que los métodos de correlación se utilizan para medir el grado de
asociación o de relación entre las distintas variables. Se debe tener en cuenta que
la única persona que puede decir con seguridad, que las variables básicas son las
que se están utilizando y que el mecanismo básico opera de acuerdo con la
función matemática elegida, es una persona bien entrenada en el asunto o campo
en el cual se está investigando. El análisis estadístico es solamente un
instrumento que ayuda en el análisis e interpretación de los datos.
33
clases y son susceptibles de identificación y medición". CLASIFICACIÓN DE LAS
Variables variable independiente:
Ecuación de regresión
Relación existente entre la media de una variable aleatoria y los valores de una o
más variables independientes de los cuales depende. Desde luego en algunos
casos quizá no exista relación en absoluto o sólo una muy débil, de manera que
34
también nos interesará la medición del alcance o fuerza de la Correlación La
relación (asociación o interdependencia) de los valores de dos o más variables
cualitativas o cuantitativas. En resumen se puede decir lo siguiente el análisis de
regresión se utiliza en la predicción y el análisis de correlación, por contraste con
el de regresión, se utiliza para medir la fuerza de la asociación entre las variables.
𝑦̅ = 𝑏0 + 𝑏1 𝑥
Donde
𝑏0 = 𝑦̅ − 𝑏1 𝑥̅
Ejemplo:
𝑠𝑥𝑦 0,26875
𝑏 = 𝑠2 𝑥 ≈ ≈ 7,283 y 𝑎 = 𝑌̅ − 𝑏𝑋̅ ≈ 2,75 ∗ 1,075 ≈ −5,0847.
0,0396
35
Por lo tanto, la recta es y = -5,0847 + 7,283x.
CORRELACIÓN.
𝜎𝑥𝑦
𝑟=
𝜎𝑥 𝜎𝑦
Propiedades
36
2. El signo del coeficiente de correlación es el mismo que el de la covarianza. Si la
covarianza es positiva, la correlación es directa. Si la covarianza es negativa, la
correlación es inversa. Si la covarianza es nula, no existe correlación.
Coeficiente de correlación = r
𝑁 ∑ 𝑋𝑌 − (∑ 𝑋)(∑ 𝑌)
𝑟=
√𝑁 ∑ 𝑋 2 − (∑ 𝑋)2 ) ∗ √𝑁 ∑ 𝑌 2 − (∑ 𝑌)2
37
El coeficiente de correlación de Pearson, que se simboliza con la letra minúscula r,
se calcula dividiendo la suma de los productos de las desviaciones de cada
variante de X e Y, con respecto a sus medias (suma que se denomina covarianza
de X e Y), por el producto de las desviaciones estándar de ambas variables. En
forma práctica, el coeficiente de correlación de Pearson es:
𝑁 ∑𝑁 𝑁 𝑁
𝑖=1(𝑋𝑌) − (∑𝑖=1 𝑋 )(∑𝑖=1 𝑌 )
𝑟=
√[𝑁 ∑𝑁 2 𝑁 2 𝑁 2 𝑁 2
𝑖=1 𝑋 − (∑𝑖=1 𝑋 ) ][𝑁 ∑𝑖=1 𝑌 − (∑𝑖=1 𝑌 ) ]
Ejemplo: La siguiente tabla muestra los datos registrados en una muestra aleatoria
de 10 escuelas para niños superdotados. La razón alumno/maestro es (X) y los
estudiantes que se salen antes de completar el curso es (Y).
De la tabla, ves que en las columnas (1) y (2) se han escrito las puntuaciones
originales. En la columna (3) se obtuvieron los cuadrados de las puntuaciones X y
en la columna (4) los cuadrados de las puntuaciones Y. La columna (5) se forma
con el producto de cada X por cada Y, finalmente se suman los valores de las
cinco columnas y se sustituyen en la fórmula que ya conoces, obteniendo el
siguiente resultado.
38
𝑁 ∑𝑁 𝑁 𝑁
𝑖=1(𝑋𝑌) − (∑𝑖=1 𝑋 )(∑𝑖=1 𝑌 )
𝑟=
√[𝑁 ∑𝑁 2 𝑁 2 𝑁 2 𝑁 2
𝑖=1 𝑋 − (∑𝑖=1 𝑋 ) ][𝑁 ∑𝑖=1 𝑌 − (∑𝑖=1 𝑌 ) ]
10(1440) − (130)(100)
𝑟=
√[(10(1878) − (130)²][10(1138) − (100)²]
1400
𝑟=
√2594400
1400
𝑟= = 0.869180
1610.7141
39
REGRESION Y CORRELACION PARA DATOS AGRUPADOS
REGRESIÓN
MODELOS DE REGRESIÓN
𝑌𝑇 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑃 𝑋𝑃 + 𝜀
𝛽0 𝛽1 𝛽𝑃 : Parámetros, miden la influencia que las variables explicativas tienen sobre el regresando.
40
la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una
sola variable explicativa, el hiperplano es una recta:
41
inferencia estadística tales como intervalos de confianza para los parámetros así
como pruebas de bondad de ajuste.
correlación
La relación entre dos super variables cuantitativas queda representada mediante la línea de mejor
ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales de una
línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:
42
La fuerza extrema según el caso, mide el grado en que la línea representa a la nube de puntos: si
la nube es estrecha y alargada, se representa por una línea recta, lo que indica que la relación
es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la relación es débil.
El sentido mide la variación de los valores de B con respecto a A: si al crecer los valores de A lo
hacen los de B, la relación es positiva; si al crecer los valores de A disminuyen los de B, la relación
es negativa.
La forma establece el tipo de línea que define el mejor ajuste: la línea recta, la curva mono tónica o
la curva no mono tónica.
El coeficiente de correlación muestral de una muestra es de hecho una variable aleatoria, eso
significa que si repetimos un experimento o consideramos diferentes muestras se obtendrán
valores diferentes y por tanto el coeficiente de correlación muestral calculado a partir de ellas
tendrá valores ligeramente diferentes. Para muestras grandes la variación en dicho coeficiente será
menor que para muestras pequeñas. R. A. Fisher fue el primero en determinar la distribución de
probabilidad para el coeficiente de correlación.
Si las dos variables aleatorias que trata de relacionarse proceden de una distribución gaussiana bi-
variante entonces el coeficiente de correlación r sigue una distribución de probabilidad dada por:
Donde:
Es la distribución gamma
43
for
Aunque, la solución:
, i.e.
Ejemplo:
44
Se observa una relación positiva entre el ingreso total estimado y el gasto total de
los hogares.
En el ejemplo se ve que existe una relación creciente y más o menos
lineal entre el ingreso total y el gasto total de los hogares.
Para una muestra de n datos bi-variantes:
(𝑥1 , 𝑦1 ), … , (𝑥𝑛 , 𝑦𝑛 )
𝑛
1
𝑠𝑥𝑦 = ∑(𝑥𝑖 − 𝑥̅ ) (𝑦𝑖 − 𝑦̅)
𝑛
𝑖=1
1 1
Donde 𝑥̅ = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 e 𝑦̅ = 𝑛 ∑𝑛𝑖=1 𝑦𝑖 son las medias de ambas variables.
45
La covarianza es positiva, que implica una relación creciente entre x e y.
∑ 𝐷2
𝜌=1−
𝑁(𝑁 2 − 1)
𝜌
𝑡=
√(1 − 𝜌2 )/(𝑁 − 2)
46
La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de
Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas
respectivamente, 0 cero, significa no correlación pero no independencia. La tau de Kendall es
un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución
normal bi-variante.
Ejemplo:
El primer paso es ordenar los datos de la primera columna. Se agregan dos columnas ‘orden
(i)' y ‘orden (t)'
Para el orden i, se corresponderán con el número de fila del cuadro, para 99, orden (i) =3 ya
que ocupa el 3.er lugar, ordenado de menor a mayor
Para el orden t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la semana', para
no hacer otro cuadro, la secuencia ordenada quedaría
Orden (t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }
Sin embargo, el valor de orden está dado por el valor promedio de sus posiciones, así para:
47
28 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 8
Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las
dos columnas de orden y, otra columna "d2". Esta última es sólo la columna "d" al cuadrado.
Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo
siguiente:
Nótese como el número de orden de los valores que son idénticos es la media de los números
de orden que les corresponderían si no lo fueran.
Los valores de la columna d2 pueden ser sumados para averiguar ∑ 𝑑𝑖2 = 196. El valor de n es
10. Así que esos valores pueden ser sustituidos en la fórmula.
6𝑥196
𝜌 = 1 − 10(102 −1)
48
Correlaciones: con esta opción se obtienen los estadísticos:
𝑛 (𝑛−1)
El número total de comparaciones es incluyendo empates.
2
𝐶−𝐷
1. Gamma: El estadístico Gamma se define como𝐶+𝐷 Este análisis excluye los
49
2. Tau-b de Kendall. Este coeficiente incluye los empates contemplando por
separado los que aparecen en la variable, 𝑋1 (𝐸𝑥1 )y los que aparecen en la
variable, 𝑋2 (𝐸𝑥2 )
𝐶−𝐷
Se define como: 𝑇𝑏 =
√(𝐶+𝐷+𝐸𝑥1 )(𝐶+𝐷+𝐸𝑥2 )
2𝑘(𝐶−𝐷)
3. Tau-c de Kendall. Este estadístico se define como: 𝑇𝑐 = siendo k el
𝑛2 (𝑘−1)
Todas estas medidas toman valores entre -1 y +1, y alcanza los valores extremos
cuando existe concordancia o discordancia perfecta. Valores próximos a 0 indican
ausencia de asociación.
Ejemplo
50
Los resultados que se obtienen son los siguientes:
51
En la tabla de contingencia se observan, entre otros resultados, los siguientes:
52
CONCUSIÓN:
53
BIBLIOGRAFÍA
https://www.uoc.edu/in3/emath/docs/Estimacion_IC.pdf
http://calculo.cc/temas/temas_estadistica/muestreo/problemas/prob_intervalo0.htm
https://www.matematicasonline.es/BachilleratoCCSS/segundo/archivos/Inferencia_
estadistica/estimacion.htm
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-
statistics/supporting-topics/basics/what-is-a-hypothesis-test/
https://help.xlstat.com/customer/es/portal/articles/2062454-%C2%BFcu%C3%A1l-
es-la-diferencia-entre-una-prueba-de-dos-colas-bilateral-y-de-una-cola-unilateral-
http://www.geociencias.unam.mx/~ramon/EstInf/Clase13.pdf
https://prezi.com/24yqyj5mvyvm/prueba-de-hipotesis-para-una-media-y-diferencia-
de-medias/
https://www.monografias.com/trabajos91/prueba-hipotesis-medias-excel-y-
winstats/prueba-hipotesis-medias-excel-y-winstats.shtml
http://www.ub.edu/aplica_infor/spss/cap3-5.htm
https://es.scribd.com/document/285398896/UNIDAD-5-Probabilidad-y-estadistica
https://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Spearman
https://es.scribd.com/doc/58163158/Correlacion-por-Rangos-Spearman
http://probabilidadyestadisticaitsav.blogspot.com/2012/06/53-regresion-y-
correlacion.html
http://viref.udea.edu.co/contenido/menu_alterno/apuntes/ac36-correlacion-
variables.pdf
http://biplot.usal.es/problemas/libro/6%20%20Regresion.pdf
http://cursos.aiu.edu/PROBABILIDAD%20Y%20ESTAD%C3%8DSTICA/4/Word%
20-
%20PDF/Probabilidad%20y%20Estad%C3%ADstica%20Sesi%C3%B3n%204.pdf
http://www.geociencias.unam.mx/~ramon/EstInf/Clase9.pdf
http://www.itchihuahua.edu.mx/academic/industrial/estadistica1/cap03.html
54