Mar Santiago José Miguel Unidad 4 & 5 Probabilidad y Estadistica

TECNOLOGICO NACIONAL DE MEXICO
INSTITUTO TECNOLOGICO DE CERRO AZUL
UNIDAD 4 & 5
4: INFERENCIA ESTADISTICA
5: ANALISIS DE REGRESIÓN Y CORRELACIÓN
MATERIA
PROBABILIDAD Y ESTADISTICA
DOCENTE
I.S.C MA. DEL CARMEN BACA GUTIERREZ
TITULO DEL TRABAJO
TRABAJO DE INVESTIGACIÓN
PRESENTA
MAR SANTIAGO JOSÉ MIGUEL
Cd. Cerro Azul, Ver. Junio De 2018

INDICE
INTRODUCCIÓN: ................................................................................................... 3
4: INFERENCIA ESTADISTICA .............................................................................. 4
ESTIMACIÓN PUNTUAL Y POR INTERVALOS DE CONFIANZA. ........................ 4
ESTIMACIÓN DE LA MEDIA, DE LA DIFERENCIA DE MEDIAS, DE LA

PROPORCIÓN Y DE LA DIFERENCIA DE PROPORCIONES. ............................. 6
DETERMINACIÓN DEL TAMAÑO DE UNA MUESTRA. ...................................... 12
PRUEBA DE HIPÓTESIS...................................................................................... 15
PRUEBAS UNILATERALES Y BILATERALES. .................................................... 15
PRUEBAS PARA MEDIA Y APARA DIFERENCIA DE MEDIAS. ......................... 18
PRUEBAS PARA PROPORCIÓN Y DIFERENCIA DE PROPORCIONES ........... 21
MUESTRAS PEQUEÑAS...................................................................................... 24
DISTRIBUCIÓN T DE STUDENT .......................................................................... 25
DISTRIBUCIÓN DE JI-CUADRADA. CUADROS DE CONTINGENCIA

LIMITACIONES DE LA PRUEBA .......................................................................... 28
5: ANALISIS DE REGRESIÓN Y CORRELACIÓN ............................................... 33
REGRESIÓN LINEAL SIMPLE CURVILÍNEA Y MÚLTIPLE ................................. 33
CORRELACIÓN. ................................................................................................... 36
REGRESION Y CORRELACION PARA DATOS AGRUPADOS .......................... 40
CORRELACIÓN POR RANGOS ........................................................................... 46
COEFICIENTE DE CORRELACIÓN PARA DATOS NOMINALES ....................... 48
CONCUSIÓN: ....................................................................................................... 53
BIBLIOGRAFÍA ..................................................................................................... 54
2
INTRODUCCIÓN:
En este trabajo hablaremos un poco acerca de las unidades 4 y 5 de esta

respectiva materia.
Estas unidades van encaminadas a desempeñar trabajos importantes. En el caso

de la inferencia estadística es el conjunto de métodos y técnicas que permiten
inducir, a partir de la información empírica proporcionada por una muestra, cuel es
el comportamiento de una determinada población con un riesgo de error medible
en términos de probabilidad y de este tema se desglosan otros los cuales van de
la mano para conocer diferentes datos que nos ayudaran a resolver problemas
cotidianos.
En la unidad 5 el análisis de correlación consiste en emplear métodos que

permitan determinar la mejor relación funcional entre dos o más variables
concomitantes (o relacionadas). El análisis de correlación estudia el grado de
asociación de dos o más variables. Estas a su vez también se dividen en
3
4: INFERENCIA ESTADISTICA
ESTIMACIÓN PUNTUAL Y POR INTERVALOS DE CONFIANZA.
¿Qué es una estimación?
Cuando queremos realizar un estudio de una población cualquiera de la que

desconocemos sus parámetros, por ejemplo su media poblacional o la
probabilidad de éxito si la población sigue una distribución binomial, debemos
tomar una muestra aleatoria de dicha población a través de la cual calcular una
aproximación a dichos parámetros que desconocemos y queremos estimar. Bien,
pues esa aproximación se llama estimación.
Además, junto a esa estimación, y dado que muy probablemente no coincida con
el valor real del parámetro, acompañaremos el error aproximado que se comete al
realizarla.
Estimación puntual
Una estimación puntual del valor de un parámetro poblacional desconocido (como

puede ser la media µ, o la desviación estándar σ), es un número que se utiliza
para aproximar el verdadero valor de dicho parámetro poblacional. A fin de realizar
tal estimación, tomaremos una muestra de la población y calcularemos el
parámetro muestral asociado (x para la media, s para la desviación estándar, etc.).
El valor de este parámetro muestral será la estimación puntual del parámetro
poblacional. Por ejemplo, supongamos que la compañía Sonytron desea estimar la
edad media de los compradores de equipos de alta fidelidad. Seleccionan una
muestra de 100 compradores y calculan la media de esta muestra, este valor será
un estimador puntual de la media de la población.
Ejemplo:
En una ciudad se toma una muestra de 160 personas, de las cuales 49 practican
deporte. Determina y calcula un estimador puntual para la proporción de personas
que practican deporte en la ciudad.
Como estimador puntual vamos a emplear la proporción muestral.

49
𝑝̂ = = 0,31 → 31% es un estimador puntual del número de personas que
160
Practican deporte.
Estimación por Intervalos de confianza
4
Un conjunto de valores obtenido a partir de los datos muéstrales, en el que hay
una determinada probabilidad de que se encuentre el parámetro. A esta
probabilidad se le conoce como el nivel de confianza.
- Los hechos que determinan la amplitud de un intervalo de confianza son:

*El tamaño de la muestra
*La variabilidad de la población. Normalmente estimada por s.
*El nivel de confianza deseado.
Ejemplo:
En una encuesta, durante una campaña electoral, se preguntó a una muestra

aleatoria de 650 personas a cuál de los candidatos pensaba votar.
Declararon 270 que votarían a un determinado partido. Obtén un estimador
puntual y un intervalo de confianza del 95 % para la proporción de la población
que votaría al citado partido en las elecciones
Podríamos tomar como estimador puntual la proporción de población que va a

votar el partido.
270
𝑝̂ = = 0,415
650
Para un nivel de confianza del 95% tenemos:
1 - ꝏ = 0,95 → ꝏ = 0,05 → 𝑧ꝏ = 𝑧0,025 = 1,96

2
El intervalo o de confianza pedido es el siguiente:
𝑝. 𝑞 𝑝. 𝑞
P E (P − 𝑧ꝏ . √ ; p + 𝑧ꝏ . √ )
2 𝑛 2 𝑛
0,415 . 0,585 0,415 . 0,585

= (0,415 − 1,96 . √ ; 0,415 + 1,96 . √ )
650 650
= (0,377; 0,453)
5
ESTIMACIÓN DE LA MEDIA, DE LA DIFERENCIA DE MEDIAS, DE
LA PROPORCIÓN Y DE LA DIFERENCIA DE PROPORCIONES.
Estimación de la media:
La media muestral es una variable aleatoria que toma un valor según la muestra
concreta que se obtenga. Se denomina distribución muestral de la media a su
función de probabilidad.
La distribución muestral de un estadístico es un concepto central, tanto de la

estimación como del contraste de hipótesis.
Una función de probabilidad queda caracterizada por su forma, su media y su

varianza. La media de la distribución muestral de la media (μx) es igual a la media
de la población (μ). La varianza de la distribución muestral de σ la media es n y la
desviación típica de la distribución muestral de la media, denominada error típico
de la media, es σx= σ = σ 2 .
La forma de la distribución original de la media se parece a una distribución normal

aunque la distribución original de la variable en la población no es normal.
Si la distribución de X en la población no es normal con media μ y desviación

típica σ, entonces la distribución muestral de la X tiende a la normal a medida que
n crece (Teorema Central del Límite), siendo la aproximación buena para n > 30.
Media, varianza y desviación típica de la variable cuantitativa X en la población y

en la muestra, y de la distribución muestral de la media (X).
Para estimar la media poblacional por medio de intervalos de confianza, será

necesario recordar que el Teorema Central del Límite nos daba información de
cómo se hallaban distribuidas las medias muéstrales: "normalmente" con una
media igual a la de la población original m (que es la que ahora tratamos de
conocer) y desviación típica
𝜎
√𝑛
Supongamos que hemos analizado la muestra ya nombrada de media 𝑥̅ = 3 Km.,

y que sabemos que la desv. Típica de la población es de s=0,4 km., y que nos
planteamos estimar la media de todo el instituto, con un nivel de confianza del
95% .El proceso para realizar la estimación es el siguiente:
Sabemos por el T.C.L. que las medias muéstrales se distribuyen según
6
0,4
𝑁 (𝜇, ) = 𝑁(𝜇, 0′ 063)
√40
La siguiente figura nos ilustrará:
Hallamos el valor k de forma que p (-k<Z<k) = 0,95 , o lo que es lo mismo p

(Z<k)=0,975. Consultando nuestra tabla de la distribución normal, encontraremos
que k=1.96 .
Este valor nos dice que la medias muéstrales se encuentran en un 95% de los
casos como máximo a 1.96 desviaciones típicas de la media buscada, es
decir, nuestra media 𝑥̅ = 3, en un 95% de los casos, dista de la media poblacional
menos de 1,96.0,063=0,124 km.
Si tomamos un intervalo con centro en dicha media muestral , y radio 0,124, en un

95% de los casos la media buscada estará dentro del intervalo.
Encontramos por tanto que a un nivel de confianza del 95%, la media poblacional
es de 3 km. con un error máximo de:
𝜎
𝐸=𝑘 = 0,124 𝑘𝑚
√𝑛
O lo que es lo mismo, existe una probabilidad del 95%, de que la media buscada
se encuentre en el intervalo de confianza (3-0,124, 3+0,124) = (2,976 , 3,124 ).
Así pues en general para un proceso de estimación de la media, el intervalo de

confianza será:
(𝑥̅ − 𝐸, 𝑋̅ + 𝐸)
𝜎
Siendo 𝑥̅ la media de la muestra, y 𝐸 = 𝑘 el error de estimación.
√𝑛
7
Para entender mejor el proceso, observa el gráfico interactivo en el que se supone
que la verdadera media de la población es µ=3.1 km. Comenzamos con el valor
k=1,96, que corresponde a una confianza del 95%. Luego hallamos el área roja,
que corresponde a las medias muéstrales que tienen una probabilidad de
aparición del 95%. Si la media muestral (mm) obtenida es, como en el caso que
nos ocupa, 𝑋̅ = 3, puedes comprobar como el intervalo de confianza contiene a la
media de la población.
Varía el nivel de confianza, y anota que le ocurre al intervalo de confianza. Así

mismo, puedes variar el valor de la media muestral, e investigar, qué valores dan
lugar a intervalos que no contienen a la media de la población y cuál es la
probabilidad de ocurrencia de dichos valores.
Estimación de la Diferencia de Medias
Si se tienen dos poblaciones con medias 𝜇 1 y 𝜇 2 y varianzas 𝜎12 y 𝜎22,

respectivamente, un estimador puntual de la diferencia entre 𝜇 1 y 𝜇 2 está dado por
la estadística 𝑥̅1 − 𝑥̅2 . Por tanto. Para obtener una estimación puntual de
𝜇 1 - 𝜇 2, se seleccionan dos muestras aleatorias independientes, una de cada
población, de tamaño n1 y n2, se calcula la diferencia 𝑥̅1 − 𝑥̅2 , de las medias
muéstrales.
Recordando a la distribución muestral de diferencia de medias:
(𝑥̅1 − 𝑥̅ 2 ) − (𝜇1 − 𝜇2 )
𝑧=
√𝜎1 ² + 𝜎2 ²
𝑛1 𝑛2
Al despejar de esta ecuación 𝜇1 − 𝜇2 se tiene:
𝜎1 ² 𝜎2 ²
𝜇1 − 𝜇2 = (𝑥̅1 − 𝑥̅2 ) ± 𝑍√ +
𝑛1 𝑛2
En el caso en que se desconozcan las varianzas de la población y los tamaños de

muestra sean mayores a 30 se podrá utilizar la varianza de la muestra como una
estimación puntual.
Ejemplo:
8
Se lleva a cabo un experimento en que se comparan dos tipos de motores, A y B.
Se mide el rendimiento en millas por galón de gasolina. Se realizan 50
experimentos con el motor tipo A y 75 con el motor tipo B. La gasolina que se
utiliza y las demás condiciones se mantienen constantes. El rendimiento promedio
de gasolina para el motor A es de 36 millas por galón y el promedio para el motor
B es 24 millas por galón. Encuentre un intervalo de confianza de 96% sobre la
diferencia promedio real para los motores A y B. Suponga que las desviaciones
estándar poblacionales son 6 y 8 para los motores A y B respectivamente.
Solución:
Es deseable que la diferencia de medias sea positiva por lo que se recomienda

restar la media mayor menos la media menor. En este caso será la media del
motor B menos la media del motor A.
El valor de z para un nivel de confianza del 96% es de 2.05.
𝜎𝐴2 𝜎𝐵2 36 64
𝜇𝐵 − 𝜇𝐴 = (𝑥̅𝐵 − 𝑥̅𝐴 ) ± 𝑍√ + = (42 − 36) ± 2.05√ +
𝑛𝐴 𝑛𝐵 50 75
3.4 < 𝜇𝐵 − 𝜇𝐴 < 8.57
La interpretación de este ejemplo sería que con un nivel de confianza del 96% la
diferencia del rendimiento promedio esta entre 3.43 y 8.57 millas por galón a favor
del motor B. Esto quiere decir que el motor B da más rendimiento promedio que el
motor A, ya que los dos valores del intervalo son positivos.
Estimación de una Proporción
Un estimador puntual de la proporción P en un experimento binomial está dado

por la estadística P=X/N, donde x representa el número de éxitos en n pruebas.
Por tanto, la proporción de la muestra p =x/n se utilizará como estimador puntual
del parámetro P.
Si no se espera que la proporción P desconocida esté demasiado cerca de 0 ó de

1, se puede establecer un intervalo de confianza para P al considerar la
distribución muestral de proporciones.
𝑝−𝑃
𝑧=
√𝑃𝑞
𝑛
Al despejar P de esta ecuación nos queda:
9
𝑃𝑞
𝑃 = 𝑝 ± 𝑧√
𝑛
En este despeje podemos observar que se necesita el valor del parámetro P y es

precisamente lo que queremos estimar, por lo que lo sustituiremos por la
proporción de la muestra p siempre y cuando el tamaño de muestra no sea
pequeño.
𝑝𝑞
𝑃 = 𝑝 ± 𝑧√
𝑛
Cuando n es pequeña y la proporción desconocida P se considera cercana a 0 ó a

1, el procedimiento del intervalo de confianza que se establece aquí no es
confiable, por tanto, no se debe utilizar. Para estar seguro, se debe requerir que 𝑛𝑝
ó 𝑛𝑞 sea mayor o igual a 5.
El error de estimación será la diferencia absoluta entre p y P, y podemos tener el

𝑝𝑞
nivel de confianza de que esta diferencia no excederá 𝑧√ 𝑛
Ejemplo:
Un fabricante de reproductores de discos compactos utiliza un conjunto de

pruebas amplias para evaluar la función eléctrica de su producto. Todos los
reproductores de discos compactos deben pasar todas las pruebas antes de
venderse. Una muestra aleatoria de 500 reproductores tiene como resultado 15
que fallan en una o más pruebas. Encuentre un intervalo de confianza de 90%
para la proporción de los reproductores de discos compactos de la población que
no pasan todas las pruebas.
Solución:
n=500
15
𝑝= = 0.03
500
Z (0.90) = 1.645
𝑝𝑞 (0.03)(0.97
𝑃 = 𝑝 ± 𝑧√ = 0.03 ± (1.645)√
𝑛 500
10
0.0237 < P < 0.0376
Se sabe con un nivel de confianza del 90% que la proporción de discos

defectuosos que no pasan la prueba en esa población esta entre 0.0237 y 0.0376.
Estimación de la Diferencia de dos Proporciones
En la sección anterior se vio el tema de la generación de las distribuciones

muéstrales, en donde se tenía el valor de los parámetros, se seleccionaban dos
muestras y podíamos calcular la probabilidad del comportamiento de los
estadísticos. Para este caso en particular se utilizará la distribución muestral de
diferencia de proporciones para la estimación de la misma. Recordando la fórmula:
(𝑝1 − 𝑝2 ) − (𝑝1 − 𝑝2 )
𝑧=
𝑃1 𝑞1 𝑃2 𝑞2
√
𝑛1 + 𝑛2
Despejando P1-P2 de esta ecuación:
𝑃1 𝑞1 𝑃2 𝑞2
𝑃1 − 𝑃2 = (𝑃1 − 𝑃2 ) ± 𝑍√ +
𝑛1 𝑛2
Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al

hacer el despeje nos queda las dos proporciones poblacionales y es precisamente
lo que queremos estimar, por lo que se utilizarán las proporciones de la muestra
como estimadores puntuales:
𝑃1 𝑞1 𝑃2 𝑞2
𝑃1 − 𝑃2 = (𝑃1 − 𝑃2 ) ± 𝑍√ +
𝑛1 𝑛2
Ejemplos:
Se considera cierto cambio en un proceso de fabricación de partes componentes.

Se toman muestras del procedimiento existente y del nuevo para determinar si
éste tiene como resultado una mejoría. Si se encuentra que 75 de 1500 artículos
del procedimiento actual son defectuosos y 80 de 2000 artículos del procedimiento
nuevo también lo son, encuentre un intervalo de confianza de 90% para la
diferencia real en la fracción de defectuosos entre el proceso actual y el nuevo.
11
Solución:
Sean P1 y P2 las proporciones reales de defectuosos para los procesos actual y

nuevo, respectivamente. De aquí, p1=75/1500 = 0.05 y p2 = 80/2000 = 0.04. con el
uso de la tabla encontramos que z para un nivel de confianza del 90% es de
1.645.
𝑃1 𝑞1 𝑃2 𝑞2
𝑃1 − 𝑃2 = (𝑃1 − 𝑃2 ) ± 𝑍√ +
𝑛1 𝑛2
(0.05)(0.95) (0.04)(0.96)
= (0.05 − 0.04) ± 1.645√ +
1500 2000
-0.0017 < P1-P2 < 0.0217
Como el intervalo contiene el valor de cero, no hay razón para creer que el nuevo
procedimiento producirá una disminución significativa en la proporción de artículos
defectuosos comparada con el método existente.
DETERMINACIÓN DEL TAMAÑO DE UNA MUESTRA.
Determinar el tamaño de la muestra que se va a seleccionar es un paso

importante en cualquier estudio de investigación de mercados, se debe justificar
convenientemente de acuerdo al planteamiento del problema, la población, los
objetivos y el propósito de la investigación.
¿De qué depende el tamaño muestral?
El tamaño muestral dependerá de decisiones estadísticas y no estadísticas,

pueden incluir por ejemplo la disponibilidad de los recursos, el presupuesto o el
equipo que estará en campo.
Antes de calcular el tamaño de la muestra necesitamos determinar varias cosas:
12
Tamaño de la población. Una población es una colección bien definida de objetos
o individuos que tienen características similares. Hablamos de dos tipos: población
objetivo, que suele tiene diversas características y también es conocida como la
población teórica. La población accesible es la población sobre la que los
investigadores aplicaran sus conclusiones.
Margen de error (intervalo de confianza). El margen de error es una estadística

que expresa la cantidad de error de muestreo aleatorio en los resultados de una
encuesta, es decir, es la medida estadística del número de veces de cada 100 que
se espera que los resultados se encuentren dentro de un rango específico.
Nivel de confianza. Son intervalos aleatorios que se usan para acotar un valor con
una determinada probabilidad alta. Por ejemplo, un intervalo de confianza de 95%
significa que los resultados de una acción probablemente cubrirán las expectativas
el 95% de las veces.
La desviación estándar. Es un índice numérico de la dispersión de un conjunto de

datos (o población). Mientras mayor es la desviación estándar, mayor es la
dispersión de la población.
-Cálculo del tamaño de la muestra desconociendo el tamaño de la población.
La fórmula para calcular el tamaño de muestra cuando se desconoce el tamaño de

la población es la siguiente:
z2 . p . q
n=
d2
En donde:
z = nivel de confianza,
p = probabilidad de éxito, o proporción esperada
q = probabilidad de fracaso
d = precisión (error máximo admisible en términos de proporción)
13
Ejemplo:
Se desea estimar la proporción de las familias que viven en el municipio de san

Lorenzo y que tienen un ingreso alto, para ello se definen los siguientes criterios:
-Nivel de confianza = 95%
-Proporción de familias con ingreso alto = 0.10
-Error máximo tolerable = 8%
(1.96)2 . (0.10) . (0.90)

𝑛= = 54
(0.08)²
TIPOS DE MUESTREO
El muestreo es una herramienta para determinar qué parte de una población

debemos analizar cuando no es posible realizar un censo. Depende de los
objetivos del estudio el elegir una muestra probabilística o no probabilística.
MUESTREO PROBABILÍSTICO
Se basa en el principio de equi-probabilidad, esto quiere decir que todos los

individuos de la muestra seleccionada, tendrán las mismas probabilidades de ser
elegidos. Lo anterior nos asegura que la muestra extraída contará con
representatividad.
MUESTREO NO PROBABILÍSTICO
No sirven para hacer generalizaciones pero sí para estudios exploratorios. En este

tipo de muestras, se eligen a los individuos utilizando diferentes criterios
relacionadas con las características de la investigación, no tienen la misma
probabilidad de ser seleccionados ya que el investigador suele determinar la
población objetivo.
14
PRUEBA DE HIPÓTESIS.
Una prueba de hipótesis es una regla que especifica si se puede aceptar o

rechazar una afirmación acerca de una población dependiendo de la evidencia
proporcionada por una muestra de datos.
Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la
hipótesis nula y la hipótesis alternativa. La hipótesis nula es el enunciado que se
probará. Por lo general, la hipótesis nula es un enunciado de que "no hay efecto" o
"no hay diferencia". La hipótesis alternativa es el enunciado que se desea poder
concluir que es verdadero de acuerdo con la evidencia proporcionada por los
datos de la muestra.
Con base en los datos de muestra, la prueba determina si se puede rechazar la

hipótesis nula. Usted utiliza el valor p para tomar esa decisión. Si el valor p es
menor que el nivel de significancia (denotado como α o alfa), entonces puede
rechazar la hipótesis nula.
Un error común de percepción es que las pruebas estadísticas de hipótesis están

diseñadas para seleccionar la más probable de dos hipótesis. Sin embargo, al
diseñar una prueba de hipótesis, establecemos la hipótesis nula como lo que
queremos desaprobar. Puesto que establecemos el nivel de significancia para que
sea pequeño antes del análisis (por lo general, un valor de 0.05 funciona
adecuadamente), cuando rechazamos la hipótesis nula, tenemos prueba
estadística de que la alternativa es verdadera. En cambio, si no podemos rechazar
la hipótesis nula, no tenemos prueba estadística de que la hipótesis nula sea
verdadera. Esto se debe a que no establecimos la probabilidad de aceptar
equivocadamente la hipótesis nula para que fuera pequeña.
PRUEBAS UNILATERALES Y BILATERALES.
Una prueba estadística se basa en dos hipótesis competitivas: la hipótesis nula H0

y la hipótesis alternativa Ha.
El tipo de hipótesis alternativa Ha define si una prueba es de una cola (unilateral) o
de dos colas (bilateral).
El contraste bilateral sitúa la región de rechazo en los dos extremos (colas) de la

distribución muestral. En cambio, el contraste unilateral sitúa la región de rechazo
en uno de los dos extremos (colas) de la distribución muestral. El contraste
bilateral (o de dos colas) se utiliza cuando la Hipótesis Alternativa asigna al
parámetro cualquier valor diferente al establecido en la Hipótesis Nula.
15
Pruebas unilaterales o de una cola
Una prueba de una cola normalmente está asociada a una hipótesis alternativa
para la cual se conoce el signo de la potencial diferencia antes de ejecutar el
experimento y la prueba. En el ejemplo descrito más arriba, la hipótesis alternativa
referida a una prueba de una cola podría redactarse así: media (A) < media (B)
o media (A) > media (B), dependiendo de la dirección esperada de la diferencia.
Este puede ser de cola derecha o izquierda
El tipo de prueba depende de lo que se necesite probar.
De una cola derecha.
El investigador desea comprobar la hipótesis de un valor mayor en el parámetro

que el de la hipótesis nula, en este caso el nivel de significancia se carga todo
hacia el lado derecho, para definir las regiones de aceptación y de rechazo.
Prueba de hipótesis:
Ho; Dato ≤ x
H1; Dato > x
De una cola izquierda:
El investigador desea comprobar la hipótesis de que el parámetro sea menor que

el de la hipótesis nula, en este caso el nivel de significancia se carga todo hacia el
lado izquierdo, para definir las regiones de aceptación y de rechazo.
Ho; Parámetro ≥ x
H1; Parámetro < x
Pruebas bilaterales o de dos colas
Una prueba de dos colas se asocia a una hipótesis alternativa para la cual se
desconoce el signo de la potencial diferencia. Por ejemplo, supongamos que
16
deseamos comparar las medias de dos muestras A y B. Antes de diseñar el
experimento y ejecutar la prueba, esperamos que si se resalta una diferencia entre
las dos medias, realmente no sabemos si A debería ser superior a B o a la
inversa. Esto nos lleva a elegir una prueba de dos colas, asociada a la siguiente
hipótesis alternativa: Ha: media(A) ≠ media (B). Las pruebas de dos colas son con
diferencia las más utilizadas.
El investigador desea comprobar la hipótesis de un cambio en el parámetro, es

decir, no importa si es mayor o menor y lo que se busca es si hay diferencia con el
valor planteado. El nivel de significancia se divide en dos y existen dos regiones
de rechazo.
Ho; Parámetro = x
H1; Parámetro ≠ x
Ejemplo:
Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año

pasado muestra una vida promedio de 71.8 años. Suponga una desviación
estándar poblacional de 8.9 años. Queremos probar si la vida media hoy en día es
mayor a 70 años con base en esa muestra. La muestra parecería indicar que es
así pero ¿Cuál es la probabilidad de que la media de la muestra no refleje la
verdadera media de la población?
Utilizar un nivel de significancia de 0.05.
Solución: Se trata de una distribución muestral de medias con desviación estándar

conocida.
1.-Datos:
μ =70 años
s = 8.9 años
𝑥̅ = 71.8 años
n = 100
α = 0.05
17
2.-Establecemos la hipótesis
Ho; μ = 70 años.
H1; μ > 70 años.
3.-Nivel de significancia
α = 0.05, zα = 1.645
4.-Regla de decisión:
Si z ≤ 1.645 no se rechaza Ho.
Si z > 1.645 se rechaza Ho.
5.-Cálculos:
𝑋̅𝑅 −𝜇 71.8 − 70
𝑍𝑅 = 𝜎 = 8.9 = 2.02
√𝑛 √100
6. Decisión y justificación.
Como 2.02 >1.645 se rechaza Ho y se concluye con un nivel de significancia del

0.05 que la vida media hoy en día es mayor que 70 años.
PRUEBAS PARA MEDIA Y APARA DIFERENCIA DE MEDIAS.
Prueba para diferencia de medias:
Las pruebas de dos muestras se utilizan para decidir si las medias de dos
poblaciones son iguales. Se requieren dos muestras independientes, una de cada
una de las dos poblaciones. Considérese, por ejemplo, una compañía
investigadora que experimentan con dos diferentes mezclas de pintura, para ver si
se puede modificar el tiempo de secado de una pintura para uso doméstico. Cada
mezcla es probada un determinado número de veces, y comparados
posteriormente los tiempos medios de secado de las dos muestras. Una parece
ser superior, ya que su tiempo medio de secado (muestra) es 30 minutos menor
que el de la otra muestra.
18
Pero, ¿son realmente diferentes los tiempos medios de secado de las dos
pinturas, o esta diferencia muestral es nada más la variación aleatoria que se
espera, aun cuando las dos fórmulas presentan idénticos tiempos medios de
secado? Una vez más, las diferencias casuales se deben distinguir de las
diferencias reales.
Con frecuencia se utilizan pruebas de dos muestras para comparar

dos métodos de enseñanza, dos marcas, dos ciudades, dos distritos escolares y
otras cosas semejantes.
Prueba de media:
Se utiliza una prueba de una muestra para probar una afirmación con respecto a
una media de una población única
Si se conoce la desviación estándar de la población, la distribución de muestreo

adecuada es la distribución normal. Si la población q se muestra es normal, la
distribución de muestreo será normal en el caso de todos los tamaños de la
muestra, y el valor estadístico de prueba a utilizar es:
𝑥̅ − 𝜇
𝑧𝑝𝑟𝑢𝑒𝑏𝑎 = 𝜎
√𝑛
Si la población no es norma, o si se desconoce su forma, se emplea la ecuación

anterior solamente para tamaños de muestra iguales o mayores 30, es decir, para
𝑛 ≥ 30
Si se conoce la desviación estándar de la población, el valor estadístico de prueba

es:
𝑥̅ − 𝜇
𝑡𝑝𝑟𝑢𝑒𝑏𝑎 = 𝑠
√𝑛
Ejemplo:
La duración media de lámparas producidas por una compañía han sido en el

pasado de 1120 horas. Una muestra de 8 lámparas de la producción actual dio
una duración media de 1070 horas con una desviación típica de 125 horas.
19
Comprobar la hipótesis 𝜇 = 1120 horas contta la hipótesis alternativa 𝜇 < 1200
horas, mediante un error tipo l de 0,05.
Datos:
𝜇 = 1120
n=8
x = 1070
S = 125
a = 0,05
Las hipótesis son:
Ho: u = 1220
H1: u < 1120
Como se conoce la desviación estándar de la muestra s se debe utilizar la

distribución t de Student con lectura en la tabla para un área de o.o25 y con n -1 =
8 – 7 grados de libertad le corresponde un valor 𝑡𝑡𝑎𝑏𝑙𝑎 = -1,8946. Se toma en
cuenta el valor negativo porque se trata de una prueba de hipótesis a cola
izquierda como se puede observar en la H1.
Entonces el valor de 𝑡𝑝𝑟𝑢𝑒𝑏𝑎 se emplea la siguiente ecuación.
𝑥̅ − 𝜇
𝑡𝑝𝑟𝑢𝑒𝑏𝑎 = 𝑠
√𝑛
1070 − 1120
𝑡𝑝𝑟𝑢𝑒𝑏𝑎 = 125 = -1,131
√8
20
PRUEBAS PARA PROPORCIÓN Y DIFERENCIA DE
PROPORCIONES
Las pruebas de proporciones son adecuadas cuando los datos que se están
analizando constan de cuentas o frecuencias de elementos de dos o más clases.
El objetivo de estas pruebas es evaluar las afirmaciones con respecto a una
proporción (o Porcentaje) de población. Las pruebas se basan en la premisa de
que una proporción muestral (es decir, x ocurrencias en n observaciones, o x/n)
será igual a la proporción verdadera de la población si se toman márgenes o
tolerancias para la variabilidad muestral. Las pruebas suelen enfocarse en la
diferencia entre un número esperado de ocurrencias, suponiendo que una
afirmación es verdadera, y el número observado realmente.
Prueba de proporciones
Cuando el objetivo del muestreo es evaluar la validez de una afirmación con

respecto a la proporción de una población, es adecuado utilizar una prueba de una
muestra. La metodología de prueba depende de si el número de observaciones de
la muestra es grande o pequeño.
Como se habrá observado anteriormente, las pruebas de grandes muestras de

medias y proporciones son bastante semejantes. De este modo, los valores
estadísticos de prueba miden la desviación de un valor estadístico de muestra a
partir de un valor propuesto. Y ambas pruebas se basan en la distribución normal
estándar para valores críticos. Quizá la única diferencia real entre las ambas
radica en la forma corno se obtiene la desviación estándar de la distribución de
muestreo.
Esta prueba comprende el cálculo del valor estadístico de prueba Z
𝑥
𝑍𝑝𝑟𝑢𝑒𝑏𝑎 = 𝑛 − 𝑝𝑜
𝑝
√ 𝑜(1− 𝑝𝑜) . √𝑁 − 𝑛
𝑛 𝑁−1
21
Donde:
x = ocurrencias.
n = observaciones.
𝑥
= proporción de la muestra.
𝑛
𝑝𝑜 = proporción propuesta.
Si se muestra a partir de una población finita:
𝑛
. 1000% > 5%
𝑁
Se debe utilizar el factor finito de corrección.
𝑥
− 𝑝𝑜
𝑍𝑝𝑟𝑢𝑒𝑏𝑎 = 𝑛
𝑝
√ 𝑜(1− 𝑝𝑜) . √𝑁 − 𝑛
𝑛 𝑁−1
Ejemplo:
En un estudio se afirma que 3 de 10 estudiantes universitarios trabajan. Pruebe

esta aseveración, a un nivel de significación de 0,025, respecto a la alternativa de
que la proporción real de los estudiantes universitarios trabajan es mayor de lo
que se afirma, si una muestra aleatoria de 600 estudiantes universitarios revela
que 200 de ellos trabajan. La muestra fue tomada de 10000 estudiantes.
3
Los datos son: 𝑝𝑜 = = 0.333
10
a = 0.025
n = 600
x = 200
22
n = 10000
Las hipótesis son:
Ho: P = Po
H1: P > Po
Se toma en cuenta el valor positivo porque se trata de una prueba de hipótesis a

cola derecha.
Como en los datos aparece el tamaño de la población, se debe verificar si el

tamaño de la nuestra es mayor que el 5%. Se remplaza valores en la siguiente
fórmula:
𝑛
. 100% > 5%
𝑁
600
. 100% = 6%
10000
Por lo tanto se debe utilizar la formula con el factor finito de corrección.
𝑥 200
− 𝑝𝑜
𝑍𝑝𝑟𝑢𝑒𝑏𝑎 = 𝑛 = 600 − 0.333 = 1,84
𝑝𝑜(1− 𝑝𝑜) 𝑁 − 𝑛 0.333(1 − 0.333) 10000 − 6000
√ . √𝑁 − 1 √ . √ 10000 − 1
𝑛 600
23
MUESTRAS PEQUEÑAS.
Se utilizan muestras pequeñas cuando la distribución de donde proviene la

muestra tenga un comportamiento normal, cuando los tamaños de las muestras
fueran mayores o iguales a 30
Ejemplos:
El Instituto Eléctrico Edison publica cifras del número anual de Kilowatt-hora que
gastan varios aparatos electrodomésticos. Se afirma que una aspiradora gasta un
promedio de 46 kilowatt-hora al año. Si una muestra aleatoria de 12 hogares que
se incluye en un estudio indica que las aspiradoras gastan un promedio de 42
kilowatt-hora al año con una desviación estándar de 11.9 kilowatt-hora, ¿esto
sugiere con un nivel de significancia de 0.05 que las aspiradoras gastan, en
promedio, menos de 46 kilowatt-hora anualmente? Suponga que la población de
kilowatt-hora es normal.
Solución:
Datos:
μ= 46 kilowatt-hora
s= 11.9 kilowatt-hora
̅ = 42 kilowatt-hora
𝑋
n = 12
α = 0.05
Prueba de hipótesis
Ho; μ = 46 kilowatt-hora H1;
μ < 46 kilowatt-hora
Valores críticos
𝑡𝑐 para 0.95 (α = 0.05) con 11 grados de libertad
Regla de decisión:
24
Si t ≥ -1.796 No se rechaza Ho Si t < -1.796 Se rechaza Ho
5. Cálculo del valor t para los datos
Decisión y justificación:
Como –1.16 > -1.796, por lo tanto no se rechaza Ho y se concluye con un nivel de
significancia del 0.05 que el número promedio de kilowatt-hora que gastan al año
las aspiradoras no es significativamente menor que 46.
DISTRIBUCIÓN T DE STUDENT
En probabilidad y estadística, la distribución t (de Student) es una distribución de

probabilidad que surge del problema de estimar la media de
una población normalmente distribuida cuando el tamaño de la muestra es
pequeño.
Aparece de manera natural al realizar la prueba t de Student para la determinación

de las diferencias entre dos varianzas muéstrales y para la construcción
del intervalo de confianza para la diferencia entre las partes de dos poblaciones
cuando se desconoce la desviación típica de una población y ésta debe ser
estimada a partir de los datos de una muestra.
La distribución t de Student es la distribución de probabilidad del cociente
z v
T= = Z√V
√V/v
Donde
Z es una variable aleatoria distribuida según una normal típica (de media nula
y varianza ).
V es una variable continua que sigue una distribución χ² con V grados de libertad.
Z y V son independientes
25
Z+μ
Si μ es una constante no nula, el cociente es una variable aleatoria que sigue
√V/v
la distribución t de Student no central con parámetro de no-centralidadμ.
Supóngase que se toma una muestra de una población normal con media μ y
varianza σ² Si es el promedio de las n observaciones que contiene la muestra
μ
aleatoria, entonces la distribución Z = σ
⁄ n
√
Es una distribución normal estándar. Supóngase que la varianza de la

población σ²es desconocida. ¿Qué sucede con la distribución de esta estadística
si se reemplaza σ² por s? La distribución t proporciona la respuesta a esta
pregunta.
La media y la varianza de la distribución t son μ=  y σ2 = v ∫(v − 2) para V>2,

respectivamente.
La siguiente figura presenta la gráfica de varias distribuciones t. La apariencia

general de la distribución t es similar a la de la distribución normal estándar:
ambas son simétricas y unimodales, y el valor máximo de la ordenada se alcanza
en la media μ=  Sin embargo, la distribución t tiene colas más amplias que la
normal; esto es, la probabilidad de las colas es mayor que en la distribución
normal. A medida que el número de grados de libertad tiende a infinito, la forma
límite de la distribución t es la distribución normal estándar.
26
Propiedades de las distribuciones t
Cada curva t tiene forma de campana con centro en 0.
Cada curva t, está más dispersa que la curva normal estándar z.
A medida que V aumenta, la dispersión de la curva t correspondiente disminuye.
A medida que V ∞, la secuencia de curvas t se aproxima a la curva normal

estándar, por lo que la curva z recibe a veces el nombre de curva t con gl = ∞
La distribución de la variable aleatoria t está dada por:
v+1
l[ 2 ] t 2 −v+1
h(t) = v (1 + ) 2 , −∞ < t < ∞
l (2) √ℜ: u v
Esta se conoce como la distribución t con grados de libertad.
La distribución de probabilidad de t se publicó por primera vez en 1908 en un

artículo de W. S. Gosset. En esa época, Gosset era empleado de una cervecería
irlandesa que desaprobaba la publicación de investigaciones de sus empleados.
Para evadir esta prohibición, publicó su trabajo en secreto bajo el nombre de
"Student". En consecuencia, la distribución t normalmente se llama distribución t
de Student, o simplemente distribución t. Para derivar la ecuación de esta
distribución, Gosset supone que las muestras se seleccionan de una población
normal. Aunque esto parecería una suposición muy restrictiva, se puede mostrar
que las poblaciones no normales que poseen distribuciones en forma casi de
campana aún proporcionan valores de t que se aproximan muy de cerca a la
distribución t.
La distribución t difiere de la de Z en que la varianza de t depende del tamaño de

la muestra y siempre es mayor a uno. Únicamente cuando el tamaño de la
muestra tiende a infinito las dos distribuciones serán las mismas.
27
Ejemplo:
Un ingeniero químico afirma que el rendimiento medio de la población de cierto

proceso en lotes es 500 gramos por milímetro de materia prima. Para verificar esta
afirmación toma una muestra de 25 lotes cada mes. Si el valor de t calculado cae
entre –t0.05 y t0.05, queda satisfecho con su afirmación. ¿Qué conclusión extraería
de una muestra que tiene una media de 518 gramos por milímetro y una
desviación estándar de 40 gramos? Suponga que la distribución de rendimientos
es aproximadamente normal.
Solución:
De la tabla encontramos que t0.05 para 24 grados de libertad es de 1.711. Por

tanto, el fabricante queda satisfecho con esta afirmación si una muestra de 25
lotes rinde un valor t entre –1.711 y 1.711.
Se procede a calcular el valor de t:
𝑥̅ − 𝜇 518 − 500
𝑡= 𝑠 = = 2.25
40
√𝑛 √25
Este es un valor muy por arriba de 1.711. Si se desea obtener la probabilidad de

obtener un valor de t con 24 grados de libertad igual o mayor a 2.25 se busca en la
tabla y es aproximadamente de 0.02. De aquí que es probable que el fabricante
concluya que el proceso produce un mejor producto del que piensa.
DISTRIBUCIÓN DE JI-CUADRADA. CUADROS DE CONTINGENCIA

LIMITACIONES DE LA PRUEBA
La distribución Chi-Cuadrada (chi squared en inglés, se pronuncia “Kay Cuadrada

skuerd”) es una de las distribuciones más empleadas en todos los campos. Su uso
más común es cuando se quiere probar si unas mediciones que se hayan
efectuado siguen una distribución esperada, por ejemplo la normal o cualquier
28
otra. Otro de sus usos es en intervalos de confianza y pruebas de hipótesis para
las varianzas o desviaciones estándar. Empezaremos ilustrando la definición de la
distribución para proceder a ejemplos de uso práctico.
Supongamos que se efectúa el siguiente experimento estadístico. Seleccionamos

una muestra aleatoria de tamaño n de una población con distribución normal, con
desviación estándar igual a σ. De la muestra encontramos que la desviación
estándar es igual a s. Con estos datos podemos calcular una estadística, que
llamamos Chi-Cuadrada Cuadrada, por medio de la siguiente ecuación:
(𝑛 − 1). 𝑠 2
2
𝑥 =
𝜎2
Si repetimos el experimento un número infinito de veces, obtendríamos una

distribución maestral n para la estad para la estadística chi-cuadrada cuadrada.
Pero la distribución final que tendríamos se puede definir por la siguiente
ecuación:
𝑣 𝑥2
𝑌 = 𝑌0 . 𝑋 2 ( − 1)𝑒 − 2
2
Donde 𝑌0 es una constante que depende del número de grados de libertad (υ = n –

1, n es el tamaño de la muestra), 𝑋 2 es el valor de chi-cuadrada cuadrada y e es
el llamado número natural (aproximadamente 2.71828). 𝑌0 Se define de forma que
el área bajo la curva sea igual a 1.
Si graficamos curvas para diferentes valores de n, encontramos que la forma de la

distribución chi cuadrada cambia dependiendo del número de grados de libertad.
29
También vemos que al aumentar el número de grados de libertad, la curva se
aproxima a la distribución normal.
La distribución chi cuadrada tiene las siguientes propiedades: propiedades
•La media La media es igual al número de grados de libertad (que es igual al

tamaño de las muestras menos 1): μ = ν = n – 1
•La varianza es igual a dos veces el número de grados de libertad (por lo tanto la
desviación estándar es la raíz cuadrada de 2ν):
𝜎2 = 2 ∗ 𝑣
•Cuando los grados de libertad son mayores o iguales que 2, el máximo valor de
valor de Y ocurre cuando
𝑥2 = 𝑣 − 2
•Conforme los grados de libertad (tamaño de la muestra muestra) aumenta, la

distribución chi-cuadrada cuadrada se aproxima a la distribución normal.
30
Ejemplo del uso de χ2 en pruebas de desviación estándar.
La compañía de baterías Duramás ha desarrollado una nueva batería
para celulares. En promedio, la batería dura 60 minutos por carga. La desviación
estándar es de 4 minutos. Supongamos que el departamento de manufactura
corre una prueba de control de calidad. Ellos seleccionan 7 baterías al azar. La
desviación estándar de las baterías seleccionadas es de 6 minutos. ¿Qué valor de
la estadística chi-cuadrada tenemos para esta prueba?
Solución:
Bueno, empezamos con lo que sabemos:
•La desviación estándar de la población es de 4 minutos.
•La desviación estándar de la muestra es de 6 minutos.
•El número de observaciones muestreadas es 7.
Para calcular la estadística chi-cuadrada, usamos los valores en la ecuación para

χ2.
2
(𝑛 − 1). 𝑠 2 (7 − 1)62
𝑥 = = = 13.5
𝜎2 42
Donde 𝑥 2 es la estadística chi-cuadrada, n el tamaño de la muestra, s la

desviación estándar de la muestra, y σ la desviación estándar de la población.
Ahora vamos a ver cómo usar este resultado.
Problema 1
Vamos a expresar el mismo ejemplo de otra manera. El departamento de

manufactura corrió una prueba de control de calidad usando 7 baterías
seleccionadas al azar. En su prueba, la desviación estándar fue de 6 minutos, lo
que equivale a un valor de chi-cuadrada de 13.5. Supongamos que repiten la
prueba con otras 7 baterías. ¿Cuál es la probabilidad de que la desviación
estándar de la nueva prueba sea mayor a 6 minutos?
31
Solución Sabemos lo siguiente:
Tamaño de la muestra es n = 7.
Los grados de libertad son n - 1 = 7 - 1 = 6.
El valor 𝑥 2 para la prueba es 13.5 (del Ejemplo 1). Dados estos valores, podemos
determinar la probabilidad acumulada de chicuadrada. Para ello, usamos una tabla
de la estadística 𝑥 2 con los valores de grados de libertad (6) y de chi-cuadrada
(13.5) o empleamos alguna herramienta como la calculadora Chi-Square
Distribution Calculator. De cualquiera de los dos obtenemos el valor de: 0.96.
Esto implica que la probabilidad de que la desviación estándar de la muestra fuera

menor o igual a 6 minutos es 0.96. Lo anterior significa que la probabilidad de que
la desviación estándar sea mayor a 6 minutos es de 1 - 0.96 o sea .04 (muy
pequeña).
32
5: ANALISIS DE REGRESIÓN Y CORRELACIÓN
REGRESIÓN LINEAL SIMPLE CURVILÍNEA Y MÚLTIPLE
Regresión y correlación simple Cuando se posee información acerca de dos o

más variables relacionadas, es natural buscar un modo de expresar la forma de la
relación funcional entre ellas. Además, es deseable conocer la consistencia de la
relación. Es decir, no se busca solamente una relación matemática que nos diga
de qué manera están relacionadas las variables, sino que se desea saber también
con qué precisión se puede predecir o pronosticar el valor de una variable, si se
conocen o suponen valores para las otras variables. Las técnicas usadas para
lograr estos dos objetivos se conocen como método de regresión y correlación. .
Regresión lineal simple y curvilínea
Los métodos de regresión se usan para elegir la "mejor" relación funcional entre
las variables, es decir, la función o ecuación que mejor se ajuste a los datos.
Mientras que los métodos de correlación se utilizan para medir el grado de
asociación o de relación entre las distintas variables. Se debe tener en cuenta que
la única persona que puede decir con seguridad, que las variables básicas son las
que se están utilizando y que el mecanismo básico opera de acuerdo con la
función matemática elegida, es una persona bien entrenada en el asunto o campo
en el cual se está investigando. El análisis estadístico es solamente un
instrumento que ayuda en el análisis e interpretación de los datos.
Variable dependiente e independiente La definición más sencilla, es la referida a la

capacidad que tienen los objetos y las cosas de modificar su estado actual, es
decir, de variar y asumir valores diferentes. Sabino (1980) establece: "entendemos
por variable cualquier característica o cualidad de la realidad que es susceptible
de asumir diferentes valores, es decir, que puede variar, aunque para un objeto
determinado que se considere puede tener un valor fijo". Briones (1987 : 34)
define: "Una variable es una propiedad, característica o atributo que puede darse
en ciertos sujetos o pueden darse en grados o modalidades diferentes. . . son
conceptos clasificatorios que permiten ubicar a los individuos en categorías o
33
clases y son susceptibles de identificación y medición". CLASIFICACIÓN DE LAS
Variables variable independiente:
Es aquella característica o propiedad que se supone ser la causa del fenómeno

estudiado. En investigación experimental se llama así, a la variable que el
investigador manipula. Son los elementos o factores que explican un fenómeno
científico, se identifica como causa o antecedente. Variable Dependiente: Hayman,
la define como propiedad o característica que se trata de cambiar mediante la
manipulación de la variable independiente .La variable dependiente es el factor
que es observado y medido para determinar el efecto de la variable independiente.
Son los efectos o resultados del fenómeno que se intenta investigar. RELACIÓN
ENTRE LAS VARIABLES.
El objeto, proceso o característica a estudiar y que modifica su estado con la

modificación de la variable independiente (es decir que depende de ella y que en
esa medida es un efecto) se llama variable dependiente. Si queremos averiguar
cómo se produce la modificación en nuestras sensaciones visuales con la
modificación de la luz, la luz sería la variable que tiene que manipular el
investigador (es decir, la variable independiente) y la sensación luminosa del
sujeto, la variable dependiente. 2. En investigación, se denomina variable
independiente a aquélla que es manipulada por el investigador en un experimento
con el objeto de estudiar cómo incide sobre la expresión de la variable
dependiente. A la variable independiente también se la conoce como variable
explicativa, y mientras que a la variable dependiente se la conoce como variable
explicada. Esto significa que las variaciones en la variable independiente
repercutirán en variaciones en la variable dependiente
Ecuación de regresión
Relación existente entre la media de una variable aleatoria y los valores de una o
más variables independientes de los cuales depende. Desde luego en algunos
casos quizá no exista relación en absoluto o sólo una muy débil, de manera que
34
también nos interesará la medición del alcance o fuerza de la Correlación La
relación (asociación o interdependencia) de los valores de dos o más variables
cualitativas o cuantitativas. En resumen se puede decir lo siguiente el análisis de
regresión se utiliza en la predicción y el análisis de correlación, por contraste con
el de regresión, se utiliza para medir la fuerza de la asociación entre las variables.
𝑦̅ = 𝑏0 + 𝑏1 𝑥
Donde
(𝑥𝑖 − 𝑋̅)(𝑦𝑖 − 𝑦̅)

𝑏1 =
(𝑥𝑖 − 𝑥)2
𝑏0 = 𝑦̅ − 𝑏1 𝑥̅
Ejemplo:
La idea es escribir una tabla como la siguiente:
En dicha tabla, además de introducir los valores de x e y, nos ayudamos de la

calculadora para hacer el resto de columnas y las sumas finales de cada una de
ellas. A partir de esta tabla, y conociendo las formulas de la varianza y la
covarianza, las calculamos tal y como aparecen a la derecha de la tabla. A partir
de las medias, las varianzas y la covarianza se calculan los coeficientes de la
recta de regresión de y sobre x. Recordemos que en la recta de regresión y = a +
bx, los coeficientes a y b están dados por las siguientes formulas:
𝑠𝑥𝑦 0,26875
𝑏 = 𝑠2 𝑥 ≈ ≈ 7,283 y 𝑎 = 𝑌̅ − 𝑏𝑋̅ ≈ 2,75 ∗ 1,075 ≈ −5,0847.
0,0396
35
Por lo tanto, la recta es y = -5,0847 + 7,283x.
Esta recta es la que mejor predice el comportamiento de la variable y en función

de la variable x. Así, para calcular lo que podemos esperar que cueste un
automóvil de 1,1 Tm, basta sustituir en la recta de regresión la x por 1,1: y (1,1) =
−5,0847 + 7,283 · 1,1 = 2,9266 millones. Este es el ´ valor esperado (o valor que
predice) nuestra regresión lineal para x = 1,1. Para saber si la predicción es
fiable (si el ajuste es bueno), calculamos el coeficiente de correlación lineal r:
Que es bastante próximo a 1. Por tanto, los resultados se pueden considerar

fiables.
CORRELACIÓN.
La correlación estadística determina la relación o dependencia que existe entre las

dos variables que intervienen en una distribución bidimensional. Es decir,
determinar si los cambios en una de las variables influyen en los cambios de la
otra. En caso de que suceda, diremos que las variables están correlacionadas o
que hay correlación entre ellas. Coeficiente de correlación El coeficiente de
correlación lineal se expresa mediante la letra r.
𝜎𝑥𝑦
𝑟=
𝜎𝑥 𝜎𝑦
Propiedades
1. El coeficiente de correlación no varía al hacerlo la escala de medición. Es decir,

si expresamos la altura en metros o en centímetros el coeficiente de correlación no
varía.
36
2. El signo del coeficiente de correlación es el mismo que el de la covarianza. Si la
covarianza es positiva, la correlación es directa. Si la covarianza es negativa, la
correlación es inversa. Si la covarianza es nula, no existe correlación.
3. El coeficiente de correlación lineal es un número real comprendido entre menos

−1 y 1. −1 ≤ r ≤ 1 4.
Si el coeficiente de correlación lineal toma valores cercanos a −1 la correlación es

fuerte e inversa, y será tanto más fuerte cuanto más se aproxime r a −1. 5.
Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación es

fuerte y directa, y será tanto más fuerte cuanto más se aproxime r a 1. 6.
Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación es

débil. 7. Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o
decreciente. Entre ambas variables hay dependencia funcional.
Correlación entre variables La Correlación es una técnica estadística usada para

determinar la relación entre dos o más variables. La relación entre la duración de
una carrera de distancia y el test del escalón, o la relación entre las características
de la personalidad y la participación en deportes de alto riesgo. La correlación
puede ser de al menos dos variables o de una variable dependiente y dos o más
variables independientes, denominada correlación múltiple. Coeficiente de
correlación El Coeficiente de Correlación es un valor cuantitativo de la relación
entre dos o más variables. La coeficiente de correlación puede variar desde -1.00
hasta 1.00. La correlación de proporcionalidad directa o positiva se establece con
los valores +1.00 y de proporcionalidad inversa o negativa, con -1.00. No existe
relación entre las variables cuando el coeficiente es de 0.00.
Coeficiente de correlación = r
𝑁 ∑ 𝑋𝑌 − (∑ 𝑋)(∑ 𝑌)
𝑟=
√𝑁 ∑ 𝑋 2 − (∑ 𝑋)2 ) ∗ √𝑁 ∑ 𝑌 2 − (∑ 𝑌)2
37
El coeficiente de correlación de Pearson, que se simboliza con la letra minúscula r,
se calcula dividiendo la suma de los productos de las desviaciones de cada
variante de X e Y, con respecto a sus medias (suma que se denomina covarianza
de X e Y), por el producto de las desviaciones estándar de ambas variables. En
forma práctica, el coeficiente de correlación de Pearson es:
𝑁 ∑𝑁 𝑁 𝑁
𝑖=1(𝑋𝑌) − (∑𝑖=1 𝑋 )(∑𝑖=1 𝑌 )
𝑟=
√[𝑁 ∑𝑁 2 𝑁 2 𝑁 2 𝑁 2
𝑖=1 𝑋 − (∑𝑖=1 𝑋 ) ][𝑁 ∑𝑖=1 𝑌 − (∑𝑖=1 𝑌 ) ]
Donde N es el número de datos.
Ejemplo: La siguiente tabla muestra los datos registrados en una muestra aleatoria
de 10 escuelas para niños superdotados. La razón alumno/maestro es (X) y los
estudiantes que se salen antes de completar el curso es (Y).
Se recomienda para hacer el cálculo directo del coeficiente r de Pearson, realizar

una tabla como la siguiente:
De la tabla, ves que en las columnas (1) y (2) se han escrito las puntuaciones
originales. En la columna (3) se obtuvieron los cuadrados de las puntuaciones X y
en la columna (4) los cuadrados de las puntuaciones Y. La columna (5) se forma
con el producto de cada X por cada Y, finalmente se suman los valores de las
cinco columnas y se sustituyen en la fórmula que ya conoces, obteniendo el
siguiente resultado.
38
𝑁 ∑𝑁 𝑁 𝑁
𝑖=1(𝑋𝑌) − (∑𝑖=1 𝑋 )(∑𝑖=1 𝑌 )
𝑟=
√[𝑁 ∑𝑁 2 𝑁 2 𝑁 2 𝑁 2
𝑖=1 𝑋 − (∑𝑖=1 𝑋 ) ][𝑁 ∑𝑖=1 𝑌 − (∑𝑖=1 𝑌 ) ]
10(1440) − (130)(100)
𝑟=
√[(10(1878) − (130)²][10(1138) − (100)²]
1440 − 13000 1400

𝑟= =
√(18780 − 16900)(11380 − 10000) √(1880)(1380)
1400
𝑟=
√2594400
1400
𝑟= = 0.869180
1610.7141
39
REGRESION Y CORRELACION PARA DATOS AGRUPADOS
REGRESIÓN
La regresión estadística o regresión a la media es la tendencia de una medición

extrema a presentarse más cercana a la media en una segunda medición. La
regresión se utiliza para predecir una medida basándonos en el conocimiento de
otra.
MODELOS DE REGRESIÓN
En estadística la regresión lineal o ajuste lineal es

un método matemático que modeliza la relación entre una variable dependiente Y,
las variables independientes Xi y un término aleatorio ε. Este modelo puede ser
expresado como:
𝑌𝑇 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑃 𝑋𝑃 + 𝜀
𝑌𝑇 : Variable dependiente, explicada o regresando.
𝑋1 𝑋2: Variables explicativas, independientes o regresores.
𝛽0 𝛽1 𝛽𝑃 : Parámetros, miden la influencia que las variables explicativas tienen sobre el regresando.
Donde es la intersección o término "constante", las son los parámetros respectivos

a cada variable independiente, y es el número de parámetros independientes a tener en cuenta
en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.
El modelo lineal relaciona la variable dependiente Y con K variables

explicativas (k = 1,...K), o cualquier transformación de éstas, que generan
un hiperplano de parámetros desconocidos:
Donde es la perturbación aleatoria que recoge todos aquellos factores de la

realidad no controlables u observables y que por tanto se asocian con el azar, y es
40
la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una
sola variable explicativa, el hiperplano es una recta:
El problema de la regresión consiste en elegir unos valores determinados para los

parámetros desconocidos , de modo que la ecuación quede completamente
especificada. Para ello se necesita un conjunto de observaciones. En una
observación cualquiera i-ésima (i= 1,... I) se registra el comportamiento simultáneo
de la variable dependiente y las variables explicativas (las
perturbaciones aleatorias se suponen no observables).
Los valores escogidos como estimadores de los parámetros, , son

los coeficientes de regresión, sin que se pueda garantizar que coinciden con
parámetros reales del proceso generador. Por tanto, en
Los valores son por su parte estimaciones de la perturbación aleatoria o

errores.
En estadística, la regresión no lineal es un problema de inferencia para un modelo

tipo:
Basado en datos multidimensionales , , donde es alguna función no

lineal respecto a algunos parámetros desconocidos θ. Como mínimo, se pretende
obtener los valores de los parámetros asociados con la mejor curva de
ajuste (habitualmente, con el método de los mínimos cuadrados). Con el fin de
determinar si el modelo es adecuado, puede ser necesario utilizar conceptos de
41
inferencia estadística tales como intervalos de confianza para los parámetros así
como pruebas de bondad de ajuste.
El objetivo de la regresión no lineal se puede clarificar al considerar el caso de

la regresión polinomial, la cual es mejor no tratar como un caso de regresión no
lineal. Cuando la función toma la forma:
La función es no lineal en función de pero lineal en función de los parámetros

desconocidos , , y . Este es el sentido del término "lineal" en el contexto de la
regresión estadística. Los procedimientos computacionales para la regresión
polinomial son procedimientos de regresión lineal (múltiple), en este caso con dos
variables predictoras y . Sin embargo, en ocasiones se sugiere que la
regresión no lineal es necesaria para ajustar polinomios. Las consecuencias
prácticas de esta mala interpretación conducen a que un procedimiento de
optimización no lineal sea usado cuando en realidad hay una solución disponible
en términos de regresión lineal. Paquetes (software) estadísticos consideran, por
lo general, más alternativas de regresión lineal que de regresión no lineal en sus
procedimientos.
correlación
En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación

lineal y proporcionalidad entre dos variables estadísticas. Se considera que dos variables
cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente
con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe
correlación si al aumentar los valores de A lo hacen también los de B y viceversa. La correlación
entre dos variables no implica, por sí misma, ninguna relación de causalidad
Fuerza, sentido y forma de la correlación
La relación entre dos super variables cuantitativas queda representada mediante la línea de mejor
ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales de una
línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:
42
La fuerza extrema según el caso, mide el grado en que la línea representa a la nube de puntos: si
la nube es estrecha y alargada, se representa por una línea recta, lo que indica que la relación
es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la relación es débil.
El sentido mide la variación de los valores de B con respecto a A: si al crecer los valores de A lo
hacen los de B, la relación es positiva; si al crecer los valores de A disminuyen los de B, la relación
es negativa.
La forma establece el tipo de línea que define el mejor ajuste: la línea recta, la curva mono tónica o
la curva no mono tónica.
Distribución del coeficiente de correlación
El coeficiente de correlación muestral de una muestra es de hecho una variable aleatoria, eso
significa que si repetimos un experimento o consideramos diferentes muestras se obtendrán
valores diferentes y por tanto el coeficiente de correlación muestral calculado a partir de ellas
tendrá valores ligeramente diferentes. Para muestras grandes la variación en dicho coeficiente será
menor que para muestras pequeñas. R. A. Fisher fue el primero en determinar la distribución de
probabilidad para el coeficiente de correlación.
Si las dos variables aleatorias que trata de relacionarse proceden de una distribución gaussiana bi-
variante entonces el coeficiente de correlación r sigue una distribución de probabilidad dada por:
Donde:
Es la distribución gamma
Es la función gaussiana híper-geométrica.
Nótese que , por tanto r es estimador sesgado

de .
Puede obtenerse un estimador aproximado no sesgado resolviendo la ecuación:
43
for
Aunque, la solución:
Es sub-óptima. Se puede obtener un estimador sesgado con mínima varianza para
grandes valores de n, con sesgo de orden buscando el máximo de la

expresión:
, i.e.
En el caso especial de que , la distribución original puede ser reescrita como:
Donde es la función beta.
Ejemplo:
En la Encuesta de Presupuestos Familiares realizada por el I.N.E. en 1974–1975,

se registraba el ingreso total estimado (IT) y el gasto total GTINE.
44
Se observa una relación positiva entre el ingreso total estimado y el gasto total de
los hogares.
En el ejemplo se ve que existe una relación creciente y más o menos
lineal entre el ingreso total y el gasto total de los hogares.
Para una muestra de n datos bi-variantes:
(𝑥1 , 𝑦1 ), … , (𝑥𝑛 , 𝑦𝑛 )
La covarianza entre las dos variables es:
𝑛
1
𝑠𝑥𝑦 = ∑(𝑥𝑖 − 𝑥̅ ) (𝑦𝑖 − 𝑦̅)
𝑛
𝑖=1
1 1
Donde 𝑥̅ = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 e 𝑦̅ = 𝑛 ∑𝑛𝑖=1 𝑦𝑖 son las medias de ambas variables.
La covarianza es una medida de la fuerza de la relación lineal entre dos variables

cuantitativas.
En primer lugar hallamos las medias de ambas variables:
45
La covarianza es positiva, que implica una relación creciente entre x e y.
CORRELACIÓN POR RANGOS
La correlación de Spearman, o por rangos, se basa en reemplazar los valores

originales de ambas variables, por números enteros positivos, comenzando por 1
en adelante, que correspondan a su ordenamiento de mayor de
menor a mayor magnitud (RANGOS) .Para ello, los valores reales de cada una de
las variables son ordenados de menor a mayor, por separado y
reemplazados por rangos (Guilford y Fruchter 1984)
∑ 𝐷2
𝜌=1−
𝑁(𝑁 2 − 1)
Donde D es la diferencia entre los correspondientes estadísticos de orden

de x - y. N es el número de parejas de datos.
Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos,

aunque si éstos son pocos, se puede ignorar tal circunstancia
Para muestras mayores de 20 observaciones, podemos utilizar la siguiente

aproximación a la distribución t de Student
𝜌
𝑡=
√(1 − 𝜌2 )/(𝑁 − 2)
46
La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de
Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas
respectivamente, 0 cero, significa no correlación pero no independencia. La tau de Kendall es
un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución
normal bi-variante.
Ejemplo:
Los datos brutos usados en este ejemplo se ven debajo.
El primer paso es ordenar los datos de la primera columna. Se agregan dos columnas ‘orden
(i)' y ‘orden (t)'
Para el orden i, se corresponderán con el número de fila del cuadro, para 99, orden (i) =3 ya
que ocupa el 3.er lugar, ordenado de menor a mayor
Para el orden t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la semana', para
no hacer otro cuadro, la secuencia ordenada quedaría
T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 }
Para este caso, el orden sería para cada elemento, respectivamente:
Orden (t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }
Sin embargo, el valor de orden está dado por el valor promedio de sus posiciones, así para:
7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.5
47
28 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 8
50 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10
Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las
dos columnas de orden y, otra columna "d2". Esta última es sólo la columna "d" al cuadrado.
Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo
siguiente:
Nótese como el número de orden de los valores que son idénticos es la media de los números
de orden que les corresponderían si no lo fueran.
Los valores de la columna d2 pueden ser sumados para averiguar ∑ 𝑑𝑖2 = 196. El valor de n es
10. Así que esos valores pueden ser sustituidos en la fórmula.
6𝑥196
𝜌 = 1 − 10(102 −1)
De lo que resulta ρ= - 0.1878787879
COEFICIENTE DE CORRELACIÓN PARA DATOS NOMINALES
En el cuadro de diálogo Tablas de contingencia: Estadísticos pueden activarse

diversas opciones que proporcionan medidas de asociación cuando las variables
se miden por lo menos en una escala ordinal; las más utilizadas son:
48
Correlaciones: con esta opción se obtienen los estadísticos:
Coeficiente de correlación de Pearson: es una medida de asociación lineal

adecuada para variables medidas en escala de intervalo.
Coeficiente de correlación de Spearman: mide el grado de correspondencia que

existe entre los rangos que se asignan a los valores de las variables analizadas.
Por ello, este coeficiente se puede calcular con datos ordinales, y se define: 𝑇𝑠 =
6 ∑𝑛 𝑑2
𝑖
1 − 𝑛(𝑛𝑖2 −1) siendo di la diferencia entre los rangos correspondientes a la
observación i-ésima. El coeficiente toma valores entre -1 y +1. Un valor cercano a

0 indica que las variables apenas están relacionadas.
El cuadro Ordinal recoge una serie de estadísticos basados en el número de

concordancias y discordancias que aparecen al comparar las puntuaciones
asignadas a los mismos casos según dos criterios (o jueces) diferentes. Así, por
ejemplo, si 𝑥1 recoge las puntuaciones asignadas a los casos según el primer
criterio y𝑥 2 según el segundo, para la obtención de concordancias y discordancias
que aparecen entre los dos criterios, se procede de la siguiente forma:
• se ordenan los pares de puntuaciones de acuerdo con el orden natural de las

puntuaciones asignadas según el primer criterio, 𝑥1 .
• se compara cada valor de 𝑥2 con cada uno de los que le siguen, y se registra
una concordancia (+1) cuando los dos valores siguen el orden natural, una
discordancia (-1) cuando el orden está invertido y un empate (0) cuando
coinciden ambas puntuaciones.
• se calculan C total de las concordancias, D total de las discordancias y E el
número total de empates.
𝑛 (𝑛−1)
El número total de comparaciones es incluyendo empates.
2
𝐶−𝐷
1. Gamma: El estadístico Gamma se define como𝐶+𝐷 Este análisis excluye los
casos que presentan la misma puntuación en las dos variables (empates).
49
2. Tau-b de Kendall. Este coeficiente incluye los empates contemplando por
separado los que aparecen en la variable, 𝑋1 (𝐸𝑥1 )y los que aparecen en la
variable, 𝑋2 (𝐸𝑥2 )
𝐶−𝐷
Se define como: 𝑇𝑏 =
√(𝐶+𝐷+𝐸𝑥1 )(𝐶+𝐷+𝐸𝑥2 )
2𝑘(𝐶−𝐷)
3. Tau-c de Kendall. Este estadístico se define como: 𝑇𝑐 = siendo k el
𝑛2 (𝑘−1)
menor número de casos no empatados que presentan 𝑋1 o 𝑋2
4. d de Somers: A diferencia de los anteriores este estadístico considera que las

variables pueden ser simétricas o dependientes. En el primer caso, el estadístico d
de Somers coincide con la Tau-b de Kendall. En el segundo supuesto, se
diferencia del estadístico Gamma en que incluye los empates de la variable que
𝐶−𝐷
considera dependiente. Si la variable dependiente es 𝑋1 , 𝑑 = 𝐶+𝐷+𝐸
𝑥1
Todas estas medidas toman valores entre -1 y +1, y alcanza los valores extremos
cuando existe concordancia o discordancia perfecta. Valores próximos a 0 indican
ausencia de asociación.
Ejemplo
Obtenga una tabla de contingencia con las frecuencias absolutas, relativas y

condicionadas para las variables Trans (tipo de transporte) y Resid (vive en
Barcelona) de la base de datos Enctran.sav, y el correspondiente diagrama de
barras.
En el cuadro de diálogo Tablas de contingencia se activa la opción Mostrar los

gráficos de barras agrupadas, y en el cuadro de diálogo Tablas de
contingencia > Casillas se activan las opciones Porcentajes Fila, Columna y Total.
50
Los resultados que se obtienen son los siguientes:
51
En la tabla de contingencia se observan, entre otros resultados, los siguientes:
- Un total de 53 personas utilizan el metro de las cuales 41 viven en Barcelona y

12 no.
- El 36% del total de casos de la muestra utilizan el metro y viven en Barcelona.
- El 58,6% de los que viven en Barcelona utilizan el metro.
- El 77,4% de los que utilizan el metro viven en Barcelona.
- El 10,5% del total de casos utilizan el metro y no viven en Barcelona.
- El 27,3% de los que no viven en Barcelona utilizan el metro.
-El 22,6% de los que utilizan el metro no viven en Barcelona.
Análogamente se interpretan el resto de resultados.
52
CONCUSIÓN:
El entender un poco más acerca de la probabilidad y estadística nos servirá de

mucha ayuda para saber cómo es que una muestra nos dará datos importantes
los cueles para calcularles por ejemplo su estimación puntual, su inferencia, su
correlación entre otras más, sus fórmulas respectivas vienen incluidas de forma
clara para su buena lectura, recordemos también que para poder entender cómo
es posible calcular las cosas que se nos presenten en nuestra vida cotidiana es
necesario saber o indispensable recordar y si no, pues leer de forma continua
estos temas.
53
BIBLIOGRAFÍA
https://www.uoc.edu/in3/emath/docs/Estimacion_IC.pdf
http://calculo.cc/temas/temas_estadistica/muestreo/problemas/prob_intervalo0.htm
https://www.matematicasonline.es/BachilleratoCCSS/segundo/archivos/Inferencia_
estadistica/estimacion.htm
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-
statistics/supporting-topics/basics/what-is-a-hypothesis-test/
https://help.xlstat.com/customer/es/portal/articles/2062454-%C2%BFcu%C3%A1l-
es-la-diferencia-entre-una-prueba-de-dos-colas-bilateral-y-de-una-cola-unilateral-
http://www.geociencias.unam.mx/~ramon/EstInf/Clase13.pdf
https://prezi.com/24yqyj5mvyvm/prueba-de-hipotesis-para-una-media-y-diferencia-
de-medias/
https://www.monografias.com/trabajos91/prueba-hipotesis-medias-excel-y-
winstats/prueba-hipotesis-medias-excel-y-winstats.shtml
http://www.ub.edu/aplica_infor/spss/cap3-5.htm
https://es.scribd.com/document/285398896/UNIDAD-5-Probabilidad-y-estadistica
https://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Spearman
https://es.scribd.com/doc/58163158/Correlacion-por-Rangos-Spearman
http://probabilidadyestadisticaitsav.blogspot.com/2012/06/53-regresion-y-
correlacion.html
http://viref.udea.edu.co/contenido/menu_alterno/apuntes/ac36-correlacion-
variables.pdf
http://biplot.usal.es/problemas/libro/6%20%20Regresion.pdf
http://cursos.aiu.edu/PROBABILIDAD%20Y%20ESTAD%C3%8DSTICA/4/Word%
20-
%20PDF/Probabilidad%20y%20Estad%C3%ADstica%20Sesi%C3%B3n%204.pdf
http://www.geociencias.unam.mx/~ramon/EstInf/Clase9.pdf
http://www.itchihuahua.edu.mx/academic/industrial/estadistica1/cap03.html
54

Mar Santiago José Miguel Unidad 4 & 5 Probabilidad y Estadistica

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Mar Santiago José Miguel Unidad 4 & 5 Probabilidad y Estadistica

Transféré par

Droits d'auteur :

Formats disponibles

TECNOLOGICO NACIONAL DE MEXICO

INSTITUTO TECNOLOGICO DE CERRO AZUL

Cd. Cerro Azul, Ver. Junio De 2018

4: INFERENCIA ESTADISTICA .............................................................................. 4

ESTIMACIÓN PUNTUAL Y POR INTERVALOS DE CONFIANZA. ........................ 4

ESTIMACIÓN DE LA MEDIA, DE LA DIFERENCIA DE MEDIAS, DE LA

DETERMINACIÓN DEL TAMAÑO DE UNA MUESTRA. ...................................... 12

PRUEBAS UNILATERALES Y BILATERALES. .................................................... 15

PRUEBAS PARA MEDIA Y APARA DIFERENCIA DE MEDIAS. ......................... 18

PRUEBAS PARA PROPORCIÓN Y DIFERENCIA DE PROPORCIONES ........... 21

DISTRIBUCIÓN T DE STUDENT .......................................................................... 25

DISTRIBUCIÓN DE JI-CUADRADA. CUADROS DE CONTINGENCIA

5: ANALISIS DE REGRESIÓN Y CORRELACIÓN ............................................... 33

REGRESIÓN LINEAL SIMPLE CURVILÍNEA Y MÚLTIPLE ................................. 33

REGRESION Y CORRELACION PARA DATOS AGRUPADOS .......................... 40

CORRELACIÓN POR RANGOS ........................................................................... 46

COEFICIENTE DE CORRELACIÓN PARA DATOS NOMINALES ....................... 48

En este trabajo hablaremos un poco acerca de las unidades 4 y 5 de esta

Estas unidades van encaminadas a desempeñar trabajos importantes. En el caso

En la unidad 5 el análisis de correlación consiste en emplear métodos que

¿Qué es una estimación?

Cuando queremos realizar un estudio de una población cualquiera de la que

Una estimación puntual del valor de un parámetro poblacional desconocido (como

Como estimador puntual vamos a emplear la proporción muestral.

Estimación por Intervalos de confianza

- Los hechos que determinan la amplitud de un intervalo de confianza son:

En una encuesta, durante una campaña electoral, se preguntó a una muestra

Podríamos tomar como estimador puntual la proporción de población que va a

Para un nivel de confianza del 95% tenemos:

1 - ꝏ = 0,95 → ꝏ = 0,05 → 𝑧ꝏ = 𝑧0,025 = 1,96

El intervalo o de confianza pedido es el siguiente:

0,415 . 0,585 0,415 . 0,585

La distribución muestral de un estadístico es un concepto central, tanto de la

Una función de probabilidad queda caracterizada por su forma, su media y su

La forma de la distribución original de la media se parece a una distribución normal

Si la distribución de X en la población no es normal con media μ y desviación

Media, varianza y desviación típica de la variable cuantitativa X en la población y

Para estimar la media poblacional por medio de intervalos de confianza, será

Supongamos que hemos analizado la muestra ya nombrada de media 𝑥̅ = 3 Km.,

Sabemos por el T.C.L. que las medias muéstrales se distribuyen según

La siguiente figura nos ilustrará:

Hallamos el valor k de forma que p (-k<Z<k) = 0,95 , o lo que es lo mismo p

Si tomamos un intervalo con centro en dicha media muestral , y radio 0,124, en un

Así pues en general para un proceso de estimación de la media, el intervalo de

Varía el nivel de confianza, y anota que le ocurre al intervalo de confianza. Así

Estimación de la Diferencia de Medias

Si se tienen dos poblaciones con medias 𝜇 1 y 𝜇 2 y varianzas 𝜎12 y 𝜎22,

Recordando a la distribución muestral de diferencia de medias:

Al despejar de esta ecuación 𝜇1 − 𝜇2 se tiene:

En el caso en que se desconozcan las varianzas de la población y los tamaños de

Es deseable que la diferencia de medias sea positiva por lo que se recomienda

El valor de z para un nivel de confianza del 96% es de 2.05.

3.4 < 𝜇𝐵 − 𝜇𝐴 < 8.57

Estimación de una Proporción

Un estimador puntual de la proporción P en un experimento binomial está dado

Si no se espera que la proporción P desconocida esté demasiado cerca de 0 ó de

Al despejar P de esta ecuación nos queda:

En este despeje podemos observar que se necesita el valor del parámetro P y es

Cuando n es pequeña y la proporción desconocida P se considera cercana a 0 ó a

El error de estimación será la diferencia absoluta entre p y P, y podemos tener el

Un fabricante de reproductores de discos compactos utiliza un conjunto de

Se sabe con un nivel de confianza del 90% que la proporción de discos