Vous êtes sur la page 1sur 19

Análisis de datos

ING. CARLOS A. BRAVO OLÁN


BRAVOOLAN@GMAIL.COM
1. Análisis de regresión lineal y
correlación
1.1 Diagrama de dispersión
Objetivo
El Diagrama de Dispersión tiene el propósito de controlar mejor el proceso y
mejorarlo, resulta indispensable conocer como se comportan algunas variables o
características de calidad entre si, esto es, descubrir si el comportamiento de unas
depende del comportamiento de otras, o no, y en qué grado.
1.1 Diagrama de dispersión
Que es?
El Diagrama de dispersión es una herramienta utilizada cuando se desea realizar
un análisis gráfico de datos bivariados, es decir, los que se refieren a dos conjuntos
de datos. El resultado del análisis puede mostrar que existe una relación entre una
variable y la otra.
El estudio puede ampliarse para incluir una medida cuantitativa de tal relación.
Las dos variables pueden estar relacionadas de la siguiente manera:
 Una característica de calidad y un factor que incide sobre ella.
 Dos características de calidad relacionadas.
 Dos factores relacionados con una misma característica de calidad.
1.1 Diagrama de dispersión
Para que sirve?
 Indica si dos variables (o factores o características de calidad) están relacionados.
 Proporciona la posibilidad de reconocer fácilmente relaciones Causa / efecto.

¿ Cómo se construye?
Paso 1.- Recolectar n parejas de datos de la forma (Xi, Yi), con i = 1, 2, 3,…n donde Xi y
Yi representan los valores respectivos de las dos variables. Los datos se suelen
representar en una tabla.

Paso 2.- Diseñar las escalas apropiadas para los ejes X y Y.

Paso 3.- Graficar las parejas de datos. Si hay puntos repetidos, se mostrarán como
círculos concéntricos.

Paso 4.- Documentar el diagrama.


1.1 Diagrama de dispersión
Lectura y uso
La lectura se hace en base al tipo de relación entre los datos; lo fuerte o débil de
la relación, la forma de la relación y la posible presencia de punto anómalos.
La relación entre los datos se denomina “correlación positiva” cuando a un
aumento en el valor de la variable X le acompaña un aumento en la otra variable.
El caso inverso da lugar a la llamada “correlación negativa”.
1.2 Coeficiente de Correlación
La correlación, también conocida como coeficiente de correlación lineal (de
Pearson), es una medida de regresión que pretende cuantificar el grado de
variación conjunta entre dos variables.
Por tanto, es una medida estadística que cuantifica la dependencia lineal entre
dos variables, es decir, si se representan en un diagrama de dispersión los
valores que toman dos variables, el coeficiente de correlación lineal señalará lo
bien o lo mal que el conjunto de puntos representados se aproxima a una recta.
Se puede como el número que mide el grado de intensidad y el sentido de la
relación entre dos variables.

Siendo:
Cov (x;y): la covarianza entre el valor “x” e “y”.
σ(x): desviación típica de “x”.
σ(y): desviación típica de “y”.
1.2 Coeficiente de Correlación
Valores que puede tomar

ρ = -1 Correlación perfecta negativa


ρ=0 No existe correlación
ρ = +1 Correlación perfecta positiva

Hablamos de correlación positiva si


siempre que el valor “x” sube, el valor “y”
sube, y además con la misma intensidad
(+1).
En el caso opuesto, si siempre que el valor
“x” sube, y el valor “y” baja, y además
con la misma intensidad, entonces
estamos hablando de correlación
negativa (-1).
1.2 Coeficiente de Correlación
Representación grafica

+
- 0 +
- 0.2 +
- 0.4 +
- 0.6 +
- 0.8
+
-1
Correlación Correlación Correlación Correlación Correlación

Correlación

Correlación
Mínima Baja Moderada Buena Muy Buena

Perfecta
Sin
-1 0 +1
1.3 Análisis de regresión lineal
Método causal en el que una variable (conocida como variable dependiente), esta
relacionada con una o mas variables independientes por medio de una ecuación
lineal:

Variable Dependiente: Variable que se desea pronosticar (su comportamiento depende de las variables
independientes.

Variable Independientes: Variables que se supone que incluyen en la variable dependiente y por ende, son la
“causa” de los resultados obtenidos en el pasado.
1.3 Análisis de regresión lineal
Ejercicios

La energía consumida en un proceso depende del ajuste de máquinas que se realice,


realizar una regresión cuadrática con los datos siguientes y responder las preguntas.
a) Trazar un diagrama de dispersión Consumo de
Ajuste Máq.
b) Obtener la ecuación de regresión lineal Energía
Y X
c) Estimar el consumo de energía para un ajuste de máquina de 20
21.6 11.15
e) Obtener el coeficiente de correlación y de determinación
4 15.7
1.8 18.9
1 19.4
1 21.4
0.8 21.7
3.8 25.3
7.4 26.4
4.3 26.7
36.2 29.1
1.3 Analisis de regresión lineal
Ejercicios

2. En base al porcentaje de puntualidad se trata de ver si hay correlación con las quejas
en una línea aérea. Las quejas son por cada 100000 pasajeros.
%puntos Quejas
a) Trazar un diagrama de dispersión Aerolinea X Y
b) Obtener la ecuación de regresión lineal A 81.8 0.21
c) Estimar las quejas para un porcentaje de puntualidad de 80% B 76.6 0.58
d) Obtener el coeficiente de correlación y de determinación C 76.6 0.85
D 75.7 0.68
E 73.8 0.74
F 72.2 0.93
G 70.8 0.72
H 68.5 1.22
1. Regresión Múltiple y
polinomial
Distribución F
Lammers Limos ofrece servicio de transporte en limusina del ayuntamiento de
Toledo, Ohio, al aeropuerto metropolitano de Detroit. Sean Lammers, presidente de
la compañía, considera dos rutas. Una por la carretera 25 y la otra por la autopistaI-
75. Lammers desea estudiar el tiempo que tardaría en conducir al aeropuerto por
cada una de las rutas y luego comparar los resultados. Recopiló los siguientes datos
muestrales, reportados en minutos. Usando el nivel de significancia de 0.10, ¿hay
alguna diferencia entre las variaciones de los tiempos de manejo por las dos rutas?.
Carretera 25 Autopista 1-75
52 59
67 60
56 61
45 51
70 56
54 63
64 57
65
2.1 Regresión Polinomial
La regresión lineal múltiple trata de ajustar modelos lineales o linealizables entre una
variable dependiente y más de una variables independientes.

A partir de los análisis de regresión lineal múltiple podemos:


 identificar que variables independientes (causas) explican una variable
dependiente (resultado)
 comparar y comprobar modelos causales
 predecir valores de una variable, es decir, a partir de unas características
predecir de forma aproximada un comportamiento o estado
2.1 Regresión lineal Múltiple
La regresión lineal múltiple trata de ajustar modelos lineales o linealizables entre una
variable dependiente y más de una variables independientes.

A partir de los análisis de regresión lineal múltiple podemos:


 identificar que variables independientes (causas) explican una variable
dependiente (resultado)
 comparar y comprobar modelos causales
 predecir valores de una variable, es decir, a partir de unas características
predecir de forma aproximada un comportamiento o estado
2.1 Regresión lineal Múltiple
2.1 Regresión lineal Multiple
Objetivos:
 Predecir la variable respuesta teniendo en cuenta un conjunto de variables
independientes.
 La predicción del modelo elegido debe demostrar tanto significación practica
como estadística.
 Determinar la importancia relativa de cada variable independiente sobre la
variable dependiente (magnitud y dirección de c la relación)
 Evaluación de la naturaleza de las relaciones ente las variables independientes y
las dependientes (lineal y/o curvilínea).
 Evaluación de las interrelaciones entre las variables independientes.