Vous êtes sur la page 1sur 19

Materia:

Análisis de Datos

Alumno:

Carlos Israel Rdz.Cazares

Profesor:

Luis García Saldivar

Actividad:

#2
Considerando la información revisada a lo largo del curso, desarrollarás un Proyecto
Integrador en el que deberás resumir y describir las principales herramientas estudiadas:
regresión simple, ANOVA, series de tiempo y estadística no paramétrica.

El proyecto se realizará en 4 etapas:

 Etapa 1. Regresión simple


 Etapa 2. ANOVA
 Etapa 3. Series de tiempo
 Etapa 4. Estadística no paramétrica
Instrucciones para la etapa 1:

1. Realiza una breve investigación sobre la correlación.

Tiene por objetivo describir la relación lineal existente entre dos variables
cuantitativas mediante la ecuación de la recta que mejor se ajusta a los datos y usar
esta ecuación para realizar una predicción de los valores de una variable usando la
información aportada por la otra en el análisis de regresión lineal es simple cuando
intervienen solo dos variables.
Una de ellas es llamada variable independiente y es denotada por la letra X. la otra
variable es llamada variable dependiente, denotada por la letra Y.
Los valores de la variable dependiente son los que deseamos predecir, usando para
ello la información aportada por la variable independiente X.
Si en el análisis de regresión intervienen más de dos variables (una dependiente y
las demás independientes) este es llamado análisis de regresión lineal múltiple.
En el caso de una relación lineal, el objetivo es obtener la ecuación de la recta que
mejor se ajuste a los datos que mejor represente la relación entre las variables esta
ecuación es llamada ecuación de regresión lineal simple.
Ecuación de regresión lineal simple

Y=A+B*X

Donde Y es el valor estimado de Y para el valor de X


A: es llamada la constante de regresión lineal
B: es llamado el coeficiente de regresión lineal

La correlación estadística es medida por lo que se denomina coeficiente de correlación (r).


Su valor numérico varía de 1,0 a -1,0. Nos indica la fuerza de la relación.
En general, r> 0 indica una relación positiva y r <0 indica una relación negativa, mientras
que r = 0 indica que no hay relación (o que las variables son independientes y no están
relacionadas). Aquí, r = 1,0 describe una correlación positiva perfecta y r = -1,0 describe
una correlación negativa perfecta.

Cuanto más cerca estén los coeficientes de +1,0 y -1,0, mayor será la fuerza de la relación
entre las variables.

Como norma general, las siguientes directrices sobre la fuerza de la relación son útiles
(aunque muchos expertos podrían disentir con la elección de los límites).

Valor de r Fuerza de relación


-1,0 A -0,5 o 1,0 a 0,5 Fuerte
-0,5 A -0,3 o 0,3 a 0,5 Moderada
-0,3 A -0,1 o 0,1 a 0,3 Débil
-0,1 A 0,1 Ninguna o muy débil
La correlación es solamente apropiada para examinar la relación entre datos cuantificables
significativos (por ejemplo, la presión atmosférica o la temperatura) en vez de datos
categóricos, tales como el sexo, el color favorito, etc.

2. Deberás considerar los siguientes elementos:


a) Diagrama de dispersión

El Diagrama de Dispersión tiene el propósito de controlar mejor el proceso y mejorarlo,


resulta indispensable conocer cómo se comportan algunas variables o características de
calidad entre sí, esto es, descubrir si el comportamiento de unas depende del
comportamiento de otras, o no, y en qué grado.

El Diagrama de dispersión es una herramienta utilizada cuando se desea realizar un análisis


gráfico de datos bivariados, es decir, los que se refieren a dos conjuntos de datos. El
resultado del análisis puede mostrar que existe una relación entre una variable y la otra.

¿Para qué sirve el Diagrama de Dispersión?

 Indica si dos variables (o factores o características de calidad) están relacionados.


 Proporciona la posibilidad de reconocer fácilmente relaciones Causa / efecto.

¿Cómo se construye el Diagrama de Dispersión?

Paso 1.- Recolectar n parejas de datos de la forma (Xi, Yi), con i = 1, 2, 3,…n donde Xi y
Yi representan los valores respectivos de las dos variables. Los datos se suelen representar
en una tabla

.
Paso 2.- Diseñar las escalas apropiadas para los ejes X y Y.

Paso 3.- Graficar las parejas de datos. Si hay puntos repetidos, se mostrarán como círculos
concéntricos.
Paso 4.- Documentar el diagrama.

Lectura y uso del Diagrama de Dispersión

La lectura se hace en base al tipo de relación entre los datos; lo fuerte o débil de la relación,
la forma de la relación y la posible presencia de punto anómalos.

La relación entre los datos se denomina “correlación positiva” cuando a un aumento en el


valor de la variable X le acompaña un aumento en la otra variable.

El caso inverso da lugar a la llamada “correlación negativa”.

b) Regresión lineal

En estadística la regresión lineal o ajuste lineal es un modelo matemático usado para


aproximar la relación de dependencia entre una variable dependiente Y, las variables
independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:
Dónde:

: Variable dependiente, explicada o regresando.

: Variables explicativas, independientes o regresores.

Parámetros, miden la influencia que las variables explicativas


tienen sobre el regrediendo

Donde  es la intersección o término "constante", las  son los


parámetros respectivos a cada variable independiente, y  es el número de parámetros
independientes a tener en cuenta en la regresión. La regresión lineal puede ser
contrastada con la regresión no lineal.

c) coeficiente de determinación

En estadística, el coeficiente de determinación, denominado R² y pronunciado R cuadrado,


es un estadístico usado en el contexto de un modelo estadístico cuyo principal propósito es
predecir futuros resultados o probar una hipótesis. El coeficiente determina la calidad del
modelo para replicar los resultados, y la proporción de variación de los resultados que
puede explicarse por el modelo.1
Hay varias definiciones diferentes para R² que son algunas veces equivalentes. Las más
comunes se refieren a la regresión lineal. En este caso, el R² es simplemente el cuadrado
del coeficiente de correlación de Pearson, lo cual es sólo cierto para la regresión lineal
simple. Si existen varios resultados para una única variable, es decir, para una X existe una
Y, Z... el coeficiente de determinación resulta del cuadrado del coeficiente de
determinación múltiple. En ambos casos el R² adquiere valores entre 0 y 1. Existen casos
dentro de la definición computacional de R² donde este valor puede tomar valores 

d) coeficiente de correlación

En estadística, el coeficiente de correlación de Pearson es una medida de la relación lineal


entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación
de Pearson es independiente de la escala de medida de las variables.

De manera menos formal, podemos definir el coeficiente de correlación de Pearson como


un índice que puede utilizarse para medir el grado de relación de dos variables siempre y
cuando ambas sean cuantitativas y continuas
e) error estándar

El error estándar es la desviación estándar de la distribución muestral de


un estadístico_muestral.1 El término se refiere también a una estimación de la desviación
estándar, derivada de una muestra particular usada para computar la estimación.

b) Ejemplo Diagrama de dispersión


Vamos a ver desde una problemática empresarial, un ejemplo resuelto de diagrama de
dispersión para el área de calidad.

Imagina que una litográfica está abriendo una nueva área de producción para la impresión
de posters, y en este momento se encuentra haciendo todos los ensayos y pruebas para
determinar la cantidad de tinta de cada color que deberían tener las maquinas.

Como prueba inicial, han decidido establecer la relación de errores de impresión según el
grado de llenado de los recipientes de tinta de la máquina.

Bien, definida la situación, iniciamos desde el paso 2:


Las variables a estudiar para este ejemplo de grafico de dispersión en calidad son:

Cantidad de tinta en litros


 Número de errores de impresión
Para el paso 3, comenzamos a recolectar las variables. En nuestro caso, el departamento de
control de calidad hace 50 corridas o pruebas durante 5 días continuos.
Los resultados, a continuación:

Cantidad de tinta (Litros) Números de errores


0.47 16
0.48 14
0.69 30
0.7 31
0.59 15
0.59 17
0.37 10
0.62 21
0.39 11
0.35 13
Para el paso 4 ubicamos los ejes según las variables que tenemos. Al estar el número de
errores influenciado por la cantidad de tinta, lo ubicamos como el eje y. Por consiguiente, el
eje x es la cantidad de tinta. Ahora sí, hacemos el gráfico de dispersión.

Paso 5: Determinamos el coeficiente de correlación. En Excel lo calculamos con la


formula COEF.DE.CORREL. Para nuestro ejemplo resuelto, obtenemos 0,94, ¿se ve esto
reflejado en el gráfico? Por supuesto que si, fíjate que los puntos están muy cerca unos de
los otros, lo que indica que los valores se correlacionan fuertemente, es decir que la
relación entre un aumento en los litros de tinta, impacta directamente en el número de
errores en la impresión de posters. De hecho se hace evidente si miramos la tabla, no hay
grandes saltos entre datos si miramos el número de errores.
Paso 6: Analizamos. Evidentemente hay una relación positiva fuerte entre la cantidad de
tinta con la que se carga el tubo de la máquina y el número de errores generados en la
impresión de los posters. Un paso siguiente para un problema de este tipo, sería buscar la
forma de aprovechar la capacidad restante de la máquina, por ejemplo usar más tubos y más
pequeños.

Ejemplo regresión lineal coeficiente de determinación, el coeficiente de correlación y el


error estándar

Cantidad de tinta
(Litros) Números de errores      
x y     XY
0.47 16 0.2209 256 7.52
0.48 14 0.2304 196 6.72
0.69 30 0.4761 900 20.7
0.7 31 0.49 961 21.7
0.59 15 0.3481 225 8.85
0.59 17 0.3481 289 10.03
0.37 10 0.1369 100 3.7
0.62 21 0.3844 441 13.02
0.39 11 0.1521 121 4.29
0.35 13 0.1225 169 4.55
5.25 178 2.9095 3658 101.08

5.25 178
X́ = =0.525 Ý = = 17.8
10 10

2.9095 3658
σ x 2❑= −0.5252 = 0.015325 σ Y 2❑= −17.82 = 48.96
10 10

σ X = √ 0.015325 = 0.123794184 σ Y = √ 48.96 = 6.997142274


101.08
σ X= - 0.525 * 17.8 = 0.763
10

c) Aplicaciones

Aplicación de los modelos de regresión

Para aplicar los modelos de regresión al ajuste de los datos de las mediciones de campo en
la carga minera, se utilizó el software de distribución libre R [10]. Utilizando el paquete
Rcmdr se obtuvieron las gráficas de dispersión de las variables de respuesta y regresoras y
los resultados analíticos de los modelos. La figura 3, muestra el comportamiento gráfico de
los modelos de regresión lineal simple, polinomial de orden 2 y polinomial de orden 3,
mientras que la tabla 2, describe el desempeño de cada modelo de regresión.

En el análisis del modelo de regresión lineal múltiple no se observó presencia de


multicolinealidad entre las variables regresarás, ya que ningún término fuera de la diagonal
de la matriz de correlación supera la magnitud 0,7 [11], por lo tanto, es recomendable
considerar en el modelo de regresión múltiple las tres variables regresoras. La tabla 3,
muestra los coeficientes de la matriz de correlación para las variables regresoras del modelo
de regresión lineal múltiple.
Selección del modelo de regresión

Dado los resultados de la tabla 2, el valor más alto de R2 y el valor más bajo del AIC
(criterio de información de Akaike) se logra con el modelo de regresión lineal múltiple, por
lo tanto, este modelo es el que se selecciona como el más adecuado para el ajuste de los
datos de distorsión armónica individual de tensión y corriente. La ecuación (14), muestra el
modelo seleccionado.

Usando el software R [10], se obtienen los intervalos de confianza para cada parámetro del
modelo de regresión lineal múltiple, estos resultados se muestran en la tabla 4.

Pronósticos usando el modelo de regresión lineal múltiple

Usando el modelo de la ecuación (14), se realizan dos pronósticos. En el primer pronóstico


se estima el valor que tomaría la distorsión armónica individual de tensión de orden 7
cuando la distorsión armónica de corriente de orden 7 se reduce al 7 % (sin modificar los
valores medios de las distorsiones armónicas de corriente de orden 3 y 5) y cuando los tres
valores de distorsión armónica de corriente se reducen a 0 %. En el segundo pronóstico se
estima el valor de la distorsión armónica de corriente de orden 7 que hace que la distorsión
armónica individual de tensión aumente a 3 % y a 5 % (cuando no se modifican los valores
medios de las distorsiones armónicas de corriente de orden 3 y 5). Estos resultados se
muestran en las tablas 5 y 6.
 

De los pronósticos de las tablas 5 y 6, se puede apreciar que si se reduce la contaminación


armónica de corriente de orden 3, 5 y 7 a 0 % (instalando filtros de armónicos), la
distorsión armónica de tensión de orden 7 se reduce a 1,38%. Por otro lado, si la
componente armónica dominante de corriente de orden 7 aumenta sobre 12,73 %, la
distorsión armónica de tensión de orden 7 aumenta sobre 3 %, no cumpliendo con lo
indicado en la norma IEEE 519-1992. Por otro lado, si la componente armónica dominante
de corriente de orden 7 aumenta sobre 18,6 %, entonces la distorsión armónica de tensión
de orden 7 aumenta sobre 5 %, no cumpliendo con lo establecido en la norma técnica
chilena de calidad y seguridad de servicio.

Restricciones del modelo de regresión lineal múltiple

Para valores de distorsión armónica de corriente de orden 7 menores que 4 % (manteniendo


constantes los valores medios de la distorsión armónica de corriente de orden 3 y 5) la
distorsión armónica de tensión de orden 7 se hace negativa, perdiendo interpretación
física. Para valores de distorsión armónica de corriente de orden 3 mayores que 6 %
(manteniendo constantes los valores medios de la distorsión armónica de corriente de orden
5 y 7) la distorsión armónica de tensión de orden 7 se hace negativa, perdiendo
interpretación física.

 
CONCLUSIONES

En este trabajo, se probaron los modelos de regresión lineal simple, regresión polinomial de
orden 2, regresión polinomial de orden 3 y regresión lineal múltiple para describir la
relación entre la distorsión armónica individual de tensión y la distorsión armónica
individual de corriente en un proceso minero, siendo el modelo de regresión lineal múltiple
el que mejor ajustó los datos de las mediciones del proceso, con mejor coeficiente de
determinación R2 (0,8124) y menor criterio de información de Akaike (459,25).

Los pronósticos realizados con el modelo de regresión lineal múltiple, permiten estimar la
distorsión armónica individual de tensión y corriente del sistema eléctrico y direccionar
medidas correctivas para el control del contenido armónico del proceso. Cuando se analizan
las armónicas de un sistema eléctrico con carga homogénea, el modelo de regresión lineal
múltiple describe adecuadamente la distorsión armónica individual de tensión como
función de la distorsión armónica individual de corriente.

NOTA: Incluir el enlace de la fuente utilizada.

1. WU, C.J.; et al., "Application of regression models to predict harmonic voltage and
current growth trend from measurement data at secondary substations". IEEE Transactions
on Power Delivery, 1998, vol.13, n.3, p. 793-799, [Consultado: junio 2013], Disponible
en: http://ieeexplore.ieee.org/iel4/61/15033/00686976.pdf, ISSN 0885-8977.

2. VLAHINI?, S.; et al., "Measurement and analysis of harmonic distortion in power


distribution systems". Electric Power Systems Research, 2009, vol.79, n.7, p. 1121-1126,
[Consultado: marzo de 2013], Disponible
en: http://www.sciencedirect.com/science/article/pii/S0378779609000558, ISSN 0378-
7796.
d) Herramientas de apoyo

Para esta actividad me apoye del programa estadístico Minitab primero ingrese datos
estadístico en la hoja de cálculo de Minitab

Segundo paso seleccione el tipo de grafica a realizar


Tercer paso vacío datos.

Cuarto paso se despliega gráfica.


REFERENCIAS

Regresi�n Lineal Simple. (2018). Retrieved from


http://biplot.usal.es/problemas/regresion/teoria/regsimple.htm

Pablo Vinuesa, C. (2018). Tema 9 - Regresión lineal simple y polinomial: teoría y práctica.
Retrieved from
http://www.ccg.unam.mx/~vinuesa/R4biosciences/docs/Tema9_regresion.html

Estadística básica y probabilidades Diagrama de dispersión y correlación. (2018).


Retrieved from https://www.shmoop.com/estadistica-basica-probabilidades/diagrama-
dispersion-correlacion.html

Diagrama de dispersión - Calidad y ADR. (2018). Retrieved from


https://aprendiendocalidadyadr.com/diagrama-de-dispersion/

6 Coeficiente de Determinación. (2018). Retrieved from


https://www.uv.es/webgid/Descriptiva/6_coeficiente_de_determinacin.html

Diagrama de dispersión - Calidad y ADR. (2018). Retrieved from


https://aprendiendocalidadyadr.com/diagrama-de-dispersion/

(2018). Retrieved from


http://www.fce.unal.edu.co/media/files/UIFCE/Economia/Herramientas_de_Software_Aplic
adas_al_Metodo

WU, C.J.; et al., "Application of regression models to predict harmonic voltage and current
growth trend from measurement data at secondary substations". IEEE Transactions on
Power Delivery, 1998, vol.13, n.3, p. 793-799, [Consultado: junio 2013], Disponible
en: http://ieeexplore.ieee.org/iel4/61/15033/00686976.pdf, ISSN 0885-8977.

SANKARAN, C., "Power quality". Florida: CRC Press, 2001, 216 p., ISBN: 0-8493-1040-7

MONTGOMERY, D.; et al., "Introducción al análisis de regresión lineal". México: Ed.


Limusa Wiley, 2006, 588 p., ISBN: 970-24-0327-8.
DE LA GARZA, J.; et al., "Análisis estadístico multivariante, un enfoque teórico y práctico".
México: Ed. Mc Graw-Hill, 2013, 712 p., ISBN: 978-607-15-0817-1.

Vous aimerez peut-être aussi