Vous êtes sur la page 1sur 7
UNIVERSIDAD CENTRAL DEL ECUADOR FACULTAD DE INGENIERÍA, CIENCIAS FÍSICAS Y MATEMÁTICA ENSAYO DE MATERIALES 1

UNIVERSIDAD CENTRAL DEL ECUADOR FACULTAD DE INGENIERÍA, CIENCIAS FÍSICAS Y MATEMÁTICA ENSAYO DE MATERIALES 1

CIENCIAS FÍSICAS Y MATEMÁTICA ENSAYO DE MATERIALES 1 NOMBRE: CAIZA CACHUMBA BRENDA NICOLE CURSO: IC3-02

NOMBRE: CAIZA CACHUMBA BRENDA NICOLE

CURSO: IC3-02

REGRESIÓN LINEAL SIMPLE

El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación entre variables que se adapta a una amplia variedad de situaciones. En la investigación social, el análisis de regresión se utiliza para predecir un amplio rango de fenómenos, desde medidas económicas hasta diferentes aspectos del comportamiento humano. En el contexto de la investigación de mercados puede utilizarse para determinar en cuál de diferentes medios de comunicación puede resultar más eficaz invertir; o para predecir el número de ventas de un determinado producto. En física se utiliza para caracterizar la relación entre variables o para calibrar medidas y un sinnúmero de aplicaciones más.

Puede ser empleada para analizar dos variables, conocida como regresión lineal; así como en el de más de dos variables conocida como regresión múltiple. El análisis de regresión lineal puede utilizarse para explorar y cuantificar la relación entre una variable llamada dependiente o criterio que usualmente es Y y una o más variables llamadas independientes o predictoras que se las asigna como X1, X2, hasta Xk. Así como para desarrollar una ecuación lineal con fines predictivos. Por otra parte, el análisis de regresión lleva asociados una serie de procedimientos de diagnóstico como el análisis de los residuos o puntos de influencia que informan sobre la estabilidad e idoneidad del análisis y que proporcionan pistas sobre cómo perfeccionarlo. (Universidad Carlos III de Madrid , 2018)

SUPOSICIONES DE LA REGRESIÓN LINEAL

Los valores de la variable independiente X son fijos, medidos sin error.

La variable Y es aleatoria.

Para cada valor de X, existe una distribución normal de valores de Y

Todas las medias de las subpoblaciones de Y están sobre la recta.

Los valores de Y están normalmente distribuidos y son estadísticamente independientes.

LA RECTA DE REGRESIÓN

La recta ofrece una idea bastante aproximada sobre el tipo de relación existente entre dos variables. Pero, además, un diagrama de dispersión también puede utilizarse como una forma de cuantificar el grado de relación lineal existente entre dos variables: basta con observar el grado en el que la nube de puntos se ajusta a una línea recta. Ahora bien, aunque un diagrama de dispersión permite formarse una primera impresión muy rápida sobre el tipo de relación existente entre dos variables, utilizarlo como una forma de cuantificar esa relación tiene un serio inconveniente: la relación entre dos variables no siempre es perfecta o nula; de hecho, habitualmente no es ni lo uno ni lo otro.

En una situación ideal, pero que sería irreal, en la que todos los puntos de un diagrama de dispersión se encontraran en una línea recta, no existiría la necesidad de encontrar la recta que mejor resume los puntos del diagrama. Simplemente uniendo los puntos entre sí se obtendría la recta con mejor ajuste a la nube de puntos. Pero en una nube de puntos más realista es posible trazar muchas rectas diferentes. Obviamente, no todas ellas se ajustarán igualmente bien a la nube de puntos. (Universidad de Jaen, 2017)

El objetivo es encontrar la recta capaz de convertirse en el mejor representante del conjunto total de puntos. Existen diferentes procedimientos para ajustar una función simple, cada uno de los cuales intenta minimizar una medida diferente del grado de ajuste. La elección preferida ha sido, tradicionalmente, la recta que hace mínima la suma de los cuadrados de las distancias verticales entre cada punto y la recta. Esto significa que, de todas las rectas posibles, existe una y sólo una que consigue que las distancias verticales entre cada punto y la recta sean mínimas.

MÉTODO DE MÍNIMOS CUADRADOS

La mejor recta sería aquella que minimice la suma de las distancias al cuadrado de los puntos a la recta, es decir deberíamos encontrar βo y β1 tales que ∑( Yi − βo – β1Xi ) 2 ≤ ∑( Yi − bo – b1Xi ) 2 para cualquier elección de bo y b1 que se realice. Las distancias se elevan al cuadrado porque, de lo contrario, al ser unas positivas y otras negativas, se anularían unas con otras al sumarlas. Este método para encontrar la recta que mejor ajuste a los datos se conoce como método de mínimos cuadrados.

Ilustración 1. Recta de regresión por mínimos cuadrados.

Ilustración 1. Recta de regresión por mínimos cuadrados. Fuente: (Instituto Tecnologico de Tuxtla , 2015) Existen

Fuente: (Instituto Tecnologico de Tuxtla , 2015)

Existen numerosas leyes físicas en las que se sabe de antemano que dos magnitudes x e y

se relacionan a través de una ecuación lineal y = ax + b donde las constantes b (ordenada

en el origen) y a (pendiente) dependen del tipo de sistema que se estudia y, a menudo,

son los parámetros que se pretende encontrar. El método más efectivo para determinar los

parámetros a y b se conoce como técnica de mínimos cuadrados. Consiste en someter el

sistema a diferentes condiciones, fijando para ello distintos valores de la variable

independiente x, y anotando en cada caso el correspondiente valor medido para la variable

dependiente y. De este modo se dispone de una serie de puntos (x1,y1), hasta (xn,yn) que,

representados gráficamente, deberían caer sobre una línea recta. Sin embargo, los errores

experimentales siempre presentes hacen que no se hallen perfectamente alineados. El

método de mínimos cuadrados determina los valores de los parámetros a y b de la recta

que mejor ajusta a los datos experimentales. (Escuela Politécnica de Ingeniería de Minas

y Energía , 2016)

Ilustración 2. Expresiones que se obtiene para a y b.

2016) Ilustración 2. Expresiones que se obtiene para a y b. Fuente: (Limeres, 2012) Como se

Fuente: (Limeres, 2012)

Como se muestra en Ilustración 2. los valores para a y b se obtienen de dichas

expresiones. Además es importante tener en consideración que representa cada símbolo

en las ecuaciones. De esta manera se tiene que En donde , ̅ denotan las medias

̅

muestrales de los valores de las variables X e Y respectivamente. 2 es la varianza muestral de X y es la covarianza muestral entre X e Y. Cada uno de estos parámetros se pueden calcular como se muestras en la Ilustración 3.

Ilustración 3. Cálculo de parámetros

la Ilustración 3. Ilustración 3. Cálculo de parámetros Fuente: (Limeres, 2012) BONDAD DEL AJUSTE Consiste en

Fuente: (Limeres, 2012)

BONDAD DEL AJUSTE

Consiste en medir la bondad del ajuste de la recta de regresión a los datos observados y cuantificar al mismo tiempo el grado de asociación lineal existente entre las variables en cuestión. A mejor ajuste, mejores serán las predicciones realizadas con el modelo. La evaluación global de una recta de regresión puede hacerse mediante la varianza residual, que como sabemos es un índice de la precisión del modelo. Sin embargo, esta medida no es útil para comparar rectas de regresión de variables distintas, o comparar el grado de asociación lineal entre distintos pares de variables, ya que depende de las unidades de medida de las variables.

Coeficiente de correlación lineal

Es utilizado para medir la asociación lineal entre dos variables X e Y. Es un tipo de medida adimensional denominada coeficiente de correlación lineal. Tiene la finalidad de medir la dependencia lineal que existe entre las dos variables y se calcula de acuerdo a lo indicado en la Figura 4.

Ilustración 4. Coeficiente de correlación lineal.

4. Ilustración 4. Coeficiente de correlación lineal. Fuente: (Limeres, 2012) El coeficiente presenta ciertas

Fuente: (Limeres, 2012)

El coeficiente presenta ciertas propiedades entre las que se encentran que es adimensional, y siempre tomas valores entre -1 y 1. De acuerdo a los valores que tome se pueden realizar diversas interpretaciones. Un valor cercano o igual a 0 indica respectivamente poca o ninguna relación lineal entre las variables. Cuanto más se acerque en valor absoluto a 1 mayor será el grado de asociación lineal entre las variables. Un coeficiente igual a 1 en valor absoluto indica una dependencia lineal exacta entre las variables. Un coeficiente

positivo indica asociación lineal positiva, es decir, tienden a variar en el mismo sentido.

Y finalmente un coeficiente negativo indica asociación lineal negativa, es decir, tienden

a variar en sentido opuesto. (Limeres, 2012)

Coeficiente de determinación

El coeficiente de correlación lineal puede interpretarse como una medida de la bondad del ajuste del modelo lineal. Se trata de un valor del coeficiente igual a 1 o -1 que indica

dependencia lineal exacta, en cuyo caso el ajuste es perfecto. No obstante, para cuantificar

la bondad del ajuste de un modelo, lineal o no, se utiliza una medida que se denomina

coeficiente de determinación lineal 2 que es la proporción de variabilidad de la variable

Y

que queda explicada por el modelo de entre toda la presente, y cuya expresión es como

se

muestra en la Ilustración. 5. (Universidad de Jaen, 2017)

Ilustración 5. Coeficiente de determinación.

Jaen, 2017) Ilustración 5. Coeficiente de determinación. Fuente: (Limeres, 2012) Dicho en otras palabras el

Fuente: (Limeres, 2012)

Dicho en otras palabras el coeficiente de determinación puede interpretarse como la proporción de variabilidad de Y que es explicada por X. Mide la proximidad de la recta ajustada a los valores observados de Y. El modelo de regresión lineal coincide con el cuadrado del coeficiente de correlación lineal por eso se puede afirmar que 2 = 2 . El coeficiente de determinación toma valores entre 0 y 1, y cuanto más se aproxime a 1 mejor será el ajuste y por lo tanto mayor la fiabilidad de las predicciones que se realicen con él. Nótese que si el coeficiente de correlación lineal r es igual a 1 o -1 entonces 2 = 1 y por lo tanto el ajuste lineal es perfecto. (Universidad Carlos III de Madrid , 2018)

EJEMPLO DE RECTA DE REGRESIÓN

Suponiendo que se dispone de un pequeño conjunto de datos con información sobre 35 marcas de cerveza y que existe el interés en estudiar la relación entre el grado de alcohol de las cervezas y su contenido calórico. Un buen punto de partida para crear una primera impresión de esa relación podría ser la representación de la nube de puntos, tal como muestra el diagrama de dispersión de la Ilustración. 6.

Ilustración 6. Diagrama de dispersión de porcentaje de alcohol por nº de calorías

de dispersión de porcentaje de alcohol por nº de calorías Fuente: (Universidad Carlos III de Madrid

Fuente: (Universidad Carlos III de Madrid , 2018)

El eje vertical muestra el número de calorías por cada tercio de litro y el horizontal el contenido de alcohol expresado en porcentaje. Existe una relación positiva entre ambas variables: conforme aumenta el porcentaje de alcohol, también aumenta el número de calorías. En esta muestra no hay cervezas que teniendo alto contenido de alcohol tengan pocas calorías y tampoco hay cervezas que teniendo muchas calorías tengan poco alcohol. La mayor parte de las cervezas de la muestra se agrupan entre el 4,5 % y el 5 % de alcohol, siendo relativamente pocas las cervezas que tienen un contenido de alcohol inferior a ése. (Universidad Carlos III de Madrid , 2018)

Para describir los datos propuestos podríamos listar los datos concretos de que disponemos; además de describir la pauta observada en la nube de puntos mediante una función matemática simple, tal como una línea recta. A primera vista, una línea recta podría ser un buen punto de partida para describir resumidamente la nube de puntos debido a que una línea recta posee una fórmula muy simple: y = ax + b.

El coeficiente a es la pendiente de la recta; es decir el cambio medio que se produce en el número de calorías por cada unidad de cambio que se produce en el porcentaje de alcohol El coeficiente b es el punto en el que la recta corta el eje vertical: el número medio de calorías que corresponde a una cerveza con porcentaje de alcohol cero. Conociendo los valores de estos dos coeficientes, es posible reproducir la recta y describir con ella la relación existente entre el contenido de alcohol y el número de calorías.

Ilustración 7. Diagrama de dispersión y recta de regresión

Ilustración 7. Diagrama de dispersión y recta de regresión Fuente: (Universidad Carlos III de Madrid ,

Fuente: (Universidad Carlos III de Madrid , 2018)

BIBLIOGRAFÍA Escuela Politécnica de Ingeniería de Minas y Energía . (2016). AJUSTE POR MÍNIMOS

de

CUADRADOS.

https://ocw.unican.es/pluginfile.php/1593/course/section/2045/Ajuste%20por%2

0minimos%20cuadrados.pdf

Obtenido

Instituto Tecnologico de Tuxtla . (2015). REGRESIÓN POR MÍNIMOS CUADRADOS:

CUADRÁTICA.

https://sites.google.com/site/numerictron/unidad-4/4-3-regresion-por-minimos-

LINEAL

Y

Obtenido

de

cuadrados-lineal-y-cuadratica

Limeres,

C.

C.

(2012).

REGRESIÓN

LINEAL

SIMPLE.

Obtenido

de

http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-

DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf

Universidad Carlos III de Madrid . (2018). Análisis de regresión lineal. El procedimiento

de

Regresión

http://halweb.uc3m.es/esp/Personal/personas/jmarin/esp/GuiaSPSS/18reglin.pd

lineal.

Obtenido

Universidad

de

Jaen.

(2017).

Regresión

Lineal

Simple.

Obtenido

de

http://www4.ujaen.es/~dmontoro/Metodos/Tema%209.pdf