Académique Documents
Professionnel Documents
Culture Documents
1. Si tenemos una variable de nuestro set de datos en estudio que tiene un 5 % de datos
faltantes ¿cuáles son los pasos que seguirı́a usted para continuar con el estudio? Explique
los distintos casos que podrı́an surgir.
4. ¿Cuál es el objetivo del algoritmo PCA (Principal Component Analysis)? De al menos dos
aplicaciones del algoritmo.
5. Suponga que para algún problema de regresión lineal (digamos, predicción del precio de la
vivienda visto en clase), tenemos algún conjunto de entrenamiento, y para nuestro conjunto
de entrenamiento nos las arreglamos para encontrar algún θ0 , θ1 tal que J(θ0 , θ1 ) = 0. Para
cada una de las siguientes afirmaciones escriba si es verdadera o falsa, y fundamente su
respuesta en ambos casos:
Desea utilizar la regresión polinómica para predecir el puntaje del examen final de un
alumno dado su puntaje en la prueba. Concretamente, supongamos que desea ajustar un
modelo de la forma hθ (x) = θ0 + θ1 x1 + θ2 x2 , donde x1 es el puntaje de la prueba y x2 es
(puntaje prueba)2 . Además, tiene previsto escalar las variables (dividiendo por el “max-
min”, o rango, de una variable) y normalizar a la media.
(1)
¿Cuál es el valor de x1 normalizado?
7. Digamos que f es una función tal que la salida de f (θ0 , θ1 ) es un número. Para este
problema, f es una función suave desconocida (no es necesariamente la función de costo
de una regresión lineal, ası́ que f puede tener óptimos locales). Suponer que usamos el
descenso del gradiente para tratar de minimizar f (θ0 , θ1 ) en función de θ0 y θ1 . Para cada
una de las siguientes afirmaciones escriba si es verdadera o falsa, y fundamente su respuesta
en ambos casos:
a) Ajustar una tasa de aprendizaje α muy pequeña no es dañino, sólo puede acelerar la
convergencia del descenso del gradiente.
b) Si θ0 y θ1 son inicializados en un mı́nimo local, una iteración no cambiará sus valores.
c) Incluso si la tasa de aprendizaje α es muy grande, cada iteración del descenso del
gradiente disminuirá el valor de f (θ0 , θ1 ).
d ) Si θ0 y θ1 son inicializados en el mı́nimo global, una iteración no cambiará sus valores.
Usaremos el siguiente conjunto de entrenamiento que es una pequeña muestra del rendi-
miento de distintos alumnos. Cada fila es un ejemplo de entrenamiento. Vamos a utilizar
una regresión lineal, por lo tanto nuestra hipótesis es: hθ (x) = θ0 + θ1 x, y usaremos m
para expresar el número de ejemplos de entrenamiento.
x y
3 4
2 1
4 3
0 1
a) ¿Cuál es el valor de m?
1 Pm (i) ) − y (i) )2 .
b) La función de costo para una regresión lineal es J(θ0 , θ1 ) = 2m i=1 (hθ (x
¿Cuál es el valor de J(0, 1)?
c) Suponga que tenemos que θ0 = −1, θ1 = 0,5. ¿Cuál es el valor de hθ (4)?
9. Suponga que tiene el siguiente conjunto de entrenamiento y ajusta una regresión logı́stica
hθ (x) = g(θ0 + θ1 x1 + θ2 x2 ).
2
1,5
x1 x2 y
x2 1 1 0.5 0
1 1.5 0
0,5 2 1 1
3 1 0
0 1 2 3 4
x1
Para cada una de las siguientes afirmaciones escriba si es verdadera o falsa, y fundamente
su respuesta en ambos casos:
a) J(θ) es una función convexa, por lo tanto el descenso del gradiente deberı́a converger
a un mı́nimo global.
b) Con el valor óptimo de θ, tendrı́amos J(θ) ≥ 0.
c) Agregando variables polinómicas (por ejemplo: usamos hθ (x) = g(θ0 + θ1 x1 + θ2 x2 +
θ3 x21 + θ4 x1 x2 + θ5 x22 )) aumentarı́a J(θ) porque ahora estarı́amos sumando más térmi-
nos.
d ) Si entrenamos el descenso del gradiente las suficientes iteraciones, para algún ejemplo
x(i) en el conjunto de entrenamiento es posible obtener hθ (x(i) ) ≥ 1.
10. Suponga que ha ejecutado dos veces una regresión logı́stica, una vez con λ = 0, y otra
81,47
vez con λ = 1. Una de las veces, obtuvo el parámetro θ = , y la otra vez obtuvo
12,69
13,01
θ= . Sin embargo, usted olvidó qué valor de λ corresponde a qué valor de θ. ¿A
0,91
cuál de estos valores de θ piensa que corresponde λ = 1? Justifique su respuesta.
11. Explique por qué la función de costo de la Regresión Logı́stica es convexa. Podrı́a ser útil
ayudarse con gráficos.
"m #
1 X (i) (i) (i) (i)
J(θ) = − y log(hθ (x )) + (1 − y ) log(1 − hθ (x ))
m
i=1
12. Suponga que ha entrenado un regresión logı́stica, y la salida de un nuevo ejemplo x predice
hθ (x) = 0,4. Según esto ¿Cuál es el valor de P (y = 0|x; θ)?
13. Suponga que usted ha implementado una regresión logı́stica regularizada para clasificar
qué objeto representa una imagen. Sin embargo, cuando se prueba la hipótesis de un nuevo
conjunto de imágenes, usted encuentra que tiene errores inaceptablemente grandes con sus
predicciones sobre las nuevas imágenes. Sin embargo, su hipótesis se desempeña bien (tiene
un bajo error) en el conjunto de entrenamiento. ¿Cuáles son los pasos que deberı́a seguir?
14. Usted ha entrenado un modelo de clasificación con la regresión logı́stica. Para cada una
de las siguientes afirmaciones escriba si es verdadera o falsa, y fundamente su respuesta
en ambos casos:
15. Supongamos que usted ha implementado regresión logı́stica regularizada para predecir
qué artı́culos comprarán los clientes en un sitio web. Sin embargo, cuando se prueba la
hipótesis en un nuevo conjunto de clientes, usted encuentra que tiene errores inacepta-
blemente grandes en sus predicciones. Por otra parte, el rendimiento de la hipótesis en el
conjunto de entrenamiento es malo. ¿Cuáles son los pasos que deberı́a seguir?
16. Suponga que está entrenando una regresión logı́stica regularizada (con λ = 0,5), con 100
variables (n = 100) y 1.500 ejemplos (m = 1500). Al graficar su curva de aprendizaje y el
parámetro de regularización λ para distintos valores, obtiene los siguientes gráficos:
Jcv (θ)
Error
Error
Jcv (θ)
Jtrain (θ)
Jtrain (θ)
hθ (x) = g(θ0 + θ1 x1 + θ2 x2 )
Jcv (θ)
Jcv (θ)
Error
Error
Jtrain (θ) Jtrain (θ)