Vous êtes sur la page 1sur 17

PRACTICA 2

ALUMNO:Kevin Sanchez
CURSO:IA
1. Da una gramática de la forma Backus-Naur para la sintaxis de la lógica proposicional.

Tomando :

2. Muestra que las siguientes fórmulas son tautologías:

A)

No es tautológica
B)

S i es tautológica
C)

Si es tautológica
D)
Si es tautológica

3. Transforma las siguientes fórmulas en la forma normal conjuntiva:

A)

B)

C) No es posible

4.Chequea las siguientes oraciones para satisfacción o validación:

A) SATISFACTORIO
B) VERDADERO
C) NO SATISFACTORIO

5. Usando un lenguaje de programación de tu elección, programe un prover de teoremas para lógica


proposicional usando el método de la tabla de verdad en la forma normal conjuntiva. Para evitar un caro chequeo
sintáctico de las fórmulas, puedes representar cláusulas como lista o conjunto de literales, y las fórmulas como listas
o conjuntos de cláusulas. El programa debe indicar si la fórmula es insatisfactible, satisfactible, o verdad, y mostrar el
número de las diferentes interpretaciones y modelos.

6. Resolver:

a) Muestre que modus ponens es una regla de inferencia válida, al mostrar que

A ∧ (A ⇒ B) ⇒ B es una tautología.
El teorema de deducción asegura así la corrección de la regla de inferencia.

b) Muestre que la regla de resolución es una regla de inferencia válida

Mostramos por el método de tabla de verdad que (A ∨ B) ∧ (¬ B ∨ C) ⇒ (A ∨ C) es una tautología

7. Muestre por aplicación de la regla de resolución que, en la forma normal conjuntiva, la cláusula vacía es
equivalente a la oración falsa.

Aplicando la regla de resolución a la cláusula:


(f ∨ B) y (¬B ∨ f) produce la solución (f ∨ f) ≡ (f).

Ahora aplicamos la regla de resolución a las cláusulas B y ¬B y se obtiene la cláusula vacía como la solución.
Como (f ∨ B) ≡ B y (¬B ∨ f) ≡ ¬B, (f) ≡ ( ).

Es importante en la práctica que, siempre que el vacío cláusula se deriva, se debe a una contradicción.

8. Muestre que, con resolución, uno puede derivar cualquier cláusula arbitraria de la base de conocimiento que
contiene una contradicción.

Si KB contiene una contradicción, entonces hay dos cláusulas A y ¬A, que permiten derivar la cláusula vacía
La contradicción en KB está claramente todavía en KB ∧ ¬Q. Por lo tanto, también permite derivar la cláusula
vacía.
9. Formalice las siguientes funciones lógicas con los operadores lógicos y muestre que tu fórmula es válida.
Presente el resultado en CNF.

A) la operación XOR entre 2 variables : (A ∨ B) ∧ (¬A ∨ ¬B)

B) la oración “por lo menos 2 de 3 variables A,B,C son verdad” : (A ∨ B) ∧ (B ∨ C) ∧ (A ∨ C)

10. Resuelva el siguiente caso con la ayuda de una prueba de resolución: “Si el criminal tiene un cómplice, luego
el llegó en carro. El criminal no tiene un cómplice y no tiene la llave, o el tuvo la llave y un cómplice. El criminal tiene
la llave. ¿Vino el criminal en carro o no?

Formalización: Cómplice: A, Carro: C, Clave: K

WB ≡ (A ⇒ C) ∧ [(¬A ∧ ¬K) ∨ (A ∧ K)] ∧ K


Convirtiendo a CNF: (¬A ∧ ¬K) ∨ (A ∧ K) ≡ (¬K ∨ A) ∧ (¬A ∨ K)

Intenta demostrar C y agrega ¬C al conjunto de cláusulas. El conjunto de cláusulas CNF es

(¬A ∨ C)1 ∧ (¬K ∨ A)2 ∧ (¬A ∨ K)3 ∧ (K)4 ∧ (¬C)5.


Resolución proof :
Res(2, 4) : (A)6
Res(1, 6) : (C)7
Res(7, 5) : ()8
Se demuestra que el criminal vino en carro

11. Muestre por resolución que las fórmulas del Ejercicio:

a) 2(d) es una tautología


b) 4(c) es insatisfacible o contradicción.

a)
KB ≡ (A ∨ B) ∧ (¬B ∨ C), Q ≡ (A ∨ C)
KB ∧ ¬Q ≡ (A ∨ B)1 ∧ (¬B ∨ C)2 ∧ (¬A)3 ∧ (¬C)4
Solución:
Res(1, 3) : (B)5
Res (2, 4) : (¬B)6
Res (5, 6) : ()

b)
¬(¬B ∧ (B ∨ ¬A) ⇒ ¬A) ≡ (¬B)1 ∧ (B ∨ ¬A)2 ∧ (A)3
Solución:
Res(1, 2) : (¬A)4
Res(3, 4) : ()

12. Pruebe las siguientes equivalencias, las que son importantes para trabajar con las cláusulas de Horn:

Usando equivalencias son probables las reclamaciones dadas

13. Muestre por resolución SLD que el siguiente conjunto de cláusulas de Horn es insatisfacible o contradicción
PRACTICA 3
1. Prueba lo siguiente: para un árbol con factor de ramificación constante grande b, casi todos los nodos están
es el último nivel de profundidad d. Muestra además que esto no es siempre cierto cuando el f.r. efectivo es grande
pero no constante.

En el último nivel existen b*d nodos, todos los niveles anteriores tienen:

Nodos, si b se agranda. Porque bd/bd-1 = b hay tantos nodos b en el último nivel como en todos los otros niveles
juntos.

2. Calcula el f.r. promedio para el problema del puzzle-8 sin chequear los ciclos. El f.r. promedio es el f.r. que
tendría un árbol de igual número de nodos en el último nivel, f.r. constante e igual de profundo. Calcula además el f.r.
promedio para el puzzle-8 con búsqueda no uniforme mientras se evitan los ciclos de longitud 2.

Podemos calcular el promedio del factor de ramificacion bm de b2m =8 a b2m =√8.


Aquí el cálculo no es tan simple porque el nodo raíz del árbol es más pesado que todos los demás. Sin
embargo, podemos decir que en el interior del árbol, el factor de ramificación es exactamente 1 más
pequeño que sería sin el control del ciclo.

3. ¿cuál es la diferencia entre el f.r. promedio y el efectivo?

Para la media f.r el número de nodos hoja es fijo. Para el f.r


efectivo, en contraste, el número de nodos en el árbol todo es fijo.

4. ¿por qué el f.r. efectivo encaja mejor para análisis y comparación del tiempo de computación de algoritmos
de búsqueda que el f.r. promedio?
Porque el número de todos los
nodos en el árbol es generalmente una mejor medicióndel tiempo de cómputo para la búsqueda de un árbol comple
to que el número denodos hoja.

5. Muestre que para un árbol de ramificación pesado con n nodos y profundidad d, el f.r efectivo es
aproximadamente igual al f.r. Promedio, así es igual a

Para un b grande tenemos n ≈ b¯(d+1)/b¯ = b¯(d) , rendimiento b¯ = d√ n.

6. Calcula el tamaño del espacio de estados para un problema del puzzle-8, para el análogo problema puzzle-3
(matriz 2x2), así como para el problema puzzle-15 (matriz 4x4).

3-puzzle: 4! = 24 estados, 8-puzzle: 9! = 362 880 estados, 15-puzzle: 16! = 20 922 789 888 000 estados.

7. Prueba que el gráfico de estados consiste en estados (nodos) y acciones (enlaces) para el puzzle-3 cae en 2
grafos conectados entre los cuales no hay conexiones.

Después de mover el vacío cuadrado 12 veces en la dirección a la derecha y alcanzar el estado de partida otra
vez y así crear un espacio secundario cíclico con 12 Estados.
8. Con la búsqueda por amplitud del puzzle-8, halla un camino (manualmente) desde el nodo inicial

hasta el nodo final usando la heurística


h1 y la heurística h2

9. Muestra que el algoritmo de búsqueda por amplitud, dado costo constante para todas las acciones, es
garantizado que encontrará la solución más corta. Además muestra que esto no es el caso para costos variables.
Desde un costo constante 1 el costo de todos los caminos en profundidad d son pequeños que los costos de los caminos
en profundidad d+1. Desde todos los nodos en profundidad d son probados después del primer nodo en profundidad
d+1, una solución de largo d es garantizada ser encontrada después de una solución de largo d+1.
Para el árbol de búsqueda vecinos, se generan primero número del nodo 2 y elnúmero de nodo de solución 3 de cost
o 10. La búsqueda termina. No se generan losnodos 4 y 5 con los costes de ruta de 2 cada uno. Por lo
tanto, la solución óptima no se encuentra.

10. Usando la búsqueda A* para puzzle-8, busca manualmente un camino desde el nodo inicial hasta el nodo

final usando la heurística


h1 y la heurística h2
- Revisar ejercicio 8

11. Construye el árbol de búsqueda A* para el grafo de ciudades de Ulm y sus alrededores (slide 31) y usa la
distancia de vuelo entre Ulm y las otras ciudades como heurística. Inicia en Bern con Ulm como destino. Cuida que
cada ciudad solo aparezca una vez en el camino.

12. ¿cuál es la relación entre la imagen de la pareja en el cañon (la flor) y una heurística admisible?

Al igual que un heurístico admisible, la esposa subestima la distancia a la meta. Estopodría resultar en dos de ellos en
contrar la forma más rápida a la meta, aunque congran esfuerzo. Esto sólo es cierto, sin
embargo, si la señora siempre subestima ladistancia.

13. El árbol de búsqueda para el juego de 2 jugadores dado en el siguiente slide con los rangos de todos los nodo
hojas. Use la búsqueda minMax con alpha-beta pruning de izquierda a derecha. Cruza todos los nodos que no son
visitados y da un rating resultado óptimo para cada nodo interno. Marca el camino elegido.
PRACTICA 4
EJERCICIOS
1. Prueba la proposición del Teorema 7.1

 Ejemplo:
En los juegos de dados, la probabilidad de lanzar un 6 es 1/6.
La probabilidad de lanzar un número impar es ½

Lanzar un dado una vez: Ω = {1, 2, 3, 4, 5, 6}


Lanzar un número par: Ω = {2, 4, 6} no es un evento elemental.
Lanzar un número menor que 5 Ω = {1, 2, 3, 4} no es un evento elemental
Razón:
Con 2 eventos A y B, es un evento
Ω es un evento seguro
El conjunto vacío ϕ es el evento imposible
En vez de escribimos por que

ENTONCES
La probabilidad de lanzar un 5 o 6 es 1/3.

2. .
3. .
4. En un show sw preguntas de TV, el contestante debe escoger entre 3 puertas cerradas. Detrás de una puerta
el premio espera: un automovil. Detrás de las otras puertas hay 2 cabras. El contestante escoge una, p.e, la
nro 1. El anfitrión que sabe donde está el carro abre otra puerta, p.e, la nro 3 y una cabra aparece. El
contestante tiene la oportunidad de escoger entre las 2 restantes (1 y 2). Cual es la mejor elección desde su
punto de vista? Quedarse con la puerta originalmente escogida? O cambiarla?
5. .
6. .
7. . Dadas las restricciones P(A)=α y P(AvB)=β, manualmente calcula P(B) usando el método MaxEnt. Usa PIT
para chequear tu solución.

Marginalización:

Con solamente teoría de probabilidad clásica:

 P(B) = β. α
8. .
9. .
10. Considere usar el sistema PIT para resolver la siguiente red Bayesiana con 3 variables binarias A, B, C y P(A)=0.2,
P(B)=0.9, así como CPT mostrada aquí:
a) Calcula P(A|B)

PIT Input file

output

.
. El jardinero Max quiere analizar estadísticamente su cosecha de guisantes anual. Cada vaina de
guisante que recolectó la midió su longitud xi en cms y su peso yi en gramos. Dividió los guisantes
en 2 clases, los buenos y los malos (vainas vacías). Los datos medidos (xi,yi) son:

BUENOS MALOS
X 122334456 4667
Y 234455666 2233
a) calcula las probabilidades P(y>3)|clase=bueno) y P(y<=3|clase=bueno). Luego usa la fórmula de
bayes para determinar P(clase=bueno| y>3) y P(clase=bueno| y<=3)
P(clase=bueno)=9/13
P(y>3)=7/13
P(y<=3)=6/13
P(y>3)|clase=bueno)=7/9
P(y<=3|clase=bueno)=2/9
Formula de bayes
P(clase=bueno| y>3)= P(y>3)|clase=bueno) P(clase=bueno)/P(y>3)
P(clase=bueno| y>3)=(7/9*9/13)/(7/13)=1
P(clase=bueno| y<=3)= P(y<=3|clase=bueno) P(clase=bueno)/ P(y<=3)
P(clase=bueno| y<=3)=(2/9*9/13)/(6/3)=1/3

b) Cual de las probabilidades calculadas en a) contradice la oración: “todos los buenos guisantes
pesan más que 3 gramos”?
todos los buenos guisantes y>=3gr la probabilidad que la contradice es P(clase=bueno| y<=3)
5. Usando el método de Lagrange, mostrar que sin restricciones explicitas, la distribución uniforme
p1=p2=…=pn=1/n representa la máxima entropía. No olvides la restricción implícita p1+p2+…+pn=1.
Cómo mostramos este mismo resultado usando la indiferencia?
p1=p2=…=pn=1/n …… prueba máxima entropía
método de lagranje

RESTRICCION
p1+p2+…+pn=1
MAX(H(P))= p1*lnp1+p2*lnp2+………pn*lnpn -> p1+p2+…+pn=1
MAX(H(P))=1ln(1)+1/2*ln(1/2)+……1/n*ln(1/n)
MAX(H(P))= p1=p2=…=pn=1/n
8. Dadas las restricciones 7.10, 7.11 y 7.12: p1+p2=α, p1+p3=γ, p1+p2+p3+p4=1. Muestre que
p1=αγ, p2=α(1-Υ), p3=Υ(1-α), p4=(1-α)(1-γ) representan la máxima entropía bajo esas condiciones.

p1+p2=α
p1+p2- α=0 L=-p1ln(p1)-p2ln(p2)+ (p1+p2- α)
dL/dp1 = -ln(p1)+ =0
dL/dp2 = -ln(p2)+ =0
Calculamos con un sistema de ecuaciones
p1+p3=γ
p1+p3- γ=0
p1+p2+p3+p4=1
p1=αγ
p2=α(1-Υ)
p3=Υ(1-α)
p4=(1-α)(1-γ)

11. Para el ejemplo de la alarma, calcula las siguientes probabilidades condicionales:


a) Calcula las probabilidades a priori P(Al), P(J), P(M)

P(Al)=0.001
P (J)=0.05
P (M)=0.01
b) Calcula P(M|Bur) usando la regla de producto, marginalización, regla de la cadena
e independencia condicional.
P(M|Bur)=P(M,Bur)/P(Bur)=P(M)=0.70
b) Usa la fórmual de Bayes para calcular P(Bur|M).
P(Bur|M)=(P(Bur)*P(M|Bur))/P(M)=(0.001*0.70)/(0.01)=0.07
c) Calcula P(Al|J,M) y P(Bur|J,M).
POR INDEPENDENCIA
P(Al|J,M)=P(AL,(J,M))/P(J,M)=P(AL|J)= P(Al)P(J|Al)/P(J)=(0.001*0.90)/(0.05)=0.018
POR INDEPENDENCIA
P(Bur|J,M)=P(Bur,(J,M))/P(J,M)=P(Bur|J)=0.09
d) Muestra que las variables J y M no son independientes.

EN LA RED BAYESIANA VEMOS QUE DE PENDE DEL NODO ALARM


e) Chequea todos los resultados con JavaBayes y con PIT.
g) Diseña una red bayesiana para el ejemplo de la alarma, pero con el órden alterado de variables
M, Al, Ear, Bur, J. De acuerdo a las semánticas de las redes bayesianas, solo las flechas necesarias
deben ser dibujadas. (Tip: el órden dado de las variables no representa causalidad. Así será dificil
intuitivamente determinar independencias condicionales)

PRACTICA 5
Problema 1
Se dice que un programa de computadora aprende de la experiencia E con respecto a una tarea T y una medida de
rendimiento P si su rendimiento en T, medido por P, mejora con la experiencia E. Supongamos que alimentamos un
algoritmo de aprendizaje con una gran cantidad de datos meteorológicos históricos. y haz que aprenda a predecir el
clima. En este contexto, ¿qué es T?

a) La tarea de predicción del tiempo


b) Ninguno de esos.
c) La probabilidad de que prediga correctamente el clima de una fecha futura.
d) El proceso del algoritmo que examina una gran cantidad de datos meteorológicos históricos.

Respuesta: a
Problema 2
Supongamos que está trabajando en la predicción del clima y utiliza un algoritmo de aprendizaje para predecir la
temperatura del mañana (en grados centígrados/Fahrenheit).
¿Tratarías esto como una clasificación o un problema de regresión?
a) Regresión
b) Clasificación

Respuesta: a Regresión

Problema 3
Supongamos que está trabajando en la predicción bursátil. Normalmente, se negocian (es decir, se compran/venden)
decenas de millones de acciones de Microsoft cada día. Le gustaría predecir el número de acciones de Microsoft que
se comercializarán mañana.
¿Tratarías esto como una clasificación o un problema de regresión?
a) Clasificación
b) Regresión

Respuesta: b Regresión

Problema 4
Algunos de los siguientes problemas se abordan mejor utilizando un algoritmo de aprendizaje supervisado, y los otros
con un algoritmo de aprendizaje no supervisado. ¿A cuál de los siguientes aplicaría el aprendizaje supervisado?
(Seleccione todos los que apliquen). En cada caso, suponga que hay disponible un conjunto de datos apropiado para
que su algoritmo aprenda.
a) Examine las estadísticas de dos equipos de fútbol y pronostique qué equipo ganará el partido de mañana
(dados los datos históricos de las victorias/derrotas de los equipos para aprender).

Esto se puede abordar mediante el aprendizaje supervisado, en el que aprendemos de los registros históricos
para hacer predicciones de ganar/perder.

b) Examine una página web y clasifique si el contenido de la página web debe considerarse "adecuado para los
niños" (por ejemplo, no pornográfico, etc.) o "adulto".
Esto se puede abordar como un problema supervisado de aprendizaje, clasificación, donde podemos aprender
de un conjunto de datos de páginas web que han sido etiquetadas como "compatibles con los niños" o
"adultos".

c) Tome una colección de 1000 ensayos escritos en la Economía de EE. UU. Y encuentre la forma de agrupar
automáticamente estos ensayos en un pequeño número de grupos de ensayos que de alguna manera son
"similares" o "relacionados".

Este es un problema de aprendizaje/agrupamiento no supervisado (similar al ejemplo de Google News).

d) Dada la información sobre cómo 1000 pacientes médicos responden a un medicamento experimental (como
la efectividad del tratamiento, los efectos secundarios, etc.), descubran si hay diferentes categorías o "tipos"
de pacientes en términos de cómo responden al medicamento, y si es así, ¿cuáles son estas categorías?

No supervisado

Problema 5
¿Cuál de estas es una definición razonable de aprendizaje automático?
a) El aprendizaje automático es la ciencia de la programación de computadoras.
b) El aprendizaje automático es el campo de permitir que los robots actúen de forma inteligente.
c) El aprendizaje automático es el campo de estudio que da a las computadoras la capacidad de aprender sin
estar programado explícitamente.
d) El aprendizaje automático aprende de los datos etiquetados.

Respuesta: c

Problema 6
Considere el problema de predecir qué tan bien lo hace un estudiante en su segundo año de colegio / universidad,
dado lo bien que lo hicieron en su primer año. Específicamente, sea x igual a la cantidad de calificaciones "A" (incluidas
las calificaciones A-. A y A +) que un estudiante recibe en su primer año de universidad (primer año). Nos gustaría
predecir el valor de y, que definimos como el número de calificaciones "A" que obtienen en su segundo año (segundo
año).
Las preguntas 1 a 4 usarán el siguiente conjunto de entrenamiento de una pequeña muestra de las actuaciones de
diferentes estudiantes. Aquí cada fila es un ejemplo de entrenamiento. Recordemos que en la regresión lineal, nuestra
hipótesis es , y usamos m para indicar el número de ejemplos de entrenamiento.
x y
3 2
1 2
0 1
4 3

Respuesta
4
Explicación
m es el número de ejemplos de entrenamiento. En este ejemplo, tenemos m = 4 ejemplos.

Problema 7
Para esta pregunta, continúe asumiendo que estamos usando el conjunto de entrenamiento dado anteriormente.

Recuerde que nuestra definición de la función de costo fue . ¿Qué es ? En


el cuadro a continuación, ingrese su respuesta (use decimales en lugar de fracciones si es necesario, por ejemplo, 1.5).
Cuando 𝜃0 = 0𝑦𝜃1 = 1
ℎ𝜃 (𝑥) = 0 + 1𝑥 = 𝑥
Entonces
1 2 1
𝐽(𝜃0 , 𝜃1 ) = 2𝑚 ∑𝑚 (𝑖) (𝑖) 2 2 2 2
𝑖=1(ℎ𝜃 (𝑥 ) − 𝑦 ) = 2(4) ((1) + (1) + (1) + (1) ) = 0.5

Problema 8
Supongamos que establecemos θ0=−1,θ1=0.5. Cuanto es hθ(4)?
Para x = 4
Se tiene:
hθ(x)=θ0+θ1x = -1 + (0.5)(4) = 1

Problema 9
Sea 𝑓 una función para que 𝑓(𝜃0 , 𝜃1 )emita un número.
Para este problema, 𝑓 es una función suave arbitraria/desconocida (no necesariamente la función de costo de la
regresión lineal, por lo que f puede tener optima local).
Supongamos que utilizamos el descenso de gradiente para tratar de minimizar𝑓(𝜃0 , 𝜃1 ) como una función de 𝜃0 y 𝜃1 .
¿Cuál de las siguientes afirmaciones es verdadera? (Marque todo lo que corresponda.)

V Enunciado Explicación
o
F
F Si 𝜃0 y 𝜃1 se inicializan de modo que 𝜃0 = 𝜃1 , Las actualizaciones de 𝜃0 y 𝜃1 son
luego por simetría (porque realizamos diferentes (aunque estamos haciendo
actualizaciones simultáneas a los dos actualizaciones simultáneas), por lo que
parámetros), después de una iteración de no hay ninguna razón particular para
descenso de gradiente, todavía tendremos actualizarlas para que sean las mismas
𝜃0 = 𝜃1 . después de una iteración de descenso de
gradiente.
V Si las primeras iteraciones de descenso de Si el alfa fuera lo suficientemente
gradiente causan que 𝑓(𝜃0 , 𝜃1 )aumente en pequeño, el descenso del gradiente
lugar de disminuir, entonces la causa más siempre debería tomarse con éxito un
probable es que hayamos establecido una pequeño descenso y disminuir𝑓(𝜃0 , 𝜃1 )al
tasa de aprendizaje demasiado grande. menos un poco. Si el descenso de
gradiente en cambio aumenta el valor
objetivo, eso significa que el alfa es
demasiado grande (¡o tienes un error en
tu código!).
V Si la tasa de aprendizaje es demasiado Si la tasa de aprendizaje es pequeña, el
pequeña, el descenso del gradiente puede descenso de gradiente termina tomando
tardar mucho tiempo en converger. un paso extremadamente pequeño en
cada iteración, y por lo tanto puede llevar
mucho tiempo converger
F Incluso si la tasa de aprendizaje α es muy Si la tasa de aprendizaje es demasiado
grande, cada iteración de descenso de grande, un paso de descenso de gradiente
gradiente disminuirá el valor de 𝑓(𝜃0 , 𝜃1 ) realmente puede "excederse" y
realmente aumentar el valor de 𝑓(𝜃0 , 𝜃1 )

Problema 10
Supongamos que para algún problema de regresión lineal (por ejemplo, prediciendo precios de vivienda como en la
conferencia), tenemos algún conjunto de entrenamiento, y para nuestro conjunto de entrenamiento logramos
encontrar algunos 𝜃0 , 𝜃1 tal que 𝐽(𝜃0 , 𝜃1 )= 0.
V Enunciado Explicación
o
F
F Esto no es posible: por la definición de 𝐽(𝜃0 , 𝜃1 ),no -
es posible que existan 𝜃0 y 𝜃1 de modo que
𝐽(𝜃0 , 𝜃1 ) = 0
V Nuestro conjunto de entrenamiento puede caber -
perfectamente en línea recta, es decir, todos
nuestros ejemplos de entrenamiento se
encuentran perfectamente en una línea recta.
F Para que esto sea cierto, debemos tener 𝑦 (𝑖) =0 Siempre que todos nuestros
para cada valor de i = 1,2, ..., m. ejemplos de entrenamiento estén
en línea recta, podremos encontrar
𝜃0 y 𝜃1 ) de modo que que
𝐽(𝜃0 , 𝜃1 ) = 0. No es necesario que
y (i) para todos nuestros ejemplos.
F Podemos predecir perfectamente el valor de y -
incluso los nuevos ejemplos que aún no hemos
visto. (Por ejemplo, podemos predecir
perfectamente los precios de casas nuevas que aún
no hemos visto).

Problema 11
Supongamos que m = 4 estudiantes han tomado alguna clase, y la clase tuvo un examen de mitad de período y un
examen final. Ha recopilado un conjunto de datos de sus puntajes en los dos exámenes, que es el siguiente:
midterm exam (midterm exam)^2 final exam

89 7921 96

72 5184 74

94 8836 87

69 4761 78

Le gustaría utilizar la regresión polinomial para predecir el puntaje del examen final de un estudiante a partir de su
puntaje del examen de mitad de período. Concretamente, suponga que desea ajustar un modelo de la forma hθ (x) =
θ0 + θ1x1 + θ2x2, donde x1 es el puntaje de mitad de período y x2 es (nota de mitad de período) 2. Además, planea
usar tanto la escala de entidades (dividiendo por el "máximo-mínimo", o el rango, de una característica) como la
normalización media. ¿Cuál es la característica normalizada x1 (3)? (Sugerencia: medio término = 89, final = 96 es el
ejemplo de entrenamiento 1.) Ingrese su respuesta en el cuadro de texto a continuación. Si corresponde, proporcione
al menos dos dígitos después del lugar deci
mal.
Solucion:
La media de x1 es 81 y el rango es 94-69 = 25

Entonces x1(3) es 94-81 / 25 = 0.52.

Problema 12:
Ejecuta un descenso de gradiente durante 15 iteraciones con α = 0.3 y calcula J (θ) después de cada iteración.
Encuentra que el valor de J (θ) disminuye lentamente y sigue disminuyendo después de 15 iteraciones. En base a
esto, ¿cuál de las siguientes conclusiones parece más plausible?
Solucion:
* En lugar de usar el valor actual de α, sería más prometedor intentar un valor mayor de α (digamos α = 1.0).
- Un valor mayor para α debería aumentar la tasa de convergencia al
mínimo de J (θ).

Problema 13:
Supongamos que tiene m = 14 ejemplos de entrenamiento con n = 3 características (excluyendo la función adicional
de unos para el término de intercepción, que debe agregar). La ecuación normal es θ = (XTX) -1 XTy. Para los valores
dados de m y n, ¿cuáles son las dimensiones de θ, X e y en esta ecuación?

Solucion:
Agregar función a X => matriz 14x4 y = 1 columna, m filas => 14X1 (1 resultado por ejemplo) θ = 4 columnas,
1 fila => 1x4 (1 valor por función)

(m x n) * (n * m)

X es 14 × 4, y es 14 × 1, θ es 4 × 1

Problema 14:
Supongamos que tiene un conjunto de datos con m = 1000000 ejemplos y n = 200000 características para cada
ejemplo. Desea utilizar la regresión lineal multivariante para ajustar los parámetros θ a nuestros datos. ¿Deberías
preferir el descenso de gradiente o la ecuación normal?
Responder

Solucion:
Descenso de gradiente, ya que (XTX) - 1 será muy lento de calcular en la ecuación normal.

Con n = 200000 funciones, deberá invertir una matriz 200001 × 200001 para calcular la ecuación normal. Invertir una
matriz tan grande es computacionalmente costoso, por lo que el descenso de gradiente es una buena opción.

Problema 15:

¿Cuál de las siguientes son razones para usar la escala de características?

Solucion:

Se acelera el descenso del gradiente haciendo que requiera menos iteraciones para llegar a una buena solución.

El escalado de características acelera el descenso del degradado al evitar muchas iteraciones adicionales que se
requieren cuando una o más características adquieren valores mucho más grandes que el resto.

PROBLEMAS EN OCTAVE
PROBLEMA 1:

Supongamos que primero ejecuto los siguientes comandos de Octave:

A = [1 2; 3 4; 5 6];
B = [1 2 3; 4 5 6];

¿Cuáles de los siguientes son entonces comandos válidos de Octave? Marque todo lo que corresponda. (Sugerencia:
A 'denota la transposición de A.)

Solucion:

C = B '+ A;
PROBLEMA 2:

Dado A

¿Cuál de las siguientes expresiones de indexación da

Solucion:
B = A(:, 1:2);

B = A(1:4, 1:2);

PROBLEMA 3:
Sea A una matriz de 10x10 yx sea un vector de 10 elementos. Su amigo quiere calcular el producto Ax y escribe el
siguiente código:

v = zeros(10, 1);
for i = 1:10
for j = 1:10
v(i) = v(i) + A(i, j) * x(j);
¿Cómoendvectorizaría este código para ejecutar sin ningún bucle for? Marque todo lo que corresponda.
end
Solucion:

v = A * x;

PROBLEMA 4:
Supongamos que tiene dos vectores de columna v y w, cada uno con 7 elementos (es decir, tienen dimensiones 7x1).
Considera el siguiente código:

z = 0;
for i = 1:7
z = z + v(i) * w(i);
end
¿Cuál de las siguientes vectorizaciones calcula correctamente z? Marque todo lo que corresponda.

Solucion:
z = v' * w;

PROBLEMA 5:
En Octave, muchas funciones funcionan con números únicos, vectores y matrices. Por ejemplo, la función sin cuando
se aplica a una matriz devolverá una nueva matriz con el pecado de cada elemento. Pero debes tener cuidado, ya
que ciertas funciones tienen un comportamiento diferente. Supongamos que tiene una matriz X de 7x7. Desea
calcular el registro de cada elemento, el cuadrado de cada elemento, sumar 1 a cada elemento y dividir cada
elemento entre 4. Almacene los resultados en cuatro matrices, A, B, DISCOS COMPACTOS. Una forma de hacerlo es
el siguiente código:

for i = 1:7
for j = 1:7
A(i, j) = log (X(i, j));
B(i, j) = X(i, j) ^ 2;
C(i, j) = X(i, j) + 1;
D(i, j)de= los
¿Cuál X(i,siguientes
j) / 4; calculó correctamente A, B, C o D? Marque todo lo que corresponda.
end
end
Solucion:
B = X .^ 2;

C = X + 1;

D = X / 4;

Vous aimerez peut-être aussi