Académique Documents
Professionnel Documents
Culture Documents
FACULTAD DE INGENIERA
DEPTO. COMPUTACIN E INFORMTICA
UTEM
NOMBRE
:
__________________________________
______________
PROBLEMA 1.
( 30 ptos).
R.U.T:
UTEM
SOLUCIN
PROBLEMA 1. (Evaluacin algoritmo: XX ptos)
Al disear un nuevo computador, se sospecha que las llamadas a procedimientos son
operaciones muy caras. Se ha inventado un nuevo mtodo que reduce las cargas y
almacenamiento normalmente asociados con llamadas y retornos de procedimientos.
Para evaluar el nuevo mtodo se corren experimentos con y sin optimizacin usando
el mismo compilador. Los experimentos entregan la siguiente informacin:
UTEM
Respuesta:
a) Entrada: tiempo = 1 segundo
Cmputo:2 procesadores, 10 procesos
TParalelo = 1 + 5 +1 = 7 segundos.
TSecuencial = 1 + 10 +1 = 12 segundos
UTEM
Entrada: tiempo = 1 segundo.
Cmputo: 2 procesadores, 5 procesos tiempo = 3 segundos
5 procesadores, 5 procesos tiempo = 1 segundos
Salida:
tiempo = 1 segundo
TParalelo = 5 segundos.
TSecuencial = 1 + 10 +1 = 12 segundos.
Speed-Up = 12/5 = 2.4
UTEM
5.- El problema del Flujo de Potencia Elctrica o Flujo de Carga ha sido exhaustivamente
estudiado en el mbito de la ingeniera elctrica por su gran importancia para la planificacin
y el mantenimiento de los grandes sistemas de distribucin de energa elctrica. Por esto, se han
realizado diversos estudios acerca de cmo se pueden mejorar distintos sistemas elctricos
(correspondientes a distintos estndares) mediante la paralelizacin de los cdigos que manejan
dichos sistemas. Para ello se dispuso del modelo paralelo de la Figura 1 para as evaluar sus
prestaciones en comparacin con un cmputo secuencial de dichos cdigos.
SISTEMA
IEEE-14
Monticelli - 30
Combinado - 88
TIEMPO SECUENCIAL
(segundos)
0,68
0,82
16,18
UTEM
a)
SPEED UP
Por lo tanto:
0.68
1.679
0.405
0.82
1.595
0.514
16.18
1.350
11.982
b) El siguiente grfico, ilustra cual es la aceleracin de cada sistema en funcin del nmero
de procesadores utilizados.
c)
La eficiencia del sistema E(n), para un sistema con n procesadores se define como:
E ( n)
SPEED UP
Nmero de Pr ocesadores
E (3)
1.679
0.56
3
UTEM
Monticelli-30
E (3)
Combinado-88 E (3)
1.595
0.532
3
1.350
0.45
3
En vista a los resultados anteriores, se puede concluir que el sistema ms eficiente corresponde al IEEE-14 debido a
que se acerca mucho ms a la medida de eficiencia mxima (E(n)=1) que se obtiene cuando todos los procesadores
estn siendo completamente utilizados durante todo el periodo de ejecucin.
UTEM
PROBLEMA 1.
Para la malla 2-D de k2 procesadores que se muestran en la figura 1, establezca el
tiempo mnimo para hacer un broadcast de un mensaje compuesto por n paquetes que
inicialmente estn en el nodo Po de la red tal como se muestra en la figura. Considere
que el tiempo de transferencia de un paquete entre un par de nodos es una unidad de
tiempo.
SOLUCION:
n mensajes, t m n i m o
= n 1 + 2(k 1).
PROBLEMA 1.
Multiplicacin de matrices
CP 2012-I, P2 UTEM
32
Otro caso sera cuando r=1; es decir, cuando A est particionada en bloques formados por
grupos de filas y B est particionada en t bloques formados por grupos de columnas.
Si usamos p=s*t procesadores con los bloques de A y B almacenados tal y como indica la
propia estructura de los bloques de la matriz resultado C, tenemos que cada uno de estos
bloques resultado pueden ser calculados en paralelo en un procesador.
RESPUESTA:
PROBLEMA 4.2
Considerar las matrices del ejercicio 5.1. Particionar la matriz en tres (3) bloques de orden 3x6
y la matriz B en dos (2) bloques de orden 6x3. Simular un producto A*B en paralelo sobre 6
procesadores tal y como se ha explicado anteriormente, indicando el almacenamiento de cada
matriz en cada uno de los procesadores y dnde queda almacenado el resultado.
PROBLEMA 4.3
El producto C = A*B, donde A es de orden m*n y B es de orden n*q, puede ser descrito,
entre otros, por los dos siguientes algoritmos:
OMV
CP 2012-I, P2 UTEM
32
a11 K
M O
a L
91
a16 b11 K
M M O
a96
b61 L
b 16
b 66
A11 A12
B11
A21 A
22
B21
A
31 A32
B12
B22
Haciendo una simulacin, fijaremos algunos factores, con se requiere en el enunciado se utilizaran 6 procesadores, y
separaremos el proceso en tres etapas, una primera etapa de distribucin, en la que se asignara la carga a cada
procesador, el procesador uno ser el maestro en esta etapa, y asignara un proceso y los datos para el proceso a cada
procesador.
OMV
CP 2012-I, P2 UTEM
32
Luego de la asignacin de carga, cada procesador realizar el clculo correspondiente, teniendo acceso a los datos
necesarios.
Proc.
Matrices Almacenadas
OMV
CP 2012-I, P2 UTEM
32
4.2
En primer lugar obtendremos de las matrices A y B las submatrices: A1, A2, B1, B2, B3 y B4 que poseen la siguiente
estructura:
a11 K
A M O
a L
91
a16
M
a96
9 x6
a11 K
A1 M O
a L
91
b11 K
B M O
b L
61
a13
a14 K
M
y A2 M O
a93
9 x3
a94 L
a 16
a 99
9x3
b16
M
b66
6 x6
b11 b12
B1 b21 b22
b b
31 32
b13
b14
b23
y B 2 b24
b33
3x3
b34
b15
b25
b35
b 16
b26
b 36
y B3 b51 b52 b
53
b
b
61
62
63
3x3
3x3
b44
y B 4 b54
b
64
b45
b55
b65
b46
b56
b66
3x3
La multiplicacin de las matrices A y B, da como resultado una matriz C de dimensiones 6x6. Esta matriz resultado ser
dividida de igual forma que la matriz B:
OMV
CP 2012-I, P2 UTEM
32
c11 K
C M O
c L
61
c16
M
c66
6 x6
c11 c12
C1 c21 c22
c
31 c32
c13
c14
c23
y C 2 c24
c33
3x3
c34
c15
c25
c35
c 16
c26
c 36
y C 3 c51 c52 c
53
c62 c63
61
3x3
3x3
c44
y C 4 c54
c
64
c45
c55
c65
Matrices Almacenadas
C1 y C2
C3 y C4
4.3
En primer lugar obtendremos de las matrices A y B las submatrices: A1, A2, A3, A4, A5, A6, B1 y B2 que poseen la
siguiente estructura:
OMV
CP 2012-I, P2 UTEM
32
c46
c56
c66
3 x3
a11 K
A M O
a L
91
a16
M
a96
9 x6
a11
A1 a21
a
31
a12
a22
a32
a71
A3 a81
a
91
a13
a41 a42 a43
a14 a15 a 16
a23
A2 a24 a25 a26
A3 a51 a52 a
53
a33 3 x 3
a61 a62 a63
a34 a35 a 36 3 x 3
a73
a74 a75 a 76
a83
A4 a84 a85 a86
a93
3 x3
a94 a95 a 96 3 x 3
a72
a82
a92
b11 K
B M O
b L
61
3 x3
a44
A4 a54
a
64
a45
a55
a65
b16
M
b66
6 x6
b11 b12
B1 b21 b22
b b
31 32
OMV
b13
b23
b33
b14
b24
b34
b15
b25
b35
b16
b41 b42
b26
y B 2 b51 b52
b36
3x6
b61 b62
b43 b44
b53 b54
b63 b64
b45
b55
b65
b 46
b56
b 66
3x6
CP 2012-I, P2 UTEM
32
a46
a56
a66 3 x 3
PROBLEMA N1.
Mtricas Hipercubo
Considere un hipercubo de 10 dimensiones (1.024 procesadores), Asuma que cada par vecino
en el toro, hay una conexin de 120 Mb/s en cada direccin (los enlaces en el hipercubo son
ms grandes, de modo que son normalmente menor su velocidad). Adems, asuma que cuando
un mensaje es enviado a travs de la red, y si no hay congestin, el mensaje toma 7*10-8
segundos para ir a travs de cada switch.
a. Cul es ancho de biseccin de esta mquina?.
Dimensin K=10
Ancho de Biseccin = 2(k-1) = 2(10-1) = 29 = 512
b. Cul es el dimetro de la red (distancia mxima entre dos cualesquiera de los nodos)?.
Dimetro de la red = Dimensin = K = 10
c. Cul es la latencia mxima de la red en ciclos de reloj, asumiendo que no hay
congestin?
Tiempo de transferencia = latencia + tamao/tasa de transferencia
Latencia = Tiempo Transf. tamao/tasa de transferencia
Latencia =
7*10 -8
p/ 120
d. Un profesor de Arquitectura Computacional Paralela debe decidir que red utilizar para
su mquina de 1.024 procesadores, el toroide o hipercubo. Si el costo de la red es
proporcional al nmero total de conexiones en la mquina (asuma que cada conexin
en la red toroidal e hipercubo tienen costos similares), cul red sugerira usted?.
Asuma que el profesor le interesa minimizar la relacin precio-desempeo.
Por supuesto, en la realidad la decisin es mucho ms compleja, pero esto les dar una
idea de los tipos de decisiones que deben efectuarse cuando se disea una red para una
mquina paralela.
OMV
CP 2012-I, P2 UTEM
32
Tp ( n)
an 2
p n * p ,
p
Tp ( n) an 2
n
p
p2
an 2
n 0
p2
an 2
p2
n
p ( n)
an 2
n
p ( n) n *
a
n
OMV
1seg
100 seg n * 0.001seg
CP 2012-I, P2 UTEM
32
Optimal cost
PROBLEMA 2.
Computar las expresiones para el speedup, la eficacia y el coste (producto pTp) para
el algoritmo A.
Es ptimo el costo del algoritmo para p=n2
Es ptimo el costo del algoritmo para p=n2.5
Es ptimo el costo del algoritmo para p=n3
Cul es el nmero mximo de los procesadores para los cuales el algoritmo sigue
siendo de costo ptimo?
(b)
(c)
(d)
(e)
A)
N 3TC
Tp
P Ts log( p)
Tw N 1.5 , donde
P
P: numero de procesadores
Ts: tiempo de procesamiento secuencial
Luego
N 3TC
N 3TC
SpeeUP=
Ts
Tp
P Ts log( p )
P Ts log( p)
Tw N
Tw N 1,.5
P N TC log( p)
Tw N 1,5
P
1, 5
SpeedUp
P N 3TC log( p )
Eficiencia=
=
N procesador es
Tw N 1,5
P
N 3TC
CostoP =
P Ts log( p )
Tw N 1,.5
N 3TC
Tw N 1,5 1
P Ts log( p)
P P
N 3TC P
P Ts log( p )
Tw N 1,5
P
N 3TC
P Ts log( p )
Tw N 1,5 1
P P
N 3TC
T N 1,5
N3
TC log( p) w 3
P
P2
2
2,5
3
B) Luego realizaremos el anlisis para P N ; N ; N
OMV
CP 2012-I, P2 UTEM
32
N 3TC
N 3TC
T N 1,5
T N 1,5
N3
N3
TC log( p ) w 3
1 2 TC log( p) w 3
P
N
N2 2
P2
N 3TC
N 3TC
Tw
Tw N 1,5
2
2
1
NT
log(
N
)
1 NTC log( N )
C
3
3
2 2
N
N2
..
N 3TC
Tw N 1,5
1 NTC log( N 2 )
3
2 2
N 3TC
T N 1,5
N3
TC log( p ) w 3
P
P2
N 3TC
Tw N 1,5
N3
T
log(
p
)
C
3
N 2,5
N 2,5 2
N 3TC
Tw N 1,5
N TC
Tw N
1 N 0 ,5TC log( N 2 )
5
2
3
2
N TC
1, 5
3
2
5
2
1 N 0 ,5TC log( N 2 )
Tw
N
11
4
N 3TC
T N 1,5
N3
TC log( p) w 3
P
P2
N 3TC
1 1TC log( N 3 )
Tw N
3
2
3
3 2
N 3TC
Tw N 1,5
N3
T
log(
p
)
C
3
N3
3 2
N
3
N TC
T
1 TC log( N 3 ) w3
N
1
N 3TC
1 1TC log( N 3 )
Tw N 1,5
3
3 2
Luego bastar con analizar cada uno de los denominadores para obtener algn resultado
referente al costo optimo, el que posea mayor denominador, es el que presenta un menor
costo
Luego como para P= N2 el costo es menor ya que el valor del denominador crece, ver grafico
anexo
OMV
CP 2012-I, P2 UTEM
32
OMV
CP 2012-I, P2 UTEM
32
i.
OMV
CP 2012-I, P2 UTEM
32
1.000
2.000
3.000
0,10100000 seg
0,001000000
1.000
100
10
10.000
seg
kms
Mbit/seg
Mbit
datos
0,10 seg
1.010 segundos
OMV
CP 2012-I, P2 UTEM
32
Se sabe que:
(b)
2 fase comunicacional.
(c)
(d)
(e)
OMV
CP 2012-I, P2 UTEM
32
y, adems:
cada tarea lleva a cabo el mismo cmputo sobre cada punto asignado en cada paso de iteracin del
algoritmo.
Se pide:
a) el tiempo de cmputo (Tcomp) para cada paso
b) el tiempo de comunicacin (Tcomm)
c) el tiempo total de la aplicacin paralela (Tp)
d) la aceleracin o Speedup
e) la eficiencia
SOLUCIN
a)
b)
c)
OMV
CP 2012-I, P2 UTEM
32
d)
la aceleracin o Speedup
e)
la eficiencia
OMV
CP 2012-I, P2 UTEM
32
PROBLEMA 1.
(40 ptos.).
PROBLEMAS CORTOS
1. Cuntos cubos conectados con ciclos se pueden construir con 48 nodos?; cules son
los tamaos de los ciclos?
OMV
CP 2012-I, P2 UTEM
32
OMV
Especificar:
El cdigo,
la granularidad,
el costo, y
discuta el balance de carga.
CP 2012-I, P2 UTEM
32
PROBLEMAS CORTOS
5. Cuntos cubos conectados con ciclos se pueden construir con 48 nodos?; cules son
los tamaos de los ciclos?
RESPUESTA:
OMV
CP 2012-I, P2 UTEM
32
OMV
CP 2012-I, P2 UTEM
32
Especificar:
a.
El cdigo,
b.
la granularidad,
c.
el costo, y
d.
discuta el balance de carga.
PROBLEMA 3.
OMV
CP 2012-I, P2 UTEM
32
PROBLEMA 4.
Un mtodo para aproximar Pi es lanzar dardos sobre un tablero cuadrado con un cuarto de
circunferencia inscrita de radio 1 (ver figura). Para estimar
frmula:
=4*
consideramos la siguiente
(0,0)
(1,0)
La idea es lanzar los dardos al tablero en forma aleatoria (x,y) y contar los que caen dentro
del circulo con respecto al total. A mayor nmero de lanzamientos tenemos una mejor
aproximacin.
Escriba un algoritmo paralelo (utilizando las primitivas de la plataforma que utiliz en el
laboratorio) para m procesadores, donde cada proceso se encargara de generar n
lanzamientos y contar la cantidad de aciertos
km
Pi = 4 * ( Suma de los
km) / (m * n)
Donde:
m:
n:
Nmero de procesadores.
Nmero de lanzamientos (Para todos los procesos es el mismo)
OMV
CP 2012-I, P2 UTEM
32
OMV
CP 2012-I, P2 UTEM
32