005 Mips 2017

Captulo 3: MIPS
SEGMENTACIN EN LA EJECUCIN DE INSTRUCCIONES
Parte del material fue desarrollado en la Escuela Politcnica Arqui1-UNICEN

Superior de la Universidad Autnoma de Madrid.
Introduccin
Para el estudio de procesadores segmentados se

parte de un sencillo procesador RISC
denominado MIPS (Microprocessor without
Interlocked Pipeline Stages)
Procesador de 32 bits (datos, memoria)
32 registros de propsito general
Memoria de datos y cdigo separadas
Arquitectura de Computadoras I
Caractersticas de las arquitecturas RISC
Juego de instrucciones reducido.

Acceso a memoria limitado a instrucciones de
carga/almacenamiento.
Muchos registros de propsito general.
Pocos modos de direccionamiento (inmediato,
directo, indexado).
Formato de instruccin homogneo (misma
longitud y distribucin de campos).
Todas las instrucciones se ejecutan en un ciclo de
reloj.
El juego de instrucciones
Los diseadores de computadoras tienen como

objetivo encontrar un juego de instrucciones tal
que
Sea sencillo construir el hardware que
materialice ese juego de instrucciones y
El compilador sea sencillo y eficiente,
Maximizando el rendimiento de la
computadora y
Minimizando su consumo de energa.
Procesadores MIPS
Los procesadores MIPS tienen un juego de

instrucciones elegante desarrollado desde la
dcada de 1980.
Otro ejemplo de juego de instrucciones es el de
los procesadores ARM.
Similar a las instrucciones MIPS.
Vendi ms de 3.000 millones de chips para
aplicaciones embebidas en 2008.
Un juego de instrucciones diferente es el Intel x86.
Se vendieron 330 millones de PCs Intel en
2008.
Procesadores MIPS
En 1981, un equipo liderado por John L.
Hennessy en la Univ. de Stanford comenz a
trabajar en el primer procesador MIPS.
A principios de los '90 MIPS Technologies
comenz a otorgar licencias de sus diseos a
terceros, de ah procedan ms de la mitad de
los ingresos de MIPS. R10000 (Toshiba
TC86R10000-200,1996)
Los procesadores MIPS se utilizaron por
ejemplo en dispositivos para Windows CE;
routers Cisco; y videoconsolas como la
Nintendo 64 o las Sony PlayStation,
PlayStation 2, etc.
Debido a que su conjunto de instrucciones tan
claro, los cursos sobre arquitectura de
computadores en universidades a menudo se Emotion Engine (Sony, 2000)
MIPS-IV (R4000) de 128 Bits
basan en la arquitectura MIPS.
Procesador MIPS
32 registros de uso general: $0 .. $31 (excepto $0

siempre igual a 0).
230 palabras de memoria (32 bits c/u).
Instrucciones de 1 palabra (32 bits) de longitud.
Acceso a memoria limitado a 2 tipos de
instrucciones:
LOAD (carga una palabra de memoria en
registro)
STORE (almacena un registro en memoria)
El repertorio de instrucciones: caractersticas y tipos
Conjunto de instrucciones MIPS (32 bits). Tres formatos de instrucciones:

31 26 21 16 11 6 0
Tipo-R op rs rt rd shamt funct
6 bits 5 bits 5 bits 5 bits 5 bits 6 bits
31 26 21 16 0
Tipo-I op rs rt inmediato
6 bits 5 bits 5 bits 16 bits
31 26 0
Tipo-J op Direccin destino (Target Address)
6 bits 26 bits
Campos de cada instruccin:
op: Cdigo de operacin de la instruccin
rs, rt, rd: identificador de los registros fuente y destino
shamt: desplazamiento deseado
funct: seleccin de la variante de funcin asociada
inmediato: dato inmediato en 16 bits
Direccin destino
Convencin para el banco de registros MIPS
Nombre Nmero Uso Se preserva en

call?
$zero 0 Constante cero -
$at 1 Reservado assembler No
$v0-$v1 2-3 Resultados de expresiones No
$a0-$a3 4-7 Argumentos No
$t0-$t7 8-15 Temporarios No
$s0-$s7 16-23 Saved Si
$t8-$t9 24-25 Temporarios No
$k0-$k1 26-27 Reservados SO No
$gp 28 Puntero global Si
$sp 29 Puntero pila Si
$fp 30 Puntero frame Si
$ra 31 Dir retorno sub-rutina Si
El repertorio de instrucciones: Tipo-R
31 26 21 16 11 6 0
op rs rt rd shamt funct
Ejemplos: ADD y SUB Ejemplos: Cdigo C

add rd, rs, rt # rd=rs+rt f = (g + h) (i + j);
sub rd, rs, rt # rd=rs-rt Si las variables f, g, h, i, j estn en los registros
$s0 a $s4 el compilador puede generar:
add $t0, $s1, $s2
add $t1, $s3, $s4
sub $s0, $t0, $t1
El repertorio de instrucciones: Tipo-I
31 26 21 16 0
op rs rt inmediato
6 bits 5 bits 5 bits 16 bits
ADD inmediato
addi rt, rs, inm # rt=rs+inm
LOAD y STORE word
lw rt, rs, inm # rt=mem[rs+inm]
sw rt, rs, inm # mem[rs+inm]=rt
SALTOS
beq rs, rt, inm # si rs=rt,
# entonces PC=PC+4+inm*4
# el lenguaje ensamblador admite etiquetas y calcula inm
El repertorio de instrucciones: Ejemplo
Ejemplos: Cdigo C
if (i == j) f = (g + h); else f = g h;
Si las variables f, g, h, i, j estn en los registros $s0 a $s4 el compilador puede

generar:
bne $s3, $s4, CasoElse

add $s0, $s1, $s2 # si i==j
j Exit # salto incondicional
CasoElse: sub $s0, $s1, $s2
Exit:
El repertorio de instrucciones: Ejemplo
Ejemplos: Cdigo C
while (save[i] == k) i+=1;
Si las variables i y k estn en los registros $s3 y $s5 y el registro base del
arreglo save esta en $s6, el compilador puede generar:
Loop: sll $t1, $s3, 2 # sll con 2 equivale a multip x4

add $t1, $t1, $s6 # calcula dir de save[i]
lw $t0, 0($t1) # carga save[i]
bne $t0, $s5, Exit
addi $s3, $s3, 1 # i+=1
j Loop # salto incondicional
Exit:
Modos de direccionamiento MIPS 1. El operando es una cte dentro

de la instruccin:
lui $s0, 61
2. El operando es un registro:
ejemplos 1, 3 y 4.
3. La dir del operando es la
suma de un reg y una cte en
la instrucin:
lw $t0, 8($t1)
4. La dir de salto es la suma del
PC mas una cte. en la instr.:
beq $s0, $s1, L1
5. La dir de salto es la concat.
de los 4 bits ms altos del PC
con la cte de 26 bits en la
instruccin (ms los dos LSB
que son cero):
jal printf
Ejemplo ejecucin RTL de una instruccin
31 26 21 16 11 6 0
op rs rt rd shamt funct
Instruccin add rd, rs, rt
Descripcin de la ejecucin (RTL)

IR Mem[PC] Carga de la instruccin desde memoria
R[rd] R[rs] + R[rt] Realiza la operacin (SUMAR)
PC PC + 4 Calcula la direccin de la siguiente
instruccin
Descripcin RTL del procesador MIPS
Descripcin RTL (Register Transfer Level) de las instrucciones

a. Fase inicial: carga desde Memoria (Fetch)
IR <= MEM[ PC ] ; IR = op & rs & rt & rd & shamt & funct
; IR = op & rs & rt & Imm16
; IR = op & Inm26
b. Transferencia entre Registros (ejemplos: Instrucc y transf entre registros)
ADD R[rd] <= R[rs] + R[rt]; PC <= PC + 4
ADDI R[rt] <= R[rs] + Ext_signo(Inm); PC <= PC + 4
LOAD R[rt] <= MEM[ R[rs] + Ext_signo(Inm)]; PC <= PC + 4
STORE MEM[ R[rs] + Ext_signo(Inm) ] <= R[rt]; PC <= PC + 4
BEQ if ( R[rs] == R[rt] ) then PC <= PC + 4 + (Ext_signo(Inm) & 00)
else PC <= PC + 4
Generalidades para el diseo de un procesador
1. Analizar el conjunto de instrucciones => requisitos para la ruta de datos

(datapath).
El significado de cada instruccin viene dado por su funcionamiento a
nivel de transferencia de registros (RTL).
El datapath debe incluir elementos de almacenamiento para los
registros accesibles en el modelo de programacin del procesador.
El datapath debe soportar todas las transferencias entre registros
definidas en el conjunto de instrucciones.
2. Seleccin de los componentes y de la metodologa de reloj.
3. Implementacin del datapath cumpliendo los requisitos.
4. Anlisis de cada instruccin para determinar el mecanismo de control que
efecte la transferencia entre registros.
5. Implementacin de la lgica de control.
Diseo del procesador: elementos bsicos
Unidades funcionales necesarias para las instrucciones

Memoria de instrucciones
Contador Sumador Banco de Registros
Direccin
de lectura de Programa
Registros
Instruccin 5
Sumador
Reg. fuente 1
PC Dato Salida 1
Nmero
Memoria de 5
Reg. fuente 2
De
Instrucciones Datos
Registro Dato Salida 2
5
Reg. destino
Memoria de datos ALU Datos Dato Entrada

M e m W ri te A L U o p. Extensin de Signo
3
Memoria de Oper 1 32
16 Exten.
Direccin Datos Cero Signo
ALU
Dato Salida Resultado
Dato Oper 2
Entrada x4
Para qu son necesarias?
M e m R ea d
Diseo del procesador: sincronizacin
La metodologa de sincronizacin indica cundo pueden leerse y escribirse las

diferentes seales.
En este procesador (MIPS) los ciclos de reloj comienzan en flanco de subida
Elemento Elemento Elemento

de memoria Combinacional de memoria
Flanco de bajada
(Falling edge)
Flanco de subida
(Rising edge)
Periodo del reloj (Clock period)
Conexiones en la ruta de datos (Datapath)

Operaciones entre registros, Tipo-R (ADD, SUB, OR, AND, etc)
Conexin de los elementos:

PCS rc
Uso de multiplexores.
Sumador
M Seales de control.
u
Sumador x Captura de la siguiente instruc.
4 Resultado Incremento de PC.
Despl. Instrucciones de la ALU entre
<< 2 M e m W ri te registros.
Registros
A L U o p.
Reg. fuente 1 Memoria de Me m 2 R e g
PC Direccin 3
de lectura Dato Salida 1 Datos
Reg. fuente 2 A L U S rc Cero Dato Salida
M
Instruccin ALU u
Dato Salida 2 Resultado Direccin x
M
Memoria de Reg. destino u
Instrucciones x
Dato Entrada
R e g W rit e
Dato Entrada
16 Exten. 32
Signo M em R ea d
Operaciones de carga y almacenamiento, Tipo-I (Load / Store)

PCS rc Uso de multiplexores.
Seales de control.
Sumador

M
u Captura de la siguiente instruc.
Sumador x
Incremento de PC.
4 Resultado
Instrucciones LOAD/STORE.
Despl.
<< 2 M e m W ri te
Registros
A L U o p.
PC Direccin 3
M
Instruccin ALU u
M
Instrucciones x
Dato Entrada
R e g W rit e
Dato Entrada
16 Exten. 32
Signo M em R ea d

Operaciones de salto condicional (Beq)

PCS rc
Uso de multiplexores.
Sumador
M Seales de control.
u
Sumador x Captura de la siguiente
4 Resultado instruccin o del destino de
Despl. salto =>Incremento de PC.
<< 2 M e m W ri te Instrucciones de Salto.
Registros
A L U o p.
PC Direccin 3
M
Instruccin ALU u
M
Instrucciones x
Dato Entrada
R e g W rit e
Dato Entrada
16 Exten. 32
Signo M em R ea d
Instruccin RegDest FuenteALU MemaReg EscrReg LeerMem EscrMen SaltoCond ALUOp1 ALUOp0
Ruta de Datos con Reg a Reg 1 0

1
0
1
1
1
0
1
0
0
0
0
1
0
0
0
LOAD 0
Control Uniciclo STORE X 1 X 0 0 1 0 0 0
BEQ X 0 X 0 0 0 1 0 1
Control:
Bloque combinacional que
con 6 bits de la instruccin
(bits 31:26) genera las 9
seales de control
Cmo agregar Jumps?
Jump 2 address
31:26 25:0
Jump usa direccionamiento pseudo-directo

El nuevo valor del PC se forma concatenando
Los 4 bits ms altos del PC
El operando de 26 bits
00
Se necesita alguna nueva seal de control?
Ruta de Datos agregando Jumps
Diagrama de tiempo de operacin Reg-Reg
Clk
Clk-to-Q
PC Old Value New Value
Tiempo de acceso a la Memoria de Instrucciones
Rs, Rt, Rd, Old Value New Value
Op, Func
Retardo debido a la lgica de control
ALUctr Old Value New Value
RegWr Old Value New Value

Tiempo de acceso a Registros
Bus A, B Old New Value
Value Retardo de ALU
busW Old Value New Value
Rd Rs Rt
RegWr 5 5 ALUctr Escritura en
5
el registro
busA
Rw Ra Rb
busW 32 Reg. 32 ALU Resultado
32 de 32-bit 32
Clk busB
32
Desventajas del diseo uniciclo (CPI=1)
Arithmetic & Logical
PC Inst Memory Reg File mux ALU mux setup
Load
PC Inst Memory Reg File mux ALU Data Mem mux setup
Camino crtico
Store
PC Inst Memory Reg File mux ALU Data Mem
Branch
PC Inst Memory Reg File cmp mux
Tiempo de ciclo muy largo (el peor de todos).

Casi todas las instrucciones utilizan, sin necesidad, tanto
tiempo como la instruccin ms lenta.
Se viola el principio de diseo: Hacer que el caso comn sea
rpido
Desventaja en la ejecucin uniciclo: ejemplo
Tiempos hipotticos para ejecutar cada instruccin

Clase de Mem Lect de Operac. Mem de Escrit Total
Instruccin instr. Reg ALU datos en Reg
Formato R 2 1 2 0 1 6 ns
Load (LW) 2 1 2 2 1 8 ns
Store (SW) 2 1 2 2 7 ns
Salto (BEQ) 2 1 2 5 ns
Jump 2 2 ns
Sea un programa que utiliza 24% de cargas, 12% de almacenamientos,

44% de operaciones entre registros en la ALU, 18% de saltos
condicionales y 2 % de saltos incondicionales
Si fuese simple (NO LO ES) tener un reloj variable
Cul es tiempo medio de ciclo?
Cul sera la aceleracin respecto de una ejecucin uniciclo?
Ejecucin multiciclo
Las instrucciones pueden tardar diferente nmero de ciclos.

Un datapath con ligeras modificaciones:
Dividir las instrucciones en pasos, cada paso tarda un ciclo.
Balancear la cantidad de trabajo a realizar en un paso.
En cada ciclo slo se utiliza una unidad funcional (se reduce
el nmero de U.F.)
Al final del ciclo
Almacenar los valores para su uso en posteriores pasos.
Aadir registros internos adicionales.
Cambios para una aproximacin multiciclo
Ejecucin en cinco pasos (5 ciclos)
1. Carga la instruccin (todas igual)

La ALU actualiza el contador de programa:
Todas: IR = Memoria[PC];
PC = PC + 4;
2. Decodificacin y lectura de operandos (todas igual)

Todava se sigue el mismo cauce para cualquier instruccin porque se estn
decodificando.
Lee registros rs y rt por si son necesarios
Calcula la direccin de salto en la ALU por si fuera necesaria (branch)
Todas: A = Reg[IR[25-21];
B = Reg[IR[20-16];
SalidaALU = PC + (extension_signo(IR[15-0]<<2);
3. Ejecucin. Calculo de la direccin de memoria. Finalizacin del

salto.
La ALU, dependiendo del tipo de instruccin, realiza una operacin u otra.
Referencia a memoria: SalidaALU = A + extension_signo(IR[15-0]);
Operacin entre registros: SalidaALU = A op B;
Saltos: if (A==B) PC = SalidaALU;
4. Acceso a memoria o final instruccin tipo R.

Acceso a memoria en Loads y Stores.
Load: MDR = Memoria[SalidaALU];
Store: Memoria[SalidaALU] = B;
Escritura del registro destino en instrucciones entre registros.
Operacin entre registros: Reg[IR[15-11]] = SalidaALU;

(La escritura tiene lugar en el flanco al final del ciclo)
5. Escritura del valor ledo de memoria en el registro destino

(Write-back).
Load: Reg[IR[20-16]]= MDR;
UNA INSTRUCCIN TARDA DE 3 A 5 CICLOS
Control multiciclo: resumen de etapas
Nombre de la Tipo R acceso a memoria Saltos Saltos

etapa condicionales incondic(jump)
IR = Memoria[PC]
Carga Instrucciones
PC = PC + 4
A = Reg [IR[25-21]]
Decodific de instrucc / B = Reg [IR[20-16]]
carga Reg SalidaALU = PC + (extension-signo (IR[15-0] << 2)
Ejecucin, clculo de
direcc y fin de saltos SalidaALU = A + si (A = B) entonces PC = PC[31-28] ||
SalidaAlu = A op B
condicionales (extension-signo (IR[15-0]) PC = SalidaALU (IR[25-0] << 2)
Load : MDR =
Acc. a MEM y Fin de Reg [IR[15-11]] =
Memoria[SalidaALU] Store:
instrucc tipo R SalidaALU
Memoria[SalidaALU] = B
Fin lectura MEM Load : Reg [IR[20-16]] = MDR
Control Multiciclo
FSM de control 0 LeerMen

CAPTURA INSTRUCCION In s t r u c tio n INSTRUCCIN
DECODIFICA
CAPTURAr e g i s DE
decode/
te r OPERANDOS
fe t c h
Para control multiciclo SelALUA = 0 1

IoD = 0 SelALUA = 0
S ta rt EscrIR SelALUB = 11
SelALUB = 01 ALUOp = 00
ALUOp = 00
EscrPC
FuentePC = 00
(Op = J )
M e m o ry a d d res s
CALCULO nch FIN INSTR.
c o m p u t aEFECTIVA
DIRECCION ti o n
EJECUCION
x e c u ti o n FIN INSTR.
e tiBEQ
on JUMP le tio n
8 9
2 6
SelALUA = 1
SelALUA = 1 SelALUA = 1 EscrPC
SelALUB = 00
SelALUB = 10 SelALUB = 00 FuentePC = 10
ALUOp = 01
ALUOp = 00 ALUOp = 10 EscrPCCond
FuentePC =01
(Op = LW)
ACCESO
M emo A ACCESO Ar y
M em o
MEMORIA
a c ce s MEMORIA
acc ess ESCRIBE
R - t y p e c oEN REGISTRO
3 5 7
LeerMen EscrMenn RegDest = 1

IoD =1 IoD =1 EscrReg
MenaReg = 0
ESCRIBE
W r ite - EN REGISTRO
4
RegDest = 0
EscrReg
MenaReg = 1
Segmentacin: Perspectiva General
Tcnica utilizada para optimizar el tiempo de ejecucin de procesos que se

realizan mediante la repeticin de una secuencia de pasos bsicos.
Permite la ejecucin de procesos concurrentemente.
Fundamento: Separar el proceso en etapas y ejecutar cada etapa en un

recurso independiente.
Objetivo: Mejorar la productividad, aumentando el nmero de

instrucciones ejecutadas por unidad de tiempo.
Funcionamiento: Cuando una etapa del proceso termina, el recurso
liberado puede empezar a ejecutar la misma etapa del siguiente proceso.
Se consigue la ejecucin de varios procesos en paralelo cada uno
en una etapa diferente. ILP: Instruction Level Paralelism
Las etapas son ejecutadas secuencialmente.
Segmentacin: Perspectiva General (un ejemplo)

Lavado 30 MIN
FUNCIONAMIENTO SECUENCIAL
Secado 40 MIN
Planchado 20 MIN
Realizar 4 tareas
Orden de Tarea
Tiempo empleado: 6 horas
Ejemplo de
Hennesy - Patterson
Segmentacin: Perspectiva General (un ejemplo)
Lavado 30 MIN
FUNCIONAMIENTO SEGMENTADO
Secado 40 MIN
Planchado 20 MIN
Realizar 4 tareas
Orden de Tarea
Tiempo empleado: 3,5 horas
Cada Tarea : 1,5 horas
Segmentacin: Funcionamiento Ideal

Tp es el tiempo de ejecucin de un proceso.
Se puede descomponer en s (s=3) etapas de duracin Ts (Tp=sTs)
SECUENCIALMENTE (1 unidad de proceso para todas las etapas)

1 2 3 N
Ts
Tp Ejecutar N procesos Tt = NTp = NsTs
s=3 Con SEGMENTACIN (unidades independientes para cada etapa)
1
2 Tt = Tp + (N-1)Ts
Ts
3
= sT s+ (N-1)Ts
Tp = (N+s-1)Ts
N-1
N
Si N >>s Tt NTs
Proceso segmentado vs Proceso secuencial
VENTAJAS
La segmentacin, aunque no mejora la latencia de un solo proceso,
mejora el rendimiento o productividad (throughput) de una tarea con
muchos procesos.
Varios procesos se ejecutan en paralelo.
RESTRICCIONES
La razn de segmentacin est limitada por la etapa ms lenta.

La aceleracin mxima posible = Nmero de etapas de segmentacin.
Etapas de segmentacin desequilibradas Reduccin de productividad.
Un procesador segmentado perfecto consigue ejecutar una

instruccin por ciclo.
La segmentacin ms evidente consta de tres etapas:
Obtener instruccin (Fetch)
Decodificar instruccin (Decode)
Ejecutar instruccin (Execute)
La frecuencia de funcionamiento es mayor si el nmero de etapas de

segmentacin se incrementa. Aunque:
La segmentacin fina es muy difcil
Cada nueva etapa aade el retardo de un registro
La independencia entre etapas es ms difcil de conseguir
Segmentacin: Segmentacin de instrucciones.
EJEMPLO: Segmentacin de instrucciones con 5 etapas (MIPS)
IMem Reg ALU DMem Reg
Etapa IF Etapa ID Etapa EX Etapa MEM Etapa WB
Obtener instruccin Decodificar instruccin Ejecutar instruccin Acceso a Memoria Escribir en un
Acceso a la memoria Lectura de operandos, o bien o bien registro el resultado
de instrucciones carga de registros de la operacin.
Calcular direccin Escribir en PC la
efectiva memoria. direccin de salto.
Ejemplo para tres instrucciones tipo

Load Rx, 100(Ry)
Segmentacin: Load vs Operacin entre registros

Las cinco etapas de Load
Ciclo 1 Ciclo 2 Ciclo 3 Ciclo 4 Ciclo 5 Ciclo 6 Ciclo 7

Clock
1erload Ifetch Reg/Dec Exec Mem Wr
2 load Ifetch Reg/Dec Exec Mem Wr
3er load Ifetch Reg/Dec Exec Mem Wr
Las cuatro etapas en operaciones entre registros
Ciclo 1 Ciclo 2 Ciclo 3 Ciclo 4 Ciclo 5 Ciclo 6

Clock
R-type Ifetch Reg/Dec Exec Wr
Segmentacin: Load vs Operacin entre registros
Ciclo 1 Ciclo 2 Ciclo 3 Ciclo 4 Ciclo 5 Ciclo 6 Ciclo 7 Ciclo 8

Clock
R-type Ifetch Reg/Dec Exec Wr Aparecen problemas

Load Ifetch Reg/Dec Exec Mem Wr
Existen conflictos estructurales

Hay dos instrucciones que intentan acceder a memoria al
tiempo.
Hay dos instrucciones que intentan escribir en el banco de
registros al mismo tiempo y slo existe un puerto de escritura.
Segmentacin: Consideraciones de diseo

Cada unidad funcional pueda usarse slo una vez por instruccin. Deben
aparecer dos unidades de memoria.
Cada unidad funcional se utiliza en la misma etapa para todas las
instrucciones:
Load usa el puerto de escritura en Registros durante su 5 etapa.
1 2 3 4 5
Las operaciones entre Registros usan el puerto de escritura en Registros

durante su 4 etapa
1 2 3 4
Soluciones posibles: paradas entre etapas, retraso de la escritura en

registro, ...
Segmentacin: Consideraciones de diseo
Solucin1: Parar el cauce de instrucciones (Pipeline bubble)
Ciclo 1 Ciclo 2 Ciclo 3 Ciclo 4 Ciclo 5 Ciclo 6 Ciclo 7 Ciclo 8 Ciclo 9
Clock

R-type Ifetch Reg/Dec Pipeline Exec Wr

R-type Ifetch Bubble Reg/Dec Exec Wr
Ifetch Reg/Dec Exec
Solucin 2: Retrasar la escritura en registro

Ciclo 1 Ciclo 2 Ciclo 3 Ciclo 4 Ciclo 5 Ciclo 6 Ciclo 7 Ciclo 8 Ciclo 9
Clock
R-type Ifetch Reg/Dec Exec Mem Wr

Es lo utilizado
en la prctica
Resumen: Ciclo nico vs multiciclo vs segmentacin

Ciclo 1 Ciclo 2
Clk
Ciclo nico
Load Store Sin uso
Ciclo 1 Ciclo 2 Ciclo 3 Ciclo 4 Ciclo 5 Ciclo 6 Ciclo 7 Ciclo 8 Ciclo 9Ciclo 10
Clk
Multiciclo
Load Store R-type
Ifetch Reg Exec Mem Wr Ifetch Reg Exec Mem Ifetch
Load Ifetch Reg Exec Mem Wr

Store Ifetch Reg Exec Mem Wr
Segmentacin
R-type Ifetch Reg Exec Mem Wr
Ruta de Datos de MIPS segmentado
La informacin
de derecha a
izquierda va a
producir riesgos
MEM
WB
Segmentacin: Un diseo con 5 etapas

La base es el camino de datos de un ciclo.
Se aaden registros entre etapas.
Hay que analizar si todas las instrucciones funcionan.
Problema: LW R1,inm(R2)
Etapa IF
Etapa ID
Etapa EX para Load
Etapa MEM para Load
Etapa WB para Load
Nmero de
registro
errado
Correccin en la Ruta de Datos
La informacin del
registro de escritura
avanza con la
instruccin
Segmentacin: Aadir el control
Tambin se deben
retrasar las
seales de control
para que la info de
control avance con
la instruccin
Segmentacin: Aadir el control

Todas las instrucciones tardan los mismos ciclos de reloj.
La secuenciacin de la instruccin est implcita en la estructura del pipeline.
No hay un control especial para la duracin de la instruccin (no hay FSM).
Toda la informacin de control se calcula durante la decodificacin, y se enva

hacia delante a travs de los registros de segmentacin.
Los valores de las lneas de control son los mismos que los calculados en el
control uniciclo.
WB
Instruction
Control M WB
EX M WB
IF/ID ID/EX EX/MEM MEM/WB
Las 8 grandes ideas en Arquitectura de
Computadoras
Segmentacin: Conflictos en funcionamiento real

Las causas que pueden reducir el rendimiento en un procesador
segmentado de instrucciones son tres:
Riesgos estructurales:
Se intenta usar el mismo recurso de dos maneras diferentes al mismo tiempo.
El hardware impide una cierta combinacin de operaciones.
Riesgos por dependencia de datos:

Se intenta usar un dato antes de que est disponible.
El operando de una instruccin depende del resultado de otra instruccin
precedente que todava no se ha obtenido.
Riesgos de control:
Se intenta tomar una decisin antes de evaluarse la condicin.
Si se salta, las instrucciones posteriores no deben ejecutarse (o al menos,
no deben finalizar).
Segmentacin: Conflictos en funcionamiento real
Todos estos riesgos se pueden solucionar?.....S

Cmo?...................................................Esperando
Cuando se detecta un riesgo, la solucin ms simple es parar la
segmentacin (stall the pipeline) hasta que desaparezca el riesgo.
Las instrucciones que preceden a la causante del riesgo pueden continuar.
La instruccin que causa el riesgo y siguientes no continan hasta que

desaparece el riesgo.
Se necesita que el control de la segmentacin (pipeline) sea capaz de:
Detectar las causas de riesgo.
Decidir acciones que resuelvan el riesgo (por ejemplo, esperar).
Segmentacin: Riesgos estructurales

Casos que se pueden presentar. Accesos simultneos a:
Memoria (si es Von Neuman, nica para datos e instrucciones).
Unidades funcionales.
Registros internos.
Tiempo (ciclos de reloj)
ALU Mem
Orden de instruccin
Load Mem Reg Reg
ALU
Instr 1 Mem Reg Mem Reg
ALU
ALU
Conflicto de lectura ALU

en memoria
(La mitad izquierda coloreada indica escritura y la mitad derecha lectura)
Segmentacin: Riesgos estructurales
Soluciones:
Introducir esperas.
Duplicar recursos o separar memoria de datos de la memoria de instrucciones
(Harvard en lugar de Von Neuman).
Orden de instruccin Tiempo ( ciclos de reloj)
Segmentacin: Riesgos por dependencia de datos

Dependencias que se presentan para 2 instrucciones i y j, con i
ejecutndose antes que j.
RAW (Read After Write): la instruccin posterior j intenta leer una fuente antes
de que la instruccin anterior i la haya modificado.
WAR (Write After Read): la instruccin j intenta modificar un destino antes de
que la instruccin i lo haya ledo como fuente.
WAW (Write After Write): la instruccin j intenta modificar un destino antes de
que la instruccin i lo haya hecho (se modifica el orden normal de escritura).
Ejemplos: RAW WAR WAW

ADD r1, r2, r3 ADD r1, r2, r3 DIV r1, r2, r3
SUB r5, r1, r6 OR r3,r4, r5 AND r1,r4, r5
AND r6, r5, r1
ADD r4, r1, r3
SW r10, 100(r1) En micros segmentados con ejecucin
en orden slo son problema los RAW
Aparecen problemas al poder empezar la siguiente instruccin antes de
que la primera haya terminado.
TIEMPO (CICLOS)
Ejemplo (RAW): Ciclo1 Ciclo2 Ciclo3 Ciclo4 Ciclo5 Ciclo6 Ciclo7 Ciclo8 Ciclo9
Valor de r1 10 10 10 10 10 20 20 20 20 20
PROGRAMA
Dependencias
add r1, r2, r3 IM Reg DM Reg
problemticas son
aquellas que necesitan
datos que hay que sub r5, r1, r6 IM Reg DM Reg
buscar hacia atrs en
el esquema de tiempos.
and r16, r5, r1 IM Reg DM Reg
sw r10, 100(r1) IM Reg DM Reg

Soluciones:
Adelantar (forward) el resultado de una etapa a las siguientes.
Definir adecuadamente la secuencia Read/Write (la instruccin add r4,r1,r3 funciona
correctamente si en la etapa WB, Write se realiza en la 1 mitad del ciclo y Read en la 2).
PROGRAMA
sub r5, r1, r6 IM Reg DM Reg
and r16, r5, r1 IM Reg DM Reg
sw r10, 100(r1) IM Reg DM Reg
Necesidades hardware para adelantar resultados:
Multiplexores adicionales donde se vaya a recibir el dato (p. ej. en las entradas
de datos de la ALU).
Buses extra entre registros internos y multiplexores.
Comparadores entre los operandos de una instruccin y los operandos destino
de instrucciones previas.
ID/EX EX/MEM MEM/WB
M
u
x
ALU Data
memory M
u
M x
u
x
M EX/MEM.RegisterRd
u
x
Los riesgos pueden persistir incluso con adelantamiento de datos

Ej: tras la instruccin LOAD se pueden evitar los riesgos en AND y en OR con
adelantamiento de datos, pero no de SUB (no puede adelantar resultados a etapas que son
de tiempos anteriores)
Orden de instrucciones
Soluciones:
Insertar un ciclo de espera (stall) en el ciclo 3, para la instruccin SUB y siguientes
Insertar una operacin NOP detrs del LOAD (es lo ms utilizado, lo puede automatizar el
compilador sin necesidad de ms hardware)
Orden de instrucciones
Segmentacin: Ruta de datos con control para adelantamiento

de datos y deteccin de riesgos
Segmentacin: Control para adelantamiento de datos
Unidad de adelantamiento de datos (forwarding)

Se debe detectar el riesgo y luego anticipar el valor a su destino
Se agrega un bloque combinacional para detectar el riesgo y
multiplexores para adelantar los datos oportunamente

Se debe detectar el riesgo y luego anticipar el valor a la ALU
Existen 4 riesgos potenciales:
1a. EX/MEM.Registro.Rd = ID/EX.Registro.Rs

1b. EX/MEM.Registro.Rd = ID/EX.Registro.Rt
2a. MEM/WB.Registro.Rd = ID/EX.Registro.Rs
2b. MEM/WB.Registro.Rd = ID/EX.Registro.Rt
Analizar por ejemplo con:

Add r1, r2, r3
Sub r5, r1, r6
And r6, r5, r1
Add r4, r1, r3

Pseudo-cdigo del funcionamiento:
(Riesgos en EX)
if (EX/MEM.EscrReg and
EX/MEM.RegistroRd 0 and
EX/MEM.Registro.Rd = ID/EX.Registro.Rs)
then AnticiparA = 10
else AnticiparA = 00
if (EX/MEM.EscrReg and
EX/MEM.RegistroRd 0 and
EX/MEM.Registro.Rd = ID/EX.Registro.Rt)
Then AnticiparB = 10
else AnticiparB = 00

(Riesgos en MEM)
if (MEM/WB.EscrReg and
MEM/WB.RegistroRd 0 and
EX/MEM.Registro.Rd ID/EX.RegistroRs
and
MEM/WB.Registro.Rd =
ID/EX.RegistroRs)
then AnticiparA = 01
else AnticiparA = 00
if (MEM/WB.EscrReg and
MEM/WB.RegistroRd 0 and
EX/MEM.Registro.Rd ID/EX.RegistroRt
and
MEM/WB.Registro.Rd = ID/EX.Registro.Rt)
then AnticiparB = 01
else AnticiparB = 00
Segmentacin: Deteccin de riesgos insalvables
Unidad de deteccin de riesgos (hazard detection unit)
Para cuando el adelantamiento no resuelve los riesgos (caso de load y
uso del registro destino en la siguiente instruccin)

If (ID/EX.LeerMem and
((ID/EX.Registro.Rt = IF/ID.Registro.Rs) or
(ID/EX.Registro.Rt = IF/ID.Registro.Rt)))
then Bloquear el pipeline
Bloquear el pipeline:
PCWrite = 0
IF/IDWrite = 0
MuxNOP = 1
Todo esto no es necesario si el

compilador / ensamblador aade un
NOP despus del LOAD con riesgo
Una solucin SW para el caso del lw

El compilador puede reacomodar el cdigo para evitar
stalls
Ejemplo en C: A = B + E; C = B + F;
lw $t1, 0($t0) lw $t1, 0($t0)

lw $t2, 4($t0) lw $t2, 4($t0)
stall add $t3, $t1, $t2 lw $t4, 8($t0)
sw $t3, 12($t0) add $t3, $t1, $t2
lw $t4, 8($t0) sw $t3, 12($t0)
stall add $t5, $t1, $t4 add $t5, $t1, $t4
sw $t5, 16($t0) sw $t5, 16($t0)
13 ciclos 11 ciclos
Riesgos de control (instrucciones de salto)
Las instrucciones de salto pueden suponer una alteracin del orden

secuencial de ejecucin.
Etapa IF Etapa ID Etapa EX Etapa MEM Etapa WB

Obtener instruccin Decodificar instruccin. Ejecutar instruccin Acceso a Memoria Escribir en un
o bien registro el resultado
Acceso a la memoria Lectura de operandos, Calcular la direccin
de instrucciones carga de registros efectiva salto (PC+Inm.) Resolver la condicin de la operacin
y escribir en PC la
direccin de salto.
No se sabe si el salto es efectivo hasta la etapa de ejecucin y no se

actualiza la direccin destino (caso de que sea efectivo) hasta la cuarta
etapa => Prdida de 3 ciclos
Mejora: Adelantar el clculo del destino (target) PC+Inmediato y adelantar la
resolucin de la condicin (y actualizar el PC) a la 2 etapa.
Riesgos de control (instrucciones de salto)

Cuando se decide saltar, ya se estn ejecutando otras instrucciones en el cauce
segmentado => Se necesita incluir hardware para vaciar (flushing) el pipeline
Ejemplo: salto efectivo

36: sub $10, $4, $8
40: beq $1, $3, 7
44: and $12, $2, $5
48: or $13, $2, $6
52: add $14, $4, $2
56: slt $15, $6, $7
...
72: lw $4, 50($7)
Ejemplo: Salto Efectivo
Para descartar una instruccin cambia a 0 el campo de instruccin (opcode) del registro de
segmentacin IF/ID NOP
Ejemplo: Salto Efectivo
Riesgos de Control (Instrucciones de salto)
QU HACER CON LAS SIGUIENTES INSTRUCCIONES A LA DE SALTO

CONDICIONAL?
1. Esperar hasta que la direccin y condicin del salto estn definidas.
Conviene conocer la direccin de salto y la condicin tan pronto como sea posible.
2. Salto retardado, la(s) instruccin(es) posterior(es) siempre se ejecuta(n).
El compilador rellena con instrucciones vlidas los huecos de retardo.
3. Predecir si se va a saltar o no.
Se ejecuta especulativamente, en caso de error se debe vaciar el procesador.
4. Anticipar la direccin ms probable para el salto (BTB).
Se ejecuta especulativamente, se almacena en una cach la direccin del ltimo salto.
5. Ejecutar todos los caminos.
Implica la duplicacin del hardware.
6. Ejecucin con predicados.
Riesgos de Control. Salto retardado
La siguiente instruccin al salto siempre se termina de ejecutar, se salte o no.

El compilador utiliza tres estrategias para buscar una/varias instrucciones de relleno:
DEL BLOQUE BSICO SI SALTO PROBABLE, SI SALTO NO PROBABLE,
DEL BLOQUE DESTINO DEL BLOQUE SECUENCIAL
add r1, r2, r3 ........... add r1, r2, r3 add r1, r2, r3
bnz r2, L1 bnz r2, L1 bnz r2, L1 bnz r2, L1
nop add r1, r2, r3 and r2, r3, r2 sub r6,r7,r6
sub r6,r7,r6 sub r6,r7,r6 sub r6,r7,r6 .................
mul r2, r3, r8 mul r2, r3, r8 mul r2, r3, r8 mul r2, r3, r8
................. ................. ................. .................
L1: and r2, r3, r2 L1: and r2, r3, r2 L1: andi r5,r6,inm L1: and r2, r3, r2
andi r5,r6,inm andi r5,r6,inm ............ andi r5,r6,inm
Operacin vlida si la Operacin vlida siempre Operacin vlida siempre

instruccin no afecta a la siempre que r2 no se utilice que r6 no se utilice como
condicin del salto. Siempre como fuente y sea modificada fuente y sea modificada como
se realiza trabajo til. como destino en el en bloque destino en el en bloque
secuencial. (CORRECTO) destino. (INCORRECTO)
Riesgos de Control. Predecir el salto
Prediccin esttica: siempre predice el mismo sentido del salto.

Ejecuta especulativo hasta que se resuelve la condicin (normalmente, ciclo 3-4)
En caso de error debe eliminar los resultados especulativos
Prediccin efectiva (E), el salto se realiza
Prediccin no efectiva (NE), el salto no se realiza
Prediccin NE si el salto es adelante y E si es hacia atrs
Prediccin dinmica: cambia la prediccin en funcin de la historia del salto.

Utiliza una pequea memoria asociada a cada direccin de salto (BHT, Branch
History Table)
PC Direccin Instruccin Salto PREDICCIN DE 1 BIT PREDICCIN DE 2 BITS
F
A F A Ef A Ed
E NE
F F
F A
A
NEd F NEf A
BHT
Riesgos de Control. Anticipar la direccin ms probable

Utiliza la tcnica de prediccin histrica anterior
Utiliza una tabla asociativa (tipo cach) que incorpora, para cada instruccin de
salto, la direccin de destino de la prediccin anterior.
A la tabla se la conoce como buffer de destino de saltos o BTB (Branch Target
Buffer).
Direccin Direccin Bits de
Instruccin Destino historia
Tabla de look-up
completamente asociativa
Cargar direc. destino
Contador de Programa Direc. destino encontrada
Direccin
Instruccin Fetch Decod.
SEGMENTACIN DE INSTRUCCIONES
Segmentacin: Tratamiento de excepciones y mejoras
Cmo afecta a la segmentacin el tratamiento de

excepciones (interrupciones, desbordamientos aritmticos, peticiones de
E/S, servicios del sistema operativo, uso de instrucciones no definidas, mal
funcionamiento de la circuitera, etc)?
Bsicamente detectarlo y vaciar el pipeline para dar el control a
alguna rutina de tratamiento de excepciones
Cmo mejorar an ms la segmentacin?

Super-segmentacin (implica segmentacin en operaciones aritmticas)
Superescalares (replicar rutas de datos)
Planificacin dinmica del pipeline
Las 8 grandes ideas en Arquitectura de

Computadoras

005 Mips 2017

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

005 Mips 2017

Transféré par

Droits d'auteur :

Formats disponibles

Captulo 3: MIPS

SEGMENTACIN EN LA EJECUCIN DE INSTRUCCIONES

Parte del material fue desarrollado en la Escuela Politcnica Arqui1-UNICEN

Para el estudio de procesadores segmentados se

32 registros de propsito general

Memoria de datos y cdigo separadas

Juego de instrucciones reducido.

Los diseadores de computadoras tienen como

Los procesadores MIPS tienen un juego de

32 registros de uso general: $0 .. $31 (excepto $0

El repertorio de instrucciones: caractersticas y tipos

Conjunto de instrucciones MIPS (32 bits). Tres formatos de instrucciones:

Nombre Nmero Uso Se preserva en

El repertorio de instrucciones: Tipo-R

Ejemplos: ADD y SUB Ejemplos: Cdigo C

El repertorio de instrucciones: Ejemplo

Si las variables f, g, h, i, j estn en los registros $s0 a $s4 el compilador puede

bne $s3, $s4, CasoElse

while (save[i] == k) i+=1;

Loop: sll $t1, $s3, 2 # sll con 2 equivale a multip x4

Modos de direccionamiento MIPS 1. El operando es una cte dentro

Instruccin add rd, rs, rt

Descripcin de la ejecucin (RTL)

Descripcin RTL del procesador MIPS

Descripcin RTL (Register Transfer Level) de las instrucciones

1. Analizar el conjunto de instrucciones => requisitos para la ruta de datos

Diseo del procesador: elementos bsicos

Unidades funcionales necesarias para las instrucciones

Memoria de datos ALU Datos Dato Entrada

La metodologa de sincronizacin indica cundo pueden leerse y escribirse las

Elemento Elemento Elemento

Periodo del reloj (Clock period)

Conexiones en la ruta de datos (Datapath)

Conexin de los elementos:

Conexin de los elementos:

Conexiones en la ruta de datos (Datapath)

Conexin de los elementos:

Ruta de Datos con Reg a Reg 1 0

Cmo agregar Jumps?

Jump usa direccionamiento pseudo-directo

Diagrama de tiempo de operacin Reg-Reg

RegWr Old Value New Value

Tiempo de ciclo muy largo (el peor de todos).

Desventaja en la ejecucin uniciclo: ejemplo

Tiempos hipotticos para ejecutar cada instruccin

Sea un programa que utiliza 24% de cargas, 12% de almacenamientos,

Las instrucciones pueden tardar diferente nmero de ciclos.

Cambios para una aproximacin multiciclo

1. Carga la instruccin (todas igual)

2. Decodificacin y lectura de operandos (todas igual)

Ejecucin en cinco pasos (5 ciclos)

3. Ejecucin. Calculo de la direccin de memoria. Finalizacin del

4. Acceso a memoria o final instruccin tipo R.

Escritura del registro destino en instrucciones entre registros.

Operacin entre registros: Reg[IR[15-11]] = SalidaALU;

5. Escritura del valor ledo de memoria en el registro destino

UNA INSTRUCCIN TARDA DE 3 A 5 CICLOS

Control multiciclo: resumen de etapas

Nombre de la Tipo R acceso a memoria Saltos Saltos

FSM de control 0 LeerMen

Para control multiciclo SelALUA = 0 1

LeerMen EscrMenn RegDest = 1

Tcnica utilizada para optimizar el tiempo de ejecucin de procesos que se