Vous êtes sur la page 1sur 40

Arquitetura de Computadores

Marcelo Adriano Perecim

5.7.5 Pentium III


O Pentium III um processador de 6 gerao. Tem as mesmas
caractersticas do Pentium II, apresentando algumas novidades. Os primeiros
modelos de Pentium III tm ncleo com tecnologia de 0,25 m, chamado Katmai,
e operam externamente a 100 MHz. Uma segunda verso do Pentium III utiliza
ncleo com tecnologia de 0,18 m (chamado Coppermine) e opera externamente
a 133 MHz. As principais diferenas entre Pentium II e o Pentium III so:

Tecnologia SSE (Streaming SIMD Extensions): so 70 novas instrues com o


conceito SIMD. A idia parecida com a tecnologia 3Dnow! da AMD,
introduzida com o processador K6-2. a segunda gerao da tecnologia MMX.

Co-processador superescalar: permite o uso simultneo de instrues MMX e


SSE e do coprocessador matemtico.

Nmero de srie: todos os processadores a partir do Pentium III tm um


nmero de srie nico que permite identificar o processador atravs de redes,
especialmente da Internet. Isso permite a identificao imediata do usurio
quando este se conectar a um site em que esteja cadastrado, por exemplo.

Acesso a at 4 GB de memria usando o cache.

Existem dois modelos de Pentium III: SECC-2 (Single Edge Contact


Cartridge 2) e FC-PGA (Flip Chip Pin Grid Array). O primeiro conectado placame atravs do slot 1, dessa forma utiliza as mesmas placas-me desenvolvidas
para o Pentium II, enquanto o Pentium III FC-PGA utiliza o padro de pinagem
soquete 370, que o mesmo padro de pinagem do processador Celeron.

129

Arquitetura de Computadores

Marcelo Adriano Perecim

Os processadores Pentium III podem ser encontrados em duas verses de


barramento externo, 100 MHz e 133 MHz, e em duas verses de cache de
memria: 512 KB operando na metade da freqncia do processador ou 256 KB
operando na mesma freqncia do processador. No entanto, o Pentium III nomecdigo Tualatin tem 512 KB de cache L2 sendo acessado na freqncia interna do
processador.
Todos os modelos FC-PGA tm cache de 256 KB (ou 512 KB, no caso do
Tualatin) integrado dentro do prprio processador, operando na mesma freqncia
de operao interna. J os modelos SECC-2 podem ter tanto o cache de memria
L2 de 512 KB operando na metade da freqncia de operao, quanto cache de
memria L2 de 256 KB operando na mesma freqncia de operao interna do
processador.
Neste ltimo caso, os processadores so marcados com a Letra E aps a
sua freqncia de operao. Por exemplo, Pentium III-600E. Quando no h a
letra E aps a freqncia do processador Pentium III em forma de cartucho,
significa que seu cache de 512 KB, operando na metade da freqncia de
operao interna do processador.
Um sistema de letras similar usado para identificar a freqncia de
operao externa dos processadores. Processadores com a letra B aps a
freqncia de operao trabalham externamente a 133 MHz (como em Pentium
III-600B), e os processadores que no tm a letra B trabalham externamente a
100 MHz.
Os processadores que tm 256 KB de memria cache trabalhando na
mesma freqncia de operao interna do processador e barramento externo de
133 MHz so marcados com as duas letras ao mesmo tempo (Pentium III-600EB,
por exemplo).

130

Arquitetura de Computadores

Marcelo Adriano Perecim

PENTIUM III KATMAI


Barramento: 100 MHz
Tecnologia: 0,25 m
Cache L1: 64 KB
Cache L2: 512 KB
Freqncia do cache L2:
metade do processador.
Processador Pentium III Katmai
Lanamento
Transistores
Tecnologia
Barramento de dados
Barramento de endereos
Capacidade de endereamento
Clock interno
Clock externo
Consumo
Cache L1
Cache L2
Modelo Clock
Clock Interno
Pentium III/450
450 MHz
Pentium III/500
500 MHz
Pentium III/533B
533 MHz
Pentium III/550
550 MHz
Pentium III/600
600 MHz
Pentium III/600B
600 MHz

1999
9.500.000
0,25
64 bits
36 bits
64 GB
450 600 MHz
100 ou 133 MHz
26 a 36 W
32 Kb
512KB, (half speed)

Clock Externo
100 MHz
100 MHz
133 MHz
100 MHz
100 MHz
133 MHz

Multiplicador
4,5 x
5x
4x
5,5 x
6x
4,5 x

Potncia
26,6 W
29,3 W
31,1 W
32,2 W
36,1 W
36,1 W

PENTIUM III COPPERMINE


Barramento: 133 MHz
Tecnologia: 0,25 m
Cache L1: 64 KB
Cache L2: 256 KB
Freqncia do cache L2:
igual do processador.

131

Arquitetura de Computadores

Marcelo Adriano Perecim

PENTIUM III SOCKET 370


Barramento: 133 MHz
Tecnologia: 0,18 m
Cache L1: 64 KB
Cache L2: 256 KB
Freqncia do cache L2:
igual do processador.

Processador Pentium III Coppermine


Lanamento
Transistores
Tecnologia
Barramento de dados
Barramento de endereos
Capacidade de endereamento
Clock interno
Clock externo
Consumo
Cache L1
Cache L2

1999
28.000.000
0,18
64 bits
36 bits
64 GB
500 1.133 MHz
100 ou 133 MHz
16 a 36 W
32 Kb
256KB, (full speed)

PENTIUM III TUALATIN


Barramento: 133 MHz
Tecnologia: 0,13 m
Cache L1: 64 KB
Cache L2: 512 KB
Freqncia do cache L2:
igual do processador.

Processador
Pentium III/1.13
Pentium III/1.26

Clock Interno
1.13 GHz
1.26 GHz

Clock Externo
133 MHz
133 MHz

Cache L2
512 KB
512 KB

CPUID
06Bxh
06Bxh

132

Arquitetura de Computadores

Marcelo Adriano Perecim

Processador Pentium III Tualatin


Lanamento
Transistores
Tecnologia
Barramento de dados
Barramento de endereos
Capacidade de endereamento
Clock interno
Clock externo
Consumo
Cache L1
Cache L2

2001
28.000.000
0,13
64 bits
36 bits
64 GB
1.133 MHz e superiores
133 MHz
A partir de 29W
32 Kb
256KB ou 512 KB

A Intel passou a utilizar a nova tecnologia de 0,13 m em seus novos


processadores Pentium III para resolver problemas encontrados no Pentium III
Coppermine. Este processador ao operar com clocks superiores a 1GHz, mas
especificamente 1.13 GHz, apresentou problemas de travamento que resultaram
em um recall (unidades j vendidas, foram recolhidas). Assim, corrigiu este
problema, criando um novo ncleo, para o processador Pentium III chamado
Tualatin.
O modelo Tualatin passa a trabalhar com tenso externa de 2,5 volts e o
ncleo Coppermine trabalha com 3,3 volts. Assim para fazer um upgrade do
processador Pentium III Coppermine para o Tualatin deve-se verificar se a placame aceita a voltagem correta.

Desempenho
Existem modelos diferentes de Pentium III com a mesma freqncia de
operao sendo vendidos no mercado. Um exemplo marcante o do Pentium III
de 600 MHz, que encontrado em quatro verses diferentes: Pentium III-600,
Pentium III-600B, Pentium III-600E e Pentium III-600EB.
Os modelos que operam externamente a 133 MHz oferecem um
desempenho superior aos modelos que operam a 100 MHz, j que a taxa de
transferncia de acesso memria passar de 800 MB/s (100 MHz) para 1.064
MB/s (133 MHz). Assim, os processadores Pentium III-600B e Pentium III-600EB
tm desempenho maior do que os processadores Pentium III-600 e Pentium III600E, mesmo operando internamente mesma freqncia de operao.
Segundo (TORRES, 2001), o cache L2, apesar de ter sido diminudo de
tamanho nos modelos E, passando de 512 KB para 256 KB, a sua freqncia de
operao aumentou. Foi verificado em testes que o desempenho dos modelos
com 256 KB de cache similar aos dos modelos com 512 KB de cache por esse
motivo.

133

Arquitetura de Computadores

Marcelo Adriano Perecim

SSE (Streaming SIMD Extensions)


A tecnologia SSE acrescenta oito novos registradores de 128 bits ao
processador e funciona de modo similar tecnologia MMX. Enquanto a tecnologia
MMX tem instrues que basicamente operam com nmeros inteiros (isto , so
instrues simples, como soma, subtrao e comparao de bits), a tecnologia
SSE apresenta instrues que trabalham com o mesmo conceito da tecnologia
MMX (SIMD), porm com instrues que utilizam bastante o co-processador
matemtico o que certamente agilizar o processamento de programas 3D e de
reconhecimento de voz escritos utilizando essas novas instrues.
Da mesma forma que a tecnologia MMX, o programa dever ser escrito
para a tecnologia SSE de modo a aproveitar os benefcios desse conjunto de
instrues. importante notar que a Intel, nos anncios do processador Pentium
III, vende a idia de que com essas instrues o processador fica mais rpido para
navegar na Internet. Isso pura jogada de marketing.
A velocidade de navegao na Internet no depende do processador da
mquina, mas sim do modem ou da placa de rede que est conectada ao micro.
Esse aumento de velocidade, segundo a Intel, seria conseguido porque as
instrues SSE foram criadas especificamente para aumentar a velocidade de
navegao na Internet. Isso s seria verdadeiro se os browsers para a navegao
na Internet fossem escritos usando essas instrues, o que no ocorre.

Nmero de Srie
A idia principal de colocar um nmero de srie dentro de um processador
e poder executar uma identificao remota atravs da Internet, para que um
determinado site quem o usurio. As aplicaes prticas so enormes, a
comear por no precisar fazer uma identificao manual do usurio em
servidores seguros em sites de acesso restrito.
A Intel promove a idia de que o Pentium III o melhor processador para
navegar na Internet: quanto mais mquinas equipadas com processadores
Pentium III e posteriores existirem conectadas Internet, melhor para Intel, pois
facilita o trabalho de vender uma soluo de servidor de comrcio eletrnico
usando tecnologia para empresas de comrcio eletrnico.
Esse nmero gravado dentro da pastilha de silcio do processador e no
existem dois processadores com nmeros de srie iguais, o que parece ser uma
soluo bastante inteligente. Entretanto, essa soluo apresenta uma polmica
em torno da privacidade, pois alguns sites da Internet poderiam buscar
informaes sobre o usurio sem a permisso do mesmo, pois para ler o nmero
de srie do processador necessrio executar uma rotina no micro do usurio.
Quando a solicitao de leitura do nmero de srie do processador for
efetuada por um site, o browser perguntar se o usurio permite essa leitura. O
nmero de srie pode ser desabilitado, atravs do setup da placa-me.

134

Arquitetura de Computadores

Marcelo Adriano Perecim

Identificando Processadores Pentium III


Algumas placas-me mais antigas podem identificar o Pentium III instalados
como se fosse um Pentium II. Se isso ocorrer, basta executar um upgrade de
BIOS na placa-me.
Atravs da instruo CPUID, o Pentium III retornar os mesmos valores do
Pentium II, com exceo do campo Modelo, que ter o valor 7. O Pentium III Xeon
retorna os mesmos valores do Pentium III. Para diferencia-los, basta observar a
linha indicando o tamanho e tipo do cache de memria L2. Se houver 1 MB ou 2
MB de cache L2, trata-se de um processador Pentium III Xeon. Se o programa
indicar 512 KB de cache, o processador pode ser um Pentium III ou Pentium III
Xeon com 512 KB de cache. A diferenciao desse dois modelos pode ser feita
pela velocidade de acesso ao cache.

135

Arquitetura de Computadores

Marcelo Adriano Perecim

Desempenho

Placa-me
A placa-me utilizada pelo processador Pentium III depende de seu modelo.
A princpio, processadores Pentium III SECC-2 utilizam placas-me slot 1 que o
mesmo tipo de placa-me desenvolvida para o processador Pentium II, e
processadores Pentium III FC-PGA utilizam placas-me soquete 370, que o
mesmo tipo de placa-me desenvolvida para o processador Celeron.
Alm de ter o mesmo tipo de conector usado pelo processador, a placame precisa ser capaz de fornecer a freqncia de operao externa requerida
pelo processador: 100 MHz ou 133 MHz, dependendo do modelo. Assim, nem
todas as placas-me slot 1 servem para os processadores Pentium III SECC-2,
bem como nem todas as placas-me soquete 370 servem para os processadores
Pentium III FC-PGA. Os modelos de Pentium III de 100 MHz necessitam
obrigatoriamente de memrias do tipo PC-100, enquanto os modelos de 133 MHz
devem utilizar memrias PC-133.

136

Arquitetura de Computadores

Marcelo Adriano Perecim

5.7.6 Pentium III Xeon


O Pentium III Xeon um processador Pentium II Xeon com as
caractersticas do Pentium III adicionadas, como a tecnologia SSE e nmero de
srie. Existem dois ncleos de Pentium III Xeon: Tanner, que utiliza tecnologia de
0,25 m e trabalha externamente a 100 MHz, e Cascades, que utiliza tecnologia
de 0,18 m e trabalha externamente a 133 MHz. Assim como o Pentium II Xeon
esse processador utiliza slot 2. O funcionamento do Pentium III Xeon
exatamente igual ao do Pentium II Xeon.
Clocks (MHz)
500, 550
600 a 866
700
933, 1000
900
Modelo
500 / 512KB
500 / 1MB
500 / 2MB
550 / 512KB
550 / 1MB
550 / 2MB
600 / 256KB
667 / 256KB
733 / 256KB
800 / 256KB
866 / 256KB
933 / 256KB
1000 / 256KB
700 / 1MB
700 / 2MB
900 / 2MB

Tecnologia
0,25 m
0,18 m
0,18 m
0,18 m
0,18 m

Clock Interno
500 MHz
500 MHz
500 MHz
550 MHz
550 MHz
550 MHz
600 MHz
667 MHz
733 MHz
800 MHz
866 MHz
933 MHz
1000 MHz
700 MHz
700 MHz
900 MHz

Cache L2
512KB, 1MB, 2 MB (no integrada)
256 KB (integrada)
1 MB, 2 MB (integrada)
256 KB (integrada)
2MB (integrada)

Clock Externo
100 MHz
100 MHz
100 MHz
100 MHz
100 MHz
100 MHz
100 MHz
133 MHz
133 MHz
133 MHz
133 MHz
133 MHz
133 MHz
100 MHz
100 MHz
100 MHz

Multiplicador
5x
5x
5x
5,5 x
5,5 x
5,5 x
4,5 x
5x
5,5 x
6x
6,5 x
7x
7,5 x
7x
7x
9x

Potncia
40 W
47 W
39,6 W
37,8 W
37,8 W
43,2 W
21,6 W
23,9 W
26,2 W
28,5 W
30,8 W
33,2 W
34,6 W
33,2 W
33,2 W
40,8 W

137

Arquitetura de Computadores

Marcelo Adriano Perecim

5.8.1 Processadores de 7 Gerao


O primeiro processador Intel de 7 gerao lanado no mercado chama-se
Pentium 4. Apesar de sua unidade de execuo trabalhar de maneira similar
unidade de execuo dos processadores de 6 gerao (com recursos de
execuo fora de ordem, por exemplo, sua arquitetura interna apresenta algumas
grandes diferenas em relao a arquitetura interna dos processadores de 6
gerao. Comercialmente, a Intel est chamando a arquitetura interna dos
processadores de 7 gerao de Netburst.
As principais caractersticas so:

Barramento externo: O cache externo dos processadores de 7 gerao


transfere quatro dados por pulso de clock, e no somente um, como o usual
para os demais processadores da Intel. Com isso, o desempenho do
barramento externo quatro vezes maior do que um barramento externo
convencional que opere com o mesmo clock. Os primeiros modelos de
Pentium 4 operam externamente com um clock de 100 MHz, atingindo uma
taxa de transferncia mxima de 3,2 GB/s, em vez de 800 MB/s, que a taxa
nominal de um barramento de 100 MHz convencional. Em muitos lugares,
estar escrito que o barramento externo do Pentium 4 opera a 400 MHz. Isso
no verdade. Fisicamente falando, o barramento externo desse processador
opera a 100 MHz, mas tem um desempenho como se estivesse operando a
400 MHz. O grande problema dessa alta taxa de transferncia que o micro
necessariamente dever usar uma memria RAM capaz de operar to
rapidamente, ou ento no haver ganho algum de desempenho.

Cache L1: O cache L1 tem uma arquitetura totalmente diferente de todos os


demais processadores. Tambm dividido em dois, um cache de dados (que
no Pentium 4 de apenas 8 KB, porm usando um caminho de 256 bits entre
si e o cache L2) e um cache de instrues. S que o cache de instrues foi
posicionado de maneira diferente. Em vez de estar antes da unidade de busca
e a unidade de busca pegar dados desse cache, agora est localizado entre o
decodificador de instrues (o decodificador CISC/RISC) e a unidade de
execuo, passando a ser chamado de cache de microinstrues.

Renomeamento de registradores: Na arquitetura P6, o processador tinha 40


registradores de uso interno para renomear os oito registradores tradicionais
da arquitetura x86. Nos processadores de 7 gerao, h 128 registradores
internos.

Instrues SSE2: Foi criada a terceira gerao da tecnologia MMX, chamada


SSE2 (Streaming SIMD Extensions 2). So 144 novas instrues usando o
mesmo conceito SIMD introduzido pela tecnologia MMX, porm manipulando
registradores de 128 bits (assim como as instrues SSE e diferente das
instrues MMX, que s manipulavam 64 bits) e tendo muitas instrues de
ponto flutuante.

138

Arquitetura de Computadores

Marcelo Adriano Perecim

Hiperpipeline
O pipeline dos processadores de 7 gerao muito maior, isto , tem
muito mais estgios que o pipeline dos processadores de 6 gerao. Enquanto a
execuo de uma instruo em processadores de 6 gerao dividida em 11
etapas, nos processadores de 7 gerao a execuo de uma instruo dividida
em 20 etapas (no 486 e no Pentium as instrues eram executadas em apenas
cinco etapas).
Por ter um nmero to alto de estgios, a princpio uma instruo em um
processador Pentium 4 demora mais tempo para ser executada do que seria em
um processador Pentium III! Basta lembrar que cada etapa demora pelo menos 1
pulso de clock. Dessa forma, uma instruo demora no Pentium 4 no mnimo 20
pulsos de clock para ser executada, enquanto que no Pentium III uma instruo
demora no mnimo 11 pulsos de clock. claro que esta comparao terica,
pois no leva em conta os demais recursos presentes na arquitetura do
processador criados para o aumento de desempenho, justamente para compensar
esse aumento no tamanho do pipeline. Um pipeline to grande quanto esse
classificado como hiperpipeline.
Se por um lado um pipeline com muitos estgios traz a desvantagem de
fazer com que uma instruo demore muito tempo para ser totalmente
processada, por outro permite que o processador tenha um clock interno maior.
Esse o motivo tcnico pelo qual os projetistas dessa arquitetura optaram por um
hiperpipeline.
A grande diferena entre os dois pipelines a ausncia, nos processadores
de 7 gerao, das etapas de decodificao. Isso ocorre porque os processadores
de 7 gerao, em vez de um cache L1 de instrues, tm um cache de
microinstrues, que armazena as microinstrues j decodificadas. Assim,
quando h um erro na previso de desvio, o processador no precisa decodificar
novamente as instrues, as mesmas j esto decodificadas no cache de
microinstrues.

139

Arquitetura de Computadores

Marcelo Adriano Perecim

Ponteiro da prxima microinstruo (estgio 1)


Ponteiro da prxima microinstruo (estgio 2)
Busca prxima microinstruo (estgio 1)
Busca prxima microinstruo (estgio 2)
Drive
Alocao de recursos
Renomeamento de registradores (estgio 1)
Renomeamento de registradores (estgio 2)
Fila
Agendamento (estgio 1)
Agendamento (estgio 2)
Agendamento (estgio 3)
Envio (estgio 1)
Envio (estgio 2)
Leitura dos registradores internos (estgio 1)
Leitura dos registradores internos (estgio 2)
Execuo
Flags
Verificao dos desvios
Drive

Os passos para a execuo de uma instruo:


1. Ponteiro da prxima microinstruo: Verifica, no buffer de destino de desvio,
qual a prxima microinstruo a ser executada. Esta etapa demora 2
estgios.
140

Arquitetura de Computadores

Marcelo Adriano Perecim

2. Busca prxima microinstruo: Carrega, do cache de microinstrues, essa


microinstruo. Esta etapa demora 2 estgios.
3. Drive: Envia a microinstruo a ser executada ao circuito de alocao de
recursos e de renomeamento de registradores.
4. Alocao de recursos: Verifica quais recursos sero alocados pela
microinstruo, como, por exemplo, o buffer de carga (load) ou o buffer de
armazenamento (store)
5. Renomeao de registradores: Renomeia os registradores x86 (oito
registradores) em registradores internos do processador (128 registradores),
em processo similar ao que ocorre com os processadores de 6 gerao. Esta
etapa demora 2 estgios.
6. Fila: As microinstrues so armazenadas em filas de acordo com o seu tipo
(por exemplo, inteiro ou ponto flutuante) at haver espao no agendador de
execuo corresponde ao tipo de instruo a ser executada.
7. Agendamento: As microinstrues so agendadas de acordo com o seu tipo.
Antes de chegar nesta etapa, as microinstrues so entregues em ordem.
Nesta etapa, o agendador reordena as instrues de forma que estas sejam
executadas da melhor forma possvel, isto , que no fique nenhuma unidade
de execuo vazia. Os agendadores so o corao da execuo fora de ordem
dos processadores de 7 gerao. Esta etapa demora 3 estgios.
8. Envio: As microinstrues so enviadas s unidades de execuo adequadas.
Esta etapa dividida em dois estgios.
9. Leitura dos registradores internos: Os registradores internos (armazenados no
pool de instrues) so lidos. Esta etapa dividida em dois estgios.
10. Execuo: As microinstrues so executadas nas unidades de execuo.
Assim como ocorre nos processadores de 6 gerao, as instrues mais
usuais (que so convertidas em apenas uma microinstruo) conseguem ser
executadas em apenas um pulso de clock. Os processadores de 7 gerao
tm apenas quatro unidades de execuo (os de 6 gerao tm cinco). A
princpio, portanto, isso s permitia a execuo de quatro instrues
simultaneamente. Acontece que em duas dessas unidades so enviadas duas
instrues por pulso de clock. Dessa forma, o desempenho mximo das
unidades de execuo dos processadores de 7 gerao de seis instrues
por pulso de clock.
11. Flags: Atualiza os flags do processador.

141

Arquitetura de Computadores

Marcelo Adriano Perecim

12. Verificao de desvios: Verifica se o desvio tomado pelo programa o mesmo


que o previsto pelo circuito de previso de desvio.
13. Drive: Envia o resultado dessa verificao para o buffer de destino de desvio
localizado na entrada do processador.
O circuito de previso de desvios dos processadores de 7 gerao foi
totalmente redesenhado. Isso faz com que o nvel de erro desse circuito seja trs
vezes menor do que o nvel de erro do circuito de previso de desvio dos
processadores de 6 gerao

Cache L1
A arquitetura usada pelo cache de memria L1 completamente diferente.
O cache de dados conectado ao cache L2 atravs de um caminho de 256 bits,
permitindo que o desempenho nessa comunicao seja quatro vezes maior do
que o desempenho dos processadores anteriores, que usam um caminho de 64
bits. Em um processador Pentium 4 de 1,5 GHz, a taxa de transferncia entre o
cache L2 e o cache L1 de dados de 48 GB/s, enquanto em um hipottico
processador Pentium III de 1,5 GHz essa taxa seria de 12 GB/s.
J o cache de instrues foi alterado de local. Em todos os processadores
anteriores, o cache L1 de instrues era colocado na entrada da unidade de busca
de informaes. Assim, essa unidade buscava instrues desse cache. Caso a
instruo necessria no estivesse no cache, a instruo teria de ser buscada do
cache L2 e, caso tambm no estivesse no cache L2, ento a instruo teria de
ser lida diretamente da memria RAM.
Nos processadores de 7 gerao, o cache L1 de instrues passou a estar
entre o decodificador de instrues (o decodificador CISC/RISC) e as unidades de
execuo, passando a ser chamado de cache de microinstrues (execution trace
cache). Em vez de armazenar instrues a serem codificadas, o cache de
instrues passa agora a armazenar instrues j decodificadas. Esse cache
capaz de armazenar 12.288 microinstrues RISC. Como cada microinstruo
RISC dos processadores Intel de 7 gerao de 100 bits, ento o cache de
microinstrues de 150 KB.
Essa mudana na arquitetura do cache o torna muito mais rpido,
especialmente quando h um loop (while, for e repeat) no programa, o que uma
situao muito comum. Nos processadores anteriores, quando havia um loop no
programa, as instrues pertencentes a um loop teriam de ser decodificadas uma
a uma novamente. Na arquitetura de 7 gerao, um loop faz com que as
instrues sejam buscadas diretamente no cache de microinstrues, sem
necessitar uma nova decodificao, j que as mesmas foram recentemente
decodificadas e, com isso, ainda esto armazenadas nesse cache.

142

Arquitetura de Computadores

Marcelo Adriano Perecim

Decodificador CISC/RISC
Ao contrrio dos processadores de 6 gerao, o decodificador CISC/RISC
dos processadores de 7 gerao tem apenas uma nica unidade de
decodificao. O decodificador dos processadores de 6 gerao tinha trs
unidades de decodificao, o que permitia a decodificao simultnea de at trs
instrues x86 em microinstrues RISC.
A princpio, o fato de os processadores de 7 gerao s terem um nico
decodificador pode parecer uma desvantagem em comparao aos processadores
de 6 gerao, porm nos processadores de 7 gerao as instrues x86 so
decodificadas menos vezes do que nos processadores de 6 gerao, por conta
da existncia do cache de microinstrues.

5.8.2 Pentium 4
O processador Pentium 4 o primeiro processador Intel de 7 gerao
lanado. Suas caractersticas so:

Cache L1: Cache L1 de dados de 8 KB. No tem cache de instrues. Em vez


disso, tem um cache de microinstrues que capaz de armazenar 12.288
microinstrues. Cada microinstruo da arquitetura de 7 gerao tem 100
bits, significando que o cache de microinstruo possui 150 KB.

Cache L2: Cache L2 de 256 KB operando na mesma freqncia de operao


interna do processador. Comunica-se com o cache L1 de dados atravs de um
barramento dedicado de 256 bits, fazendo com que essa comunicao seja
quatro vezes mais rpida do que era nos processadores da gerao passada.

Arquitetura superescalar: Unidade de execuo superescalar, com sete


unidades de execuo. As unidades de execuo simples operam
internamente com o dobro do clock interno do processador.

Barramento externo: O barramento externo do Pentium 4 opera transferindo


quatro dados por pulso de clock, em vez de apenas um, como era nos
processadores anteriores. Fisicamente falando, utiliza um barramento externo
de 100 MHz e tem o desempenho de como se estivesse operando a 400 MHz,
mas fisicamente continua operando a 100 MHz, obtendo uma transferncia de
3,2 GB/s. A memria RAM deve ser capaz de transferir dados a esta
velocidade.

Soquete 423: Os processadores Pentium 4 atualmente disponveis no mercado


tm um padro de pinagem chamado soquete 423, necessitando de um novo
tipo de placa-me. Os modelos mais recentes do Pentium 4 utiliza um padro
chamado soquete 478.

143

Arquitetura de Computadores

Marcelo Adriano Perecim

Identificando Processadores Pentium 4


Os processadores Pentium 4 podem ser facilmente identificados atravs da
instruo CPUID, implementada por diversos programas de hardware, tais como o
Wcpuid, Hwinfo, etc. O processador retornar as seguintes informaes:

String: Esta a string que a instruo CPUID coloca em determinados


registradores do processador. Todos os processadores da Intel retornam a
string Genuine Intel.

Tipo(type): Se o processador est operando em modo mono ou


multiprocessado. Como na maioria das vezes trabalhasse com apenas um
processador instalado na placa-me, o programa apontar que o micro tem
apenas um processador (Single).

Famlia (family): A famlia do processador. Se for um processador que utiliza


arquitetura Netburst, esse valor ser 7.

Modelo (model): Informa qual o modelo do processador dentro da famlia.


Para processadors Pentium 4, a instruo retorna o valor zero.

Stepping: Nmero da reviso do processador.

144

Arquitetura de Computadores

Marcelo Adriano Perecim

Placa-me
A figura abaixo mostra uma placa-me com soquete 423.

Tecnologia HyperThreading
A tecnologia HyperThreading, desenvolvida pela Intel, mais uma tcnica
criada para oferecer maior eficincia na utilizao dos recursos de execuo do
processador. Segundo a Intel, a HyperThreading oferece um aumento de
desempenho de at 30% dependendo da configurao do sistema.
A tecnologia HyperThreading simula em um nico processador fsico dois
processadores lgicos. Cada processador lgico recebe seu prprio controlador
de interrupo programvel (APIC) e conjunto de registradores. Os outros
recursos do processador fsico, tais como, cache de memria, unidade de
execuo, unidade lgica e aritmtica, unidade de ponto flutuante e barramentos,
so compartilhados entre os processadores lgicos.
Em termos de software, significa que o sistema operacional pode enviar
tarefas para os processadores lgicos como se estivesse enviando para
processadores fsicos em um sistema de multiprocessamento.

145

Arquitetura de Computadores

Marcelo Adriano Perecim

No diagrama, os registradores e controlador de interrupo foram


chamados de AS. Na rea denominada de recursos de execuo esto todos
os recursos que o processador necessita para executar as instrues. O
processador da esquerda no suporta a tecnologia Hyper-Threading.
O processador da direita suporta, duplicando seus registradores e
controladores e compartilhado os recursos de execuo entre os processadores
lgicos, parecendo assim um sistema com dois processadores.
Os modernos sistemas operacionais so SMP (Multiprocessamento
Simtrico), ou seja, podem trabalhar com mais de um processador instalado no
sistema, dividindo s tarefas entre os mesmos. A tecnologia HyperThreading
estende essa idia de forma que os sistema operacionais e software aplicativos
dividam as tarefas entre os processadores lgicos.

Sistema Multiprocessado sem tecnologia HyperThreading.

146

Arquitetura de Computadores

Marcelo Adriano Perecim

Processador com tecnologia Hyper-Threading.


As instrues CPUID so utilizadas pelo sistema operacional e aplicativos
para identificar a presena da tecnologia HyperThreading nos processadores.
Para quem no sabe, as instrues CPUID servem para informar ao software as
caractersticas do processador instalado. Obviamente, os sistemas operacionais e
software aplicativos tm que suportar a tecnologia HyperThreading para usufruir
dos processamentos simultneos.
A Intel lanou a verso de 3 e 3.06 GHz do Pentium 4 com a tecnologia
HyperThreading.
Modelo
Pentium 4 1.3
Pentium 4 1.4
Pentium 4 1.5
Pentium 4 1.6
Pentium 4 1.7
Pentium 4 1.8
Pentium 4 2.0
Pentium 4 2.2
Pentium 4 2.26
Pentium 4 2.4
Pentium 4 2.4
Pentium 4 2.5
Pentium 4 2.53
Pentium 4 2.6
Pentium 4 2.66
Pentium 4 2.8
Pentium 4 3.0
Pentium 4 3.06

Clock Interno
1300 MHz
1400 MHz
1500 MHz
1600 MHz
1700 MHz
1800 MHz
2000 MHz
2200 MHz
2260 MHz
2400 MHz
2400 MHz
2500 MHz
2530 MHz
2600 MHz
2660 MHz
2800 MHz
3000 MHz
3060 MHz

Clock Externo
400 MHz
400 MHz
400 MHz
400 MHz
400 MHz
400 MHz
400 MHz
400 MHz
533 MHz
400 MHz
533 MHz
400 MHz
533 MHz
400 MHz
533 MHz
533 MHz
800 MHz
533 MHz

Voltagem
1.75 V
1.75 V
1.75 V
1.75 V
1.75 V
1.75 V

Multiplicador
13 x
14 x
15 x
16 x
17 x
18 x
20 x
22 x
17 x
24 x
18 x
25 x
19 x
26 x
20 x
21 x
15 x
23 x

Potncia
51,6 W
54,7 W
57,8 W
61,0 W
64,0 W
66,7 W

147

Arquitetura de Computadores

Marcelo Adriano Perecim

148

Arquitetura de Computadores

Marcelo Adriano Perecim

149

Arquitetura de Computadores

Marcelo Adriano Perecim

Processador Pentium 4
Lanamento
Transistores
Tecnologia
Barramento de dados
Barramento de endereos
Capacidade de endereamento
Clock interno
Clock externo
Consumo
Cache L1
Cache L2

2000
42.000.000
0,18 e 0,13
64 bits
36 bits
64 GB
1.300 MHz e superiores
400 MHz
A partir de 51W
8 KB + 12 KB (microoperaes)
256KB

150

Arquitetura de Computadores

Marcelo Adriano Perecim

5.8.3 Pentium 4 Prescott

A Intel lana o Pentium 4 com ncleo Prescott, o primeiro processador para


PCs usando a tecnologia de 90 nanmetros (0,09 mcron). Com este novo ncleo,
a Intel conseguir colocar o seu Pentium 4 rodando a clocks ainda mais elevados.
O ncleo Prescott ser usado em uma srie de processadores Pentium 4, e
hoje foram lanados processadores Pentium 4 "Prescott" com clocks de 2,8 GHz,
3 GHz, 3,2 GHz e 3,4 GHz, todos rodando externamente a 800 MHz (200 MHz
transferindo quatro dados por pulso de clock).
Para diferenciar os processadores Pentium 4 "comuns" (ncleo Northwood)
dos Pentium 4 com ncleo Prescott, a Intel est utilizando a letra "E" como
indicador para o novo ncleo. Desta forma, para as freqncias de operao
listadas acima, h dois modelos de ncleo: Northwood e Prescott, este quando
houver a letra "E" aps a indicao de freqncia do processador (ex: Pentium 4
3,2 GHz E).
A Intel lanou ainda uma segunda verso do modelo de 2,8 GHz, chamada
"A". Esta verso roda externamente a 533 MHz (133 MHz QDR) e no tem a
tecnologia HyperThreading, e voltada para usurios que queiram fazer upgrade
para um Pentium 4 com ncleo Prescott mas sua placa-me no aceita
processadores Pentium 4 de 800 MHz.

Compatibilidade
Os processadores Pentium 4 com ncleo Prescott continuam usando o
tradicional soquete 478 do Pentium 4, significando que esta nova safra de
processadores pode ser instalada nas placas-me j existentes desde que ela
seja compatvel com o barramento externo de 800 MHz e consiga fornecer a
tenso e corrente requeridas pelo novo processador.

Desempenho
Os modelos com ncleo Prescott so mais rpidos do que os modelos com
ncleo Northwood quando rodando sob um mesmo clock (isto , o Pentium 4 3,2
GHz "E" mais rpido do que o Pentium 4 3,2 GHz), pois h diferenas internas
significativas que aumentaram o desempenho do Pentium 4 Prescott (Pentium 4
"E").

151

Arquitetura de Computadores

Marcelo Adriano Perecim

A primeira grande diferena est no cache de memria L1 de dados, que


aumentou de 8 KB para 16 KB, fazendo com que o cache L1 aumentasse de 158
KB para 166 KB. J o cache L2 foi aumentado de 512 KB para 1 MB. Alm destas
duas modificaes que por si s aumentam o desempenho do processador
foram feitas melhorias nos circuitos de HyperThreading e previso de desvio deste
novo ncleo de Pentium 4.
Segundo a Intel, o desempenho de processamento do Pentium 4 Prescott
de 3,4 GHz 5,18% maior que o do Pentium 4 Northwood de 3,4 GHz, de acordo
com o programa SPEC CPU2000, e o desempenho de processamento
matemtico do Pentium 4 Prescott de 3,4 GHz 6,03% maior que o do Pentium 4
Northwood de 3,4 GHz, de acordo com o mesmo programa.
Instrues SSE3
Outra novidade do novo ncleo Prescott so as novas instrues SSE3.
So 13 novas instrues do tipo MMX que agiliza funes de software tais como
codificao de vdeo, converso de nmeros de ponto flutuante em inteiros e
sincronizao de threads. A existncia destas novas instrues, por si s, no
aumenta o desempenho do processador. O motivo simples: para us-las, os
programas tero de ser compilados tendo elas em mente. Assim, somente a
prxima gerao de programas (tais como aplicativos grficos, aplicativos de
codificao de udio e vdeo e jogos) possivelmente utilizar estas instrues,
sendo que eventualmente a Microsoft pode adotar de alguma forma o suporte a
estas instrues em algum driver adicional para o sistema operacional (atravs de
um service pack ou se uma atualizao disponvel no Windows Update), nas
novas verses de codec de vdeo e/ou na prxima verso do DirectX.
Desta forma, quando futuras verses de programas suportando as
instrues SSE3 forem lanadas, o micro ficar mais rpido, caso seja equipado
com um processador que tenha tais instrues.
O motivo simples. Instrues do tipo MMX/SSE substituem tarefas que
antes necessitariam de vrias instrues para serem efetuadas. Uma nica
instruo deste tipo pode substituir uma rotina que, caso o processador no
tivesse este conjunto de instrues, teria de executar dez instrues, por exemplo.

Gerenciamento Trmico
O Pentium 4 (todos os modelos) diminuem automaticamente o clock do
processador caso detectem superaquecimento do processador. Diminuindo o
clock, a potncia dissipada menor e, com isto, a temperatura do processador cai.
Mas at agora, esta diminuio de clock estava exclusivamente conjugada
temperatura do processador.

152

Arquitetura de Computadores

Marcelo Adriano Perecim

Os novos processadores Pentium 4 "E" possuem um pino que no era


usado nas verses anteriores do Pentium 4. Chamado PROCHOT#, este pino
permite que aplicaes externas ao processador diminuam o seu clock caso
encontrem algum problema com a temperatura do sistema. Por exemplo, o circuito
regulador de voltagem pode, em teoria, diminuir o clock do processador caso ele
detecte um superaquecimento em seus transistores e bobinas, evitando, assim, a
queima de algum componente da placa-me.
Por falar em gerenciamento trmico, as necessidades de dissipao trmica
do novo ncleo Prescott so maiores, o que inevitavelmente faz com que os novos
processadores Pentium 4 baseados neste ncleo necessitem de um cooler mais
potente.
Processador
Pentium 4 Northwood at 2,8 GHz

Potncia
64 W

Pentium 4 Northwood a partir de 3 GHz 82 W


Pentium 4 Prescott at 3 GHz

89 W

Pentium 4 Prescott a partir de 3,2 GHz 103 W

Repare que os processadores Pentium 4 Prescott de at 3 GHz necessitam


de um cooler capaz de dissipar 89 W de potncia, potncia maior que o Pentium 4
de 3,4 GHz! Os processadores Prescott a partir de 3,2 GHz necessitam dissipar
103 W, um valor bem maior que os 82 W que os processadores Pentium 4
"normais" dissipam.
Se voc comprar um Pentium 4 "Prescott" in-a-box, voc no ter
problemas, pois os modelos "box" j vm com o cooler adequado. Entretanto, se
voc trabalha montando micros e comprar o modelo OEM, muita ateno para a
escolha do cooler correto, ou voc encontrar problemas de superaquecimento.

153

Arquitetura de Computadores

Marcelo Adriano Perecim

5.8.4 Pentium 4 de 64 bits

A Intel lanou o Pentium 4 de 64 bits para concorrer de igual para igual com
o Athlon 64 da AMD. Foram lanados os seguintes modelos: 630 (3 GHz), 640
(3,2 GHz), 650 (3,4 GHz), 660 (3,6 GHz) e 670 (3,8 GHz). As principais
caractersticas desses processadores so:

Extenses de 64 bits (EM64T)


Soquete 775
Barramento externo de 800 MHz (200 MHz x 4)
Tecnologia HyperThreading
Tecnologia SpeedStep
Tecnologia XD (eXecute Disable)
Cache de memria L1 de 16 KB para dado e de 150 KB para instrues
Cache de memria L2 de 2 MB
Alm desses processadores, a Intel lanou ainda o Pentium 4 Extreme
Edition de 3,73 GHz com o novo barramento externo de 1.066 MHz e 2 MB de
memria cache L2, que promete ser o mais rpido da Intel.

Potncia
Os processadores Pentium 4 630, 640 e 650 dissipam uma potncia
mxima de 84 W, enquanto os modelos 660 e 670 esse nmero pula para
impressionantes 115 W.

Nomenclatura
Os processadores Pentium 4 com tecnologia de 64 bits possuem sua
numerao comeando por "6", enquanto os processadores sem esta
caracterstica comeam por "5". Assim, fica fcil saber se o Pentium 4 tem ou no

154

Arquitetura de Computadores

Marcelo Adriano Perecim

esta caracterstica. Por exemplo, tanto o Pentium 4 540 quanto o 640 rodam a 3,2
GHz, mas o 640 tem a tecnologia de 64 bits e as demais caractersticas no
presentes em outros Pentium 4 em especial a tecnologia SpeedStep e a
memria cache L2 de 2 MB.

A Tecnologia de 64 bits da Intel (EM64T)


Para usar a tecnologia de 64 bits necessrio ter um sistema de 64 bits
compatvel com esta tecnologia instalado na mquina. Por enquanto, temos
somente algumas verses de Linux capazes de reconhecer esta tecnologia (SuSE
SL9.1 e SLES9; a verso Red Hat Enterprise Linux 3 update 2 trar suporte a esta
tecnologia mas ser lanado somente em maio). Os usurios Windows tero de
esperar at o Windows 64 ser lanado. Voc pode ler mais sobre esta tecnologia
em http://www.intel.com/technology/64bitextensions.
Importante notar que esta tecnologia no tem nada a ver com a tecnologia
de 64 bits usada pelos processadores Itanium (IA-64), e que programas de 32 bits
rodam sem problema neste processador.
A principal vantagem desta tecnologia fazer com que o processador
consiga acessar mais memria RAM. Os processadores sem esta tecnologia
acessam a at 4 GB de memria RAM. J os processadores Pentium 4 srie 6
so capazes de acessar at 32 TB de memria RAM. claro que a quantidade
mxima de memria que se pode ter no micro limitada pelo chipset usado pela
placa-me (j que no chipset que est o circuito controlador de memria) e
tambm pela quantidade de soquetes que a placa-me possui.

Tecnologia SpeedStep
Outra novidade dos processadores Pentium 4 da srie 6 a tecnologia
SpeedStep, presente nos processadores Intel voltados para notebooks. Esta
tecnologia permite diminuir o clock do processador e com isso o consumo do
micro e o calor gerado e a velocidade da ventoinha (significando menos barulho)
em momentos em que o usurio no esteja usando o seu micro no mximo de sua
capacidade.

Tecnologia XD (eXecute Disable)


Esta tecnologia impede que determinados tipos de vrus ataquem o micro,
desde que seu sistema operacional tambm tenha suporte esta tecnologia. No

155

Arquitetura de Computadores

Marcelo Adriano Perecim

universo Windows, necessrio usar o Windows XP com o Service Pack 2


instalado para que esta tecnologia funcione.
Ela funciona usando um bit que indica se a rea de memria usada por
dados ou por programas (da vem outro sinnimo desta tecnologia bit XD). Se
um cdigo que est instalado em uma rea de memria destinada a dados
executado, o sistema operacional bloqueia sua execuo, j que este no um
comportamento normal (dados no podem ser "executados" vrus normalmente
se fazer passar por dados para serem executados).

Mais Memria Cache


O processadores Pentium 4 da srie 6 possuem uma maior quantidade de
memria cache L2, que passou a ser de 2 MB, o dobro da do Pentium 4 "comum"
da srie 5. Em teoria, quanto mais memria desse tipo o processador tiver, mais
rpido ele ser. Ou seja, se compararmos um Pentium 4 da srie 5 com um
Pentium 4 da srie 6 de mesmo clock, estes sero mais rpidos, no porque
possui a tecnologia EM64T, mas por ter mais memria cache.
O ganho de desempenho depende muito da aplicao. De acordo com a
Intel, este ganho varia de 2% a 7% dependendo do programa de teste de
desempenho usado, sendo que, na prtica, este ganho pode ser maior,
dependendo da aplicao (se beneficiaro do cache maior aplicaes que fazem
muito acesso memria RAM).
Modelo
630
640
650
660
670

Clock
3.0 GHz
3.2 GHz
3.4 GHz
3.6 GHz
3.8 GHz

Cache L2
2 MB
2 MB
2 MB
2 MB
2 MB

156

Arquitetura de Computadores

Marcelo Adriano Perecim

5.9 Processadores Intel IA-64 (Itanium)


Todos os processadores das geraes anteriores utilizam basicamente o
mesmo conjunto de instrues introduzido pelo processador 80386. Esses
processadores so classificados como IA-32 ou simplesmente x86. So
processadores de 32 bits, j que suas instrues tm esse tamanho.
Os processadores anteriores nasceram usando a tecnologia CISC e que a
longo prazo a tecnologia CISC tende a no mais existir, tanto que a partir dos
processadores Intel de 6 gerao (bem como na maioria dos processadores noIntel) o ncleo de processamento do processador RISC, e atravs de um
decodificador CISC/RISC presente sua entrada, converte as instrues x86 em
microinstrues RISC que so compreendidas pelo ncleo de processamento do
processador.
O grande problema com instrues que estas limitam o aumento do
desempenho do processador, especialmente pelo fato de no serem
padronizadas: cada instruo tem um tamanho diferente e demora tempos
diferentes para serem executadas. Com isso, o decodificador de instrues perde
muito tempo para separar as instrues de um programa e envi-las unidade de
execuo do processador. O carregamento de instrues do cache L1 de
instrues seria feito muito mais rapidamente se todas as instrues tivessem o
mesmo tamanho.
O conjunto de instrues x86 vem de uma poca onde os processadores
no tinham uma arquitetura superescalar, isto , mais de uma unidade de
execuo trabalhando em paralelo. Assim, os programas no so compilados
tendo em vista as mltiplas unidades de execuo que o processador possa ter.
Como resultado, os processadores que passaram a reorganizar internamente o
programa, para poderem executar vrias instrues em paralelo.
Nos novos processadores, outros recursos vieram a completar essa
deficincia inerente arquitetura CISC, como o renomeamento de registradores,
que torna possvel a execuo fora de ordem, ampliando o nmero de
registradores do processador, j que na arquitetura x86 s existem oito
registradores de uso geral.
A tendncia que os fabricantes fiquem criando cada vez mais novos
recursos de hardware no interior do processador de forma a tentar corrigir as
deficincias da arquitetura x86. S que obviamente isso no pode continuar para
sempre!
A idia da arquitetura IA-64 oferecer processadores RISC para PCs. Isso
significa processadores puramente RISC, que aceitam instrues RISC ao
contrrio dos processadores anteriores que apesar de serem internamente RISC,
aceitam somente instrues CISC x86.
Isso significa que os processadores IA-64 tm um conjunto de instrues
prprio. Com isso, a princpio esses processadores so incompatveis com os
processadores IA-32. Para resolver essa situao, os processadores IA-64 (pelo
menos os primeiros modelos) contm um tradutor de instrues interno, para
converter as instrues IA-32 em instrues IA-64. O problema que a existncia

157

Arquitetura de Computadores

Marcelo Adriano Perecim

dessa traduo pode fazer com que os programas IA-32 executem mais lento em
processadores IA-64 do que em processadores IA-32 de mesmo clock.
Barramento externo

Instrues IA-64

Instrues IA-32

Tradutor IA-32/IA-64

Ncleo IA-64

Para o uso dos processadores IA-64, necessrio escrever novos


programas e, principalmente, novos sistemas operacionais para essa arquitetura.

158

Arquitetura de Computadores

Marcelo Adriano Perecim

5.10 - Processadores Para o Prximo Milnio


Por Ricardo Zelenovsky e Alexandre Mendona*

5.10.1 - Postulados de von Neumann


Von Neumann[1], que trabalhou no desenvolvimento do ENIAC e
posteriormente empregou sua experincia no projeto do IAS (1952), elaborou as
idias e os conceitos que nortearam a arquitetura dos computadores at os dias
de hoje. Seu entendimento essencial para apreciarmos a atual evoluo dos
computadores. Iniciemos constatando, de forma bvia, que as mquinas que
usamos nas nossas casas possuem quatro elementos bsicos: a CPU, a memria,
os dados e as instrues (ou programas). A partir da, apresentamos os trs
postulados bsicos de von Neumann, que no momento podem parecer triviais,
mas que no o eram na dcada de 50:
1. Um nico controle centralizado (uma s CPU);
2. Uma nica memria para dados e instrues; e
3. As instrues devem fazer operaes elementares sobre os dados.
Cerca de 90% dos computadores atuais usam esses postulados e por isso
so chamados de Arquitetura de von Neumann, ou Arquitetura Serial, pois
empregam um nico processador. Essa arquitetura, aliada aos avanos da
microeletrnica, ofertou-nos o atual mercado de computadores, rpidos e baratos.
Porm, tal arquitetura enfrenta um limite de velocidade que ditado pelas leis da
fsica. O tempo que um sinal eltrico gasta para trafegar entre dois pontos de um
circuito eletrnico muito pequeno, porm no igual a zero. Em outras palavras,
isto corresponde a dizer que existe um limite para a velocidade de relgio das
CPUs e, infelizmente, ele no est muito distante. Como ento continuar com a
evoluo dos computadores? Essa a pergunta que tem ocupado a cabea de
muitos pesquisadores e desde a segunda metade desta dcada, vrias solues
foram propostas.
A principal resposta vem da comparao entre nosso crebro e um
processador. sabido que o sinal eltrico trafegando por dentro de um CI muito
mais veloz que o trnsito de impulsos nervosos entre nossos neurnios. claro
que, para fazer operaes numricas, comparar e classificar, o computador mais
rpido. Mas, por outro lado, ele inferior, pois no pensa, no inova e no
aprende, apenas segue passos programados. Por exemplo, com um nico olhar
em uma sala identificamos imediatamente centenas de objetos. J um
computador, mesmo o mais sofisticado, apenas consegue identificar os objetos
mais simples.
Somos capazes de dirigir um carro e enquanto andamos por nossas
(terrveis) estradas, temos habilidade para escolher o melhor caminho. Ser que

159

Arquitetura de Computadores

Marcelo Adriano Perecim

um computador pode dirigir um carro? Uma das experincias no MIT com um


piloto computadorizado, que identificava a rua atravs das linhas paralelas do
meio fio, revelou um grande escalador de rvores, pois ele confundia o contorno
do meio fio com o contorno do caule das rvores.
Como ser que o crebro consegue ser superior aos processadores, se o
nosso neurnio muito mais lento que um circuito eletrnico? A resposta bvia:
porque temos vrios bilhes de neurnios operando em paralelo. Ora, por que, ao
invs de construirmos CPUs velozes e gigantescas, no usamos vrias CPUs,
simples e confiveis, operando em paralelo? Chegamos assim idia bsica do
processamento paralelo, que a esperana para o prximo milnio.

5.10.2 - Processamento Paralelo


Sabemos ento que devemos usar uma grande quantidade de
processadores, mas como control-los de forma a que faam alguma coisa de
til? Existem grandes problemas! Para iniciar, vamos trabalhar o conceito de
processamento paralelo atravs de um exemplo bem simples. Se um pedreiro
constri uma casa em um ano, ento dois pedreiros constroem a mesma casa em
meio ano. Este conceito bsico do processamento paralelo: a diviso das
tarefas. Podemos seguir adiante e concluir que cem pedreiros gastam apenas 3,6
dias. Ser isto um absurdo?
claro que h um limite, pois o trabalho dos pedreiros s ser eficiente se
estiverem perfeitamente sincronizados e equilibrados. Este ponto importante:
todos os pedreiros devem ter a mesma carga de trabalho. Em termos tcnicos,
usa-se a expresso Balanceamento da Carga de Trabalho. Esse balanceamento
pode ser feito de dois modos. No primeiro modo, o trabalho de cada pedreiro
idntico, ou seja, cada um faz 1/100 da casa. No outro modo usado a
especializao, ou seja, alguns pedreiros viram cimento enquanto outros
assentam tijolos e outros tratam do encanamento, e assim por diante.
Ao imaginarmos todas as tarefas que devam ser executadas para a
construo da casa, fica claro que algumas delas no podero ser paralelizadas.
Imagine 100 pedreiros para assentar uma porta, ou 100 pedreiros em cima da
casa tentando montar o telhado. A casa acabaria por cair! Alm disso, deve haver
um limite para a quantidade de pedreiros que podem trabalhar em paralelo. A
partir deste limite, quanto mais pedreiros colocamos, pioramos o desempenho e
em conseqncia, aumentamos o tempo de construo.
Temos ento dois grandes problemas: at quanto podemos paralelizar uma
tarefa e at quantos processadores devem ser alocados? A partir da, surgem
outras questes: como sincronizar esses processadores de forma a que um no
repita o trabalho do outro e como garantir o balanceamento da carga de trabalho?
Agora temos condies de entender porque se diz que as dificuldades

160

Arquitetura de Computadores

Marcelo Adriano Perecim

presentes no projeto do hardware de mquinas paralelas no so to complexas


quando comparados com os problemas de sua programao. Diz-se que os
computadores esto sempre uma gerao atrasada em relao s nossas
necessidades e os programas, duas geraes atrasadas. Em suma, um desafio
maior que o projeto de supercomputadores a sua programao.

5.10.3 - Lei de Amdhal


Apesar do quanto promissor a computao paralela possa parecer, ela no
uma soluo para todo o problema de processamento. Existem tarefas que so
eminentemente seqenciais e que no tiram proveito de um computador paralelo.
Voltando ao nosso exemplo da construo de uma casa, apesar dela ser
executada em paralelo, existe por detrs uma seqncia que deve ser obedecida.
Nessa construo, no podemos fazer o telhado antes de termos as paredes
prontas e tambm no podemos construir as paredes antes do alicerce. Assim,
comum que as tarefas a serem executadas possuam pores paralelizveis e
pores que precisam ser executadas de forma seqencial. Note que um
computador paralelo operando de forma seqencial um grande desperdcio, pois
enquanto um processador trabalha no trecho serial, todos os demais ficam
ociosos.

5.10.4 - Deep Blue, o enxadrista


A mquina chamada Deep Blue[1] ainda o mais poderoso computador
voltado para o jogo de xadrez. Mas, o que ser que tem de interessante uma
mquina que joga xadrez? Muita coisa quando esta mquina possui uma
arquitetura paralela capaz de realizar 1.000.000.000.000 operaes de pontoflutuante por segundo (1Teraflops). A arquitetura bem simples: o Deep Blue
est montado sobre estaes de trabalho IBM RS/6000SP (P2SC). Cada estao
um n e cada n usa um placa microcanal contendo 8 processadores VLSI.
Como so empregados 32 ns, chega-se a um total de 256 processadores
trabalhando em paralelo, como mostrado na Figura 1, onde uma letra P usada
para representar cada processador.

161

Arquitetura de Computadores

Marcelo Adriano Perecim

Figura 1: Arquitetura do Computador Deep Blue com seus 256 processadores.


Tal arquitetura, capaz de analisar 200 milhes de posies de xadrez por
segundo, duelou com o mestre Garry Kasparov, cuja capacidade de anlise de
aproximadamente 3 posies por segundo. Realmente, foi uma batalha desigual.
No dia 11 de maio, foi iniciada a disputa de 6 partidas, que terminou em 3,5 x 2,5 a
favor do Deep Blue. Deve-se notar que Kasparov ainda foi capaz de ganhar a
primeira e empatar trs, perdendo apenas duas partidas. Kasparov, pelo segundo
lugar ganhou US$ 400.000,00, enquanto que o Deep Blue, o vencedor, levou
US$ 700.000,00 (mas infelizmente ele no teve onde gastar).

Figura 2: Kasparov versus Deep Blue.


A habilidade do Deep Blue em jogar xadrez vem da chamada funo de
avaliao. Esta funo um algoritmo que mede a qualidade de uma dada
posio de xadrez. Posies com valores positivos so boas para as brancas,
enquanto que aquelas com valores negativos so boas para as pretas. Se o
cmputo total positivo, as brancas esto em vantagem. A funo de avaliao
leva em conta 4 valores que so bsicos para o xadrez: material, posio,
segurana do Rei e tempo. O material calculado segundo o valor das peas, o
peo vale 1 e assim por diante at a Rainha que vale 9. O Rei, claro, est alm
desses valores pois sua perda implica em derrota. A posio calculada ao olhar
suas peas e contar o nmero de posies seguras que eles podem atacar. A
segurana do Rei medida em funo de sua capacidade defensiva. O tempo
est relacionado com o desenvolvimento do jogo sobre o tabuleiro. Alm disso
tudo, o Deep Blue no usa fora bruta ao avaliar as posies, mas sim seleciona
alguns caminhos com bom potencial e elimina as buscas irrelevantes.

162

Arquitetura de Computadores

Marcelo Adriano Perecim

Aproveitamos ainda para elucidar alguns pontos sobre este embate. O


Deep Blue no usa inteligncia artificial (IA) e tampouco aprende enquanto joga
com seu oponente. Ao invs disso, ele trabalha como um sistema especialista que
analisa seu vasto sistema de informaes. Por exemplo, ele consulta sua base de
dados com todas as aberturas dos ltimos 100 anos e ento calcula qual a melhor
resposta ao movimento do oponente. Ele no pensa, mas sim, apenas reage e foi
a onde Kasparov tinha sua vantagem. Mas claro que, com todos esses
recursos, o Deep Blue de certa forma fora bruta contra a inteligncia de
Kasparov, que teve que jogar contra os fantasmas de todos os grandes mestres
do passado. Alm disso, a mquina nunca esquece ou se distrai.
Para terminar este tpico, perguntamo-nos por que tanto dinheiro para jogar
xadrez? O principal objetivo no est no jogo, mas sim na busca de uma
arquitetura rpida o suficiente para apresentar resultados prticos. Para isso, o
xadrez um excelente desafio, pois, com suas 64 clulas, oferece um problema
matemtico extremamente complexo. Ao provar sua eficincia nessa rea, a IBM
demonstrou ser capaz de oferecer computadores para os problemas que ainda
desafiam as atuais mquinas. E, no dia seguinte vitria, suas aes subiram.

5.10.5 - ASCI Blue Pacific, o mais rpido


O mais rpido computador da atualidade chama-se Blue Pacific e foi
entregue em 28 de outubro de 1998. O termo ASCI vem de Accelerate Strategic
Computing Iniciative, traduzido como Iniciativa para Acelerao da Computao
Estratgica, que o nome do programa do Departamento de Energia NorteAmericano para acelerar os avanos nas tecnologias necessrias para simular
numericamente dispositivos nucleares, eliminando assim a necessidade do teste
fsico. Ele emprega 5.856 processadores que, operando cada um a cerca de 333
MHz, entregam uma potncia de aproximadamente 4 Teraflops, ou, em outros
termos, 15.000 vezes mais rpido que um PC convencional, consumindo o
equivalente a 324 secadores de cabelo. Uma pessoa com uma calculadora de
mo levaria 63 mil anos para realizar as operaes que esse computador faz em 1
segundo. A tabela a seguir resume suas principais caractersticas.
Processadores 5.856
Ns

1.464

Memria

2,6 Terabytes

Armazenagem 75 Terabytes
Desempenho

3,88 Teraflops

Potncia

486 kW

Preo

US$ 94 milhes

5.10.6 - Blue Gene, o maior projeto


163

Arquitetura de Computadores

Marcelo Adriano Perecim

Em 6 de dezembro de 1999, a IBM anunciou uma pesquisa de US$ 100


milhes com o objetivo de construir um computador que ser 500 vezes mais
poderoso que o mais rpido computador da atualidade. Esse novo computador,
apelidado de Blue Gene ser capaz de ultrapassar a marca de 1 quadrilho de
operaes por segundo, ou seja, 1 Petaflops (10^15 flops). Essa marca o torna
1.000 vezes mais poderoso que o Deep Blue e cerca de 2 milhes de vezes mais
rpido que um PC topo de linha.
Essa macia capacidade de processamento ser usada inicialmente para
modelar o dobramento das protenas humanas. As protenas controlam todos os
processos celulares do corpo humano. Formadas por cadeias de aminocidos,
so unidas como anis em uma corrente e dobram-se de formas altamente
complexas. Sua forma tridimensional determina sua funo. Qualquer mudana na
forma altera dramaticamente a funo da protena. Mesmo uma pequena
alterao no processo de dobragem pode transformar uma protena desejvel em
uma doena.
Assim, aprender mais sobre como as protenas so dobradas dever
possibilitar aos pesquisadores mdicos uma melhor compreenso das doenas e,
em conseqncia, de suas curas. A comunidade cientfica considera o problema
de dobragem das protenas como um dos grandes desafios cientficos da
atualidade e sua soluo somente pode ser alcanada com a tecnologia de
computao de alto desempenho que, com certeza, ter grande impacto cientfico
e econmico.
A expectativa da IBM atingir os Petaflops em 5 anos, um tero do que
seria esperado segundo a Lei de Moore. A IBM denomina sua abordagem para
este computador de SMASH, Simple, Many and Self-Hearing, que seria traduzido
como Simples, Muitos e Auto-Curativo. Trs tpicos distinguem essa arquitetura
SMASH:
Reduo dramtica do nmero de instrues, permitindo que os processadores
sejam rpidos, de baixo consumo e ocupem pouca rea do CI;
Facilidade no processamento maciamente paralelo, permitindo mais de 8
milhes de threads;
Garantia de um computador auto-estvel e auto-curativo, sobrepujando falhas
de processadores e de threads.
O Blue Gene consistir de mais de 1 milho de processadores, cada um
capaz de oferecer 1 bilho de operaes por segundo, ou seja, 1 Gigaflops, como
est mostrado na Figura 3. Trinta e dois desses processadores sero integrados
em um nico CI, resultando em 32 Gigaflops. Uma placa de 2 ps por 2 ps
receber 64 CIs, levando a 2 Teraflops. Somente essa placa j capaz de igualar
o desempenho do Blue Pacific, que tem 8.000 ps quadrados. Oito dessas
placas (16 Teraflops) sero colocadas em racks de 6 ps. Finalmente 64 racks
164

Arquitetura de Computadores

Marcelo Adriano Perecim

constituiro o estado final do computador, ocupando uma rea menor que 2.000
ps quadrados.

Figura 3: Arquitetura do Blue Gene, com seu 1 milho de processadores.

5.10.7 - Computador Quntico


Agora teremos a sensao de que entramos no campo da fico cientfica.
Os computadores tradicionais trabalham com elementos bsicos que podem
assumir dois estados (ou dois bits): 0 ou 1. Normalmente, usam-se transistores ou
flip-flops para represent-los. Olhando para o lado da fsica atmica, uma
partcula quntica, como o eltron ou ncleos atmicos, pode existir em dois
estados: com o spin para cima ou para baixo. Ora, isto constitui um bit quntico
ou qubit. Quando o spin est para cima, o tomo pode ser lido como 1 e, quando
o spin est para baixo, lido como 0.

165

Arquitetura de Computadores

Marcelo Adriano Perecim

Os qubits diferem dos bits tradicionais porque um ncleo atmico pode


estar num estado de superposio, representando simultaneamente 0 e 1 e tudo o
mais que existe entre esses valores. Mais ainda, sem a interferncia do ambiente
externo, os spins podem se relacionar de tal forma que efetivamente conectam
os qubits de um computador quntico. Dois tomos relacionados atuam em
conjunto: quando um est na posio para cima e o outro garantido estar na
posio para baixo.
A combinao de superposio e relacionamento o que permite a um
computador quntico ter um enorme poder de processamento, possibilitando-o a
realizar clculos de forma maciamente paralela e de forma no linear. Para
certos tipos de clculos, como por exemplo os complexos algoritmos para
criptografia, um computador quntico pode realizar bilhes de clculos em um
nico passo. Ao invs de resolver o problema pela adio ordenada de todos os
nmeros, um computador quntico poderia adicionar todos os nmeros ao mesmo
tempo. Assim, pela interao de um com o outro, quando isoladas do ambiente
externo, os qubits podem realizar certos clculos de forma exponencialmente mais
rpida que os computadores convencionais. Diz-se que o computador quntico
comea onde a Lei de Moore termina.
Em 15 de agosto de 2000, um time da IBM demonstrou um novo
computador quntico com 5 qubits, composto portanto por 5 tomos (de flor)
fixados em uma molcula especialmente projetada de forma a permitir que os
qubits (spin dos ncleos) relacionem entre si. Esses qubits so programados por
pulsos de rdio-freqncia e detectados por meio de ressonncia nuclear
magntica, semelhante ao usado em hospitais.
Esse computador de 5 qubits foi capaz de resolver um problema de
determinao de ordem de um sistema, ou seja, a determinao do perodo de
uma funo. Os computadores convencionais calculam a soluo usando
iteraes passo-a-passo com os valores da funo at que eles comecem a
repetir. O computador quntico faz isso com um novo enfoque. Por natureza, eles
representam simultaneamente todos os possveis valores da varivel de entrada e,
portanto, com um nico passo pode analisar todos os possveis valores da funo.
Apesar do potencial dos computadores qunticos ser gigantesco e
encorajador, os desafios ainda so enormes. O atual computador de 5 bits um
mero instrumento de pesquisa. Ainda faltam muitos anos de trabalho para que os
computadores qunticos se tornem comerciais. Os prognsticos indicam que eles
devero ter pelo menos 12 bits para poderem resolver problemas do mundo real.
Espera-se que, no futuro, tais computadores venham a trabalhar como
processador auxiliar para problemas matemticos de difcil soluo. Com certeza
processamento de texto e Internet no so aplicaes talhadas para um
computador quntico. A idia do computador quntico no recente, ela foi
proposta na dcada de 1970.

166

Arquitetura de Computadores

Marcelo Adriano Perecim

Concluso Parcial
Observa-se claramente que os grandes computadores caminham para o
processamento paralelo. Basicamente, o poder est vindo, no dos megahertz do
processador, mas da quantidade de processadores que em conjunto resolvem um
determinado problema. Isto significa que o tamanho do gro de processamento
ser cada vez menor e os processos cada vez mais acoplados. Como substituio
para o atual modelo de processamento e esperana para os novos computadores,
surge o processador quntico. No prximo nmero veremos alguns computadores
Cray e estudaremos dois processadores simples, porm inovadores.
Tabela de Multiplicadores
Multiplicador Abreviatura Valor
Kilo

10^3

Mega

10^6

Giga

10^9

Tera

10^12

Peta

10^15

5.10.8 - Computadores Cray


impossvel falar de supercomputadores sem citar o pionerismo das
mquinas fabricadas por Seymour Cray, que j usavam o conceito de
processamento vetorial. Seu primeiro supercomputador foi o CRAY-1, fabricado
em 1976. Era capaz de atingir o pico de 133 Megaflops. Em 1985, lanou o Cray2, com o desempenho de 1,9 Gigaflops. Na poca, esse computador tinha a maior
memria do mundo: 2 Gigabytes. Quantidade gigantesca, mesmo para os
parmetros atuais.
Aps esses marcos, citamos as principais mquinas que a empresa Cray
comercializa nos dias de hoje. Comeamos com o Cray T-90, que usa at 32
processadores vetoriais em paralelo e chega a 60 Gigaflops. Em seguida, est o
Cray T3E, que oferece at 2048 processadores, permitindo alcanar 2,5 Teraflops
e que, em breve, ser substitudo pelo Cray SV2, ainda em fase de projeto.
Finalmente, temos o Cray MTA, (MultiThread Architecture), que pretende
diminuir o trabalho de programao paralela ao oferecer vetorizao e
paralelizao automticas.
O atual topo de linha o Cray SV1, que traz soluo para os conflitantes
problemas de desempenho, preo e escalabilidade. Os supercomputadores, como
de se esperar, so mquinas caras mas que oferecem um grande desempenho.

167

Arquitetura de Computadores

Marcelo Adriano Perecim

Essa caracterstica os torna quase inacessveis para as empresas menores. Fica


ento o dilema: ou gasta-se muito dinheiro e compra-se um computador de alto
desempenho, ou ento economiza-se dinheiro e tenta-se satisfazer-se com
mquinas de desempenho inferior. Pensando nisso, a Cray projetou uma mquina
escalvel, cujo desempenho, de acordo com as necessidades e oramento do
cliente pode ir desde 1,2 Gigaflops at 1 Teraflops (1.000 vezes o desempenho
inicial). Esse computador pode usar desde um processador (4,8 Gigaflops) at
centenas de processadores, quando ento atinge a marca de 1 Teraflops. So
empregados dois tipos de processadores: um processador de alto desempenho
(4,8 Gigaflops), chamado de MSP, e um processador convencional (1,2
Gigaflops). At 6 MSP e at 8 processadores convencionais formam um n. O
sistema pode chegar at 32 ns, resultando em 1 Teraflops. A Figura 1 ilustra a
escalabilidade desse computador.

Figura 1: Escalabilidade do CRAY SV1.


Em 22 de setembro de 1999, a Cray assinou um contrato com diversas
agncias americanas, entre elas a conhecida NSA (National Security Agency),
aquela que trata, dentre outros temas, das limitaes na exportao de programas
de criptografia, para construir o SV2, que substituir o Cray T3E. Este novo
computador contar com novos processadores vetoriais e pretende atingir
algumas dezenas de Teraflops. A tabela a seguir apresenta uma comparao de
velocidade entre os principais computadores Cray.

Figura 2: Desempenho (em Gigaflops).

168

Vous aimerez peut-être aussi