Vous êtes sur la page 1sur 46

¿Como funciona una CPU?

Introducción.

A pesar de que cada microprocesador tiene su propio diseño interno, todos los microprocesadores
comparten un mismo concepto básico - lo que vamos a explicar en este tutorial. Vamos a echar un
vistazo dentro de una arquitectura de CPU genérica, por lo que será capaz de entender más acerca de
Intel y los productos de AMD y las diferencias entre ellos.
La CPU (Unidad de Procesamiento Central) - que también se llama microprocesador o procesador - es
el encargado de procesamiento de datos. Cómo se va a procesar los datos dependerán del programa. El
programa puede ser una hoja de cálculo, un procesador de textos o un juego: para la CPU no hace
ninguna diferencia, ya que no entiende lo que el programa está haciendo realidad. Se limita a seguir las
órdenes (llamados comandos o instrucciones) contenidas dentro del programa. Estas órdenes pueden
ser para agregar dos números o para enviar un pedazo de datos a la tarjeta de vídeo, por ejemplo.
Al hacer doble clic en un icono para ejecutar un programa, esto es lo que sucede:
1. El programa, que se almacena dentro de la unidad de disco duro, se transfiere a la memoria RAM.
Un programa es una serie de instrucciones a la CPU.
2. La CPU, utilizando un circuito llamado controlador de memoria, carga los datos de programa de la
memoria RAM.
3. Los datos, ahora dentro de la CPU, se procesa.
4. ¿Qué pasa después dependerá del programa. La CPU podría continuar para cargar y ejecutar el
programa o podría hacer algo con los datos procesados, como mostrar algo en la pantalla.

Click para agrandar


Figura 1: Cómo los datos almacenados se transfiere a la CPU.

En el pasado, la CPU controla la transferencia de datos entre la unidad de disco duro y la memoria
RAM. Desde la unidad de disco duro es más lenta que la memoria RAM, esto ralentiza el sistema, ya
que la CPU sería ocupado hasta que todos los datos se transfieren desde la unidad de disco duro a la
memoria RAM. Este método se llama PIO, procesador de E / S (o E / S programada). Hoy en día la
transferencia de datos entre la unidad de disco duro y la memoria RAM en efectúen sin utilizar la CPU,
lo que hace el sistema más rápido. Este método se llama control por bus o DMA (Direct Memory
Access). Con el fin de simplificar el dibujo, no hemos puesto el chip puente norte entre la unidad de
disco duro y la memoria RAM en la Figura 1, pero está ahí. Los procesadores de AMD basados en
sockets 754, 939 y 940 (Athlon 64, Athlon 64 X2, Athlon 64 FX, y algunos modelos Opteron Sempron)
tienen un controlador de memoria integrado. Esto significa que para estos procesadores la CPU accede
a la memoria RAM directamente, sin usar el chip puente norte muestra en la Figura 1.

Reloj.

Entonces, ¿qué es el reloj de todos modos? Reloj es una señal usada para sincronizar las cosas dentro
de la computadora. Echar un vistazo en la Figura 2, donde se muestra una señal de reloj típico: es una
onda cuadrada se cambia de "0" a "1" a una tasa fija. En esta figura se puede ver a tres ciclos de reloj
completos ( "clics"). Al comienzo de cada ciclo es cuando la señal de reloj de "0" a "1"; marcamos esto
con una flecha. La señal de reloj se mide en una unidad llamada Hertz (Hz), que es el número de ciclos
de reloj por segundo. Un reloj de 100 MHz significa que en un segundo hay 100 millones de ciclos de
reloj.

Figura 2: Señal de reloj.


En el ordenador, todos los tiempos se miden en términos de ciclos de reloj. Por ejemplo, una memoria
RAM con una latencia "5" significa que se retrasará cinco ciclos de reloj completos para iniciar la
entrega de datos. Dentro de la CPU, todas las instrucciones retrasan un cierto número de ciclos de reloj
a realizar. Por ejemplo, una instrucción dada puede retrasar siete ciclos de reloj para ser completamente
ejecutada.
En cuanto a la CPU, lo interesante es que la CPU sabe cuántos ciclos de reloj cada instrucción tomarán,
ya que tiene una tabla que enumera esta información. Así que si tiene dos instrucciones a ser ejecutadas
y se sabe que el primero será retrasar siete ciclos de reloj para ser ejecutado, se iniciará
automáticamente la ejecución de la siguiente instrucción en el ciclo de reloj 8º. Por supuesto, esta es
una explicación genérico para una CPU con una sola unidad de ejecución - procesadores modernos
tienen varias unidades de ejecución que trabajan en paralelo y que podría ejecutar la segunda
instrucción, al mismo tiempo que la primera, en paralelo. Esto se conoce como la arquitectura
superescalar y vamos a hablar más sobre esto más adelante.
Por lo tanto, lo que el reloj tiene que ver con el rendimiento? Y pensar que el reloj y el rendimiento es
el mismo que es el error más común acerca de los procesadores.
Si se comparan dos CPU completamente idénticos, la que corría a una velocidad de reloj más alta será
más rápido. En este caso, con una velocidad de reloj más alta, el tiempo entre cada ciclo de reloj será
más corto, así que las cosas van a ser realizado en menos tiempo y el rendimiento será mayor. Pero
cuando lo hace comparar dos procesadores diferentes, esto no es necesariamente cierto.
Si se obtienen dos procesadores con arquitecturas diferentes - por ejemplo, dos fabricantes diferentes,
como Intel y AMD - cosas dentro de la CPU son completamente diferentes.
Como hemos mencionado, cada instrucción tarda un cierto número de ciclos de reloj para ser
ejecutado. Digamos que el procesador "A" toma siete ciclos de reloj para realizar una instrucción dada,
y que el procesador "B" toma cinco ciclos de reloj para realizar esta misma instrucción. Si se están
ejecutando en la misma frecuencia de reloj, el procesador "B" será más rápido, ya que puede procesar
esta instrucción es menos tiempo.
Para los CPU modernos hay mucho más en el juego el rendimiento, ya que las CPUs tienen diferente
número de unidades de ejecución, diferentes tamaños de caché, diferentes formas de transferencia de
datos dentro de la CPU, diferentes formas de procesar las instrucciones dentro de las unidades de
ejecución, diferentes velocidades de reloj con la mundo exterior, etc., no se preocupe; vamos a cubrir
todo lo que en este tutorial.
Como la señal de reloj del procesador se hizo muy alta, un problema apareció. La placa base donde está
instalado el procesador no podía trabajar con la misma señal de reloj. Si nos fijamos en una placa base,
verá varias pistas o caminos. Estas pistas son cables que conectan los diversos circuitos de la
computadora. El problema es que con velocidades de reloj más altas, estos cables comenzaron a
trabajar como antenas, para que la señal, en vez de llegar en el otro extremo del alambre, simplemente
desaparecería, que se transmite como ondas de radio.
Figura 3: Los cables de la placa base pueden funcionar como antenas.

Reloj externo.

Por lo que los fabricantes de CPU comenzaron a utilizar un nuevo concepto, denominado
multiplicación de reloj, que comenzó con el procesador 486DX2. Bajo este esquema, que se utiliza en
todas las CPU en la actualidad, la CPU tiene un reloj externo, que se usa cuando la transferencia de
datos hacia y desde la memoria RAM (utilizando el chip puente norte), y un reloj interno superior.
Para dar un ejemplo real, en un Pentium 4 a 3,4 GHz esta "3.4 GHz" se refiere al reloj interno de la
CPU, que se obtiene multiplicando por 17 su reloj externo 200 MHz. Nos ilustra este ejemplo en la
figura 4.

Figura 4: Interna y relojes externos en un Pentium 4 a 3,4 GHz.

La gran diferencia entre el reloj interno y el reloj externo en las CPU moderna es un gran obstáculo
para superar con el fin de aumentar el rendimiento del equipo. Continuando con el ejemplo Pentium 4
3,4 GHz, se ha de reducir su velocidad de 17x cuando se tiene que leer datos de la memoria RAM!
Durante este proceso, que funciona como si fuera una CPU 200 MHz!
Se utilizan varias técnicas para minimizar el impacto de esta diferencia de reloj. Uno de ellos es el uso
de un caché de memoria dentro de la CPU. Otra es la transferencia de más de un fragmento de datos
por ciclo de reloj. Los procesadores de AMD e Intel utilizan esta característica, pero mientras que las
CPUs AMD transfieren dos datos por ciclo de reloj, la transferencia de las CPU Intel cuatro datos por
ciclo de reloj.

Figura 5: Transferencia de datos de más de una por ciclo de reloj.

Debido a que, CPUs AMD se enumeran como teniendo el doble de sus relojes externos reales. Por
ejemplo, una CPU AMD con un reloj externo 200 MHz se muestra como 400 MHz. Lo mismo sucede
con las CPU Intel: una CPU Intel con un reloj externo 200 MHz aparece como tener un reloj externo de
800 MHz.
La técnica de transmisión, dos datos por ciclo de reloj se llama DDR (Dual Data Rate), mientras que el
modelo de transferencia de datos de cuatro por ciclo de reloj se llama QDR (Quad Data Rate).

Diagrama de bloques de una CPU.


En la figura 6 se puede ver un diagrama de bloques básico de una CPU moderna. Hay muchas
diferencias entre AMD y arquitecturas Intel (Pentium 4 leer Dentro Arquitectura para una vista
detallada de la arquitectura Pentium 4). La comprensión del diagrama de bloques básico de una CPU
moderna es el primer paso para entender cómo las CPUs de Intel y AMD trabajan y las diferencias
entre ellos.

Figura 6: diagrama de bloques básico de una CPU.

La línea de puntos en la Figura 6 representa el cuerpo de la CPU, como la memoria RAM se encuentra
fuera de la CPU. La ruta de datos entre la memoria RAM y la CPU es por lo general de 64 bits de
ancho (o 128 bits cuando se utiliza la configuración de memoria de doble canal), corriendo el reloj de
memoria o el reloj externo de la CPU, lo que es más baja. El número de bits utilizados y la frecuencia
de reloj se pueden combinar en una velocidad de transferencia de unidad llamada, medida en MB / s.
Para calcular la velocidad de transferencia, la fórmula es el número de bits x reloj / 8. Para un sistema
utilizando memorias DDR400 en la configuración de un solo canal (64 bits) la tasa de transferencia de
la memoria será de 3.200 MB / s, mientras que el mismo sistema utilizando memorias de dos canales
(128 bits) tendrán una tasa de transferencia s 6.400 MB / memoria.
Todos los circuitos en el interior del cuadro punteado se ejecutan en el reloj interno de la CPU.
Dependiendo de la CPU algunas de sus partes internas, incluso puede correr a una velocidad de reloj
más alta. También, el camino de datos entre las unidades de la CPU puede ser más ancha, es decir,
transferir más bits por ciclo de reloj de 64 o 128. Por ejemplo, el camino de datos entre la memoria
caché L2 y la memoria caché de instrucciones L1 en los procesadores modernos es por lo general de
256 bits de ancho. Cuanto mayor sea el número de los bits transferidos por ciclo de reloj, la rápida
transferencia de la que se hará (en otras palabras, la velocidad de transferencia será mayor). En la
Figura 6 se utilizó una flecha roja entre la memoria RAM y la memoria caché L2 y flechas verdes entre
todos los otros bloques para expresar las diferentes velocidades de reloj y el ancho camino de datos
utilizados.

La memoria cache.

La memoria caché es una especie de alto rendimiento de la memoria, también llamada memoria
estática. El tipo de memoria que se utiliza en la memoria RAM del ordenador principal se llama
memoria dinámica. Memoria estática consume más energía, es más caro y es físicamente más grande
que la memoria dinámica, pero es mucho más rápido. Se puede trabajar en el mismo reloj que el CPU,
que la memoria dinámica no es capaz de hacer.
Desde ir al "mundo exterior" para obtener los datos hace que la CPU para funcionar a una velocidad de
reloj más baja, se utiliza la técnica de la memoria caché. Cuando la CPU carga un datos de una
determinada posición de memoria, un circuito llamado controlador de memoria caché (no dibujado en
la figura 6 en el nombre de la simplicidad) se carga en la memoria caché todo un bloque de datos por
debajo de la posición actual de que la CPU tiene acaba de cargar . Desde por lo general programas de
flujo de una forma secuencial, la siguiente posición de memoria de la CPU solicitará será
probablemente la posición inmediatamente debajo de la posición de memoria que sólo se ha cargado.
Dado que el controlador de memoria caché ya cargado una gran cantidad de datos por debajo de la
primera posición de memoria leído por la CPU, los próximos datos serán dentro de la memoria caché,
por lo que la CPU no tiene que salir a la calle para tomar los datos: ya está cargado en el interior de la
memoria caché integrada en la CPU, la cual puede acceder a su velocidad de reloj interno.
El controlador de memoria caché está siempre observando la memoria posiciones que se carga y carga
de datos desde varias posiciones de memoria después de la posición de memoria que se acaba de leer.
Para darle un ejemplo real, si los datos de la CPU cargado almacenados en la dirección de 1000, el
controlador de memoria caché se cargarán los datos de direcciones "n" después de que la dirección de
1,000. Este número "n" se llama la página; si un procesador dado está trabajando con páginas de 4 KB
(que es un valor típico), cargará los datos de 4.096 direcciones por debajo de la posición actual de la
memoria de ser carga (dirección 1000 en nuestro ejemplo). Por cierto, 1 KB es igual a 1.024 bytes, por
eso es de 4 KB 4,096 no 4.000. En la Figura 7 se ilustra este ejemplo.

Figura 7: ¿Cómo funciona el controlador de memoria caché?.

Cuanto mayor sea el caché de memoria, mayores serán las posibilidades de que los datos requeridos
por la CPU ya están allí, por lo que la CPU se necesita para acceder directamente a la memoria RAM
con menos frecuencia, lo que aumenta el rendimiento del sistema (sólo recuerda que cada vez que la
CPU necesita acceso la memoria RAM directamente que necesita para bajar su velocidad de reloj para
esta operación).
Que llamamos un "hit" cuando la CPU carga un conjunto de datos necesarios de la memoria caché, y
que llamamos un "miss" si los datos requeridos no está allí y la CPU tiene que acceder a la memoria
RAM del sistema.
L1 y L2 significa "Nivel 1" y "Nivel 2", respectivamente, y se refiere a la distancia que hay desde la
(unidad de ejecución) núcleo de la CPU. Una duda común es la razón por la que tiene tres memorias
caché separadas (cache de datos L1, caché de instrucciones L1 y L2 caché). Prestar atención a la figura
6 y verá que la memoria caché de instrucciones L1 funciona como un "caché de entrada", mientras que
los datos de caché L1 funciona como un "caché de resultados". caché de instrucciones L1 - que suele
ser menor que la caché L2 - es particularmente eficaz cuando el programa empieza a repetir una
pequeña parte de ella (circular), porque las instrucciones requeridas estarán más cerca de la unidad de
obtención de información.
En la página de especificaciones de una CPU la caché L1 se puede encontrar con diferentes tipos de
representación. Algunos fabricantes lista de los dos caché L1 separado (algunas veces llaman a la caché
de instrucciones como "I" y la caché de datos como "D"), algunos añaden la cantidad de los dos y
escribe "separados" - por lo que un "128 KB, separa" significaría caché de instrucciones de 64 KB de
datos y la memoria caché de 64 KB -, y algunos sólo tiene que añadir los dos y usted tiene que adivinar
que es la cantidad total y se debe dividir por dos para obtener la capacidad de cada caché. La
excepción, sin embargo, va a las CPUs Pentium 4 y Celeron basados en nuevos sockets 478 y 775.
Los procesadores Pentium 4 (y los procesadores Celeron utilizando sockets 478 y 775) no tienen una
caché de instrucciones L1, en cambio, tienen un caché de ejecución de traza, que es una memoria caché
situada entre la unidad de decodificación y la unidad de ejecución. Por lo tanto, la caché de
instrucciones L1 está ahí, pero con un nombre diferente y una ubicación diferente. Mencionamos esto
aquí porque este es un error muy común, pensar que los procesadores Pentium 4 no tienen caché de
instrucciones L1. Así que cuando se comparan Pentium 4 CPU a otras personas podría pensar que su
caché L1 es mucho más pequeño, ya que sólo están contando el 8 KB de caché de datos L1. El caché
de ejecución rastro de Pentium 4 y Celeron CPU es de 150 KB y debe ser tomado en cuenta, por
supuesto.

Derivación. (branching)

Como hemos mencionado varias veces, uno de los principales problemas para la CPU está teniendo
demasiados errores de caché, ya que la unidad se ha podido recuperar debe acceder directamente a la
memoria RAM lenta, lo que ralentiza el sistema.
Por lo general, el uso de la memoria caché evita esto mucho, pero hay una situación típica en la que se
perderá el controlador de memoria caché: ramas. Si en medio del programa no es una instrucción de
llamada JMP ( "saltar" o "ir a") que envía el programa a una posición de memoria completamente
diferente, esta nueva posición no será cargado en la memoria caché L2, por lo que la zona de alcance
unidad para ir a buscar esa posición directamente en la memoria RAM. Para resolver este problema, el
controlador de memoria caché de CPU modernas analizar el bloque de memoria se carga y cada vez
que encuentra una instrucción JMP allí se carga el bloque de memoria para esa posición en la memoria
caché L2 antes de la CPU alcanza esa instrucción JMP.

Figura 8: situación ramificación incondicional.

Esto es bastante fácil de implementar, el problema es cuando el programa tiene una bifurcación
condicional, es decir, la dirección del programa debe ir a depende de una condición aún no se conoce.
Por ejemplo, si a = <B Ir a la dirección 1, o si a> b ir a la dirección 2. Se ilustra este ejemplo en la
figura 9. Esto haría un error de caché, ya que los valores de a y b son desconocidos y la memoria caché
controlador estaría buscando sólo para las instrucciones JMP-como. La solución: el controlador de
memoria caché de carga ambas condiciones en la memoria caché. Más tarde, cuando la CPU procesa la
instrucción de ramificación, simplemente descartar el que no fue elegido. Es mejor cargar el caché de
memoria con datos innecesarios que acceder directamente a la memoria RAM.

Figura 9: situación de bifurcación condicional.

Instrucciones de procesamiento.

La unidad se ha podido recuperar está a cargo de las instrucciones de carga de la memoria. En primer
lugar, se verá si la instrucción requerida por la CPU se encuentra en la caché de instrucciones L1. Si no
lo es, se va a la memoria caché L2. Si la instrucción es también no existe, entonces tiene que cargar
directamente desde la memoria RAM del sistema lento.

Al encender la computadora, todos los cachés están vacías, por supuesto, pero a medida que el sistema
empieza a cargar el sistema operativo, la CPU comienza a procesar las primeras instrucciones cargados
desde el disco duro, y el controlador de memoria caché empieza a cargar las memorias caché, y el
espectáculo comienza.

Después de que la unidad ha podido recuperar agarró la instrucción requerida por la CPU a procesar, lo
envía a la unidad de decodificación.

La unidad de decodificación A continuación, averiguar lo que hace que la instrucción particular. Lo


hace mediante la consulta de una memoria ROM que existe dentro de la CPU, llamado microcódigo.
Cada instrucción que comprende una CPU dada tiene su propio microcódigo. El microcódigo se
"enseñar" a la CPU qué hacer. Es como una guía paso a paso para cada instrucción. Si la instrucción es
cargada, por ejemplo, añadir a + b, su microcódigo le indicará la unidad de decodificación que necesita
dos parámetros, a y b. La unidad de decodificación solicitará entonces la unidad de captación al agarrar
los datos presentes en los próximos dos posiciones de memoria, que se ajustan los valores de a y b.
Después de la unidad de decodificación "traduce" la instrucción y agarró todos los datos necesarios
para ejecutar la instrucción, que va a pasar todos los datos y el "libro de cocina paso a paso" en la
forma de ejecutar esa instrucción a la unidad de ejecución.

La unidad de ejecutar finalmente ejecutar la instrucción. En las CPUs modernas se encuentra más de
una unidad de ejecución que trabajan en paralelo. Esto se hace con el fin de aumentar el rendimiento
del procesador. Por ejemplo, una CPU con seis unidades de ejecución puede ejecutar seis instrucciones
en paralelo, por lo que, en teoría, se podría lograr el mismo rendimiento de los seis procesadores con
sólo una unidad de ejecución. Este tipo de arquitectura se llama arquitectura superescalar.

Por lo general, los CPU modernos no tienen varias unidades de ejecución idénticas; que tienen
unidades de ejecución especializados en un tipo de instrucciones. El mejor ejemplo es la FPU, Float
unidad de coma, que es el encargado de ejecutar instrucciones matemáticas complejas. Por lo general,
entre la unidad de decodificación y la unidad de ejecución hay una unidad (llamada expedición o
unidad de programación) el encargado de enviar la instrucción de la unidad de ejecución correcta, es
decir, si la instrucción es una instrucción de matemáticas lo enviará a la FPU y no a una unidad de
ejecución "genérico". Por cierto, las unidades de ejecución "genéricas" se llaman ALU, aritmética y la
unidad lógica.
Finalmente, cuando el procesamiento es más, el resultado se envía a la memoria caché de datos L1.
Continuando con nuestro complemento a + b ejemplo, el resultado sería enviado a la caché de datos L1.
Este resultado puede ser enviado de regreso a la memoria RAM o en otro lugar, ya que la tarjeta de
vídeo, por ejemplo. Pero esto dependerá de la siguiente instrucción que va siguiente (la siguiente
instrucción podría ser "imprimir el resultado en la pantalla") para ser procesado.
Otra característica interesante que todos los microprocesadores tienen desde hace mucho tiempo se
llama "pipeline", que es la capacidad de tener varias instrucciones diferentes en diferentes etapas de la
CPU al mismo tiempo.
Después de que la unidad se ha podido recuperar la instrucción enviada a la unidad de decodificación,
que va a estar inactivo, ¿verdad? Así que, ¿qué tal vez de no hacer nada, poner la unidad de captación
al agarrar la siguiente instrucción? Cuando la primera instrucción va a la unidad de ejecución, la unidad
se ha podido recuperar puede enviar la segunda instrucción a la unidad de decodificación y agarrar la
tercera instrucción, y así sucesivamente.
En una CPU moderna con una tubería de 11 etapas (etapa es otro nombre para cada unidad de la CPU),
es probable que tenga 11 instrucciones en su interior, al mismo tiempo, casi todo el tiempo. De hecho,
ya que todas las CPU modernas tienen una arquitectura superescalar, el número de instrucciones de
forma simultánea dentro de la CPU será aún mayor.
Además, para una tubería CPU 11-etapa, una instrucción a ejecutar plenamente tendrá que pasar a
través de 11 unidades. Cuanto mayor sea el número de etapas, mayor es el tiempo de una instrucción
retrasará para ser completamente ejecutada. Por otra parte, tener en cuenta que debido a este concepto
de varias instrucciones se pueden ejecutar dentro de la CPU al mismo tiempo. La primera instrucción
cargada por la CPU puede demorar 11 pasos para salir de ella, pero una vez que se apaga, la segunda
instrucción va a salir justo después de que (y no otros 11 pasos más adelante).
Hay varios otros trucos utilizados por los CPU modernos para aumentar el rendimiento. Vamos a
explicar dos de ellos, fuera de la orden de ejecución (OOO) y la ejecución especulativa.

EJECUCION FUERA DE ORDEN (OOO)

Recuerde que nos dice que las CPU modernas tienen varias unidades de ejecución que trabajan en
paralelo? También dijimos que hay diferentes tipos de unidades de ejecución, como la ALU, que es una
unidad de ejecución genérico, y FPU, que es una unidad de ejecución de matemáticas. Así como un
ejemplo genérico con el fin de entender el problema, vamos a decir que una CPU dado tiene seis
motores de ejecución, cuatro "genéricas" y dos FPU. Digamos también que el programa tiene el
siguiente flujo de instrucciones en un momento dado:
1. instrucciones genéricas
2. instrucciones genéricas
3. La instrucción genérica
4. instrucciones genéricas
5. instrucciones genéricas
6. instrucciones genéricas
7. instrucción de matemáticas
8. instrucciones genéricas
9. instrucciones genéricas
10. instrucción de matemáticas
¿Lo que sucederá? La unidad de programación / expedición enviará las primeras cuatro instrucciones a
los cuatro ALU pero luego, en la quinta instrucción, la CPU tendrá que esperar a que uno de sus ALU
ser libre con el fin de continuar el proceso, ya que todos sus cuatro unidades de ejecución genéricos
están ocupados. Eso no es bueno, porque todavía tenemos dos unidades de matemáticas (FPU)
disponibles, y ellos están ociosos. Por lo tanto, una CPU con ejecución fuera de orden (todas las CPU
modernas tienen esta característica) se verá en la siguiente instrucción para ver si se puede enviar a una
de las unidades inactivas. En nuestro ejemplo, no puede, porque la sexta instrucción también necesita
una ALU para ser procesado. El motor fuera de orden continúa su búsqueda y se entera de que el
séptimo instrucción es una instrucción de matemáticas que se puede ejecutar en una de las FPU
disponible. Desde la otra FPU seguirá estando disponible, se vaya por el programa en busca de otra
instrucción de matemáticas. En nuestro ejemplo, pasará las ocho y las instrucciones noveno y el décimo
se carga la instrucción.
Por lo tanto, en nuestro ejemplo, las unidades de ejecución será de proceso, al mismo tiempo, la
primera, la segunda, la tercera, la cuarta, la séptima y la décima instrucciones.
El nombre fuera de orden viene del hecho de que la CPU no es necesario esperar; se puede tirar de una
instrucción de la parte inferior del programa y procesarla antes de que las instrucciones anteriores que
se procesan. Por supuesto, el motor fuera de orden no puede ir siempre en busca de una instrucción si
no puede encontrar uno. El motor fuera de orden de todas las CPU tiene un límite de profundidad en la
que se puede rastrear en busca de instrucciones (un valor típico sería 512).

EJECUCION ESPECULATIVA.

Supongamos que una de estas instrucciones genéricas es una bifurcación condicional. ¿Qué va a hacer
el motor para fuera de? Si la CPU implementa una función denominada ejecución especulativa (todas
las CPU modernas lo hacen), se ejecutará ambas ramas. Considere el siguiente ejemplo:
1. instrucciones genéricas
2. instrucciones genéricas
3. si a = <b ir a la instrucción 15
4. instrucciones genéricas
5. instrucciones genéricas
6. instrucciones genéricas
7. instrucción de matemáticas
8. instrucciones genéricas
9. instrucciones genéricas
10. instrucción de matemáticas
...
15. instrucción de matemáticas
16. instrucciones genéricas
...
Cuando el motor fuera de orden análisis de este programa, que se tire de instrucciones 15 en una de las
FPU, ya que necesitará uno de matemáticas para llenar una de las FPU que de otro modo sería ocioso.
Así que en un momento dado podríamos tener dos ramas que se está procesando al mismo tiempo. Si
cuando la CPU termina de procesar la tercera instrucción a es mayor que b, la CPU sencilla descartar el
procesamiento de la instrucción 15. Usted puede pensar que esto es una pérdida de tiempo, pero en
realidad no lo es. No cuesta nada a la CPU para ejecutar esa instrucción particular, debido a que la FPU
sería de otro modo inactivo de todos modos. Por otro lado, si a = <b la CPU tendrá un aumento de
rendimiento, ya que cuando la instrucción 3 pide instrucción 15 será ya procesados, ir directamente a la
instrucción de 16 o incluso más, si la instrucción 16 también ha sido ya procesado por el motor fuera de
orden.
Por supuesto, todo lo que se explica en este tutorial es una simplificación durante el fin de hacer de este
tema muy técnico más fácil de entender. (Lea el interior Pentium 4 Arquitectura con el fin de estudiar la
arquitectura de un procesador específico).

DENTRO DE LA ARQUITECTURA DEL PEMTIUM 4.

introducción.

En este tutorial vamos a explicar cómo Pentium 4 obras en un fácil seguir el lenguaje. Usted aprenderá
exactamente cómo funciona su arquitectura por lo que será capaz de comparar de manera más precisa a
los procesadores anteriores de Intel y los competidores de AMD.
Pentium 4 y Celeron nueva arquitectura de procesadores utilizan séptima generación de Intel, también
llamado de Netburst. Su aspecto general se puede ver en la figura 1. No se asuste. Vamos a explicar
profundamente lo que este diagrama se trata.
Con el fin de continuar, sin embargo, es necesario haber leído "Cómo funciona una CPU" .Ther
explicar los conceptos básicos acerca de cómo funciona una CPU. En el presente tutorial asumimos que
ya ha leído, así que si no lo hizo, por favor tome un momento para leer antes de continuar, de lo
contrario usted puede encontrarse un poco perdido.

Figura 1: Pentium 4 diagrama de bloques.

Aquí están las diferencias básicas entre el Pentium 4 arquitectura y la arquitectura de otras CPUs:
• Externamente, Pentium 4 transferencias cuatro datos por ciclo de reloj. Esta técnica se llama QDR
(Quad Data Rate) y hace que el bus local para tener un rendimiento cuatro veces su tasa de reloj real,
véase la tabla siguiente. En la figura 1 se muestra en este "System Interface 3.2 GB / s"; ya que esta
diapositiva se produce cuando el primer Pentium 4 fue puesto en libertad, se menciona el bus del
sistema "400 MHz".

Real Clock Performance Transfer Rate

100 MHz 400 MHz 3.2 GB/s

133 MHz 533 MHz 4.2 GB/s

200 MHz 800 MHz 6.4 GB/s

266 MHz 1,066 MHz 8.5 GB/s

• El camino de datos entre la memoria caché de nivel 2 ( "caché L2 y control" en la Figura 1) y caché
de datos L1 ( "L1 D-caché y D-TLB" en la Figura 1) es de 256 bits de ancho. En los procesadores
anteriores de Intel este camino de datos fue de sólo 64 bits. Así que esta comunicación puede ser cuatro
veces más rápido que los procesadores de generaciones anteriores cuando se ejecuta en el mismo reloj.
El camino de datos entre la memoria caché L2 ( "caché L2 y control" en la Figura 1) y la unidad de
solicitud previa ( "CEL & I-TLB" en la Figura 1), sin embargo, sigue siendo de 64 bits de ancho.
• La caché de instrucciones L1 fue reubicada. En lugar de ser antes de que la unidad de búsqueda, la
caché de instrucciones L1 es ahora después de la unidad de decodificación, con un nuevo nombre,
"Trace Cache". Esta caché de rastreo puede contener hasta 12 K microinstrucciones. Dado que cada
microinstrucción es 100 bits de ancho, la memoria caché de rastreo es de 150 KB (12 K x 100/8). Uno
de los errores más comunes que se cometen al comentar la arquitectura Pentium 4 está diciendo que
Pentium 4 no tiene ninguna caché de instrucciones en absoluto. Eso no es absolutamente cierto. Es allí,
pero con un nombre diferente y una ubicación diferente.
• En Pentium 4 hay 128 registros internos, en los procesadores de Intel 6ª generación (como el Pentium
II y Pentium III) sólo había 40 registros internos. Estos registros están en la Unidad de renombrado de
registros (RAT alias, el registro de alias de la tabla, se muestra como "Cambiar nombre / Alloc" en la
Figura 1).
• Pentium 4 cuenta con cinco unidades de ejecución que trabajan en paralelo y dos unidades de carga y
almacenamiento de datos en la memoria RAM.

Por supuesto, esto es sólo un resumen para los que ya tiene algún conocimiento sobre la arquitectura de
otros procesadores. Si todo esto parezca griego para usted, no se preocupe. Vamos a explicar todo lo
que necesita saber acerca de la arquitectura Pentium 4 en un lenguaje fácil de seguir en las páginas
siguientes.

Pentium 4 Pipeline
Pipeline es una lista de todas las etapas de una instrucción dada debe ir a través con el fin de dar cabal
ejecución. En los procesadores Intel 6ª generación, como el Pentium III, su línea tenía 11 etapas.
Pentium 4 tiene 20 etapas! Así, en un procesador Pentium 4 una instrucción dada lleva mucho más
tiempo para ser ejecutado a continuación, en un Pentium III, por ejemplo! Si usted toma los nuevos
procesadores Pentium 4 de generación de 90 nm, con nombre en código "Prescott", el caso es aún peor,
ya que utilizan una tubería de 31 etapas! ¡Santo cielo!
Esto se hizo con el fin de aumentar la velocidad de reloj del procesador. Al tener más etapas cada etapa
individual se puede construir usando un menor número de transistores. Con un menor número de
transistores es más fácil de conseguir velocidades de reloj más altas. De hecho, el Pentium 4 sólo es
más rápido que el Pentium III, ya que funciona a una velocidad de reloj más alta. Bajo la misma
velocidad de reloj, una CPU Pentium III sería más rápido que un Pentium 4, debido al tamaño de la
tubería.
Debido a eso, Intel ya ha anunciado que sus procesadores de la generación de 8º utilizarán la
arquitectura Pentium M, que se basa en la arquitectura de 6ª generación de Intel (Pentium III
arquitectura) y no en la de Netburst (Pentium 4) arquitectura.
En la figura 2 se puede ver Pentium 4 ducto 20 etapas. Hasta el momento no lo hizo Intel tubería 31
etapas divulgación de Prescott, por lo que no se puede hablar de ello.

Figura 2: Pentium 4 pipeline.

He aquí una explicación básica de cada etapa, lo que explica cómo una instrucción dada es procesada
por los procesadores Pentium 4. Si usted piensa que esto es demasiado complejo para usted, no se
preocupe. Esto es sólo un resumen de lo que estaremos explicando en las páginas siguientes.
• TC Nxt IP: Traza caché puntero siguiente instrucción. Esta etapa se ve en tampón objeto de
bifurcación (BTB) para la siguiente microinstrucción a ser ejecutado. Esta etapa tiene dos etapas.
• TC Fetch: Traza caché obtención de información. Cargas, desde la caché de rastreo, este
microinstrucción. Esta etapa tiene dos etapas.
• Drive: Envía la microinstrucción a ser procesados para el asignador de recursos y renombrado de
registros circuito.
• Alloc: Asignar. Los cheques que serán necesarios recursos de la CPU por la microinstrucción - por
ejemplo, los tampones de carga de memoria y almacenar.
• Cambiar nombre: Si el programa utiliza uno de los ocho x86 estándar registra será renombrado en uno
de los 128 registros internos presentes en los procesadores Pentium 4. Esta etapa tiene dos etapas.
• Que: Cola. Las microinstrucciones se ponen en colas en consecuencia a sus tipos (por ejemplo,
número entero o de coma flotante). Se llevan a cabo en la cola hasta que hay una ranura abierta del
mismo tipo en el planificador.
• Sch: Programación. Microinstrucciones están programados para ser ejecutados de acuerdo a su tipo
(número entero, punto flotante, etc). Antes de llegar a esta etapa, todas las instrucciones están en orden,
es decir, en el mismo orden en que aparecen en el programa. En esta etapa, el planificador reordena las
instrucciones con el fin de mantener todas las unidades de ejecución completa. Por ejemplo, si hay una
unidad de coma flotante que va a estar disponible, el programador busque una instrucción de punto
flotante para enviarlo a esta unidad, incluso si la siguiente instrucción en el programa es un número
entero uno. El planificador es el corazón del motor fuera de fin de procesadores Intel 7ª generación.
Esta etapa tiene tres etapas.
• Disp: Despacho. Envía los microinstrucciones a sus motores de ejecución correspondientes. Esta
etapa tiene dos etapas.
• RF: banco de registros. Los registros internos, almacenados en la piscina instrucciones, se leen. Esta
etapa tiene dos etapas.
• Ejemplo: Ejecutar. Microinstrucciones se ejecutan.
• FLGS: Flags. Las banderas de microprocesadores se actualizan.
• Br Ck: Rama de verificación. Comprueba si la rama tomada por el programa es el mismo predicho
por el circuito de predicción de saltos.
• Drive: Envía los resultados de esta comprobación en el búfer de destino del salto (BTB) presente en la
entrada del procesador.

MEMORIA CACHE Y UNIDAD DE RECUPERACION.

Pentium 4 de la memoria caché L2 puede ser de 256 KB, 512 KB, 1 MB o 2 MB, dependiendo del
modelo. caché de datos L1 es de 8 KB o 16 KB (sobre 90 modelos nm).
Como explicamos antes, la caché de instrucciones L1 se había ido delante de la unidad de obtención
para después de la unidad de decodificación utilizando un nuevo nombre, "caché traza". Así, en lugar
de almacenar instrucciones de programa para ser cargado por la unidad de búsqueda, las
microinstrucciones caché almacena traza ya decodificados por la unidad de decodificación. El caché de
rastreo puede almacenar hasta 12K microinstrucciones y desde Pentium 4 microinstrucciones son de
100 bits de ancho, el caché de seguimiento es de 150 KB (12.288 x 100/8).
La idea detrás de esta arquitectura es muy interesante. En el caso de un bucle en el programa (un bucle
es una parte de un programa que necesita ser repetido varias veces), se descodifican ya las
instrucciones a ser ejecutadas, ya que se almacenan ya decodificados en la memoria caché de rastreo.
En otros procesadores, las instrucciones que necesitan ser cargados desde la memoria caché de
instrucciones L1 y decodificada de nuevo, incluso si fueron decodificados unos momentos antes.
El caché de seguimiento tiene también su propia BTB (Branch Target Buffer) de 512 entradas. BTB es
una pequeña memoria que enumera todas las ramas identificadas en el programa.
En cuanto a la unidad de búsqueda, su BTB se aumentó a 4.096 entradas. En los procesadores Intel 6ª
generación, como el Pentium III, este tampón fue de 512 entradas y en los procesadores Intel de 5ª
generación, al igual que el primer procesador Pentium, este tampón era de sólo 256 entradas.
En la figura 3 se ve el diagrama de bloques para lo que estábamos discutiendo. TLB medios de
traducción de direcciones de búfer.

Figura 3: Fetch y decodificar las unidades y la memoria caché de rastrear.

Descifrador (decoder).

Dado que la generación anterior (6ª generación), procesadores de Intel utilizan una arquitectura CISC
híbrido / RISC. El procesador debe aceptar instrucciones CISC, también conocidos como instrucciones
x86, ya que todo el software disponible en la actualidad está escrito utilizando este tipo de
instrucciones. Un RISC CPU de sólo no se ha podido crear para el PC, ya que no se presentaría el
software que tenemos disponibles en la actualidad, como Windows y Office.
Por lo tanto, la solución utilizada por todos los procesadores disponibles en el mercado hoy en día tanto
de Intel y AMD es el uso de un decodificador CISC / RISC. Internamente, la CPU procesa las
instrucciones RISC-como, pero su front-end acepta instrucciones x86 CISC.
instrucciones x86 CISC son referidos como "instrucciones" que las instrucciones internas RISC se
denominan "microinstrucciones" o "μops".
Estos microinstrucciones RISC, sin embargo, no se puede acceder directamente, por lo que no podrían
crear software basado en estas instrucciones para eludir el decodificador. Además, cada CPU utiliza sus
propias instrucciones RISC, que no son público documentado y son incompatibles con
microinstrucciones de otras CPUs. Es decir, microinstrucciones Pentium III son diferentes de Pentium
4 microinstrucciones, que son diferentes de Athlon 64 microinstrucciones.
Dependiendo de la complejidad de la instrucción x86, que tiene que ser convertido en varias
microinstrucciones RISC.
Pentium 4 decodificador puede decodificar una instrucción x86 por ciclo de reloj, el tiempo que la
instrucción decodifica en hasta cuatro microinstrucciones. Si la instrucción x86 ser decodificado es
compleja y se traduce en más de cuatro microinstrucciones, que se encamina a una memoria ROM
( "ROM de microcódigo" en la Figura 3) que tiene una lista de todas las instrucciones complejas y
cómo deben ser traducido. Esta memoria ROM también se llama MIS (Instrucción microcódigo
secuenciador).
Como dijimos anteriormente, después de haber sido microinstrucciones decodificados son enviados a la
memoria caché de rastreo, y de allí van a una cola de microinstrucciones. El caché de rastreo puede
poner hasta tres microinstrucciones en la cola por ciclo de reloj, sin embargo, Intel no le dice a la
profundidad (tamaño) de esta cola.
A partir de ahí, las instrucciones que van al asignador y el Registro Renamer. La cola también puede
entregar hasta tres microinstrucciones por ciclo de reloj para el asignador.

Asignador y el Registro Renamer (Allocator and Register Renamer)

Lo que hace el asignador:


• Reservas de uno de los 126 tampones de reabastecimiento (ROB) a la microinstrucción en curso, con
el fin de hacer un seguimiento del estado de finalización de microinstrucciones. Esto permite que la
microinstrucción a ser ejecutado fuera de orden, ya que la CPU será capaz de poner en orden de nuevo
mediante el uso de esta tabla.
• Las reservas en una de las 128 archivos de registro (RF) con el fin de almacenar los datos no resulten
de la transformación de microinstrucciones.
• Si la microinstrucción es una carga o una tienda, es decir, se lee (carga) o escribir (almacenar) datos
desde / a la RAM de memoria, se reserva una de las memorias intermedias de carga 48 o una de las 24
tiendas buffers en consecuencia.
• Se reserva una entrada en la memoria o cola general, dependiendo de el tipo de microinstrucción es.
Después de que la microinstrucción va a la etapa de registro de cambio de nombre. arquitectura x86
CISC tiene sólo ocho registros de 32 bits (EAX, EBX, ECX, EDX, EBP, ESI, EDI y ESP). Este número
es demasiado bajo, sobre todo porque los CPU modernos pueden ejecutar código fuera de orden, lo que
sería "matar" el contenido de un registro dado, chocando el programa.
Por lo tanto, en esta etapa, el procesador cambia el nombre y el contenido de los registros utilizados por
el programa en uno de los registros internos 128 disponibles, lo que permite la instrucción para ejecutar
al mismo tiempo de otra instrucción que utiliza exactamente el mismo estándar de registro, o incluso
fuera de orden, es decir, esto permite que la segunda instrucción a ejecutar antes de la primera
instrucción, incluso si se meten con el mismo registro.
Es interesante observar que en realidad tiene Pentium 4 256 registros internos, 128 registros
encontrados para instrucciones de enteros y 128 registros de punto flotante y las instrucciones SSE.
Pentium 4 Renamer es capaz de procesar tres microinstrucciones por ciclo de reloj.
Desde el renombrador las microinstrucciones ir a una cola, de acuerdo a su tipo: cola de memoria, por
microinstrucciones relacionados con la memoria, o entero / coma flotante de cola, para todos los demás
tipos de instrucciones.
Figura 4: Allocator y Registro Renamer.

Las unidades de expedición y de ejecución. (Dispatch and Execution Units)

Como hemos visto, el Pentium 4 tiene cuatro puertos de despacho numeradas del 0 al 3. Cada puerto
está conectado a uno, dos o tres unidades de ejecución, como se puede ver en la figura 6.
Figura 6: Despacho y ejecución de unidades.
Las unidades marcadas como "x2 reloj" pueden ejecutar dos instrucciones por ciclo de reloj micro. Los
puertos 0 y 1 pueden enviar dos instrucciones por ciclo de reloj micro a estas unidades. Por lo que el
número máximo de microinstrucciones que puede ser enviado por ciclo de reloj es de seis:
• Dos microinstrucciones en el puerto 0;
• Dos microinstrucciones en el puerto 1;
• Una microinstrucción en el puerto 2;
• Una microinstrucción en el puerto 3.
Tenga en cuenta que las instrucciones complejas pueden tardar varios ciclos de reloj para ser procesada.
Tomemos un ejemplo de puerto 1, donde se encuentra la unidad de coma flotante completa. Mientras
que esta unidad está procesando una instrucción muy complejo que requiere varios ciclos de reloj para
ser ejecutado, el puerto 1 unidad de despacho no se detendrá: mantendrá el envío de instrucciones
sencillas para la ALU (unidad aritmética y lógica), mientras que el FPU está ocupado.
Así, pese a que la tasa de envío máxima es de seis microinstrucciones, en realidad, la CPU puede tener
hasta siete microinstrucciones que se procesan al mismo tiempo.
En realidad, es por eso que los puertos 0 y 1 tienen más de una unidad de ejecución adjunta. Si se
presta atención, Intel puso en el mismo puerto una unidad rápida junto con al menos un complejo (y
lenta) unidad. Así, mientras que la unidad complejo está ocupada procesando datos, la otra unidad
puede seguir recibiendo microinstrucciones desde su puerto de despacho correspondiente. Como
mencionamos antes, la idea es mantener todas las unidades de ejecución ocupadas todo el tiempo.
La ALU dos dobles velocidad puede procesar dos microinstrucciones por ciclo de reloj. Las otras
unidades necesitan por lo menos un ciclo de reloj para procesar las microinstrucciones que reciben. Por
lo tanto, la arquitectura Pentium 4 está optimizado para las instrucciones simples.
Como se puede ver en la Figura 6, los puertos de despacho 2 y 3 están dedicados a las operaciones de
memoria: carga (leer datos de la memoria) y almacenar (escribir datos en la memoria),
respectivamente. En cuanto a la operación de la memoria, es interesante observar que el puerto 0
también se utiliza durante las operaciones de almacén (véase la Figura 5 y la lista de operaciones en la
figura 6). En este tipo de operaciones, el puerto 3 se utiliza para enviar la dirección de memoria,
mientras que el puerto 0 se utiliza para enviar los datos a ser almacenados en esta dirección. Estos datos
se puede generar ya sea por la ALU o la FPU, dependiendo del tipo de datos a almacenar (entero o de
coma flotante / SSE).
En la Figura 6 que tiene una lista completa de los tipos de instrucciones de cada unidad de ejecución
trata. FXCH y LEA (Carga dirección efectiva) son dos instrucciones x86. En realidad la
implementación de Intel para la instrucción FXCH en los procesadores Pentium 4 causó una gran
sorpresa para todos los expertos, ya que en los procesadores de la generación anterior (Pentium III) y
los procesadores de AMD esta instrucción puede ser ejecutada al ciclo de reloj a cero, mientras que en
los procesadores Pentium 4 que lleva algún ciclos de reloj para ser ejecutados.

Chipsets
Introduction
Después de todo, lo que es un conjunto de chips? ¿Cuáles son sus funciones? ¿Cuál es su importancia?
¿Cuál es su influencia en el rendimiento del equipo? En este tutorial vamos a responder a todas estas
preguntas y más.
Chipset es el nombre dado al conjunto de chips (de ahí su nombre) que se utiliza en una placa base.
En los primeros PC, la placa base utiliza circuitos integrados discretos. Así que un montón de fichas se
necesita para crear todos los circuitos necesarios para hacer funcionar el equipo. En la figura 1 se puede
ver una placa base de un PC XT.
Figura 1: PC XT placa base.
Después de algún tiempo, los fabricantes de chips comenzaron a integrar varias fichas en los chips más
grandes. Así, en lugar de requerir decenas de pequeños chips, una placa base podría ahora ser
construido usando solamente una media docena de fichas grandes.
La integración continuó y alrededor de las placas base mediados de los años 1990 utilizando sólo dos o
incluso un chip grande podría ser construido. En la figura 2 se puede ver una placa base 486 alrededor
del año 1995 con solo dos fichas grandes con todas las funciones necesarias para hacer el trabajo de la
placa base.

Figura 2: A 486 placa base, este modelo sólo utiliza dos chips grandes.
Con el lanzamiento del bus PCI, un nuevo concepto, que todavía se utiliza hoy en día, podría ser
utilizado por primera vez: el uso de puentes. Por lo general, las placas base tienen dos grandes fichas:
puente norte y puente sur. A veces, algunos fabricantes de chips pueden integrar los puentes norte y sur
en un solo chip; en este caso la placa base tendrá sólo un gran circuito integrado!
Con el uso de puentes conjuntos de chips podría ser mejor normalizado, y vamos a explicar el papel de
estos chips en las páginas siguientes.
Conjuntos de chips pueden ser fabricados por varias compañías, como ULi (nuevo nombre de la LPA),
Intel, VIA, SiS, ATI y nVidia. En el pasado otros jugadores estaban en el mercado, como la UMC y
OPTi.
Una confusión común es mezclar el fabricante de chips con el fabricante de la placa. Por ejemplo, sólo
por una placa base utiliza un chipset fabricado por Intel, esto no significa que Intel fabricado esta placa.
ASUS, ECS, Gigabyte, MSI, DFI, Chaintech, PCChips, traslado y también de Intel son sólo algunos de
los muchos fabricantes de placas presentes en el mercado. Por lo tanto, el fabricante de la placa compra
los conjuntos de chips del fabricante de chips y las construye. En realidad no es un aspecto muy
interesante de esta relación. Para construir una placa base, el fabricante puede seguir el proyecto de
norma fabricante del chipset, también conocido como "diseño de referencia", o puede crear su propio
proyecto, modificando algunas cosas aquí y allá con el fin de proporcionar un mejor rendimiento o más
características.

North Bridge
El chip puente norte, también llamada MCH (concentrador controlador de memoria) es conectar
directamente a la CPU y tiene básicamente las siguientes funciones:
• Controlador de memoria (*)
• AGP controlador de bus (si está disponible)
• controlador x16 PCI Express (si está disponible)
• Interfaz para la transferencia de datos con el puente sur
(*) Excepto para el socket 754, socket 939 y el zócalo 940 CPU (CPU de AMD Athlon como 64),
porque en estas CPU del controlador de memoria se encuentra en la propia CPU, no en el puente norte.
Algunos chips de conexión norte también controla carriles PCI Express x1. En otros conjuntos de chips
PCI Express es el puente sur, que controla los carriles PCI Express x1. En nuestras explicaciones
asumiremos que el puente sur es el componente encargado de controlar los carriles PCI Express x1,
pero ten en cuenta que esto puede variar en consecuencia al modelo chipset.
En la figura 3 se puede ver un diagrama que explica el papel del puente del norte en el ordenador.

Figura 3: Puente Norte.


Como se puede ver, la CPU no accede directamente a la memoria RAM o la tarjeta de vídeo, es el
puente norte que tiene acceso a estos dispositivos. Debido a esto, el chip puente norte tiene un papel
fundamental en el rendimiento del equipo. Si un chip puente norte tiene un controlador de memoria
mejor que otro puente norte, el rendimiento de todo el equipo será mejor. Esa es una explicación de por
qué se pueden tener dos placas base dirigidas a la misma clase de procesadores han alcanzado
diferentes actuaciones.
Como hemos mencionado, en las CPU Athlon 64 el controlador de memoria está integrada en la CPU y
por eso casi no hay diferencia de rendimiento entre las placas base para esta plataforma.
Dado que el controlador de memoria se encuentra en el puente norte, este chip es que limita los tipos y
la cantidad máxima de memoria que puede tener en nuestro sistema (el Athlon 64 es el CPU que
establece estos límites).
La conexión entre el puente norte y al sur del puente se realiza a través de un bus. Al principio se
utilizó el bus PCI, pero más tarde fue sustituido por un bus dedicado. Vamos a explicar más sobre esto
más adelante, ya que el tipo de bus que se utiliza en esta conexión puede afectar al rendimiento del
equipo.

South Bridge
El chip puente sur, también llamado ICH ( puerto controlador de E/S ) se conecta al puente norte y se
encarga básicamente de controlar los dispositivos de E / S y los dispositivos de a bordo, como:
• Los puertos de la unidad de disco duro (puertos ATA serie y paralelo)
• puertos USB
• El audio de a bordo (*)
• Red local (**)
• bus PCI
• carriles PCI Express (si está disponible)
• reloj de tiempo real (RTC)
• La memoria CMOS
• Los dispositivos heredados como controlador de interrupciones y controlador de DMA
(*) Si el puente sur tiene un built-in controlador de audio, necesitará un chip externo llamado códec
(abreviatura de codificador / decodificador) para operar.
(**) Si el puente sur tiene un controlador de red incorporada, necesitará un chip externo llamado PHY
(abreviatura de física) para operar.
El puente sur también está conectado a otros dos chips disponibles en la placa base: el chip ROM, más
conocido como BIOS, y el chip de E / S de Super I, que es el encargado de controlar los dispositivos
heredados como los puertos serie, puerto paralelo y unidad de disquete .
En la Figura 4 se puede ver un diagrama que explica el papel del puente sur en el ordenador.

Figura 4: Puente Sur.


Como se puede ver, mientras que al sur del puente puede tener alguna influencia en el rendimiento del
disco duro, este componente no es tan crítico para el rendimiento como el puente norte. En realidad, el
puente sur tiene más que ver con las características de la placa base tendrá que con el rendimiento. Es
el puente sur, que establece el número (y velocidad) de los puertos USB y el número y tipo (ATA ATA o
Serial regular) de los puertos de unidad de disco duro que contiene la placa base, por ejemplo.

Inter-Bridge Architecture
Cuando el concepto de puente comenzó a ser utilizado, la comunicación entre el puente norte y el
puente sur se llevó a cabo a través de este bus, como se muestra en la Figura 5. El problema de este
enfoque es que el ancho de banda disponible para el bus PCI - 132 MB / s - será compartido entre todos
los dispositivos PCI en el sistema y los dispositivos conectados al puente sur - especialmente unidades
de disco duro. En ese momento, esto no era un problema, ya que los discos duros tasas de transferencia
máximas fueron de 8 MB / s y 16 MB / s.

Figura 5: La comunicación entre el norte y el sur puentes utilizando el bus PCI.


Sin embargo, cuando se pusieron en marcha las tarjetas de vídeo de gama alta (en ese momento, las
tarjetas de vídeo eran PCI) y las unidades de disco duro de alto rendimiento, surgió una situación de
cuello de botella. Basta pensar en / 133 unidades de disco duro ATA modernas, que tienen la misma
tasa de transferencia máxima teórica como el bus PCI! Por lo tanto, en teoría, un disco duro ATA / 133
sería "matar" y todo el ancho de banda, lo que frena la velocidad de comunicación de todos los
dispositivos conectados al bus PCI.
Para las tarjetas de vídeo de gama alta, la solución fue la creación de un nuevo bus conectado
directamente al puente del norte, llamado AGP (Accelerated Graphics Port).
La solución final se produjo cuando los fabricantes de chipset empezaron a utilizar un nuevo enfoque:
el uso de un bus de alta velocidad dedicada entre el norte y el sur puentes y conectar los dispositivos de
bus PCI al puente sur.
Figura 6: La comunicación entre el norte y el sur puentes utilizando un bus dedicado.
Cuando Intel comenzó a utilizar esta arquitectura se comenzó a llamar a los puentes como "centros", el
puente norte se convirtió en MCH (concentrador controlador de memoria) y el puente sur se convirtió
en la ICH (hub controlador I / O). Es sólo una cuestión de nomenclatura con el fin de aclarar la
arquitectura que se está utilizando.
El uso de esta nueva arquitectura, que es la arquitectura que las placas base utilizan hoy en día, cuando
la CPU lee datos de un disco duro, los datos se transfieren desde el disco duro al puente sur, luego al
puente norte (utilizando el bus dedicado) y luego a la CPU (o directamente a la memoria, si el Bus
Mastering - aka DMA - se utiliza el método). Como se puede ver, el bus PCI no se utiliza en absoluto
en este traslado, lo que no sucedió en la arquitectura anterior, ya que el bus PCI estaba en el medio de
la carretera.
La velocidad de este bus dedicado depende del modelo de chipset. Por ejemplo, el conjunto de chips
Intel 925X este autobús tiene una velocidad máxima de transferencia de 2 GB / s. Además, los
fabricantes llaman a este autobús con diferentes nombres:
• Intel: DMI (Direct Media Interface) o arquitectura Intel Hub (*)
• ULi / ALi: HyperTransport
• VIA: V-Link
• SiS: MuTIOL (**)
• ATI: A-Link o PCI Express
• nVidia: HyperTransport (**)
interfaz (*) DMI es más reciente, que se utiliza en los chipsets i915 y i925 en y utiliza dos rutas de
datos separadas, una para la transmisión de datos y otro para la recepción (comunicación full-duplex).
Arquitectura Intel Hub, utilizado por los chips anteriores, utiliza la misma ruta de datos para la
transmisión y recepción (comunicación half-duplex).
(**) Algunos Nvidia y SiS chipsets utilizan sólo un chip, es decir, es decir, las funcionalidades de los
dos puentes norte y sur están integrados en un solo chip.
Asimismo, el Radeon Xpress 200 de ATI, la comunicación entre el norte y el sur puentes utiliza dos
vías PCI Express. Esto no afecta el rendimiento del sistema, porque al contrario de PCI, PCI Express
no se comparte entre todos los dispositivos PCI Express. Es una solución de punto a punto, lo que
significa que el bus sólo conectar dos dispositivos, el receptor y el transmisor; ningún otro dispositivo
se puede conectar a esta conexión. Uno de los carriles se utiliza para la transmisión de datos y el otro
para la recepción de datos (comunicación full-duplex).
bus HyperTransport también utiliza las rutas de datos separadas, una para la transmisión de datos y otro
para la recepción (comunicación full-duplex) ..
Si desea conocer los detalles de un conjunto de chips dado, sólo tiene que ir a la página web del
fabricante del chipset ..
Como último comentario, usted puede preguntarse lo que es "dispositivos PCI de a bordo" que
aparecen en las figuras 5 y 6. Los dispositivos de a bordo tales como LAN y audio puede ser controlado
por el chipset (puente sur) o por un chip controlador adicional. Cuando se utiliza este segundo enfoque,
este chip controlador está conectado al bus PCI.

Placas madre de PC:

Si alguna vez has tomado el caso fuera de una computadora, usted ha visto la una sola pieza de equipo
que une todo - la placa base. Una placa base permite que todas las partes de su computadora para
recibir el poder, se comunican entre sí.
Placas base han recorrido un largo camino en los últimos veinte años. Las primeras placas llevan a cabo
muy pocos componentes reales. La primera placa base del PC IBM tenía sólo un procesador y ranuras
para tarjetas. Usuarios conectados componentes como controladores de unidad de disco y de memoria
en las ranuras. Hoy en día, las placas base típicamente cuentan con una amplia variedad de funciones
integradas, y que afectan directamente a las capacidades y el potencial de una computadora para
actualizaciones.

En este artículo, vamos a ver los componentes generales de una placa base. A continuación, vamos a
examinar de cerca de cinco puntos que afectan dramáticamente lo que un ordenador puede hacer.

Factor de forma

Una placa base por sí mismo no sirve para nada, pero un equipo tiene que tener uno para operar. El
trabajo principal de la placa base es mantener chip microprocesador del ordenador y dejar todo lo
demás conectarse a ella. Todo lo que permite que la computadora o mejora su rendimiento es ya sea
parte de la placa base o se conecta a ella a través de una ranura o puerto.
Una placa base moderna ..
La forma y el diseño de una placa base se llama el factor de forma. El factor de forma afecta al lugar
donde van los componentes individuales y la forma de la carcasa del ordenador. Hay varios factores de
forma específica que la mayoría de las placas base de PC utilizan para que puedan caber todo en los
casos normales. Para una comparación de factores de forma, pasadas y presentes, echa un vistazo a
Motherboards.org.
El factor de forma es sólo uno de los muchos estándares que se aplican a las placas base. Algunas de las
otras normas son:
El zócalo para el microprocesador determina qué tipo de unidad central de procesamiento (CPU)
utiliza la placa base.
El chipset es parte del sistema de la lógica de la placa base y por lo general se compone de dos partes -
el puente norte y puente sur del. Estos dos "puentes" conectan la CPU para otras partes de la
computadora.
El (BIOS) de chips del sistema básico de entrada / salida controla las funciones más básicas de la
computadora y lleva a cabo una auto-prueba cada vez que lo encienda. Algunos sistemas disponen de
doble BIOS, que proporciona una copia de seguridad en caso de que una falle o en caso de error
durante la actualización.
El chip de reloj de tiempo real es un chip funciona con batería que mantiene la configuración básica y
la hora del sistema.
Las ranuras y los puertos que se encuentran en una placa madre incluyen:
Interconexión de componentes periféricos (PCI) - Conexiones para tarjetas de video, de sonido y de
captura de vídeo, así como tarjetas de red
Puerto de gráficos acelerado (AGP) - puerto dedicado para tarjetas de vídeo.
Integrated Drive Electronics (IDE) - interfaces para las unidades de disco duro
Universal Serial Bus o FireWire - periféricos externos
ranuras de memoria
Algunas placas base también incorporan nuevos avances tecnológicos:
Matriz redundante de Discos Independientes (RAID) controladores permiten que el ordenador
reconozca varias unidades como una unidad.
PCI Express es un nuevo protocolo que actúa más como una red que un autobús. Se puede eliminar la
necesidad de otros puertos, incluyendo el puerto AGP.
En lugar de confiar en las tarjetas enchufables, algunas placas base tienen sonido integrado, redes,
video u otro soporte periférico.
Una placa base Socket 754

Mucha gente piensa en la CPU como una de las partes más importantes de una computadora. Vamos a
ver cómo afecta al resto del equipo en la siguiente sección.

Los enchufes y los CPUs

La CPU es la primera cosa que viene a la mente cuando muchas personas piensan acerca de la
velocidad y el rendimiento de un ordenador. Cuanto más rápido sea el procesador, más rápido que la
computadora puede pensar. En los primeros días de las computadoras PC, todos los procesadores tenían
el mismo conjunto de pasadores que conectaría la CPU a la placa base, llamado el Pin Grid Array
(PGA). Estos pines encajan en un diseño llamado zócalo Socket 7. Esto significaba que cualquier
procesador encajaría en cualquier placa base.
Una placa base Socket 939

Hoy, sin embargo, los fabricantes de CPU Intel y AMD utilizan una variedad de PGA, ninguno de los
cuales encajan en Socket 7. A medida que avance microprocesadores, que necesitan más y más pines,
tanto para manejar nuevas funciones y para ofrecer más y más energía al chip.
dispositivos de enchufe hembra actuales a menudo se denominan así por el número de pines en el PGA.
enchufes utilizados son:
Socket 478 - para procesadores Pentium y Celeron de más edad
Socket 754 - para AMD Sempron y algunos procesadores AMD Athlon
Socket 939 - para procesadores más modernos y veloces AMD Athlon
Socket AM2 - para los nuevos procesadores AMD Athlon
Socket A - para procesadores más viejos de AMD Athlon
Una placa base Socket LGA755

El último CPU Intel no tiene un PGA. Tiene una AGL, también conocido como Socket T. LGA
significa Land Grid Arrays. Un LGA es diferente de un PGA en que los pasadores son en realidad parte
de la toma de corriente, y no la CPU.
Cualquier persona que ya tiene una CPU específica en mente debe seleccionar una tarjeta madre basada
en esa CPU. Por ejemplo, si desea utilizar uno de los nuevos chips de varios núcleos fabricados por
Intel o AMD, tendrá que seleccionar una placa base con el zócalo correcto para esos chips. CPU
simplemente no encaja en los zócalos que no coinciden con su PGA.
La CPU se comunica con otros elementos de la placa base a través de un conjunto de chips. Vamos a
ver el conjunto de chips con más detalle a continuación.

Chipsets

El chipset es el "pegamento" que conecta el microprocesador con el resto de la placa base y, por tanto,
para el resto del equipo. En un PC, que consta de dos partes básicas - el puente norte y puente sur del.
Todos los diversos componentes de la computadora comunicarse con la CPU a través del chipset.
El northbridge y southbridge

El puente norte conecta directamente al procesador a través del bus frontal (FSB). Un controlador de
memoria se encuentra en el puente norte, que da a la CPU rápido acceso a la memoria. El puente norte
también se conecta al bus AGP o PCI Express bus y la memoria en sí.
El puente sur es más lento que el puente norte, y la información de la CPU tiene que pasar por el puente
norte antes de llegar al puente sur. Otros buses conectan el puente sur con el bus PCI, los puertos USB
y el IDE o conexiones de disco duro SATA.
la selección y la selección chipset CPU van de la mano, ya que los fabricantes optimizar conjuntos de
chips para trabajar con diferentes CPUs. El chipset es una parte integrada de la placa base, por lo que
no se puede quitar o actualizar. Esto significa que no sólo debe zócalo de la placa base adaptarse a la
CPU, el chipset de la placa base debe funcionar de forma óptima con la CPU.
A continuación, vamos a ver en los autobuses, los cuales, al igual que el conjunto de chips, llevan la
información de un lugar a otro.

Velocidad del bus

Un bus es simplemente un circuito que conecta una parte de la placa base a otra. Cuantos más datos de
un autobús puede manejar a la vez, más rápido se permite que la información viaje. La velocidad del
bus, medida en megahertz (MHz), se refiere a la cantidad de datos se puede mover a través del bus de
forma simultánea.
Los autobuses conectan las diferentes partes de la placa base
a otro
Velocidad del bus por lo general se refiere a la velocidad del bus frontal (FSB), que conecta la CPU con
el puente norte. velocidades de FSB pueden variar desde 66 MHz a más de 800 MHz. Dado que la CPU
alcanza el controlador de memoria aunque el puente norte, velocidad de FSB puede afectar
drásticamente el rendimiento de una computadora.
Éstos son algunos de los otros buses que se encuentran en una placa base: El bus trasero conecta la
CPU con la memoria caché de nivel 2 (L2), también conocido como caché secundario o externo. El
procesador determina la velocidad del bus trasero. El bus de memoria conecta el puente norte a la
memoria. El IDE o bus ATA conecta el puente sur a las unidades de disco. El bus AGP se conecta la
tarjeta de vídeo a la memoria y la CPU. La velocidad del bus AGP es generalmente de 66 MHz. El bus
PCI conecta ranuras PCI para el puente sur. En la mayoría de los sistemas, la velocidad del bus PCI es
33 MHz. También es compatible con PCI PCI Express, que es mucho más rápido que el PCI pero sigue
siendo compatible con software y sistemas operativos actuales. PCI Express es probable que cambiar
los dos buses PCI y AGP.
La velocidad del bus de un equipo más rápido, más rápido se operará - a un punto. Una velocidad de
bus rápido no puede compensar por un procesador lento o conjunto de chips.

El puente del norte

El chip puente norte, también llamada MCH (concentrador controlador de memoria), es conectar
directamente a la CPU y tiene básicamente las siguientes funciones:
• Controlador de memoria (si está disponible)
• controlador PCI Express (si está disponible)
• AGP controlador de bus (si está disponible)
• Interfaz para la transferencia de datos con el chip puente sur
CPU Intel actuales tienen un controlador de memoria integrado y un controlador integrado PCI
Express, lo que significa que estos procesadores tienen un chip integrado puente del norte; Por lo tanto,
no requieren este chip en la placa base. Ver Figura 3. CPUs de AMD tiene un controlador de memoria
integrado, pero no tienen un controlador integrado PCI Express. Debido a que, CPUs de AMD todavía
requieren un chip de puente norte externo con este componente. AMD dice que sus procesadores tienen
un "puente norte integrado," pero lo que la empresa realmente quiere decir es que las CPU tienen un
controlador de memoria integrado. Esto crea mucha confusión. Varios usuarios no entienden por qué
las placas base para procesadores AMD tienen un chip puente norte si el fabricante de la CPU dice que
la CPU tiene un chip integrado puente norte.

Figura 3: Configuración del conjunto de chips Intel con las CPU actuales
Figura 4: Configuración del Chipset AMD con las CPU actuales
Con CPUs de más edad que no tienen un controlador de memoria integrado, el sistema seguirá el
diagrama presentado en la figura 5. Con CPUs de más edad, ya que el controlador de memoria se
encuentra en el interior del chip puente norte externo, este chip tiene un papel importante en el equipo
de actuación. Un conjunto de chips puede tener una mejor controlador de memoria y presentar un
mayor rendimiento. Hoy en día, sin embargo, ya que el controlador de memoria está incrustado en la
CPU, no hay casi ninguna diferencia de rendimiento entre los diferentes conjuntos de chips.
Figura 5: Puente Norte con las CPU sin un controlador de memoria integrado
El controlador PCI Express integrado en el chip puente norte o en la CPU puede proporcionar varios
carriles. La configuración más común es que empiecen a brindar 16 carriles, lo que permite que la
tarjeta madre tiene una ranura PCI Express x16 o dos ranuras PCI Express x16, cada uno trabajando en
x8. Adicionales carriles PCI Express necesarios para conectar las otras ranuras y dispositivos
disponibles en la placa base son proporcionados por el chip puente sur. Los controladores de alta gama
PCI Express suelen proporcionar más de 16 carriles, permitiendo que el fabricante de la placa o bien
proporcionar más ranuras PCI Express x16 para tarjetas de vídeo o permitir la conexión de otros
dispositivos y ranuras directamente al chip puente norte o CPU.
La conexión entre el puente norte y el puente sur se logra a través de un bus. Inicialmente, se utilizó el
bus PCI, pero más tarde fue sustituido por un bus dedicado. Vamos a explicar más sobre esto más
adelante

El puente del Sur

El chip puente sur, también llamado ICH (O Eje I / Controller) o PCH (Hub Plataforma Controller) se
conecta al puente norte (o la CPU, en el caso de la actual CPU Intel) y está a cargo del control de E / S
aparatos y dispositivos de a bordo, tales como:
• Los puertos de almacenamiento (puertos ATA serie y paralelo)
• puertos USB
• El audio de a bordo (*)
• Red local (**)
• bus PCI (si está disponible)
• carriles PCI Express (si está disponible)
• reloj de tiempo real (RTC)
• La memoria CMOS
• Los dispositivos heredados, como el controlador de interrupciones y controlador de DMA
• ranuras ISA en viejas placas base
(*) Si el puente sur tiene un controlador integrado de audio, necesitará un chip externo denomina códec
(abreviatura de codificador / decodificador) para operar. Lea nuestro tutorial "Cómo Sonido integrado
Works" para obtener más información. Algunas placas base de gama alta utilizan un controlador de
audio externa, que está conectado con el chip puente sur a través de un carril PCI Express x1.
(**) Si el puente sur tiene incorporado un controlador de red, necesitará un chip externo llamado un
"PHY" (abreviatura de "física") para operar. La mayoría de las placas base utilizan un controlador de
red externa conectada al chip puente sur a través de un carril PCI Express x1.
Otros dispositivos integrados de la placa base puede tener, tales como USB adicional, SATA y
controladores de red, estarán conectados al chip puente sur a través de carriles individuales PCI
Express x1. (En algunas placas base estos dispositivos pueden estar conectados al chip puente norte en
cambio, si el controlador PCI Express integrado en el chip puente norte tiene un montón de carriles PCI
Express).
El puente sur también está conectado a otros dos chips disponible en la placa: el chip de ROM, también
conocido como el chip de la BIOS (BIOS es uno de los programas escritos dentro de este chip), y el
chip de E / S Super I, que está a cargo de controlar los dispositivos heredados como los puertos serie,
puertos paralelos, unidades de disquete y puertos PS / 2 para teclado y ratón.
En la Figura 6, se puede ver un diagrama que explica el papel del puente sur en el ordenador.
Figura 6: El chip puente sur
El Inter-Puente de Arquitectura

Cuando se comenzó a utilizar el concepto de puente, el puente de comunicación entre el norte y el sur
del puente se realiza a través del bus PCI, como se muestra en la Figura 7. El problema con este
enfoque es que el ancho de banda disponible para el bus PCI (132 MB / s ) será compartido entre todos
los dispositivos PCI del sistema y todos los dispositivos conectados al puente sur, especialmente de
unidades de disco duro.

Figura 7: La comunicación entre el norte y el sur puentes utilizando el bus PCI


Cuando las tarjetas de vídeo de gama alta (en ese momento, eran las tarjetas de vídeo PCI) y se
pusieron en marcha las unidades de disco duro de alto rendimiento, surgió una situación de cuello de
botella. Para las tarjetas de vídeo de gama alta, la solución fue la creación de un nuevo bus conectado
directamente al puente del norte, llamado AGP (Accelerated Graphics Port). De esta manera la tarjeta
de vídeo no estaba conectado al bus PCI y el rendimiento no se vea comprometida.
La solución final se produjo cuando los fabricantes de chipset comenzado a utilizar un nuevo enfoque:
el uso de una conexión dedicada de alta velocidad entre el norte y el sur puentes y conectar los
dispositivos PCI en el puente sur. Esta es la arquitectura que se utiliza hoy en día. Las ranuras PCI
estándar, si está disponible, se conectan al puente sur. carriles PCI Express pueden estar disponibles
tanto en el chip puente norte y el chip puente sur. Por lo general, los carriles PCI Express disponibles
en el chip puente norte se utilizan para las tarjetas de vídeo, mientras que los carriles disponibles en el
chip puente sur se utilizan para conectar las ranuras más lentas ya bordo de los dispositivos, tales como
USB adicional, SATA y controladores de red.

Figura 8: La comunicación entre el norte y el sur puentes utilizando una conexión dedicada
La configuración de esta conexión dedicada depende del modelo de chipset. Los primeros conjuntos de
chips de Intel para utilizar esta arquitectura tenía un dedicado / s canal de 266 MB. Este canal era half-
duplex, lo que significa que el puente norte y el puente sur no podían "hablar" al mismo tiempo.
Cualquiera de los dos chip o la otra estaba transmitiendo.
Actualmente, Intel utiliza una conexión dedicada llamada DMI (Direct Media Interface), que utiliza un
concepto similar al PCI Express, con carriles utilizando comunicaciones serie, y canales separados para
la transmisión y recepción de datos (es decir, la comunicación full-duplex). La primera versión de DMI
utiliza cuatro carriles y es capaz de alcanzar una velocidad de transferencia de datos de 1 GB / s por
dirección (2,5 Gbps por carril), mientras que la segunda versión de DMI duplica este número de 2 GB /
s. Algunos conjuntos de chips móviles utilizan dos carriles en lugar de cuatro, reduciendo a la mitad del
ancho de banda disponible.
AMD utiliza una ruta de datos dedicado llamado "A-Link", que es una conexión PCI Express con un
nombre diferente. "A-Link" y "A-Link II" utilizar cuatro carriles PCI Express 1.1 y, por lo tanto, lograr
un ancho de banda de 1 GB / s. La conexión "A-Link III" utiliza cuatro carriles PCI Express 2.0,
logrando un ancho de banda de 2 GB / s.
Si desea conocer los detalles de un conjunto de chips dado, sólo tiene que ir a la página web del
fabricante del chipset.

Ahora vamos a ver la memoria y cómo afecta a la velocidad de la placa base.

La memoria y otras funciones

Hemos establecido que la velocidad del propio procesador controla la rapidez con la que piensa un
ordenador. La velocidad del chipset y autobuses controla la rapidez con que se puede comunicar con
otras partes de la computadora. La velocidad de la conexión de RAM controla directamente la rapidez
con la computadora puede acceder a las instrucciones y los datos, y por lo tanto tiene un gran efecto en
el rendimiento del sistema. Un procesador rápido con memoria RAM lenta va a ninguna parte.
La cantidad de memoria disponible también controla la cantidad de datos que el ordenador puede
disponer. RAM constituye la mayor parte de la memoria de un ordenador. La regla general es la más
memoria RAM del ordenador tiene, mejor.
Gran parte de la memoria disponible en la actualidad es de doble velocidad de datos de la memoria
(DDR). Esto significa que la memoria puede transmitir datos dos veces por ciclo en lugar de una vez, lo
que hace que la memoria más rápida. Además, la mayoría de placas base tienen espacio para múltiples
chips de memoria, y en placas nuevas, que a menudo se conectan al puente norte a través de un bus
doble en lugar de un único bus. Esto reduce aún más la cantidad de tiempo que toma para que el
procesador para obtener información de la memoria.

200-pin DDR RAM SODIMM

ranuras de memoria de una placa base afectan directamente qué tipo y cuánta memoria es compatible.
Al igual que otros componentes, la memoria se conecta a la ranura a través de una serie de pernos. El
módulo de memoria debe tener el número correcto de los pernos para encajar en la ranura en la placa
base.
64MB SDRAM SIMM
En los primeros días de las placas base, prácticamente todo lo que no sea el procesador de vino en una
tarjeta que enchufado en el tablero. Ahora, las placas base cuentan con una variedad de accesorios de a
bordo tales como el apoyo a internet, video, soporte de sonido y controladores RAID.
Las placas base con todas las campanas y silbatos son convenientes y fáciles de instalar. Hay placas
base que tienen todo lo necesario para crear un completo equipo - todo lo que hacen es pegar la placa
base en un caso y añadir un disco duro, un controlador de CD y una fuente de alimentación. Tiene un
equipo completamente operativo en una sola tarjeta.
Para muchos usuarios promedio, estas características incorporadas proporcionan un amplio soporte
para video y sonido. Para los jugadores ávidos y las personas que realizan un trabajo de alta intensidad
o el diseño gráfico asistido por ordenador-(CAD), sin embargo, las tarjetas de vídeo separados
proporcionan un rendimiento mucho mejor.

fabricante de la placa madre y modelo

Introducción

Tarde o temprano tendrá que conocer el fabricante y el modelo exacto de su placa base, sobre todo si va
a actualizar su equipo, ya que las funciones de actualización de su ordenador son fijadas por el modelo
de placa base que tiene. Va a requerir esta información si se realiza una actualización de la BIOS o
descargar el manual de la placa base o conductores. Se necesita una actualización del BIOS para hacer
que su ordenador reconozca una nueva CPU, y el manual es necesaria si desea comprobar la cantidad
de memoria RAM de su equipo es capaz de reconocer o qué CPU da soporte, por ejemplo.
Descubrir esta información no es particularmente fácil, debido a que muchos fabricantes no se
imprimen su nombre o el nombre del modelo en la placa base. Además, es posible que desee
comprobar si la placa base instalada en su PC es realmente el modelo que haya pedido. Por lo general,
la garantía se anula si abre su ordenador, por lo que tendrá que descubrir la manera de aprender esta
información sin necesidad de abrir su PC.
¿Cómo es posible conocer el fabricante de la placa a través de software? Dentro de la BIOS del
ordenador hay un número de serie, que incluye un código para el fabricante. Por lo tanto, una utilidad
de identificación de hardware lee el número de serie del BIOS y lo descifra para ti. Lea nuestro tutorial
"Descifrando el número de serie del BIOS" para una explicación más detallada sobre este tema.
Le enseñaremos cómo utilizar cuatro programas de identificación de hardware muy populares para
averiguar el fabricante y el modelo de la placa base: CPU-Z, Sandra Lite, AIDA64, y HWiNFO.
Después de enterarse de que su fabricante de la placa y el modelo, es posible que desee saber qué sitio
web del fabricante es y donde se puede descargar la última BIOS, controladores y manual de su modelo
de placa base. Una rápida búsqueda en Google debería ser suficiente para averiguarlo.
CPU-Z
CPU-Z es una utilidad de identificación de CPU muy popular, que también puede ser utilizada para
identificar el fabricante de su placa base y el modelo.
Después de instalar la CPU-Z, ejecutarlo, y haga clic en la pestaña de "placa base". En la pantalla que
aparecerá, CPU-Z le dará el fabricante y el modelo de su placa base, como se muestra en la Figura 1.
Como se puede ver, tuvimos una placa base ASUS P5K-E en nuestro ordenador.

Figura 1: Identificación de su fabricante de la placa y el modelo con CPU-Z

Ver más en http://www.hardwaresecrets.com/how-to-find-out-your-motherboards-manufacturer-and-


model/2/#l1dru3GrkG3qHw3p.99

Sandra Lite

Sandra está disponible en varias versiones; usted debe descargar e instalar la versión gratuita, llamada
"Lite".
Después de instalar Sandra, ejecutarlo, y haga clic en la pestaña "Hardware". En la pantalla que
aparecerá, haga doble clic en el icono de "placa base".
Sandra tendrá un minuto para recoger toda la información sobre su ordenador. En la siguiente pantalla
se mostrará, se puede encontrar fácilmente su fabricante de la placa en "Fabricante" y su modelo en
"modelo". Tome un vistazo a la figura 2, en la que identificamos nuestro modelo de placa base como
una placa base ASUS P5K-E.
Figura 2: Identificación de su fabricante de la placa y el modelo con Sandra

Mientras se desplaza a través de estas ventanas, se encuentra otra información útil sobre la placa base,
tales como el número de tomas de memoria que tiene, y estarán destinados queridos, así como el
modelo de chipset en que se basa la placa base. También puede encontrar el número de serie del BIOS
que estábamos hablando en "BIOS".

Ver más en http://www.hardwaresecrets.com/how-to-find-out-your-motherboards-manufacturer-and-


model/3/#syq7w5duAkU4IT51.99
AIDA64

Hay dos versiones de AIDA64; usted debe descargar e instalar la versión Extreme Edition.
Después de instalar AIDA64, ejecutarlo, haga clic en la "placa base" disponible en la pantalla principal
y, a continuación, haga clic en el icono de "placa base" que se mostrará. En la pantalla que se mostrará,
el fabricante y el modelo de la placa base del ordenador se mostrarán en la segunda línea, "Nombre de
la placa." Véase la figura 3. Como se puede ver, tuvimos una placa base ASUS P5K-E en nuestro
ordenador.

Figura 3: La identificación de su fabricante de la placa y el modelo con AIDA64


Si se desplaza hacia abajo, usted encontrará un enlace a la página de descarga de BIOS en el sitio web
del fabricante de la placa en "Descargar BIOS." Esto es muy útil si usted está planeando hacer una
actualización del BIOS.

HwiNFO

HWiNFO está disponible en dos versiones, HWiNFO32, que debe ser descargado si está utilizando un
sistema operativo de 32 bits, y HWiNFO64, que deben ser descargados si está utilizando un sistema
operativo de 64 bits. En nuestro caso, hemos descargado HWiNFO64.
Después de instalar la versión adecuada de HWiNFO, ejecutarlo (tardará un minuto para recoger toda
la información sobre el hardware de su computadora). El programa mostrará automáticamente una
pantalla llamada "Resumen del sistema", donde se mostrarán el fabricante y modelo de su placa base en
la columna de la derecha, bajo "placa madre". Véase la Figura 4.

Figura 4: Identificación de su fabricante de la placa y el modelo con HWiNFO64

Introducción a la nueva arquitectura de los microprocesadores de INTEL

Sandy Bridge es el nombre de la nueva microarquitectura Intel CPU está utilizando a partir de 2011. Es
una evolución de la microarquitectura Nehalem, que se introdujo por primera vez en el Core i7 y
también se utiliza en el Core i3 y Core i5.
Si usted no sigue el mercado de CPU que de cerca, vamos a hacer un resumen rápido. Después de que
el Pentium 4, que estaba basado en la microarquitectura generación 7º de Intel, llamada de Netburst,
Intel decidió volver a su microarquitectura 6ª generación (el mismo utilizado por el Pentium Pro,
Pentium II y Pentium III, denominado P6), que resultó ser más eficiente. A partir de la CPU Pentium M
(que es una 6ª generación Intel CPU), Intel ha desarrollado la arquitectura Core, que fue utilizado en la
serie de procesadores Core 2 (Core 2 Duo, Core 2 Quad, etc). Entonces, Intel consiguió esta
arquitectura, ajustado un poco más (la principal innovación fue la adición de un controlador de
memoria integrado), y se libera la microarquitectura Nehalem, que se utilizó en el Core i3, Core i5, y la
serie de procesadores Core i7. Y, de esta microarquitectura, Intel desarrolló la microarquitectura Sandy
Bridge, que fue utilizado por la nueva generación de procesadores Core i3, Core i5, y Core i7 en 2011 y
2012.
Para entender mejor el presente tutorial, le recomendamos que lea las siguientes tutoriales, en este
orden en particular:
• En el interior Pentium M Arquitectura
• Dentro de la microarquitectura Intel Core
• En el interior de Intel Nehalem microarquitectura
Las principales especificaciones para la microarquitectura Sandy Bridge se resumen a continuación.
Vamos a explicar con más detalle en las páginas siguientes.
• El puente norte (controlador de memoria, controlador de gráficos y el controlador PCI Express) está
integrado en el mismo chip que el resto de la CPU. En las CPUs basados en Nehalem, el puente norte
se encuentra en un chip de silicio que se entrega junto con el chip de la CPU de silicio. De hecho, con
las CPUs basados en Nehalem de 32 nm el puente norte se fabrica bajo proceso de 45 nm.
• En primer lugar los modelos utilizan un proceso de fabricación de 32 nm
• Topología en anillo
• Nueva decodificado microinstrucciones caché (caché L0, capaz de almacenar 1.536
microinstrucciones, lo que se traduce en más o menos a 6 kB)
• instrucción de 32 kB L1 y caché de datos L1 32 KB por núcleo de CPU (no hay cambio de Nehalem)
• la memoria caché L2 fue renombrada como "caché de nivel medio" (MLC) con 256 kB por núcleo de
CPU
la memoria caché L3 • Ahora se llama LLC (Última caché de nivel), no se unifica más, y es compartida
por los núcleos de CPU y el motor gráfico
• La tecnología Turbo Boost de nueva generación
• El nuevo conjunto de instrucciones AVX (Advanced Vector Extensiones)
• Mejora del controlador de gráficos
controlador de memoria de doble canal DDR3 • Rediseño de apoyo recuerdos hasta DDR3-1333
• El controlador integrado PCI Express x16 apoyar un carril o dos carriles x8 (sin cambio desde
Nehalem)
• En primer lugar los modelos utilizan un nuevo socket 1155 con pasadores
Figura 1: Sandy Bridge Resumen microarquitectura

Mejoras a la “Pipeline” de la CPU


Vamos a empezar nuestro viaje hablando de lo que es nuevo el camino instrucciones se procesan en la
microarquitectura Sandy Bridge.
Hay cuatro decodificadores de instrucciones, lo que significa que la CPU puede descodificar hasta
cuatro instrucciones por ciclo de reloj. Estos decodificadores están a cargo de la decodificación IA32
(x86 alias) instrucciones en microinstrucciones RISC-como (μops) que se utilizan internamente por las
unidades de ejecución de la CPU. Al igual que las CPU Intel anterior, la microarquitectura Sandy
Bridge es compatible tanto con macro y micro-fusión. Macro-fusión permite a la CPU para unir dos
instrucciones x86 relacionados en una sola, mientras que las micro-fusión se une a dos
microinstrucciones se refiere en uno solo. Por supuesto, el objetivo es mejorar el rendimiento.
Lo que es completamente nuevo es la adición de un caché de microinstrucción decodificada, capaz de
almacenar 1.536 microinstrucciones (que traducido más o menos a 6 kB). Intel se está refiriendo este
cache como un "caché L0." La idea es obvia. Cuando el programa que se está ejecutando entra en un
bucle (es decir, hay que repetir las mismas instrucciones varias veces), la CPU no tendrá que
decodificar de nuevo las instrucciones x86: serán decodificadas ya en la memoria caché, ahorrando
tiempo y mejorando así el rendimiento . Según Intel esta caché tiene una tasa de éxito del 80%, es
decir, se utiliza 80% del tiempo.
Ahora usted puede preguntarse si esto no es la misma idea utilizada en la microarquitectura de Netburst
(es decir, los procesadores Pentium 4), que tenía una memoria caché de rastreo que también almacena
decodificado microinstrucciones. Una caché traza funciona de forma diferente a partir de un caché de
microinstrucción: almacena las instrucciones que aparecen en el mismo orden en que se ejecutó
originalmente. De esta manera, cuando un programa alcanza un bucle que se corrió, digamos, 10 veces,
la memoria caché traza almacenará las mismas instrucciones 10 veces. Por lo tanto, hay una gran
cantidad de instrucciones repetidas en la memoria caché de rastreo. Lo mismo no ocurre con la
memoria caché microinstrucción, que almacena único individuo decodifica instrucciones.
Cuando se utiliza la caché de microinstrucción, la CPU pone a la caché de instrucciones L1 y los
decodificadores a "dormir", haciendo que la CPU para ahorrar energía y para funcionar a menor
temperatura.
La unidad de predicción de saltos fue rediseñado y el (BTB) tamaño Branch Target Buffer se duplicó
en comparación con Nehalem, además de que ahora utiliza una técnica de compresión para permitir aún
más datos para ser almacenados. predicción de saltos es un circuito que trata de adivinar los próximos
pasos de un programa de antemano, la carga de la CPU en el interior las instrucciones que considere la
CPU se carga la próxima. Si se le pega a la derecha, la CPU no se pierde el tiempo la carga de estas
instrucciones de la memoria, ya que estarán ya dentro de la CPU. El aumento del tamaño de la BTB
permite este circuito para cargar aún más instrucciones por adelantado, la mejora del rendimiento de la
CPU.
El planificador utiliza en la microarquitectura Sandy Bridge es similar a la utilizada en la
microarquitectura Nehalem, con seis puertos de despacho, tres puertos utilizados por las unidades de
ejecución y tres puertos utilizados por las operaciones de memoria.
Aunque esta configuración es la misma, la microarquitectura Sandy Bridge tiene más unidades de
ejecución: mientras que la microarquitectura Nehalem tiene 12 de ellos, el puente de arena tiene 15,
véase la Figura 2. De acuerdo a Intel, que fueron rediseñados con el fin de mejorar de punto flotante
( es decir, operaciones matemáticas) el rendimiento.
Figura 2: Las unidades de ejecución (configuración estándar)
Cada unidad de ejecución está conectado al planificador de instrucciones con un camino de datos de
128 bits. Con el fin de ejecutar las nuevas instrucciones AVX, que llevan datos de 256 bits, en lugar de
añadir datapaths 256 bits y las unidades de 256 bits a la CPU, dos unidades de ejecución son
"fusionado" (es decir, que se utiliza al mismo tiempo), como se puede ver en la figura 3.

Figura 3: unidades de ejecución (cuando se ejecutan las instrucciones AVX)


Después de que se ha ejecutado una instrucción, no se copia de nuevo a la memoria tampón de
reordenación como ocurrió en anteriores arquitecturas Intel, sino que más bien se indica en una lista
que se hace. De esta manera la CPU guarda los bits y mejora la eficiencia.
Otra diferencia está en los puertos de memoria. La microarquitectura Nehalem tiene una carga, una
dirección de la tienda y unidades de un almacén de datos, cada una conectada a un puerto de despacho
individual. Esto significa que los procesadores basados en Nehalem pueden cargar desde la memoria
caché de datos L1 de 128 bits de datos por ciclo.
En la microarquitectura Sandy Bridge, la carga y las unidades de dirección de la tienda se pueden
utilizar ya sea como una unidad de carga o una unidad de dirección del almacén. Este cambio permite
que dos veces más datos que se cargan desde la memoria caché de datos L1 al mismo tiempo (mediante
dos unidades de 128 bits al mismo tiempo en lugar de sólo uno), mejorando así el rendimiento. De esta
manera, los procesadores basados en Sandy Bridge puede cargar 256 bits de datos de la memoria caché
de datos L1 por ciclo.
Figura 4: La microarquitectura Sandy Bridge

El conjunto de instrucciones AVX


Hace un tiempo, AMD ha propuesto un conjunto de instrucciones SSE5. Sin embargo, Intel decidió
crear su propia implementación de lo que serían las instrucciones SSE5, llamado AVX (Advanced
Vector Extensions).
Estas instrucciones se utiliza el mismo SIMD (Single Instruction, Multiple Data) concepto introducido
con el conjunto de instrucciones MMX y usados por las instrucciones SSE (Streaming SIMD
Extensions). Este concepto consiste en utilizar una única gran registro para almacenar varios datos de
tamaño pequeño y luego procesar todos los datos con una sola instrucción, la aceleración de
procesamiento.
El conjunto de instrucciones AVX añade 12 nuevas instrucciones y aumenta el tamaño de los registros
XMM de 128 bits a 256 bits.
Toda la información sobre el nuevo conjunto de instrucciones AVX se puede encontrar aquí (buscar la
programación de referencia Intel Advanced Vector Extensions).

La arquitectura de anillo
procesadores basados en Sandy Bridge tendrán una arquitectura de anillo de los componentes internos
de la CPU para hablar unos con otros. Cuando un componente quiere "hablar" con otro componente,
que pone la información en el anillo y el anillo se moverá esta información hasta que llegue a su
destino. Componentes no hablar el uno al otro directamente, tienen que usar el anillo. Los componentes
que utilizan el anillo incluyen los núcleos de CPU, cada caché L3 de memoria (que ahora se llama
Último nivel de caché, o LLC, y no está unificada, véase la Figura 5), el agente del sistema
(controlador de memoria integrado, controlador PCI Express, control de potencia unidad, y la pantalla),
y el controlador de gráficos.
En la figura 5 se puede ver el anillo (línea de color negro) con sus "paradas" (cajas rojas). Es
importante entender que el anillo se encuentra físicamente en los cachés de memoria (ejemplo de un
telesilla, donde cada cuadro rojo es una parada) - ya que la ilustración es bidimensional, es posible que
tenga la impresión de que los cables de anillo se ejecutan dentro del caché , Que no es el caso.
Además, cada última memoria caché de nivel no está ligado a un núcleo de la CPU en particular.
Cualquier núcleo puede utilizar cualquiera de los cachés. Por ejemplo, en la Figura 5, tenemos una
CPU de cuatro núcleos con cuatro memorias caché de último nivel. Core 1 no está vinculada a la
memoria caché 1; se puede utilizar cualquiera de los caches. Esto también significa que cualquier
núcleo de la CPU puede acceder a los datos que se almacena en cualquiera de los caches.
Figura 5: La arquitectura de anillo (línea de color negro con rojo "se detiene")
En realidad, hay cuatro anillos: anillo de datos, anillo de solicitud, reconozca el anillo y el anillo de
Snoop. Ellos corren a la misma velocidad de reloj que el reloj interno de la CPU. Se basa en el
protocolo QPI (QuickPath Interconnect), el mismo utilizado por las CPU socket 1366 para hablar con
el chipset.
Cada componente decide cuándo usar el anillo, si está vacío, y el anillo siempre elige el camino más
corto hacia el destino.

Siguiente Generación Turbo Boost


Turbo Boost es una tecnología que automáticamente overclock la CPU cuando la CPU ", se pregunta"
para obtener más potencia de procesamiento. En la microarquitectura Sandy Bridge esta tecnología se
ha revisado con el fin de permitir que la CPU supera su TDP (potencia de diseño térmico) durante un
máximo de 25 segundos - es decir, para disipar más calor de lo permitido oficialmente. Esto es posible
porque el disipador de calor y los componentes son todavía frío. Vea la Figura 6.

Figura 6: La próxima generación de Turbo Boost


Además, el núcleos de CPU y gráficos controlador TDP "compartir" entre ellos. Por ejemplo, si el
núcleo de gráficos no está disipando una gran cantidad de calor, esto da TDP extra para los núcleos de
CPU a utilizar, lo que les permite funcionar a una frecuencia más alta y en un TDP más alta que la
clasificación oficial (con la etiqueta "de los conductores indicados poder "en la Figura 7), si las
aplicaciones están exigiendo más potencia de procesamiento, por supuesto. Vea la Figura 7.

Figura 7: TDP puede equilibrarse entre núcleos de CPU y gráficos de procesador

El motor de gráficos integrados


El procesador gráfico integrado en los procesadores basados en Sandy Bridge tendrá un motor de
DirectX 10.1. Como se explica en la primera página de este tutorial, que estará disponible en el mismo
chip de silicio como el resto de la CPU, en lugar de estar disponible en un chip separado pero "pegada",
junto con la CPU dentro del mismo paquete.
En la Figura 8, que tiene una visión general de el procesador gráfico Sandy Bridge.

Figura 8: procesador gráfico Sandy Bridge


El número de unidades de ejecución ( "Procesadores") dependerá de la CPU (por ejemplo CPUs Core
i5 tendrán más unidades de ejecución que partes Core i3). Los procesadores Sandy Bridge pueden tener
hasta 12 unidades de ejecución de gráficos.
Si se presta mucha atención en la figura 8, se verá que "Visualización" y "Gráficos" están en partes
separadas de la CPU. Esto se puede leer como "2D" y "3D", y ayuda a la CPU para ahorrar energía
apagando el procesador gráfico cuando no está jugando a juegos.
Otra innovación importante es que el motor gráfico puede utilizar la caché de último nivel (LLC,
anteriormente conocida como la memoria caché L3) para almacenar datos, especialmente texturas. Esto
mejora el rendimiento 3D, como el motor gráfico no necesita ir a la RAM se ha podido recuperar los
datos, se puede cargar datos directamente desde la memoria caché (si ya está allí, por supuesto).

Vous aimerez peut-être aussi