Cours Archi Ing-Inf2

Cours
Architecture des Ordinateurs
2ème Année Ingénieur

Informatique
Enseignant: Anis MEZNI
Faculté des Sciences de Tunis
Laboratoire LISI-INSAT
Année universitaire 2017-2018
1
Plan du cours
Introduction
Avancées Technologiques et Evolutions historiques Quelques
rappels sur le codage binaire
Rappels sur les circuits logiques et les fonctions booléennes
Processeur de base
Unité de Commande/Traitement /schéma fonctionnel
Fonctionnement basique d’une opération de calcul
Les modes d’adressage
Jeux d'instructions
Amélioration des performances des processeurs
Les architectures CISC et RISC
Les Structures accélératrices : Pipeline, Superscalaire
Les Mémoires
Définition, caractéristique des mémoires
Classification des mémoires
Caractéristiques
Hiérarchie mémoire
Mémoire virtuelle (les raisons de l'adressage virtuel, pagination, segmentation, segmentation paginée
Les Mémoires caches
Principe
Caractéristiques
Amélioration des caches
2
Chapitre 1 : Introduction à
l’Architecture des Ordinateurs
• But du cours
• Ordinateur : définition
• Historique
• Avancées Technologiques
• Quelques rappels
4
But du Cours
• Avoir une idée du fonctionnement des processeurs
modernes
• Comprendre les idées importantes pour
l’amélioration des performances :
– Pipeline, superscalaire, caches, prédicteurs de
branchements, …
• Comprendre d’où vient la performance
5
Ordinateur : définition
• Ordinateur : une définition (Hachette)
Machine capable d'effectuer automatiquement des
opérations arithmétiques et logiques (à des fins
scientifiques, administratives, comptables, . . . ) à
partir de programmes définissant la séquence de
ces opérations.
• But d'un ordinateur

Définir et exécuter des séquences de calcul
6
Historique
• Apparition du calcul
– Dès la préhistoire on comptait avec des cailloux et
avec ses doigts
– Calcul vient du latin calculi signifiant caillou
• Antiquité
– Chaque civilisation (Grecs, Romains, Chinois ...) avait
développé des
• Systèmes et bases de numérotation
• Méthodes pour compter et calculer
• Ensuite sont apparus les outils pour aider aux
calculs
7
Historique
• Outils de calcul
– Les premiers : boulier chinois, abaque
• 17ème siècle : la science s'intéresse de plus en
plus aux outils de calcul
– 1620 : règle à calcul (selon les principes de Neper)
– 1623, Shickard : première machine à calculer, roues
dentées et retenues
– 1642, Pascal : machine faisant des additions et
soustractions de 6 chiffres (la Pascaline)
– 1674, Leibniz : calculatrice avec 4 opérations
arithmétiques
8
Historique
• Automatisation des calculs
– 1728, Falcon : planchette de bois trouée pour
commander un métier à tisser
– 1805, Jacquard : utilise à la place des cartons
perforés, perfectionne le système
– 1834, Babbage : utilise un système de commande
pour des machines à calculer
• On pouvait programmer des calculs
• Le « premier ordinateur »
• Notions de processeur, entrées/sorties, mémoire ...
• Mais trop complexe pour la technologie de l'époque
9
Historique
• Avancées théoriques
– 1854, Boole : algèbre de Boole, logique symbolique
– 1938, Shannon : liens entre nombres binaires, algèbre
de Boole et les signaux électriques
– 1936, Turing : machine de Turing
• Naissance de l'ordinateur
– Fin des années 30/début 40, plusieurs prototypes
fonctionnant en binaire et basés sur la logique
booléenne
• Ex : 1941, Zuse : Z3, calculateur utilisant une technologie
électro-mécanique
– 1945, Eckert & Mauchly : ENIAC (Electronical
Numerical Integrator And Calculator)
10
Historique
• ENIAC
– Premier calculateur/ordinateur
moderne
– Entièrement électronique
• Utilise des tubes à vide et des relais
– Machine universelle, programmable
– Utilise un système décimal
– Inconvénient : difficulté de
passer d'un programme à un autre
(6000 commutateurs
connectables pour programmer)
– 30 tonnes, forme de U de
6 mètres de large et 12 de long 11
Historique
• Avancée majeure : Von Neumann, 1945
– Idée : stocker le programme à exécuter dans la mémoire
de l'ordinateur
– Avant : suite séquentielle d'instructions
• Programme était généralement entré via des cartes perforées
• Maintenant
– Le programme peut prendre des décisions selon des
résultats intermédiaires
– Changer de chemin dans la séquence d'instructions
– Effectuer des tests, des boucles, des sauts conditionnels ...
• Von Neumann définit également une architecture
générale : naissance de l'ordinateur
12
Historique
• Machine de Von Neumann = ordinateur
– Machine universelle contrôlée par un programme
– Les instructions du programme sont stockées en
mémoires et codées en binaire
– Les instructions sont exécutées en séquence par
défaut
• Mais le programme peut en modifier l'ordre
d'exécution
• Création d'instructions pour ruptures de séquences
– Le programme peut se modifier
13
Historique
• Von Neumann a également défini l'architecture
générale d'un ordinateur
• 5 éléments principaux
– Unité arithmétique et logique (UAL ou ALU)
– Unité de commande
– Unité d'entrées
– Unité de sorties
– Mémoire centrale
• Cette architecture est toujours en vigueur de nos
jours
14
Avancées Technologiques
• Génération 0 : 17ème siècle à 1945
– Calculateurs mécaniques
• Première génération : 1945 – 1955
– Tubes à vide
– Premiers calculateurs électroniques
– Ex: ENIAC
• Seconde génération : 1955 – 1965
– Transistors remplacent les tubes à vides (1947
apparition du transistor)
– Premières séries commerciales d'ordinateurs
15
• Troisième génération : 1965 – 1980

– Circuits intégrés : permettent de placer un
nombre important de transistors sur une même
puce de silicium
– Début de la montée en puissance et de la
miniaturisation
– 1971 : Intel 4004
• Première unité de calcul (sur 4 bits) intégrée
entièrement sur une seule puce
• Premier microprocesseur
16
• Quatrième génération : 1980 à aujourd'hui

– VLSI : Very Large Scale Integration
– Intégration de millions de transistors sur une
même puce
– Toujours plus de puissance et de miniaturisation à
un coût toujours moindre
• Cinquième génération : ??
• ??
17
Les différentes générations d’ordinateurs
18
Les niveaux d’intégration
19
 Evolution de la complexité
Loi de Moore : Le nombre de transistors intégrés sur silicium double tous les 18 à 24 mois
exemple : en 1979 Intel 8086  29 000 transistors
en 2006 Intel Core2 duo  291 000 transistors 20
 Evolution des performances
21
Evolution des performances

• Loi de Machrone
la machine dont on a besoin coûte toujours 2000$
• 1983 : IBM-PC/XT ≈ 2000 $
• 1987 : IBM-PC/AT ≈ 2000 $
• 1991 IBM-PC/486 ≈ 2000 $
• 1997 IBM-PC/PII ≈ 2000 $
• 2001 IBM-PC/P4 ≈ 2000 $
22
Prévisions ITRS (International Technology Roadmap
for Semiconductors)
23
Problèmes d’avenir proche
– Atteinte des limites physiques du silicium
– Accroissement de la difficulté à concevoir rapidement des
systèmes dont les circuits font qqs 100 millions de
transistors
– Coût exponentiel des usines
– Loi de Moore active jusqu’à 2016, mais après ?
– Architecture des circuits optimisées pour préparer la fin de
la loi de Moore (parallélisme, code logiciel optimisé, …)
24
Candidats du futur
25
Quelques Rappels
26
Quelques Rappels
27
Quelques Rappels
30
Quelques Rappels
31
Quelques Rappels
32
Quelques Rappels
33
Quelques Rappels
34
Chapitre 2 : Constitution d’un ordinateur
Les différentes Unités d’un ordinateur
 UAL : réalise des opérations élémentaires
– Arithmétique : addition, soustraction, multiplication ...
– Logique : ET, OU, comparaison ...
 Unité de commande
– Coordinateur général
– Lit les instructions du programme en mémoire
– Commande l'UAL pour exécuter ces instructions
 Mémoire centrale
– Stocke les programmes et les données
– Enregistre les résultats intermédiaires et/ou finaux
 Unités d'entrées et de sorties, pour communication avec
– En entrée : clavier, souris, disque dur, ...
– En sortie : carte graphique, disque dur, ...
41
Les Différentes Unités d’un ordinateur
 Processeur central
– Contient
• UAL
• Unité de commande
• Mémoire cache
o Mémoire intermédiaire pour optimiser les performances
– Aussi appelé CPU (Central Processing Unit)
 CPU communique avec
– La mémoire, les entrées, les sorties ...
– ... via des bus
42
Les Bus
Les Bus
• Les systèmes/éléments sont reliés par
– Un ensemble de câbles faisant transiter les informations (signaux
électriques)
• Besoin de communication entre tous les éléments
– Maillage complet : chaque élément relié à tous les autres éléments
– Autre solution : partage des câbles via bus
• Bus
– Relie plusieurs systèmes via le même câblage électrique : canal
partagé (multiplexage)
– Seuls 2 éléments communiquent simultanément
CPU Mémoire Disque dur Vidéo

Bus
43
Les Bus
Les Bus
• En pratique : plusieurs bus +/- rapides ou partagés
• Dans un PC, bus rapides
– Bus système (FSB ou Front Side Bus)
• Bus de communication avec le CPU
– Bus mémoire : communication avec la mémoire
– Bus AGP (ou PCI-X) : communication avec la carte graphique
• Dans un PC, bus plus lents
– PCI : cartes réseaux, son ...
– Connexion périphérique de stockage (DD, CD, DVD...)
• ATA, SATA, SCSI ...
– Connexion de périphériques extérieurs
– USB, FireWire ...
44
Les Bus
Les Bus
• Chipset : dispositif interconnectant tous ces bus
• Composé de 2 éléments
– Pont nord (NorthBridge) : pour les bus rapides
– Pont sud (SouthBridge) : pour les bus lents
Cache L2
PCI
Back side bus
Front side bus North Internal bus South

CPU
+ cache L1 Bridge Bridge
AGP ATA
Bus Mémoire
Vidéo RAM USB Stockage
45
46
Chapitre 3 : Processeur de base
• Unité de Commande/traitement
• Fonctionnement basique d’une opération de calcul
• Architecture Von-Neuman/ architecture Harvard
• Le traitement des instructions
• Les modes d’adressages
• Exemple d’exécution d’un programme
• Calculateur didactique
47
Processeur de base
Unité commande/traitement
• Un processeur est construit autour de deux

éléments principaux :
– Une unité de commande
– Une unité de traitement
48
Processeur de base
Unité commande/traitement
49
Processeur de base
L’unité de commande
Elle permet de séquencer le déroulement des instructions.

Elle effectue la recherche en mémoire de l'instruction, le
décodage de l’instruction codée sous forme binaire. Enfin
elle pilote l’exécution de l’instruction.
Les blocs de l’unité de commande :

1. Le compteur de programme (PC : Programme
Counter) appelé aussi Compteur Ordinal (CO) est
constitué par un registre dont le contenu est initialisé
avec l'adresse de la première instruction du programme.
Il contient toujours l’adresse de la prochaine instruction
à exécuter.
50
Processeur de base
2. Le registre d'instruction et le décodeur d'instruction :

Chacune des instructions à exécuter est transférée depuis
la mémoire dans le registre instruction puis est décodée
par le décodeur d’instruction.
3. Bloc logique de commande (ou séquenceur) : Il

organise l'exécution des instructions au rythme d’une
horloge. Il élabore tous les signaux de synchronisation
internes ou externes (bus de commande) du processeur en
fonction de l’instruction qu’il a à exécuter. Il s'agit d'un
automate réalisé de façon micro-programmée.
51
Processeur de base
52
Processeur de base
L’unité de traitement
Elle regroupe les circuits qui assurent les traitements

nécessaires à l'exécution des instructions
Les blocs de l’unité de traitement :

1. Les accumulateurs sont des registres de travail qui
servent à stocker un opérande au début d'une opération
arithmétique et le résultat à la fin de l'opération.
2. L’Unité Arithmétique et Logique (UAL): est un circuit
complexe qui assure les fonctions logiques (ET, OU,
Comparaison, Décalage, etc…) ou arithmétique (Addition,
soustraction…).
53
Processeur de base
3. Le registre d'état est généralement composé de 8 bits à
considérer individuellement. Chacun de ces bits est un
indicateur dont l'état dépend du résultat de la dernière
opération effectuée par l’UAL. On les appelle indicateur
d’état ou flag ou drapeaux. Dans un programme le
résultat du test de leur état conditionne souvent le
déroulement de la suite du programme. On peut citer par
exemple les indicateurs de :
– Retenue (carry : C)
– Débordement (overflow : OV ou V)
– Zéro (Z)
– ...
54
Processeur de base
L’unité de traitement (3)
55
Processeur de base
56
Processeur de base
Architecture complète
57
Processeur de base
Fonctionnement basique d’une opération de calcul
• (1) Charger une instruction depuis la mémoire

• (2) Charger les opérandes depuis la mémoire
• (3) Effectuer les calculs
• (4) Stocker le résultat en mémoire
58
Processeur de base
Architecture Von Neumann
• Un seul chemin d'accès à la mémoire

– Un bus de données (programme et données),
– Un bus d’adresse (programme et données)
• Architecture des processeurs d’usage général
• Goulot d'étranglement pour l'accès à la mémoire
59
Processeur de base
Architecture Harvard
• Séparation des mémoires programme et données

– Un bus de données programme,
– Un bus de données pour les données,
– Un bus d’adresse programme,
– Un bus d’adresse pour les données.
• Meilleure utilisation du CPU :
Chargement du programme et des données en parallèle
60
Processeur de base
Le traitement des instructions
Le processeur ne comprend qu’un certain nombre

d’instructions qui sont codées en binaire. Une instruction
est composée de deux éléments :
– Le code opération : C’est un code binaire qui
correspond à l’action à effectuer par le processeur
– Le champ opérande : Donnée ou bien adresse de la
donnée.
La taille d'une instruction peut varier, elle est

généralement de quelques octets (1 à 8), elle dépend
également de l'architecture du processeur.
61
Processeur de base
• Exemple : Instruction Addition

Accumulateur = Accumulateur + Opérande
Correspond à l’instruction ADD A,#2
Cette instruction est comprise par le processeur par le mot binaire :
11001 000 0000 0010 = code machine

62
Processeur de base
• Phase 1 : Recherche de l’instruction en mémoire
– La valeur du PC est placée sur le bus d'adresse par l'unité de commande qui émet
un ordre de lecture.
– Après le temps d'accès à la mémoire, le contenu de la case mémoire sélectionnée
est disponible sur le bus des données.
– L'instruction est stockée dans le registre d’instruction du processeur.
63
Processeur de base
• Phase 2 : Décodage et recherche de l’opérande
– L'unité de commande transforme l'instruction en une suite de commandes
élémentaires nécessaires au traitement de l'instruction.
– Si l'instruction nécessite une donnée en provenance de la mémoire, l'unité de
commande récupère sa valeur sur le bus de données.
– L’opérande est stocké dans le registre de données.
64
Processeur de base
• Phase 3 : exécution de l’instruction
– Le séquenceur réalise l'instruction.
– Les drapeaux sont positionnés (registre d'état).
– L'unité de commande positionne le PC pour l'instruction suivante.
65
Processeur de base
Les modes d’adressages
Ce sont les diverses manières de définir la

localisation d’un opérande. Les trois modes
d’adressage les plus courant sont :
• Adressage immédiat
• Adressage direct
• Adressage indirect
66
Exemple: Modes d’adressage
 Soit à considérer un processeur contenant en particulier deux registres X chargé de la valeur
entière 100 et ACC (accumulateur de machine à une adresse) et une mémoire centrale dans
laquelle nous exhibons 5 mots mémoire d'adresses 15, 20, 50, 100, 115. Chaque mot et
contient un entier respectivement dans l'ordre 50, 70, 80, 20, 60, comme figuré ci-dessous :
Exemple: Modes d’adressage
Adressage immédiat Adressage direct Adressage indirect
L'opérande Oper est considéré L'opérande Oper est considéré L'opérande Oper est considéré comme
comme une valeur à charger comme une adresse en mémoire l'adresse d'un mot1 en mémoire
immédiatement (dans le registre centrale. Par exemple, nous centrale, mais ce mot1 contient lui-
ACC ici). Par exemple, nous noterons LOAD 15, pour indiquer même l'adresse d'un autre mot2 dont
noterons LOAD #15, pour indiquer un adressage direct (c'est à dire on doit charger le contenu dans ACC.
un adressage immédiat (c'est à un chargement du contenu 50 du Par exemple, nous noterons LOAD
dire un chargement de la valeur mot mémoire d'adresse 15 dans le (15), pour indiquer un adressage
15 dans le registre ACC). registre ACC). indirect (c'est à dire un chargement
dans le registre ACC, du contenu 80 du
mot2 mémoire dont l'adresse 50 est
contenue dans le mot1 d'adresse 15).
3. Les Architectures RISC et CISC
Actuellement l’architecture des processeurs se

composent de deux grandes familles :
• L’ architecture CISC
(Complex Instruction Set Computer)
• L’architecture RISC
(Reduced Instruction Set Computer)
76
■ Processeur CISC ( Complex Instruction Set

Computer)
 Jeu d’instructions complexes (Une instruction peut désigner
plusieurs opérations élémentaires)
 Compilation et programmation en assembleur relativement
facilitées, code compact, limitation des accès mémoires,
mais ….
 … instruction de format variable,
 Temps de décodage et d’exécution des instructions trop long
 Accélération par des mécanismes matériels complexes
 Résulte en un code compact mais complexe à générer
 Motorola 68000, Intel x86/Pentium
77
■ Processeur RISC (Reduced Instruction Set
Computer)
• But : disposer d’un jeu d’instruction réduit, de longueur d’exécution constants
• Intérêt : simplifier la gestion du séquenceur et du pipeline, ce qui permet
d’augmenter la fréquence d’horloge
• Conséquences :
- Modes d’adressage simplifiés
- Longueur de code plus grand que pour le CISC
- Nécessité d’un grand nombre de registres pour réduire les accès mémoire
80
■ Processeur RISC (Reduced Instruction Set

Computer)
• Jeu d’instruction réduit (une instruction = une opération
élémentaire), codage uniforme
• Presque toutes les instructions ont le même temps
d’exécution
• Pas d’instructions complexes
• Modes d’adressage simples, utilisation intensive des
registres du processeur
• Code plus simple à générer, mais moins compact, plus
d’accès mémoire (pénalisation réduite grâce aux caches)
81
■ Processeur RISC (suite)

• Accélération en pipelinant l’exécution (entre 3 et 7 étages
de pipeline pour une instruction) augmentation de la
vitesse
• Conséquence : décodage et exécution rapides des
instructions
• On dispose uniquement d’instructions Load et Store pour
les opérations mémoire
• Les processeurs ne dispose pas de microcode dans le
silicium. Toutes les opérations sont câblées
82
■ Quelques exemples de processeurs RISC

• Processeur SPARC (SUN)
• PowerPC (Apple, IBM, …)
• Processeur MIPS
• LEON, processeur open source
• Processeurs ARM
(http://www.arm.com/products/CPUs/index.html)
85
Architecture Pipeline (1/3)
 L’exécution d’une instruction est
décomposée en une succession d’étapes
Chaque étape correspond à l’utilisation

d’une des fonctions du microprocesseur
Lorsqu’une instruction se trouve dans

l’une des étapes, les composants
associés aux autres étapes ne sont pas
utilisés.
Le fonctionnement d’un microprocesseur

simple n’est donc pas efficace
L’architecture pipeline permet d’améliorer

l’efficacité du microprocesseur
Architecture Pipeline (2/3)
Lorsque la première étape de l’exécution
d’une instruction est achevée,
l’instruction entre dans la seconde étape
de son exécution et la première phase
de l’exécution de l’instruction suivante
débute
Avoir une instruction en cours

d’exécution dans chacune des étapes
Chacun des composants du

microprocesseur peut être utilisé à
chaque cycle d’horloge
Architecture Pipeline(3/3)
 Le temps d’exécution d’une
instruction n’est pas réduit mais le
débit d’exécution des instructions est
considérablement augmenté
Une machine pipeline se caractérise

par le nombre d’étapes utilisées pour
l’exécution d’une instruction appelés
aussi (nombre d’étages du pipeline).
Dans cette structure, la machine

débute l’exécution d’une instruction à
chaque cycle et le pipeline est
pleinement occupé à partir du
quatrième cycle.
Gain de performance
 Dans cette structure, la machine débute l’exécution d’une instruction à chaque cycle
et le pipeline est pleinement occupé à partir du quatrième cycle.
 Le gain obtenu dépend donc du nombre d’étages du pipeline
 pour exécuter n instructions, en supposant que chaque instruction s’exécute en

k cycles d’horloge, il faut :
 n.k cycles d’horloge pour une exécution séquentielle
 k cycles d’horloge pour exécuter la première instruction
 puis n-1 cycles pour les n-1 instructions suivantes si on utilise un
pipeline de k étages
 Le gain obtenu est donc de :
 Le temps de traitement dans chaque unité doit être à peu près égal sinon les unités
rapides doivent attendre les unités lentes.
Problèmes
 Plus le pipeline est long, plus le nombre de cas où il n’est pas possible d’atteindre la
performance maximale est élevé
 Il existe 3 principaux cas où la performance d’un processeur pipeliné peut être

dégradé ; Ces cas de dégradations de performances sont appelés des aléas :
 aléa structurel : Conflit d'accès à des ressources
 aléa de données: Dépendances de données entre instructions
 aléa de contrôle: Rupture de séquence

Solution
l’instruction qui pose problème et toutes celles qui suivent

dans le pipe jusqu’à ce que le problème se résolve. On voit
alors apparaître des bulles dans le pipeline. De manière
pratique, la bulle correspond à l’exécution de l’instruction
NOP qui ne fait rien
99
Pipeline – aléas
 Aléas
 Problèmes rencontrés lors de l'exécution d'instructions
par le pipeline
 3 familles d'aléas
 Aléas structurels
 Des sous-unités du CPU doivent être utilisées simultanément
par plusieurs étages du pipeline
 Aléa de données
 Une instruction de calcul en cours d'exécution dépend d'une
valeur non encore calculée
 Aléas de contrôle
 L'instruction suivante dépend du résultat d'une instruction pas
encore connu (test)
37
Pipeline – aléas structurels
 Exemple d'aléa structurel, pour notre pipeline simple
 Accès à la mémoire dans les étapes
 LE : lecture de l'instruction suivante en mémoire
 EX dans le cas d'une opération de lecture/écriture en mémoire
 Utilise une même sous-unité (accès mémoire) du processeur
 Solutions
 Attendre pour une instruction que l'unité soit disponible
 Peu efficace
 Dupliquer dans le processeur ces sous-unités
 Accès mémoire : intérêt de découper le cache L1 en deux parties
 Partie « données » avec accès via RM et RA
 Partie « instructions » avec accès via CO et RI
 Peut alors faire un EX d'accès mémoire et un LE en même temps : 2
accès mémoires en parallèle sur les 2 parties différentes du cache L1
 De plus le cache d'instructions est en lecture seule car les instructions
ne sont pas modifiées en mémoire : plus simple et plus
38
rapide car pas besoin de gérer la cohérence cache / mémoire centrale
Pipeline – aléas structurels
 Aléa structurel
 EX de instr. 2 et LE de instr. 5 : accès à la mémoire
Instr. 1 Le De Ch Ex Enr
Instr. 1 Le De Ch Ex Enr Solution par attente :

Instr. 2 Le De Ch Ex Enr décalage de toutes les
Instr. 3 Le De Ch Ex Enr instructions suivantes
39
Pipeline – aléas de données
 R1 = 10 + R2
R3 = R1 x 20 (R1, R2 et R3 sont des registres)
 Problème
 Le calcul de R3 ne peut se faire que quand R1 est connu
R1 est écrit
R1 = 10 + R2 Le De Ch Ex Enr
R3 = R1 x 20 Le De Ch Ex Enr
Instr. 4 R1 doit être lu Le De Ch Ex Enr
Instr. 5 mais n'est pas Le De Ch Ex Enr
encore écrit
40
 Aléa de données : solutions
 Arrêter l'exécution du calcul de R3 tant que R1 n'est
pas connu : peu efficace
 Changer l'ordre d'exécution des opérations pour éviter
ou réduire le problème
 Court-circuiter au plus tôt le pipeline quand la valeur de
R1 est connue
 Le résultat du dernier calcul est dans le registre C de l'UAL
 On peut le réinjecter au cycle suivant dans le registre A ou B
de l'UAL
41
 Suspension du pipeline
 La deuxième instruction est suspendue tant que R1 n'est

pas écrit
 Court-circuit du pipeline
 Après l'étape EX de la première instruction, on connaît la
valeur de R1 : on la réinjecte directement dans l'UAL sans
attendre son écriture au niveau du banc de registre
42
Pipeline – nouveau chemin de données
 Nouveau chemin de données avec court-circuit du pipeline et
accès mémoire via 2 parties du cache
43
 Aléa de données : cas avec réordonnancement
 R1 = 10 + R2
R3 = R1 x 20
R4 = 2 x R5
R6 = 10 + R5
 Dépendance de données entre les 2 premières instructions :
aléa de données dans le pipeline
 Réordonnancement pour éviter cet aléa
 On place les 2 autres instructions entre ces 2 instructions
 R1 = 10 + R2
R4 = 2 x R5
R6 = 10 + R5
R3 = R1 x 20
44
 Aléa de données : réordonnancement
R1 = 10 + R2 Le De Ch Ex Enr R1 est écrit
R4 = 2 x R5 Le De Ch Ex Enr
R1 est lu
 Grâce à ce réordonnancement : pipeline non

suspendu pour aucune des 4 instructions
 Utilisation optimale du pipeline
 2 types de réordonnancement
 Logiciel : fait par le compilateur
 Matériel : fait par le processeur en interne 45
Pipeline – aléas de contrôle
 Aléas de contrôle
 if (R1 > 30)
then R3 = 10 + R1
else R3 = 20 + R1
 Fonctionnement du saut conditionnel
 En fonction du résultat du test, le contenu de CO est modifié
avec l'adresse de la prochaine instruction
 Phase EX : exécution de la comparaison par l'UAL
 Phase ENR : écriture de CO en fonction du résultat du test
 Problème
 Doit connaître la valeur du test de valeur de R1 pour savoir
quelle est l'instruction suivante à exécuter
46
Pipeline – aléas de contrôle
 Aléas de contrôle (suite)
 Solutions
 Attendre que le bon CO soit connu : peu efficace
 Réordonnancer le code : pas toujours suffisant et possible
 Prédire quelle sera la valeur de R1 et commencer le calcul
suivant selon cette prédiction
 Solution avec attente
CO est modifié
saut cond. Le De Ch Ex Enr
instr. suivante Le De Ch Ex Enr
lecture de CO
 Doit attendre le ENR précédent avant de faire le LE : on passe
en exécution purement séquentielle !
47
Prédiction de branchement
 Aléas de contrôle : prédictions de branchement
pour en limiter les conséquences
 Indispensable pour efficacité du pipeline
 A l'aide de tables statistiques dynamiques
 Prédit le résultat d'un test
 On commence ensuite l'instruction suivante prédite
 Problème si prédiction erronée
 On a commencé des calculs inutiles
 Vidage du pipeline pour reprendre dans un état correct
 Trés couteux en temps
 Très pénalisant pour des pipelines profonds
48
 Principes de la prédiction
 Mémoriser les adresses des branches du programme et
regarder celles qui sont souvent atteintes
 Exemple
 1 R0 = R2 - 3
2 if R1 = 0 jump suite
3 R3 = 2 x R1
4 R4 = R3 + R1
suite:
5 R3 = 0
 Deux branches : adresses 3 et 5
 Prédiction : lors du saut conditionnel à l'adresse 2, on prendra la
branche la plus souvent atteinte
49
 Deux éléments pour fonctionnement
 Tampon des branches cibles (BTB : Branch Target Buffer)
 Contient les adresses des branches du programme
 Table de l'historique des branchements (BHT : Branch History
Table)
 Mémoriser l'historique des choix de branchements faits
précédemment pour faire des prédictions
 Fonctionnement dépend de l'algorithme utilisé
 Exemple basique : 2 bits associés à chaque branche
 00 : branchement jamais pris jusqu'à présent
 01 : branchement parfois pris jusqu'à présent
 10 : branchement souvent pris jusqu'à présent
 11 : branchement toujours pris jusqu'à présent
 Mise à jour des BTB et BHT pendant l'exécution du programme
50
 Pour plus d'efficacité des prédictions
 Augmenter la taille du BTB et du BTH
 Pour pouvoir gérer plus de branches (BTB)
 Si BTB trop petit, il ne stocke pas toutes les branches : pas de
prédictions possibles pour toutes les branches
 Pour avoir un historique plus long et précis (BHT)
 Pb : temps d'accès plus long car tables plus grandes
 Augmenter la qualité de la prédiction avec des algorithmes plus
efficaces
 Pb : prend un temps plus long qu'avec des algorithmes plus simples
 Dans les 2 cas : augmentation du temps de la prédiction
 Contraire au besoin de connaître au plus tôt la prédiction
 Limite la montée en fréquence du processeur
 Efficacité des prédictions
 En moyenne, autour de 90% des prédictions sont correctes
51
Pipeline – conclusion
 Influence de la profondeur du pipeline
 Avantage d'un pipeline long
 Plus d'instructions en exécution parallèle
 Montée en fréquence du processeur facilitée
 Donc gain en nombre d'instructions exécutées en un temps donné
 Inconvénient d'un pipeline long
 Une erreur de prédiction est plus coûteuse
 Plus d'opérations en cours d'exécution à annuler
 Solution globale
 Trouver le bon compromis entre gain d'un coté et perte de l'autre
 Améliorer les algorithmes et unités de prédiction de branchement
52
Bilan accélératrices :
4. Les Structures
Bilan la technique du pipeline
 BILAN
La présence du pipeline permet d'améliorer significativement les
performances d'une unité de calcul avec des conséquences pour les
architectures embarquées...
Sous étapes plus simples = plus de niveaux de pipeline
= fréquence de fonctionnement plus élevée
MAIS
puissance dissipée plus importante !
plus de niveaux de pipeline = plus d'aléas

ET
plus de ressources pour corriger les aléas
Compromis pour l'embarqué :

rarement plus de 3 à 5 niveaux de pipeline..... 115
Architectures superscalaires
 Une autre façon de gagner en performance est d’exécuter plusieurs instructions en
même temps
 L'approche superscalaire consiste à doter le microprocesseur de plusieurs unités de
traitement travaillant en parallèle
 Les instructions sont alors réparties entre les différentes unités d'exécution
 Le type d'architecture mise en œuvre dans les premiers Pentium d'Intel apparus en 1993
Architectures superscalaires pipelinées
 Le principe est d’exécuter les instructions de façon pipelinée dans chacune des unités de
traitement travaillant en parallèle

Cours Archi Ing-Inf2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Archi Ing-Inf2

Transféré par

Droits d'auteur :

Formats disponibles

Cours

Architecture des Ordinateurs

2ème Année Ingénieur

• But d'un ordinateur

• Troisième génération : 1965 – 1980

• Quatrième génération : 1980 à aujourd'hui

Evolution des performances

CPU Mémoire Disque dur Vidéo

Front side bus North Internal bus South

Vidéo RAM USB Stockage

• Un processeur est construit autour de deux

– Une unité de traitement

Elle permet de séquencer le déroulement des instructions.

Les blocs de l’unité de commande :

2. Le registre d'instruction et le décodeur d'instruction :

3. Bloc logique de commande (ou séquenceur) : Il

Elle regroupe les circuits qui assurent les traitements

Les blocs de l’unité de traitement :

• (1) Charger une instruction depuis la mémoire

• Un seul chemin d'accès à la mémoire

• Séparation des mémoires programme et données

Le processeur ne comprend qu’un certain nombre

La taille d'une instruction peut varier, elle est

• Exemple : Instruction Addition

Cette instruction est comprise par le processeur par le mot binaire :

11001 000 0000 0010 = code machine

Ce sont les diverses manières de définir la

Actuellement l’architecture des processeurs se

■ Processeur CISC ( Complex Instruction Set

■ Processeur RISC (Reduced Instruction Set

■ Processeur RISC (suite)

■ Quelques exemples de processeurs RISC

Chaque étape correspond à l’utilisation

Lorsqu’une instruction se trouve dans

Le fonctionnement d’un microprocesseur

L’architecture pipeline permet d’améliorer

Avoir une instruction en cours

Chacun des composants du

Une machine pipeline se caractérise

Dans cette structure, la machine

 Le gain obtenu dépend donc du nombre d’étages du pipeline

 pour exécuter n instructions, en supposant que chaque instruction s’exécute en

 Le gain obtenu est donc de :

 Il existe 3 principaux cas où la performance d’un processeur pipeliné peut être

 aléa structurel : Conflit d'accès à des ressources

 aléa de données: Dépendances de données entre instructions

 aléa de contrôle: Rupture de séquence

l’instruction qui pose problème et toutes celles qui suivent

Instr. 1 Le De Ch Ex Enr Solution par attente :

 La deuxième instruction est suspendue tant que R1 n'est

 Grâce à ce réordonnancement : pipeline non

plus de niveaux de pipeline = plus d'aléas

Compromis pour l'embarqué :

Vous aimerez peut-être aussi