Chapitre 4 Arch Avan Proc1

Chapitre 4 : Les processeurs
dédiés
I. Les DSP
A. Architecture générale
 CAN: conversion analogique numérique, filtre anti repliement nombre de bits, loi
de conversion, fréquence d’échantillonnage
 Processeur: Organe de calcul dont l’architecture est «adaptée» au traitement du
signal
 CNA: conversion numérique analogique, filtre de restitution nombre de bits, loi
de conversion, fréquence d’échantillonnage
 ROM: Mémoire contenant les programmes de contrôle du système et de
traitement du signal
 RAM: Mémoire vive contenant les données en entrée en sortie et en cours de
traitement
 Comm.: Organe de communication avec un éventuel système externe
 Horloge, timers...: horloge du processeur, horloge d’acquisition, horloge de
communication....
 Structure des programmes
Programme Interruption, horloge

principal d’acquisition
Retour d’interruption
Diagramme temporel
Fréquence d’échantillonnage = 1/Te
Contraintes temps réel très fortes
T < Te
Domaine d’utilisation des DSP
Complexité des algorithmes

Fréquence d’horloge
 Fh Rythme la vie du processeur

 Actuellement (2000), 1Ghz
 Le rapport R=Fh/Fe est déterminant pour la complexité du système
 Quand R décroit :
• Complexité du système plus grande (parallélisme, multiprocesseurs...)
• Algorithmes simples
• Programmation complexe, optimisation indispensable (gestion du pipeline...)
Caractéristiques principales
 Multiplication-addition rapide (MAC) avec un format de calcul étendu pour éviter

les dépassements
 Mémoire à accès multiple
 Modes d’adressage spécialisés
 Exécution rapide des boucles
 I/O intégrées avec le processeur
Représentation des nombres
 Deux grandes catégories de DSP
o Format virgule fixe

- 16, 20, 24 bits
- Calcul en précision étendue par logiciel (performance réduite)
- Emulation du calcul flottant par logiciel (performance réduite)
- Hardware plus simple, coût réduit
- Dynamique réduite (144 dB pour 24 bits)
-programmation complexe (Scaling) pour les traitements nécessitant une
bonne précision
o Format virgule flottante

- 32 bits (mantisse 24 bits, exposant 8 bits)
- Calcul en virgule fixe généralement possible
- Hardware plus complexe, coût élevé
- Dynamique élevée (1535dB pour 32 bits)
- Progammation simplifiée
Quelques DSP...
Unités de Calcul
 Data Paths
- Unités Arithmétiques et Logiques
- Unités de calcul en entier
- Unités de calcul en virgule fixe
- Unités de calcul en flottant
-Shifter (un circuit électronique capable d’effectuer des opérations de décalage et de
rotation binaires)
 Structures spécifiques des DSP

généralement absentes des autres types de processeurs (ou avec une organisation différente)
Deux grandes catégories pour les DSP:

Virgule fixe
Virgule flottante
Virgule fixe
 Eléments principaux
- Multiplieur
- Accumulateurs
- Unité arithmétique et logique
- Shifters
Remarque: Calculs d’adresse effectués dans une unité particulière

o Adr. Generation Unit (AGU)
o Data Adress Generation (DAG)
- Adressage circulaire
- Adressage spécifique FFT (bit-reversed)
Motorola, DSP5600x
Multiplieur
 Rôle central dans un DSP
 Plus de 50% des instructions
 Caractéristiques principales
 Temps d’éxécution = 1 cycle instruction
 Structure pipeline
- Un résultat par cycle horloge, si le pipeline est bien utilisé
Multiplieur Multiplieur-accumulateur
Multiplication-addition en
Deux instructions Une instruction
• Entrées du multiplieur
• Uniquement les registres
– Architecture Load-Store
– Lecture mémoire avant calcul
– Programme plus complexe, mais Hardware plus efficace

(Architecture RISC)
• Registres et mémoire
– Programmation plus simple
– Mais... la facilité peut être l’ennemi de la performance.

- Tailles opérandes/résultats
n bits x n bits = 2 n bits
- Troncature du résultat à n bits souvent indispensable (calculs enchainés)
- Mise à l’échelle (scaling) est nécessaire
Perte de précision
Perte de temps
Programme plus complexe
Accumulateurs
Taille 2 n bits + p bits
p bits (Guard bits) pour additionner plusieurs valeurs en sortie des multiplieurs en
limitant le risque de dépassement de capacité (Overflow)
Exemple: ADSP 21xx
Format fixe 16 bits
Résultat multiplieur 32 bits
Accumulateurs 40 bits
ALU
Opérations entières et binaires
(+, -, inc, dec, et, ou, xor...)
Taille des opérandes de l’ALU
- taille des accumulateurs ou
- taille des opérandes du multiplieur
Shifter(s)
- Opérations de mise à l’échelle (Scaling) par puissance de deux
- Indispensable pour éviter les dépassements de capacité
- Son utilisation doit être maitrisée par le programmeur
- Réduction de la précision des calculs
- Nombre, emplacement et possibilités des Shifters très différents d’un DSP à un autre.
Virgule flottante
Lucent, DSP3210
 Structure similaire aux unités en virgule fixe
 DSP avec
- unité flottante seule (TI, AD, Motorola)
o l’unité flottante accepte la virgule fixe
- unité flottante + unité fixe (AT&T)
 Programmation plus simple

- Scaling automatique (exposant)
- Plus de protection contre les erreurs de calcul (exception)
- Fonctions spéciales (Division, racine carrée, conversion de
format...)
Multiplieur
o Entrée 32 bits
- mantisse 24 bits
- exposant 8 bits
o Sortie (32)40 à 44 bits
- mantisse 32 à 36 bits
- exposant 8 bits
- Format interne pour multiplication/accumulation
- Arrondi systématique
- perte de précision négligeable
ALU
o Soustraction, addition, négation, valeur absolue, minimum, maximum
o Opérations spéciales (racine carrée, division...)
Shifter
o Présent mais invisible pour le programmeur (Sauf en mode virgule fixe)
o Normalisation automatique (Scaling) des résultats flottants
Registres accumulateurs
o Plusieurs, au format des résultats flottants (40 à 44 bits)
Registres Opérandes
oEntrée quasiment exclusives du multiplieur flottant
oLes calculs flottants doivent donc être précédés d’une lecture explicite (Move) des
opérandes en mémoire
oChargement des registres en parallèle avec les opérations arithmétiques
Exceptions
o Overflow
- positionnement d’un indicateur et/ou interruption
- saturation du résultat
o Underflow
- positionnement d’un indicateur et/ou interruption
- Mise à zéro du résultat
o Autres exceptions
Division par 0, format invalide...
o Transmettre les instructions et les données vers les unités de calculs
o Maintenir une activité maximale dans les unités de calcul
o Eviter de créer un goulot d’étranglement (Bottleneck)
o Programme organisé en fonction de l’architecture mémoire
o Facteur critique pour la performance globale d’un DSP
Réalisation d’un filtre FIR
• Structure non récursive ou filtre transverse
y(n)  b(0) x(n)  b(1) x(n  1) b(Q) x(n  Q)

/* H(z) = b(0) + b(1) z -1 + b(2) z-2 */
int x[3], xin, yout;
float b[3];
x[0]=xin; /* xin contient l'echantillon d'entree */
/* calcul du filtre RIF */
yout = x[0]*b[0];
for(i=2; i>0; i - -) {
yout=yout+x[i]*b[i]; x[i]=x[i-1];
} /* sortie de yout */
o Multiplication-addition en un cycle instruction
o Filtre FIR ordre Q calculé en Q+1 instructions
o MAIS pour chaque cycle instruction:
- Lire l’instruction (Opcode Fetch)
- Lire une valeur x(i)
- Lire un coefficient b(i)
- Ecrire x(i) en x(i+1)
Soit 4 accès mémoire par instruction
o Plusieurs accès mémoire nécessaires pour chaque instruction
o Solutions:
- Organisation mémoire
• Architectures HARVARD
• Mémoires à accès multiples
• Cycles spéciaux READ/WRITE
- Réduction du nombre d’accès
• Mémoire cache programme
• Adressage circulaire (Modulo Adr.)
• Programmation «intelligente»
Organisation mémoire
 Principe de base :
Architecture de Von Neumann
 Les DSP ont tous une organisation mémoire
spéciale pour augmenter la bande passante
 Chaque DSP a ses particularités
 L’utilisation de la mémoire est soumise à des
restrictions qui compliquent beaucoup la
programmation.
• Un seul accès mémoire par cycle instruction

• FIR d’ordre Q calculé en au moins 4Q cycle instructions
• Architecture mal adaptée, bande passante mémoire limitée
Architecture Harvard
Architecture Harvard Modifiée
- Avantage: 2 accès mémoire par

cycle instruction
• Mémoire A: programme et
coefficients du filtre
• Mémoire B: échantillons
d’entrée
• Une étape du filtre calculée
en deux instructions
- Exemples:
• ADSP 21xx
• AT&T DSP16xx
- Extension à 3 mémoires
• DSP5600x, DSP96002
• Zilog Z893
Architecture Harvard modifiée
- Mémoires intégrées avec le processeur (On-chip)
- Un seul bus (adresse+donnée) disponible à l’extérieur (Off-chip) pour limiter le
nombres de broches: diminution des performances
- Rappel: Il faut 4 accès mémoire par instruction ????
• Il faudra utiliser d’autres techniques pour atteindre les performances
maximales
Mémoire à accès multiple

Mémoire rapide autorisant plusieurs accès séquentiels par cycle instruction
• Avec une architecture Harvard Modifiée:

3 ou 4 accès mémoire par cycle
• Ex: Zoran ZR3800x
• Avec une architecture type VonNeumann:
4 accès par cycle
• Ex: Lucent DSP32
Mémoire multi-port
 Avantage: programmation
simplifiée
 Inconvénients:
 électronique beaucoup plus
complexe donc plus coûteuse
 Extension Off-chip
pratiquement impossible
 Exemple: Motorola DSP561xx
Réduction du nombre d’accès
- Mémoire cache programme
(En général, les DSP n’ont pas de mémoire cache pour les données)
Mémoire contenant des instructions exécutées souvent (boucles...)

Réduction du nombre d’accès à la mémoire programme
Mémoire cache programme
- Il existe de nombreuses variations autour du principe de base
- Dans les DSP, la structure de la mémoire cache est beaucoup plus simple que
dans les processeurs d’usage général (type Pentium...)
- L’optimisation nécessite une prise en compte par le programmeur de la
structure et des possibilités de la mémoire cache
-Contrôle manuel du cache pour maîtriser les timings.
- Repeat buffer 1 à N instructions
 ex: AT&T DSP16 : 16 instructions
 ex: TMS 320C2x/5x : 1 instruction
- «Vrai» cache mono-ligne
 ex:Zoran ZR3800x
- «Vrai» cache multi-ligne
 ex:TMS320C3x: 2 fois 32 instructions
Architecture pipeline
 Principe du pipeline
- Découper un opération en N sous-opérations (S/op) et
- Exécuter les N sous-opérations en parallèle (sur des données différentes)
 Exemple (TMS320C3x)
 Exécution d’une instruction
- Lecture de l’instruction en mémoire programme (OpCodeFetch)
- Décodage de l’instruction
- Lecture ou écriture d’un opérande en mémoire de donnée
- Exécution éventuelle d’un opération arithmétique ou logique
Cycle 1 2 3 4 5 6 7 8
I/F I1 I2
Dec I1 I2
R/W I1 I2
Exec I1 I2
Exécution non-pipelinée
Cycle 1 2 3 4 5 6 7 8
I/F I1 I2 I3 I4 I5 I6
Dec I1 I2 I3 I4 I5
R/W I1 I2 I3 I4 I5
Exec I1 I2 I3 I4 I5
Exécution pipelinée
• La vitesse d’éxécution d’un programme est multipliée par N (ici 4) nombre d’étage du
pipeline
• En apparence, une instruction est éxécutée à chaque cycle horloge
• La durée réelle d’éxécution d’une instruction est de N cycles horloge

Dans les DSP...
 Presque tous les DSP sont pipelinés
 Le nombre d’étages varie de 2 à 5
- ADSP :2
- La plupart des DSP :3
Opcode Fetch
Decode/OperandRead/Write
Execute (MAC, ALU, ...)
- TMS320C3x , ... :4
- TMS320C54x , ... :5
 Le pipelinage augmente le nombre d’accès à la mémoire
Dans l’exemple précédent il passe de ½ accès à 2 accés /cycle horloge
GPU
GPU VS CPU
GPU VS CPU
~100 GFLOPS Peak
730 millions de ~ 2.7 TFLOPS Peak
transistors 2.2 milliards de transistors
4 threads + SSE vector
instructions
Pourquoi une telle différence
Latence VS throuput
Parallélisme de tâche VS parallélisme de données
Multi-thread VS SIMD
Des dizaines de threads VS des dizaines de milliers de threads

Latence et throughput
o La latence est le délai entre le moment où une opération est initiée, et le
moment où ses effets deviennent détectable
• Une voiture a une latence plus faible qu’un bus (plus rapide)
o Throughput (débit) est la quantité de travail effectué sur une durée
• Un bus a un throughput plus élevé qu’une voiture (plus de personnes à la fois)
 Les CPU doivent minimiser la latence (négligeant le throughput)

- Un input du clavier
 Nécessité d’utiliser des caches
 Les CPUs maximisent les opérations en dehors du cache (pre-fetch, exécution
out-of-order, . . . )
 Les CPU ont besoin de caches de grande taille
 Les GPU sont des processeurs à latence et throughput élevés

 Ils n’ont pas besoin de large cache
 Plus de transistors peuvent être dédiés au calcul
Pourquoi une telle différence de performance ?
 Plus de transistors sont dédiés au traitement des données au lieu de la gestion
des caches
 Chip de même taille mais avec plus d’ALU, donc plus de threads pour le calcul
Gestion des threads sur le GPU
Comment faire
- Synchronisation entre autant de threads (comment l’éviter)

- Ordonnancement, commutation de contexte
- Programmation
Les threads sur les GPUs sont :
-Indépendants (pas de synchronisation)

- SIMD (coût d’ordonnancement réduit)
- Programmation par block de threads
 Applications data parallel

 Applications graphiques, traitement d’images,
physique,informatique, . . .
 Plus il y a de données, plus les GPUs sont efficaces
Parallélisme CPU VS GPU
CPU : Parallélisme de tâches GPU : Parallélisme de données

Exécution simultanées de Exécution simultanée de la
plusieurs fonctions sur même fonction par plusieurs
différents cœurs et sur des cœurs sur différentes données
données identiques ou pas
Stream processing
 L’unité fondamentale d’un GPU est le ”stream processor”

 Un grand ensemble de données (”stream”)
 Exécuter les mêmes opération (”kernel” ou ”shader”) sur toutes les
données
 Plusieurs optimisations pour améliorer le throughput
 Mémoire et cache local on-chip pour réduire le nombre d’accès à la
mémoire externe
 Les threads sont groupés pour de meilleurs accès mémoire
- Réduire la latence et le ”stall”
Pourquoi les GPU?
 Grâce aux jeux vidéos, les GPU sont :
 très populaires
 massivement produits (le coût est ainsi réduit)
 Les GPUs tolèrent une large latence
 Moins de cache
 Plus de place pour les unités de calcul
 Plus de threads
 Les GPU sont massivement parallèles :
 Opérations (translations, rotations, . . . ) sur les pixels peuvent être
réalisées en parallèles
 Beaucoup d’unités de calcul
 Mémoire locale de grande taille
 Large bande passante mémoire
Architecture des GPUs modernes
Vu général du GPU Fermi
512 CUDA cores

 1 CUDA core = 1 opération flottante
par clock pour un thread
 16 Stream Process (SM) de 32 coeurs
 6x64-bits mémoire : total 6GB de DRAM
 Connexion avec CPU via PCI express
 GigaThread global scheduler distribue
les threads au scheduler de thread sur les
SM
Vue détaillée du GPU Fermi
 512 CUDA cores

 ALU et FPU (floating point unit)
 16 unités Load/Store (LD/ST) par SM
 4 Special Function Units (SFU)
sin, cosin, racine carrée, . . .
 Les SM ordonnancent les threads par
groupe de 32 appelé warp
 Tous les threads d’un warp sont
synchronisés
 Les threads de wrap différents sont
indépendants
 64 Ko mémoire partagée/cache L1
Référence : NVIDIA Fermi Compute Architecture Whitepaper
Programmation GPU
Application d’un kernel, écrit comme un code séquentiel, à plusieurs données

CUDA
 C, C++, Fortran, Python
 OpenCL
 OpenAcc

Chapitre 4 Arch Avan Proc1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 4 Arch Avan Proc1

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 4 : Les processeurs

Programme Interruption, horloge

Fréquence d’échantillonnage = 1/Te

Contraintes temps réel très fortes

Complexité des algorithmes

 Fh Rythme la vie du processeur

 Multiplication-addition rapide (MAC) avec un format de calcul étendu pour éviter

 Deux grandes catégories de DSP

o Format virgule fixe

o Format virgule flottante

 Structures spécifiques des DSP

Deux grandes catégories pour les DSP:

Remarque: Calculs d’adresse effectués dans une unité particulière

– Lecture mémoire avant calcul

– Programme plus complexe, mais Hardware plus efficace

– Programmation plus simple

– Mais... la facilité peut être l’ennemi de la performance.

 Programmation plus simple

y(n)  b(0) x(n)  b(1) x(n  1) b(Q) x(n  Q)

• Un seul accès mémoire par cycle instruction

- Avantage: 2 accès mémoire par

Mémoire à accès multiple

• Avec une architecture Harvard Modifiée:

Mémoire contenant des instructions exécutées souvent (boucles...)

• En apparence, une instruction est éxécutée à chaque cycle horloge

• La durée réelle d’éxécution d’une instruction est de N cycles horloge

Parallélisme de tâche VS parallélisme de données

Des dizaines de threads VS des dizaines de milliers de threads

 Les CPU doivent minimiser la latence (négligeant le throughput)

 Les GPU sont des processeurs à latence et throughput élevés

- Synchronisation entre autant de threads (comment l’éviter)

Les threads sur les GPUs sont :

-Indépendants (pas de synchronisation)

 Applications data parallel

CPU : Parallélisme de tâches GPU : Parallélisme de données

 L’unité fondamentale d’un GPU est le ”stream processor”

512 CUDA cores

 512 CUDA cores

Application d’un kernel, écrit comme un code séquentiel, à plusieurs données

Vous aimerez peut-être aussi