Gpgpu

Chapitre 3/4/5/6 - Parallélisme/Étude de cas
Systèmes concurrents et parallélisme

Gabriel Girard
2012
1/29 Systèmes concurrents et parallélisme

Chapitre 3/4/5/6 - Cuda/OpenCl
1 GPGPU
GPU
CUDA
OpenCL

GPGPU
Chapitre 3/4/5/6 - Cuda/OpenCl
1 GPGPU
GPU
CUDA
OpenCL

GPGPU
GPU
GPU
GPGPU : General Purpose Computation on GPU

Le + puissant par $
CPU : optimisé pour code séquentiel (cache, prédiction, ...)
GPU : optimisé pour les calculs arithmétiques parallèles
GPU : fournit moins de précision et moins d’opérations
GPU : modèle de calcul original

GPGPU
GPU
GPU
Début 2006 avec CUDA (NVidia) et Stream (ATI-AMD)

OpenCl est un API unifié pour tout type de périphériques
Inspiré de BrookGPU (Stanford) et Sh (Waterloo)

GPGPU
GPU
GPGPU : Deux concepts importants
Stream processing (SIMD ou data parallelism)

Les kernels appliqués sur chaque élément de la Stream

GPGPU
GPU
GPGPU
Les GPU traitent les éléments de façon indépendante

Pas de données partagées ou statiques
On lit les données en entrée et écrit les résultats
Pas de mémoire en lecture/écriture

GPGPU
GPU
GPGPU
Les GPU ont moins de cache et une unité de contrôle moins
importante.

GPGPU
GPU
GPGPU - Fermi (Nvidia)

Jusqu’à 16 Streaming Multiprocessors (SM) de 32 coeurs

GPGPU
GPU
GPGPU - Fermi (Nvudia)

Un SM = 32 coeurs avec de mémoire partagée et registres

GPGPU
GPU
GPGPU - Hiérarchie de mémoire
Sur la puce
registres (32 768 par SM)
mémoire partagée (64k par SM)
Hors de la puce
mémoire globale (lente)
mémoire de texture, de constantes et locale

GPGPU
CUDA
CUDA : Terminologie
Hôte −→ CPU
Périphérique −→ GPU
Kernel −→ code à exécuter sur le périphérique
Grille −→ tâches à exécuter, divisée en blocs
Blocs −→ contiennent plusieurs fils (threads)

GPGPU
CUDA
CUDA : Concept
Le programme contient le code pour l’hôte et le périphérique

Allocation de mémoire sur le GPU et transfert du CPU
Lancement du «kernel» sur le périphérique par l’hôte en
précisant le contexte d’exécution

GPGPU
CUDA
CUDA - Kernel
Fonction exécutée par le GPU

Ne s’appelle pas de la même manière qu’une fonction
3 types :
__global__ : appelé par CPU et exécuté par GPU
__device__ : appelé et exécuté par GPU
__host__ : appelé et exécuté par CPU (défaut)

GPGPU
CUDA
CUDA - Kernel
Appel au kernel :
kernel << NBlocs, ThreadPerBlock>> (arguments)
NBlocs : Nombre de blocs
ThreadPerBlock : nombre de fils à exécuter simultanément

GPGPU
CUDA
CUDA - Kernel
Variables implicites :
blocidx : index du bloc dans la grille (x,y,z)
threadidx : index du thread dans le bloc
blockdim : nombre de fils dans le bloc

GPGPU
CUDA
CUDA - Exemple
_global__ void vecAdd(float * A, float * B, float * C)

{
int i = threadIdx.x;
C[i] = A[i] + B[i];
}
int main()
{
vecAdd <<1, N>> (A, B, C);
// |-> vecteurs additionnés une seule fois
// |-> nombre de composante des vecteurs
}

GPGPU
CUDA
CUDA - Exemple
_global__ void vecAdd(float * A, float * B, float * C)

{
int i = blockIdx.x * blockDim.x + threadIdx.x;
C[i] = A[i] + B[i];
}
int main()
{
const int threadsPerBlock = 256;
// int nBlocks = N/threadsPerBlock + (N%threadsPerBlock == 0 ? 0:1);
int nBlocks = (N + threadsPerBlock - 1) / threadsPerBlock;
vecAdd <<nBlocks, nThreadsPerBlocks>> (A, B, C);
}

GPGPU
CUDA
CUDA - Kernel
On doit allouer la mémoire :

cudaMalloc
cudaFree
cudaMemCpy

GPGPU
CUDA
CUDA - Exemple
int main(void)
{
float *VH, *VP;
const int N = 10;
size_t size = N * sizeof(float);
VH = (float *)malloc(size);
cudaMalloc((void **) &VP, size);
// Initialisation et copie
for (int i=0; i<N; i++) A[i] = (float)i;
cudaMemcpy(VP, VH, size, cudaMemcpyHostToDevice);
// On calcule
int block_size = 4;
int n_blocks = N/block_size + (N%block_size == 0 ? 0:1);
square_array <<< n_blocks, block_size >>> (a_d, N);
// Récupère les résultats
cudaMemcpy(a_h, a_d, sizeof(float)*N, cudaMemcpyDeviceToHost);
// Impression et nettoyage
for (int i=0; i<N; i++) printf("%d %f\n", i, a_h[i]);
free(a_h); cudaFree(a_d);
20/29 } Systèmes concurrents et parallélisme
GPGPU
CUDA
CUDA - Exemple
// Kernel
__global__ void square_array(float *a, int N)
{
int idx = blockIdx.x * blockDim.x + threadIdx.x;
if (idx<N) a[idx] = a[idx] * a[idx];
}

GPGPU
CUDA
CUDA - Kernel
Compilation : NVCC

GPGPU
OpenCL
OpenCl
Standard pour programmation parallèle

Similaire à CUDA
Kernel
Application Hôte
Le code à exécuter sur l’hôte est séparé du code exécuté sur le
périphérique
Le code sur l’hôte doit charger et compiler le code destiné au
périphérique

GPGPU
OpenCL
OpenCl
__kernel void vecadd(__global const float * A,

__global const float * B,
__global const float * C)
{
unsigned int const i = get_global_id(0);
C[i] = A[i] + B[i];

}

GPGPU
OpenCL
OpenCl
Périphérique
kernel
Program
Command queue
Context
Platerforme

GPGPU
OpenCL
OpenCl
Work item (fil)

Chacun possède un ID local et un ID global
Work group
Chacun possède un ID et une taille

GPGPU
OpenCL
OpenCL
Fonctions prédéfinies
get_global_id
get_local_id
get_work_dim
get_global_size

GPGPU
OpenCL
OpenCL - Mémoire
Mémoire globale
Mémoire constante
Mémoire locale
Mémoire privée

GPGPU
OpenCL
OpenCL - Structure du programme hôte

1 Obtenir information sur les périphériques
clGetPlatformInfo, clGetDeviceIDs, clGetDeviceInfo
2 Créer un contexte
clCreateContext, clCreateContextFromType,
clGetContextInfo
3 Créer une file de commandes
clCreateCommandQueue
4 Charger, compiler le programme
clCreateProgramFromSource, clBuildProgram,
clCreateKernel
5 Passer des paramètres
clCreateBuffer, clSetKernelArg, clEnqueueWriteBuffer
6 Exécuter le programme
clEnqueueNDRangeKernel
7 Récupérer les résultats
clEnqueueReadBuffer

Gpgpu

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Gpgpu

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 3/4/5/6 - Parallélisme/Étude de cas

Systèmes concurrents et parallélisme

1/29 Systèmes concurrents et parallélisme

Chapitre 3/4/5/6 - Cuda/OpenCl

2/29 Systèmes concurrents et parallélisme

Chapitre 3/4/5/6 - Cuda/OpenCl

3/29 Systèmes concurrents et parallélisme

GPGPU : General Purpose Computation on GPU

4/29 Systèmes concurrents et parallélisme

Début 2006 avec CUDA (NVidia) et Stream (ATI-AMD)

5/29 Systèmes concurrents et parallélisme

GPGPU : Deux concepts importants

Stream processing (SIMD ou data parallelism)

6/29 Systèmes concurrents et parallélisme

Les GPU traitent les éléments de façon indépendante

7/29 Systèmes concurrents et parallélisme

8/29 Systèmes concurrents et parallélisme

GPGPU - Fermi (Nvidia)

9/29 Systèmes concurrents et parallélisme

GPGPU - Fermi (Nvudia)

10/29 Systèmes concurrents et parallélisme

GPGPU - Hiérarchie de mémoire

11/29 Systèmes concurrents et parallélisme

12/29 Systèmes concurrents et parallélisme

Le programme contient le code pour l’hôte et le périphérique

13/29 Systèmes concurrents et parallélisme

Fonction exécutée par le GPU

14/29 Systèmes concurrents et parallélisme

15/29 Systèmes concurrents et parallélisme

16/29 Systèmes concurrents et parallélisme

_global__ void vecAdd(float * A, float * B, float * C)

17/29 Systèmes concurrents et parallélisme

_global__ void vecAdd(float * A, float * B, float * C)

18/29 Systèmes concurrents et parallélisme

On doit allouer la mémoire :

19/29 Systèmes concurrents et parallélisme

21/29 Systèmes concurrents et parallélisme

22/29 Systèmes concurrents et parallélisme

Standard pour programmation parallèle

23/29 Systèmes concurrents et parallélisme

__kernel void vecadd(__global const float * A,

C[i] = A[i] + B[i];

24/29 Systèmes concurrents et parallélisme

25/29 Systèmes concurrents et parallélisme

Work item (fil)

26/29 Systèmes concurrents et parallélisme

27/29 Systèmes concurrents et parallélisme

28/29 Systèmes concurrents et parallélisme

OpenCL - Structure du programme hôte

Vous aimerez peut-être aussi

kernel void vecadd(global const float * A,