Cuda Examples

Transféré par

Swati Choudhary

0% ont trouvé ce document utile (0 vote)

36 vues5 pages

Example programs for CUDA C

Copyright

Formats disponibles

PDF, TXT ou lisez en ligne sur Scribd

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Signaler ce document

Example programs for CUDA C

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

0% ont trouvé ce document utile (0 vote)

36 vues5 pages

Cuda Examples

Transféré par

Swati Choudhary

Example programs for CUDA C

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

Passer à la page

Vous êtes sur la page 1sur 5

Rechercher à l'intérieur du document

ExamplesofCuda code

1) Thedotproduct
2) Matrixvectormultiplication
3) Sparsematrixmultiplication
4) Globalreduction

Computingy=ax+ywithaSerialLoop
voidsaxpy_serial(int n,floatalpha,float*x,float*y)
{
for(inti=0;i<n;++i)
y[i]=alpha*x[i]+y[i];
}
//InvokeserialSAXPYkernel
saxpy_serial(n,2.0,x,y);

Computingy=ax+yinparallelusingCUDA
_global_void saxpy_parallel(int n,floatalpha,float*x,float*y)
{
int i =blockIdx.x*blockDim.x +threadIdx.x;
if(i<n)y[i]=alpha*x[i]+y[i];
}
//InvokeparallelSAXPYkernel(256threadsperblock)\\
intnblocks=(n+255)/256;
saxpy_parallel<<<nblocks,256>>>(n,2.0,x,y);

ComputingMatrixvectormultiplicationinparallelusingCUDA
__global__voidmm_simple(float*C,float*A,float*B,int n)
{
int row=blockIdx.y *blockDim.y +threadIdx.y;
int col=blockIdx.x *blockDim.x +threadIdx.x;
floatsum=0.0f;
for(int k=0;k<n;k++){
sum+=A[row*n+k]*B[k*n+col];
}
C[row*n+col]=sum;
}

Sparsematrixrepresentation

30900
05002
00700
00584
00600

Av=[395275846]=nonzeroelements
Aj =[021422342]=columnindicesofelements
Ap =[024589]=pointerstothefirstelementineachrow

Serialsparsematrix/vectormultiplication
voidcsrmul_serial(int *Ap,int *Aj,float*Av,int num_rows,
float*x,float*y)
{
for(int row=0;row<num_rows;++row)
{
int row_begin =Ap[row];
int row_end =Ap[row+1];
y[row]=multiply_row(row_end row_begin, Aj+row_begin,
Av+row_begin,x);
}
}
floatmultiply_row(int rowsize,
int *Aj,
//columnindicesforrow
float*Av,
//nonzeroentriesforrow
float*x)
//theRHSvector
{
floatsum=0;
for(int column=0;column<rowsize;++column)
sum+=Av[column]*x[Aj[column]];
returnsum;
}

Parallelsparsematrix/vectormultiplication
_global_void csrmul_kernel(int *Ap,int *Aj,float*Av,int num_rows,
float*x,float*y)
{
int row=blockIdx.x*blockDim.x +threadIdx.x;
if(row<num_rows )
{
int row_begin =Ap[row];
int row_end =Ap[row+1];
y[row]=multiply_row(row_end row_begin,Aj+row_begin,
Av+row_begin,x);
}
}

Thecodetolaunchtheaboveparallelkernelis:
unsignedint blocksize =128;//oranysizeupto512
unsignedint nblocks =(num_rows +blocksize 1)/blocksize;
csrmul_kernel<<<nblocks,blocksize>>>(Ap,Aj,Av,num_rows,x,y);

Cachinginsharedmemory

=
Block_begin
Cachein
shared
memory

Athread
Block_end

therowexecuted
byathread

Expectmostofthenon
zeroelementshere
(aroundthediagonal)

_global_void csrmul_cached(int Ap,int Aj,floatAv,int num_rows,constfloatx,float*y)

{
_shared_float cache[blocksize];//Cachetherowsofx[]correspondingtothisblock.
int block_begin =blockIdx.x *blockDim.x;
int block_end =block_begin +blockDim.x;
int row=block_begin +threadIdx.x;
//Fetchandcacheourwindowofx[].
if(row<num_rows)cache[threadIdx.x]=x[row];
_syncthreads();
if(row<num_rows )
{
int row_begin =Ap[row];
int row_end =Ap[row+1];
floatx_j ,sum=0;
for(int col=row_begin;col<row_end;++col)
{
int j=Aj[col];
if(j>=block_begin &&j<block_end ) //Fetchx_j fromourcachewhenpossible
x_j =cache[jblock_begin];
else
x_j =x[j];
sum+=Av[col]*x_j;
}
y[row]=sum;
}
}

Parallelreduction
_global_void plus_reduce(int *input,int N,int *total)
{
int tid =threadIdx.x;
int i =blockIdx.x*blockDim.x +threadIdx.x;
//Eachblockloadsitselementsintosharedmemory
_shared_int x[blocksize];
x[tid]=(i<N)?input[i]:0;
//lastblockmaypadwith0s
_syncthreads();
//Buildsummationtreeoverelements.
for(int s=blockDim.x/2;s>0;s=s/2)
{
if(tid <s)x[tid]+=x[tid +s];
_syncthreads();
}
//Thread0addsthepartialsumtothetotalsum
if(tid ==0)atomicAdd(total,x[tid]);
}

Vous aimerez peut-être aussi

Caso 1: Using Using Using Using Namespace Class Static Void String Int
Document16 pages
Caso 1: Using Using Using Using Namespace Class Static Void String Int
Jesus David Parra
Pas encore d'évaluation
Arrayfire Tutorrial
Document32 pages
Arrayfire Tutorrial
Indira Savitri
Pas encore d'évaluation
Nvidia Profiling Tools Keipert 10 4 22
Document27 pages
Nvidia Profiling Tools Keipert 10 4 22
TJK001
Pas encore d'évaluation
File 10
Document12 pages
File 10
shekharc
Pas encore d'évaluation
Eliminating The Hardware/Software Divide: Satnam Singh, Microsoft Research Cambridge, UK
Document146 pages
Eliminating The Hardware/Software Divide: Satnam Singh, Microsoft Research Cambridge, UK
Mayam Ayo
Pas encore d'évaluation
CG 7 Bto 10
Document27 pages
CG 7 Bto 10
Ayush Poojari
Pas encore d'évaluation
Ann 1
Document20 pages
Ann 1
1314 Vishakha Jagtap
Pas encore d'évaluation
Assignment 3rd-Mirza Hamza Baig
Document13 pages
Assignment 3rd-Mirza Hamza Baig
Mirza Hamza Baig
Pas encore d'évaluation
Array Fire GPU Programming in C++
Document32 pages
Array Fire GPU Programming in C++
kishorenayark
Pas encore d'évaluation
Lab 02 - Data Security and Applications
Document6 pages
Lab 02 - Data Security and Applications
Amna Arooj
Pas encore d'évaluation
OpenACC 2017spring
Document46 pages
OpenACC 2017spring
Cosmic02
Pas encore d'évaluation
Program 4
Document25 pages
Program 4
api-709999921
Pas encore d'évaluation
Class4 Advanced Cuda Opencl
Document64 pages
Class4 Advanced Cuda Opencl
Carlangaslangas
Pas encore d'évaluation
Tarea 8 Casos Matriz en Espiral
Document16 pages
Tarea 8 Casos Matriz en Espiral
Jesus David Parra
Pas encore d'évaluation
A05
Document3 pages
A05
abhay ar
Pas encore d'évaluation
IT8761 Security Laboratory Manual
Document50 pages
IT8761 Security Laboratory Manual
sowrishal
Pas encore d'évaluation
Twisha Twisha Chattopadhyay
Document39 pages
Twisha Twisha Chattopadhyay
Jatin Kumar Garg
Pas encore d'évaluation
Hill Cipher
Document2 pages
Hill Cipher
Sarathbabu R
Pas encore d'évaluation
A05
Document3 pages
A05
abhay ar
Pas encore d'évaluation
Digital Signal Processing Lab File: Experiment-1
Document22 pages
Digital Signal Processing Lab File: Experiment-1
Parshant
Pas encore d'évaluation
IT8761 Security Laboratory Manual P and OP
Document54 pages
IT8761 Security Laboratory Manual P and OP
shohi
Pas encore d'évaluation
Q1. Tower of Hanoi - Transfer N Disks From Source To Destination Over 3 Towers
Document7 pages
Q1. Tower of Hanoi - Transfer N Disks From Source To Destination Over 3 Towers
Logeshwar
Pas encore d'évaluation
Computer Graphics Programs
Document18 pages
Computer Graphics Programs
Rao_Surender_Kosalia
Pas encore d'évaluation
Graphics
Document11 pages
Graphics
Manish Sagar
Pas encore d'évaluation
Planar Data Classification With One Hidden Layer v5
Document19 pages
Planar Data Classification With One Hidden Layer v5
sn3fru
Pas encore d'évaluation
#Include #Include #Include #Include #Include #Include
Document9 pages
#Include #Include #Include #Include #Include #Include
ssfofo
Pas encore d'évaluation
#Include #Include #Include #Include #Include #Include
Document9 pages
#Include #Include #Include #Include #Include #Include
ssfofo
Pas encore d'évaluation
Print 'Hello World' in Java. Ans
Document18 pages
Print 'Hello World' in Java. Ans
p
Pas encore d'évaluation
2d Transformation
Document8 pages
2d Transformation
NivedhaSekar
Pas encore d'évaluation
Discrete Optimization: Assignments: Knapsack
Document14 pages
Discrete Optimization: Assignments: Knapsack
Victor Mariano Leite
Pas encore d'évaluation
Message
Document3 pages
Message
Andrei But
Pas encore d'évaluation
Vanshita PST Merged Organized
Document51 pages
Vanshita PST Merged Organized
Jitisha Gupta
Pas encore d'évaluation
Ques 1: WAP To Implement DDA Algorithm
Document13 pages
Ques 1: WAP To Implement DDA Algorithm
Jai Chaudhry
Pas encore d'évaluation
Examination Papers, 2004: (Comptt.)
Document13 pages
Examination Papers, 2004: (Comptt.)
Arnab Chakrabarti
Pas encore d'évaluation
SciPy 1
Document17 pages
SciPy 1
m
Pas encore d'évaluation
IT8761
Document49 pages
IT8761
sans mahe1
Pas encore d'évaluation
Vector Fields Codee
Document11 pages
Vector Fields Codee
LawrenceBrenFronda
Pas encore d'évaluation
Ix B (1+log P, Log Log Q Log (1 + Ix), Log Log N q+1) P N p+1) Q Theta) Exp (P Q
Document14 pages
Ix B (1+log P, Log Log Q Log (1 + Ix), Log Log N q+1) P N p+1) Q Theta) Exp (P Q
ssfofo
Pas encore d'évaluation
Examination Papers, 2000: (All India)
Document13 pages
Examination Papers, 2000: (All India)
Amit Nigam
Pas encore d'évaluation
Numerical NNNN
Document23 pages
Numerical NNNN
KanchanTathode
Pas encore d'évaluation
Circle Algo Lect-03
Document8 pages
Circle Algo Lect-03
bhuj
Pas encore d'évaluation
Sc0x w1l2 Clean
Document35 pages
Sc0x w1l2 Clean
Haseeb Rehman
Pas encore d'évaluation
Java Practice Solutions
Document7 pages
Java Practice Solutions
Ishan Jawa
Pas encore d'évaluation
Practical No-1 CG
Document6 pages
Practical No-1 CG
mohammed abdulrazaq
Pas encore d'évaluation
Digital Signal Processing Lab: James George T5 B 36
Document13 pages
Digital Signal Processing Lab: James George T5 B 36
Jk
Pas encore d'évaluation
Pract 7-9
Document19 pages
Pract 7-9
White Rock
Pas encore d'évaluation
Examination Papers, 2000: (Comptt.)
Document13 pages
Examination Papers, 2000: (Comptt.)
Arnab Chakrabarti
Pas encore d'évaluation
Java Thread Exercises
Document62 pages
Java Thread Exercises
Mary Grace
Pas encore d'évaluation
Knowledge Institute of Technology SALEM - 637504: Laboratory Manual FOR It8761 - Security Laboratory
Document49 pages
Knowledge Institute of Technology SALEM - 637504: Laboratory Manual FOR It8761 - Security Laboratory
CHANDRU M
Pas encore d'évaluation
JAVA For Beginners: Main Program
Document12 pages
JAVA For Beginners: Main Program
shekharc
Pas encore d'évaluation
IT8761 Security Laboratory Manual
Document16 pages
IT8761 Security Laboratory Manual
hemacsc2003
Pas encore d'évaluation
Ondas Voz
Document2 pages
Ondas Voz
JHONATAN RAFAEL GIL
Pas encore d'évaluation
256 Colors
Document11 pages
256 Colors
Salik Siddiqui
Pas encore d'évaluation
Comp Graph Lab
Document9 pages
Comp Graph Lab
Suraj Gupta
Pas encore d'évaluation
CG File
Document45 pages
CG File
Akshat kumar
Pas encore d'évaluation
Lecture 30 GPU Programming Loop Parallelism
Document16 pages
Lecture 30 GPU Programming Loop Parallelism
Udai Valluru
Pas encore d'évaluation
Deezer
Document16 pages
Deezer
Andi Tri Saputra
Pas encore d'évaluation
5 6314519115386063645
Document16 pages
5 6314519115386063645
Tharun Pattela
Pas encore d'évaluation
Computer Engineering Laboratory Solution Primer
D'Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
Pas encore d'évaluation
Profound Python Data Science
D'Everand
Profound Python Data Science
Onder Teker
Pas encore d'évaluation
B2B Commerce
Document19 pages
B2B Commerce
Swati Choudhary
Pas encore d'évaluation
CH 01
Document122 pages
CH 01
Swati Choudhary
Pas encore d'évaluation
VIII Multicasting Options
Document48 pages
VIII Multicasting Options
Mayank Jain
Pas encore d'évaluation
C Sdes
Document9 pages
C Sdes
Navjot Singh
Pas encore d'évaluation
Use Case PS
Document6 pages
Use Case PS
Swati Choudhary
Pas encore d'évaluation
Requirement Engineering Process & Tasks
Document31 pages
Requirement Engineering Process & Tasks
Swati Choudhary
Pas encore d'évaluation
Cuda C
Document70 pages
Cuda C
Swati Choudhary
Pas encore d'évaluation
Sc11 Cuda C Basics
Document68 pages
Sc11 Cuda C Basics
Poncho Coeto
Pas encore d'évaluation
Client 1
Document2 pages
Client 1
Swati Choudhary
Pas encore d'évaluation
Log
Document706 pages
Log
Chú Bình
Pas encore d'évaluation
ABB Industrial Drives: ACS850, Drive Modules, 1 To 600 HP / 1.1 To 500 KW
Document24 pages
ABB Industrial Drives: ACS850, Drive Modules, 1 To 600 HP / 1.1 To 500 KW
Mohan Shanmugam
Pas encore d'évaluation
Simulation and Design Tools
Document2 pages
Simulation and Design Tools
nisarg
Pas encore d'évaluation
Mechatronics
Document8 pages
Mechatronics
Jeslet Joy
Pas encore d'évaluation
Ieee Format Srs
Document3 pages
Ieee Format Srs
Ayaan Muhammad
Pas encore d'évaluation
Vaidehi - Patil Computer B
Document1 page
Vaidehi - Patil Computer B
Samiksha Chavan
Pas encore d'évaluation
Use of Social Media
Document61 pages
Use of Social Media
Baba Headquater
Pas encore d'évaluation
Parhi CV
Document62 pages
Parhi CV
Naim Maktumbi Nesaragi
Pas encore d'évaluation
NA80 MB0 Manual PR - 0260
Document62 pages
NA80 MB0 Manual PR - 0260
roberto pirmati
Pas encore d'évaluation
Info Tech Summary of Lesson 1 Grade 10
Document2 pages
Info Tech Summary of Lesson 1 Grade 10
Kenya Levy
Pas encore d'évaluation
Anjana S (20104014) DS Assignment
Document16 pages
Anjana S (20104014) DS Assignment
Taytay Swift
Pas encore d'évaluation
Actividad 2
Document19 pages
Actividad 2
ricardo montero
Pas encore d'évaluation
First and Follow Predictive Parser: Compiler Design
Document13 pages
First and Follow Predictive Parser: Compiler Design
Md Saidur Rahman Kohinoor
71% (7)
Question: Complete The Corresponding Assembly Language Fragments B
Document3 pages
Question: Complete The Corresponding Assembly Language Fragments B
HJF
Pas encore d'évaluation
PID Controller
Document46 pages
PID Controller
Khin Aye
Pas encore d'évaluation
Quotation
Document1 page
Quotation
Ravendran Krishnan
Pas encore d'évaluation
SDL Report PDF
Document44 pages
SDL Report PDF
Rhea Dsouza
Pas encore d'évaluation
Question Bank For DSS
Document7 pages
Question Bank For DSS
Nyamatulla Patel
Pas encore d'évaluation
Et200sp Ai 4xi 2 4 Wire ST Manual en-US en-US
Document30 pages
Et200sp Ai 4xi 2 4 Wire ST Manual en-US en-US
Nicolas Rodríguez Nieto
Pas encore d'évaluation
Project 4 - Lab Completed
Document8 pages
Project 4 - Lab Completed
early bird
Pas encore d'évaluation
Assignment 6
Document12 pages
Assignment 6
Pujan Patel
Pas encore d'évaluation
Silvaco Manual - 1
Document225 pages
Silvaco Manual - 1
eleenaamohapatra
Pas encore d'évaluation
NetApp Certified Implementation Engineer - SAN, Cluster-Mode Version: 11.0 (
Document166 pages
NetApp Certified Implementation Engineer - SAN, Cluster-Mode Version: 11.0 (
MbaStudent56
Pas encore d'évaluation
Fanuc Oi PDF
Document16 pages
Fanuc Oi PDF
Guillermo Ramirez
100% (1)
CEIBA2 Server Installation Guide
Document7 pages
CEIBA2 Server Installation Guide
Inet Intelli
Pas encore d'évaluation
TSNSCHED - Automated Schedule Generation For Time Sensitive Networking
Document9 pages
TSNSCHED - Automated Schedule Generation For Time Sensitive Networking
smyethdrath24
Pas encore d'évaluation
SumanthBrainard DLP Engineer Mphasis
Document4 pages
SumanthBrainard DLP Engineer Mphasis
Soniya chaudhary
Pas encore d'évaluation
Gcloud Python
Document398 pages
Gcloud Python
anonymous_9888
Pas encore d'évaluation
Ieee802 Hetnet Tutorial
Document75 pages
Ieee802 Hetnet Tutorial
Payal Priya
Pas encore d'évaluation
Metagrid 1.7 User Guide
Document31 pages
Metagrid 1.7 User Guide
hogar
Pas encore d'évaluation