利用CUDA计算向量与矩阵每一行的欧式距离
作者:互联网
本文作为笔者的学习笔记,代码仅供参考。
代码实现:计算向量a(n维)到矩阵b(n*n)每一行的欧式距离,并将结果输出到向量c(n维)。
其中,向量a与矩阵b中的元素均规定为整数,输出的向量c中数据类型为浮点数。
具体如下:
#include<stdio.h>
#include<cuda.h>
const int BLOCK_SIZE = 5;
const int GRID_SIZE = 5;
#define N 10
__global__ void dist(int *a,int *b,float *c)
{
float t;
int row = blockIdx.y * blockDim.y + threadIdx.y;
int col = blockIdx.x * blockDim.x + threadIdx.x;
t =(a[blockIdx.x])*(a[blockIdx.x])-(b[row*N+col])*(b[row*N+col]);
if (t<0){
t=(-1)*t;
c[blockIdx.x] = sqrt(t);
}
c[blockIdx.x] = sqrt(t);
}
int main(void)
{
int a[N],b[N*N];
float c[N];
int *d_a,*d_b;
float *d_c;
int size = N * sizeof(int);
int i,j;
cudaMalloc(&d_a,size);
cudaMalloc(&d_b,size*N);
cudaMalloc(&d_c,N*sizeof(float));
//对矩阵a,b进行初始化
for (i=1;i<N;i++)
{
a[i] = i;
for (j=1;j<N;j++)
{
b[i*N+j]=i+j;
}
}
cudaMemcpy(d_a,a,size,cudaMemcpyHostToDevice);
cudaMemcpy(d_b,b,size*N,cudaMemcpyHostToDevice);
dim3 threadBlock(BLOCK_SIZE,BLOCK_SIZE);
dim3 grid(GRID_SIZE,GRID_SIZE);
dist<<<grid,threadBlock>>>(d_a,d_b,d_c);
cudaMemcpy(c,d_c,N*sizeof(float),cudaMemcpyDeviceToHost);
for (i=0;i<N;i++)
{
printf("%f\n",c[i]);
}
cudaFree(d_a);
cudaFree(d_b);
cudaFree(d_c);
return 0;
}
代码尚待完善,目前发现的不足如下:
- 矩阵b的列数实际上可以是任意正整数,这里只将其指定为方阵。
- 向量a与矩阵b中的元素限制为正整数,实际上可以扩大为浮点数。
- 向量a与矩阵b在程序中事先初始化的,结果暂时就通过printf打印,欲使代码实际可用,还需根据实际情况进行修改。
- 仅对GPU上的数据进行了内存分配,在CPU上存储的对应
a,b
两数组未进行内存分配设置。
标签:int,float,矩阵,blockIdx,CUDA,欧式,向量,SIZE 来源: https://blog.csdn.net/today__present/article/details/110742763