d0/d0a/a00743_source.html

 //////////////////////////////////////////////////////////////////////////////////////
 // This file is distributed under the University of Illinois/NCSA Open Source License.
 // See LICENSE file in top directory for details.
 //
 // Copyright (c) 2024 QMCPACK developers.
 //
 // File developed by: Ye Luo, yeluo@anl.gov, Argonne National Laboratory
 //////////////////////////////////////////////////////////////////////////////////////

 #ifndef QMCPLUSPLUS_CUDA_ACCELBLAS_CUDA_H
 #define QMCPLUSPLUS_CUDA_ACCELBLAS_CUDA_H

 #include "AccelBLASHandle.hpp"
 #include "CUDA/CUDAruntime.hpp"
 #include "CUDA/QueueCUDA.hpp"
 #include "CUDA/cuBLAS.hpp"
 #include "CUDA/cuBLAS_missing_functions.hpp"

 #ifndef QMC_CUDA2HIP
 #define castNativeType castCUDAType
 #else
 #define castNativeType casthipblasType
 #endif

 namespace qmcplusplus
 {
 namespace compute
 {
 template<>
 class BLASHandle<PlatformKind::CUDA>
 {
 public:
   // cuda stream, not owned, reference-only
   const cudaStream_t h_stream;
   // cublas handle
   cublasHandle_t h_cublas;

   BLASHandle(Queue<PlatformKind::CUDA>& queue) : h_stream(queue.getNative())
   {
     cublasErrorCheck(cublasCreate(&h_cublas), "cublasCreate failed!");
     cublasErrorCheck(cublasSetStream(h_cublas, h_stream), "cublasSetStream failed!");
   }

   ~BLASHandle() { cublasErrorCheck(cublasDestroy(h_cublas), "cublasDestroy failed!"); }
 };

 namespace BLAS
 {
 inline void gemm(BLASHandle<PlatformKind::CUDA>& handle,
                  const char transa,
                  const char transb,
                  int m,
                  int n,
                  int k,
                  const float& alpha,
                  const float* A,
                  int lda,
                  const float* B,
                  int ldb,
                  const float& beta,
                  float* C,
                  int ldc)
 {
   cublasErrorCheck(cublasSgemm(handle.h_cublas, cuBLAS::convertOperation(transa), cuBLAS::convertOperation(transb), m,
                                n, k, &alpha, A, lda, B, ldb, &beta, C, ldc),
                    "cublasSgemm failed!");
 }

 inline void gemm(BLASHandle<PlatformKind::CUDA>& handle,
                  const char transa,
                  const char transb,
                  int m,
                  int n,
                  int k,
                  const double& alpha,
                  const double* A,
                  int lda,
                  const double* B,
                  int ldb,
                  const double& beta,
                  double* C,
                  int ldc)
 {
   cublasErrorCheck(cublasDgemm(handle.h_cublas, cuBLAS::convertOperation(transa), cuBLAS::convertOperation(transb), m,
                                n, k, &alpha, A, lda, B, ldb, &beta, C, ldc),
                    "cublasDgemm failed!");
 }

 inline void gemm(BLASHandle<PlatformKind::CUDA>& handle,
                  const char transa,
                  const char transb,
                  int m,
                  int n,
                  int k,
                  const std::complex<float>& alpha,
                  const std::complex<float>* A,
                  int lda,
                  const std::complex<float>* B,
                  int ldb,
                  const std::complex<float>& beta,
                  std::complex<float>* C,
                  int ldc)
 {
   cublasErrorCheck(cublasCgemm(handle.h_cublas, cuBLAS::convertOperation(transa), cuBLAS::convertOperation(transb), m,
                                n, k, castNativeType(&alpha), castNativeType(A), lda, castNativeType(B), ldb,
                                castNativeType(&beta), castNativeType(C), ldc),
                    "cublasCgemm failed!");
 }

 inline void gemm(BLASHandle<PlatformKind::CUDA>& handle,
                  const char transa,
                  const char transb,
                  int m,
                  int n,
                  int k,
                  const std::complex<double>& alpha,
                  const std::complex<double>* A,
                  int lda,
                  const std::complex<double>* B,
                  int ldb,
                  const std::complex<double>& beta,
                  std::complex<double>* C,
                  int ldc)
 {
   cublasErrorCheck(cublasZgemm(handle.h_cublas, cuBLAS::convertOperation(transa), cuBLAS::convertOperation(transb), m,
                                n, k, castNativeType(&alpha), castNativeType(A), lda, castNativeType(B), ldb,
                                castNativeType(&beta), castNativeType(C), ldc),
                    "cublasZgemm failed!");
 }

 inline void gemv(BLASHandle<PlatformKind::CUDA>& handle,
                  const char trans,
                  const int m,
                  const int n,
                  const float& alpha,
                  const float* const A,
                  const int lda,
                  const float* const x,
                  const int incx,
                  const float& beta,
                  float* const y,
                  const int incy)
 {
   cublasErrorCheck(cublasSgemv(handle.h_cublas, cuBLAS::convertOperation(trans), m, n, &alpha, A, lda, x, incx, &beta,
                                y, incy),
                    "cublasSgemv failed!");
 }

 inline void gemv(BLASHandle<PlatformKind::CUDA>& handle,
                  const char trans,
                  const int m,
                  const int n,
                  const double& alpha,
                  const double* const A,
                  const int lda,
                  const double* const x,
                  const int incx,
                  const double& beta,
                  double* const y,
                  const int incy)
 {
   cublasErrorCheck(cublasDgemv(handle.h_cublas, cuBLAS::convertOperation(trans), m, n, &alpha, A, lda, x, incx, &beta,
                                y, incy),
                    "cublasDgemv failed!");
 }

 inline void gemv(BLASHandle<PlatformKind::CUDA>& handle,
                  const char trans,
                  const int m,
                  const int n,
                  const std::complex<float>& alpha,
                  const std::complex<float>* A,
                  const int lda,
                  const std::complex<float>* x,
                  const int incx,
                  const std::complex<float>& beta,
                  std::complex<float>* y,
                  const int incy)
 {
   cublasErrorCheck(cublasCgemv(handle.h_cublas, cuBLAS::convertOperation(trans), m, n, castNativeType(&alpha),
                                castNativeType(A), lda, castNativeType(x), incx, castNativeType(&beta),
                                castNativeType(y), incy),
                    "cublasCgemv failed!");
 }

 inline void gemv(BLASHandle<PlatformKind::CUDA>& handle,
                  const char trans,
                  const int m,
                  const int n,
                  const std::complex<double>& alpha,
                  const std::complex<double>* A,
                  const int lda,
                  const std::complex<double>* x,
                  const int incx,
                  const std::complex<double>& beta,
                  std::complex<double>* y,
                  const int incy)
 {
   cublasErrorCheck(cublasZgemv(handle.h_cublas, cuBLAS::convertOperation(trans), m, n, castNativeType(&alpha),
                                castNativeType(A), lda, castNativeType(x), incx, castNativeType(&beta),
                                castNativeType(y), incy),
                    "cublasZgemv failed!");
 }

 template<typename T>
 inline void gemv_batched(BLASHandle<PlatformKind::CUDA>& handle,
                          const char trans,
                          const int m,
                          const int n,
                          const T* alpha,
                          const T* const A[],
                          const int lda,
                          const T* const x[],
                          const int incx,
                          const T* beta,
                          T* const y[],
                          const int incy,
                          const int batch_count)
 {
   cudaErrorCheck(cuBLAS_MFs::gemv_batched(handle.h_stream, trans, m, n, alpha, A, lda, x, incx, beta, y, incy,
                                           batch_count),
                  "cuBLAS_MFs::gemv_batched failed!");
 }

 inline void ger(BLASHandle<PlatformKind::CUDA>& handle,
                 const int m,
                 const int n,
                 const float& alpha,
                 const float* const x,
                 const int incx,
                 const float* const y,
                 const int incy,
                 float* const A,
                 const int lda)
 {
   cublasErrorCheck(cublasSger(handle.h_cublas, m, n, &alpha, x, incx, y, incy, A, lda), "cublasSger failed!");
 }

 inline void ger(BLASHandle<PlatformKind::CUDA>& handle,
                 const int m,
                 const int n,
                 const double& alpha,
                 const double* const x,
                 const int incx,
                 const double* const y,
                 const int incy,
                 double* const A,
                 const int lda)
 {
   cublasErrorCheck(cublasDger(handle.h_cublas, m, n, &alpha, x, incx, y, incy, A, lda), "cublasDger failed!");
 }

 inline void ger(BLASHandle<PlatformKind::CUDA>& handle,
                 const int m,
                 const int n,
                 const std::complex<float>& alpha,
                 const std::complex<float>* x,
                 const int incx,
                 const std::complex<float>* y,
                 const int incy,
                 std::complex<float>* A,
                 const int lda)
 {
   cublasErrorCheck(cublasCgeru(handle.h_cublas, m, n, castNativeType(&alpha), castNativeType(x), incx,
                                castNativeType(y), incy, castNativeType(A), lda),
                    "cublasCger failed!");
 }

 inline void ger(BLASHandle<PlatformKind::CUDA>& handle,
                 const int m,
                 const int n,
                 const std::complex<double>& alpha,
                 const std::complex<double>* x,
                 const int incx,
                 const std::complex<double>* y,
                 const int incy,
                 std::complex<double>* A,
                 const int lda)
 {
   cublasErrorCheck(cublasZgeru(handle.h_cublas, m, n, castNativeType(&alpha), castNativeType(x), incx,
                                castNativeType(y), incy, castNativeType(A), lda),
                    "cublasZger failed!");
 }

 template<typename T>
 inline void ger_batched(BLASHandle<PlatformKind::CUDA>& handle,
                         const int m,
                         const int n,
                         const T* alpha,
                         const T* const x[],
                         const int incx,
                         const T* const y[],
                         const int incy,
                         T* const A[],
                         const int lda,
                         const int batch_count)
 {
   cudaErrorCheck(cuBLAS_MFs::ger_batched(handle.h_stream, m, n, alpha, x, incx, y, incy, A, lda, batch_count),
                  "cuBLAS_MFs::ger_batched failed!");
 }

 template<typename T>
 inline void copy_batched(BLASHandle<PlatformKind::CUDA>& handle,
                          const int n,
                          const T* const in[],
                          const int incx,
                          T* const out[],
                          const int incy,
                          const int batch_count)
 {
   cudaErrorCheck(cuBLAS_MFs::copy_batched(handle.h_stream, n, in, incx, out, incy, batch_count),
                  "cuBLAS_MFs::copy_batched failed!");
 }

 inline void gemm_batched(BLASHandle<PlatformKind::CUDA>& handle,
                          const char transa,
                          const char transb,
                          int m,
                          int n,
                          int k,
                          const float& alpha,
                          const float* const A[],
                          int lda,
                          const float* const B[],
                          int ldb,
                          const float& beta,
                          float* const C[],
                          int ldc,
                          int batchCount)
 {
   cublasErrorCheck(cublasSgemmBatched(handle.h_cublas, cuBLAS::convertOperation(transa),
                                       cuBLAS::convertOperation(transb), m, n, k, &alpha, A, lda, B, ldb, &beta, C, ldc,
                                       batchCount),
                    "cublasSgemmBatched failed!");
 }

 inline void gemm_batched(BLASHandle<PlatformKind::CUDA>& handle,
                          const char transa,
                          const char transb,
                          int m,
                          int n,
                          int k,
                          const std::complex<float>& alpha,
                          const std::complex<float>* const A[],
                          int lda,
                          const std::complex<float>* const B[],
                          int ldb,
                          const std::complex<float>& beta,
                          std::complex<float>* const C[],
                          int ldc,
                          int batchCount)
 {
   // This is necessary to not break the complex CUDA type mapping semantics while
   // dealing with the const cuComplex * A[] style API of cuBLAS
   // C++ makes you jump through some hoops to remove the bottom const on a double pointer.
   // see typetraits/type_manipulation.hpp
   auto non_const_A = const_cast<BottomConstRemoved<decltype(A)>::type>(A);
   auto non_const_B = const_cast<BottomConstRemoved<decltype(B)>::type>(B);
   auto non_const_C = const_cast<BottomConstRemoved<decltype(C)>::type>(C);

   cublasErrorCheck(cublasCgemmBatched(handle.h_cublas, cuBLAS::convertOperation(transa),
                                       cuBLAS::convertOperation(transb), m, n, k, castNativeType(&alpha),
                                       castNativeType(non_const_A), lda, castNativeType(non_const_B), ldb,
                                       castNativeType(&beta), castNativeType(non_const_C), ldc, batchCount),
                    "cublasCgemmBatched failed!");
 }

 inline void gemm_batched(BLASHandle<PlatformKind::CUDA>& handle,
                          const char transa,
                          const char transb,
                          int m,
                          int n,
                          int k,
                          const double& alpha,
                          const double* const A[],
                          int lda,
                          const double* const B[],
                          int ldb,
                          const double& beta,
                          double* const C[],
                          int ldc,
                          int batchCount)
 {
   cublasErrorCheck(cublasDgemmBatched(handle.h_cublas, cuBLAS::convertOperation(transa),
                                       cuBLAS::convertOperation(transb), m, n, k, &alpha, A, lda, B, ldb, &beta, C, ldc,
                                       batchCount),
                    "cublasDgemmBatched failed!");
 }

 inline void gemm_batched(BLASHandle<PlatformKind::CUDA>& handle,
                          const char transa,
                          const char transb,
                          int m,
                          int n,
                          int k,
                          const std::complex<double>& alpha,
                          const std::complex<double>* const A[],
                          int lda,
                          const std::complex<double>* const B[],
                          int ldb,
                          const std::complex<double>& beta,
                          std::complex<double>* const C[],
                          int ldc,
                          int batchCount)
 {
   auto non_const_A = const_cast<BottomConstRemoved<decltype(A)>::type>(A);
   auto non_const_B = const_cast<BottomConstRemoved<decltype(B)>::type>(B);
   auto non_const_C = const_cast<BottomConstRemoved<decltype(C)>::type>(C);

   cublasErrorCheck(cublasZgemmBatched(handle.h_cublas, cuBLAS::convertOperation(transa),
                                       cuBLAS::convertOperation(transb), m, n, k, castNativeType(&alpha),
                                       castNativeType(non_const_A), lda, castNativeType(non_const_B), ldb,
                                       castNativeType(&beta), castNativeType(non_const_C), ldc, batchCount),
                    "cublasZgemmBatched failed!");
 }

 } // namespace BLAS
 } // namespace compute
 } // namespace qmcplusplus
 #undef castNativeType
 #endif
qmcplusplus::compute::BLAS::gemm
void gemm(BLASHandle< PlatformKind::CUDA > &handle, const char transa, const char transb, int m, int n, int k, const float &alpha, const float *A, int lda, const float *B, int ldb, const float &beta, float *C, int ldc)
Definition: AccelBLAS_CUDA.hpp:49

qmcplusplus::DataLocality::queue

qmcplusplus::compute::BLASHandle< PlatformKind::CUDA >::h_cublas
cublasHandle_t h_cublas
Definition: AccelBLAS_CUDA.hpp:36

cublasDgemmBatched
#define cublasDgemmBatched
Definition: cuda2hip.h:53

qmcplusplus
helper functions for EinsplineSetBuilder
Definition: Configuration.h:43

cublasCgemm
#define cublasCgemm
Definition: cuda2hip.h:45

CUDAruntime.hpp
handle CUDA/HIP runtime selection.

qmcplusplus::PlatformKind::CUDA

cublasDgemm
#define cublasDgemm
Definition: cuda2hip.h:52

BLAS
Interfaces to blas library.
Definition: BLAS.hpp:38

cublasSgemmBatched
#define cublasSgemmBatched
Definition: cuda2hip.h:60

qmcplusplus::cuBLAS_MFs::gemv_batched
cudaError_t gemv_batched(cudaStream_t handle, const char trans, const int m, const int n, const float *alpha, const float *const A[], const int lda, const float *const x[], const int incx, const float *beta, float *const y[], const int incy, const int batch_count)
Xgemv batched API.

cublasZgeru
#define cublasZgeru
Definition: cuda2hip.h:65

cublasDestroy
#define cublasDestroy
Definition: cuda2hip.h:38

qmcplusplus::cuBLAS_MFs::copy_batched
cudaError_t copy_batched(cudaStream_t hstream, const int n, const float *const in[], const int incx, float *const out[], const int incy, const int batch_count)
Xcopy batched API.

cudaStream_t
#define cudaStream_t
Definition: cuda2hip.h:149

qmcplusplus::compute::BLASHandle< PlatformKind::CUDA >::~BLASHandle
~BLASHandle()
Definition: AccelBLAS_CUDA.hpp:44

qmcplusplus::Units::charge::C
const real C
Definition: unit_conversion.h:77

qmcplusplus::Units::distance::m
const real m
Definition: unit_conversion.h:37

qmcplusplus::compute::BLAS::ger
void ger(BLASHandle< PlatformKind::CUDA > &handle, const int m, const int n, const float &alpha, const float *const x, const int incx, const float *const y, const int incy, float *const A, const int lda)
Definition: AccelBLAS_CUDA.hpp:225

qmcplusplus::compute::BLAS::gemv_batched
void gemv_batched(BLASHandle< PlatformKind::CUDA > &handle, const char trans, const int m, const int n, const T *alpha, const T *const A[], const int lda, const T *const x[], const int incx, const T *beta, T *const y[], const int incy, const int batch_count)
Definition: AccelBLAS_CUDA.hpp:206

AccelBLASHandle.hpp

qmcplusplus::cudaErrorCheck
cudaErrorCheck(cudaMemcpyAsync(dev_lu.data(), lu.data(), sizeof(decltype(lu)::value_type) *lu.size(), cudaMemcpyHostToDevice, hstream), "cudaMemcpyAsync failed copying log_values to device")

qmcplusplus::compute::BLAS::gemm_batched
void gemm_batched(BLASHandle< PlatformKind::CUDA > &handle, const char transa, const char transb, int m, int n, int k, const float &alpha, const float *const A[], int lda, const float *const B[], int ldb, const float &beta, float *const C[], int ldc, int batchCount)
Definition: AccelBLAS_CUDA.hpp:315

cuBLAS.hpp

qmcplusplus::compute::BLASHandle< PlatformKind::CUDA >
Definition: AccelBLAS_CUDA.hpp:30

cublasZgemv
#define cublasZgemv
Definition: cuda2hip.h:64

qmcplusplus::lda
int lda
Definition: test_cuBLAS_LU.cpp:217

qmcplusplus::compute::BLASHandle< PlatformKind::CUDA >::h_stream
const cudaStream_t h_stream
Definition: AccelBLAS_CUDA.hpp:34

cublasCgemv
#define cublasCgemv
Definition: cuda2hip.h:43

cublasSger
#define cublasSger
Definition: cuda2hip.h:58

cuBLAS_missing_functions.hpp

castNativeType
#define castNativeType
Definition: AccelBLAS_CUDA.hpp:20

cublasCreate
#define cublasCreate
Definition: cuda2hip.h:37

cublasSetStream
#define cublasSetStream
Definition: cuda2hip.h:39

qmcplusplus::compute::BLAS::copy_batched
void copy_batched(BLASHandle< PlatformKind::CUDA > &handle, const int n, const T *const in[], const int incx, T *const out[], const int incy, const int batch_count)
Definition: AccelBLAS_CUDA.hpp:303

qmcplusplus::n
int n
Definition: test_cuBLAS_LU.cpp:216

BottomConstRemoved::type
typename std::add_pointer< typename std::remove_const< typename std::remove_pointer< CT >::type >::type >::type type
Definition: type_manipulation.hpp:21

cublasSgemv
#define cublasSgemv
Definition: cuda2hip.h:57

cublasDgemv
#define cublasDgemv
Definition: cuda2hip.h:50

qmcplusplus::cuBLAS_MFs::ger_batched
cudaError_t ger_batched(cudaStream_t handle, const int m, const int n, const float *alpha, const float *const x[], const int incx, const float *const y[], const int incy, float *const A[], const int lda, const int batch_count)
Xger batched API.

qmcplusplus::compute::BLAS::ger_batched
void ger_batched(BLASHandle< PlatformKind::CUDA > &handle, const int m, const int n, const T *alpha, const T *const x[], const int incx, const T *const y[], const int incy, T *const A[], const int lda, const int batch_count)
Definition: AccelBLAS_CUDA.hpp:286

qmcplusplus::cuBLAS::convertOperation
cublasOperation_t convertOperation(const char trans)
Definition: cuBLAS.hpp:96

qmcplusplus::compute::BLASHandle< PlatformKind::CUDA >::BLASHandle
BLASHandle(Queue< PlatformKind::CUDA > &queue)
Definition: AccelBLAS_CUDA.hpp:38

B
double B(double x, int k, int i, const std::vector< double > &t)
Definition: soecp_eval_reference.cpp:27

cublasErrorCheck
#define cublasErrorCheck(ans, cause)
Definition: cuBLAS.hpp:34

qmcplusplus::compute::BLAS::gemv
void gemv(BLASHandle< PlatformKind::CUDA > &handle, const char trans, const int m, const int n, const float &alpha, const float *const A, const int lda, const float *const x, const int incx, const float &beta, float *const y, const int incy)
Definition: AccelBLAS_CUDA.hpp:131

cublasCgemmBatched
#define cublasCgemmBatched
Definition: cuda2hip.h:46

qmcplusplus::PlatformKind
PlatformKind
Definition: PlatformKinds.hpp:19

cublasDger
#define cublasDger
Definition: cuda2hip.h:51

qmcplusplus::Units::distance::A
const real A
Definition: unit_conversion.h:38

cublasZgemm
#define cublasZgemm
Definition: cuda2hip.h:66

QueueCUDA.hpp

qmcplusplus::compute::BLASHandle
Definition: AccelBLASHandle.hpp:24

cublasZgemmBatched
#define cublasZgemmBatched
Definition: cuda2hip.h:67

qmcplusplus::compute::Queue< PlatformKind::CUDA >
Definition: QueueCUDA.hpp:25

cublasSgemm
#define cublasSgemm
Definition: cuda2hip.h:59

cublasCgeru
#define cublasCgeru
Definition: cuda2hip.h:44

cublasHandle_t
#define cublasHandle_t
Definition: cuda2hip.h:35