d5/dd3/a00902_source.html

 //////////////////////////////////////////////////////////////////////////////////////
 // This file is distributed under the University of Illinois/NCSA Open Source License.
 // See LICENSE file in top directory for details.
 //
 // Copyright (c) 2024 QMCPACK developers.
 //
 // File developed by: Ye Luo, yeluo@anl.gov, Argonne National Laboratory
 //////////////////////////////////////////////////////////////////////////////////////

 #ifndef QMCPLUSPLUS_SYCL_ACCELBLAS_SYCL_H
 #define QMCPLUSPLUS_SYCL_ACCELBLAS_SYCL_H

 #include "AccelBLASHandle.hpp"
 #include "SYCL/QueueSYCL.hpp"
 #include "SYCL/syclBLAS.hpp"

 namespace qmcplusplus
 {
 namespace compute
 {
 template<>
 class BLASHandle<PlatformKind::SYCL>
 {
 public:
   BLASHandle(Queue<PlatformKind::SYCL>& queue) : queue_(queue.getNative()) {}
   // sycl queue, not owned, reference-only
   sycl::queue& queue_;
 };

 namespace BLAS
 {
 template<typename T>
 inline void gemm(BLASHandle<PlatformKind::SYCL>& handle,
                  const char transa,
                  const char transb,
                  int m,
                  int n,
                  int k,
                  const T& alpha,
                  const T* A,
                  int lda,
                  const T* B,
                  int ldb,
                  const T& beta,
                  T* C,
                  int ldc)
 {
   try
   {
     oneapi::mkl::blas::gemm(handle.queue_, syclBLAS::convertTransEnum(transa), syclBLAS::convertTransEnum(transb), m, n,
                             k, alpha, A, lda, B, ldb, beta, C, ldc);
   }
   catch (oneapi::mkl::exception& e)
   {
     throw std::runtime_error(std::string("AccelBLAS::gemm exception: ") + e.what());
   }
 }

 template<typename T>
 inline void gemv(BLASHandle<PlatformKind::SYCL>& handle,
                  const char trans,
                  const int m,
                  const int n,
                  const T& alpha,
                  const T* const A,
                  const int lda,
                  const T* const x,
                  const int incx,
                  const T& beta,
                  T* const y,
                  const int incy)
 {
   try
   {
     oneapi::mkl::blas::gemv(handle.queue_, syclBLAS::convertTransEnum(trans), m, n, alpha, A, lda, x, incx, beta, y,
                             incy);
   }
   catch (oneapi::mkl::exception& e)
   {
     throw std::runtime_error(std::string("AccelBLAS::gemv exception: ") + e.what());
   }
 }

 template<typename T>
 inline void gemv_batched(BLASHandle<PlatformKind::SYCL>& handle,
                          const char trans,
                          const int m,
                          const int n,
                          const T* alpha,
                          const T* const A[],
                          const int lda,
                          const T* const x[],
                          const int incx,
                          const T* beta,
                          T* const y[],
                          const int incy,
                          const size_t batch_count)
 {
   try
   { // calling makeshift version for now due to the lack of vendor optimized versions
     syclBLAS::gemv_batched(handle.queue_, trans, m, n, alpha, A, lda, x, incx, beta, y, incy, batch_count);
   }
   catch (sycl::exception& e)
   {
     throw std::runtime_error(std::string("AccelBLAS::gemv_batch exception: ") + e.what());
   }
 }

 template<typename T>
 inline void ger(BLASHandle<PlatformKind::SYCL>& handle,
                 const int m,
                 const int n,
                 const T& alpha,
                 const T* const x,
                 const int incx,
                 const T* const y,
                 const int incy,
                 T* const A,
                 const int lda)
 {
   try
   {
     oneapi::mkl::blas::ger(handle.queue_, m, n, alpha, x, incx, y, incy, A, lda);
   }
   catch (oneapi::mkl::exception& e)
   {
     throw std::runtime_error(std::string("AccelBLAS::ger exception: ") + e.what());
   }
 }

 template<typename T>
 inline void ger_batched(BLASHandle<PlatformKind::SYCL>& handle,
                         const int m,
                         const int n,
                         const T* alpha,
                         const T* const x[],
                         const int incx,
                         const T* const y[],
                         const int incy,
                         T* const A[],
                         const int lda,
                         const size_t batch_count)
 {
   try
   { // calling makeshift version for now due to the lack of vendor optimized versions
     syclBLAS::ger_batched(handle.queue_, m, n, alpha, x, incx, y, incy, A, lda, batch_count);
   }
   catch (sycl::exception& e)
   {
     throw std::runtime_error(std::string("AccelBLAS::ger_batched exception: ") + e.what());
   }
 }

 template<typename T>
 inline void copy_batched(BLASHandle<PlatformKind::SYCL>& handle,
                          syclBLAS::syclBLAS_int n,
                          const T* const in[],
                          syclBLAS::syclBLAS_int incx,
                          T* const out[],
                          syclBLAS::syclBLAS_int incy,
                          const size_t batch_count)
 {
   try
   {
     syclBLAS::syclBLAS_int bc = batch_count;
     oneapi::mkl::blas::copy_batch(handle.queue_, &n, const_cast<const T**>(in), &incx, const_cast<T**>(out), &incy, 1,
                                   &bc);
   }
   catch (oneapi::mkl::exception& e)
   {
     throw std::runtime_error(std::string("AccelBLAS::copy_batch exception: ") + e.what());
   }
 }

 template<typename T>
 inline void gemm_batched(BLASHandle<PlatformKind::SYCL>& handle,
                          const char transa,
                          const char transb,
                          syclBLAS::syclBLAS_int m,
                          syclBLAS::syclBLAS_int n,
                          syclBLAS::syclBLAS_int k,
                          const T& alpha,
                          const T* const A[],
                          syclBLAS::syclBLAS_int lda,
                          const T* const B[],
                          syclBLAS::syclBLAS_int ldb,
                          const T& beta,
                          T* const C[],
                          syclBLAS::syclBLAS_int ldc,
                          const size_t batch_count)
 {
   auto trans_a = syclBLAS::convertTransEnum(transa);
   auto trans_b = syclBLAS::convertTransEnum(transb);
   try
   {
 #if defined(GEMM_BATCH_SPAN)
     sycl::span alpha_span(sycl::malloc_shared<T>(1, handle.queue_), 1);
     alpha_span[0] = alpha;
     sycl::span beta_span(sycl::malloc_shared<T>(1, handle.queue_), 1);
     beta_span[0] = beta;

     oneapi::mkl::blas::gemm_batch(handle.queue_, sycl::span{&trans_a, 1}, sycl::span{&trans_b, 1}, sycl::span{&m, 1},
                                   sycl::span{&n, 1}, sycl::span{&k, 1}, alpha_span,
                                   sycl::span{const_cast<const T**>(A), batch_count}, sycl::span{&lda, 1},
                                   sycl::span{const_cast<const T**>(B), batch_count}, sycl::span{&ldb, 1}, beta_span,
                                   sycl::span{const_cast<T**>(C), batch_count}, sycl::span{&ldc, 1}, 1,
                                   sycl::span{const_cast<size_t*>(&batch_count), 1});
     sycl::free(alpha_span.data(), handle.queue_);
     sycl::free(beta_span.data(), handle.queue_);
 #else
     syclBLAS::syclBLAS_int bc = batch_count;
     oneapi::mkl::blas::gemm_batch(handle.queue_, &trans_a, &trans_b, &m, &n, &k, const_cast<const T*>(&alpha),
                                   const_cast<const T**>(A), &lda, const_cast<const T**>(B), &ldb,
                                   const_cast<const T*>(&beta), const_cast<T**>(C), &ldc, 1, &bc);
 #endif
   }
   catch (oneapi::mkl::exception& e)
   {
     throw std::runtime_error(std::string("AccelBLAS::gemm_batched  exception: ") + e.what());
   }
 }

 } // namespace BLAS
 } // namespace compute
 } // namespace qmcplusplus
 #undef castNativeType
 #endif
qmcplusplus::compute::BLAS::gemm
void gemm(BLASHandle< PlatformKind::CUDA > &handle, const char transa, const char transb, int m, int n, int k, const float &alpha, const float *A, int lda, const float *B, int ldb, const float &beta, float *C, int ldc)
Definition: AccelBLAS_CUDA.hpp:49

qmcplusplus::DataLocality::queue

qmcplusplus
helper functions for EinsplineSetBuilder
Definition: Configuration.h:43

qmcplusplus::syclBLAS::ger_batched
sycl::event ger_batched(sycl::queue &handle, const int m, const int n, const T *alpha, const T *const x[], const int incx, const T *const y[], const int incy, T *const A[], const int lda, const size_t batch_count, const std::vector< sycl::event > &events={})
in-house version of ger_batch implemented in SYCL. Can be dropped if we have vendor optimized version...

qmcplusplus::syclBLAS::convertTransEnum
oneapi::mkl::transpose convertTransEnum(char trans)
Definition: syclBLAS.hpp:28

qmcplusplus::compute::Queue< PlatformKind::SYCL >
Definition: QueueSYCL.hpp:25

BLAS
Interfaces to blas library.
Definition: BLAS.hpp:38

qmcplusplus::Units::charge::C
const real C
Definition: unit_conversion.h:77

qmcplusplus::Units::distance::m
const real m
Definition: unit_conversion.h:37

qmcplusplus::compute::BLAS::ger
void ger(BLASHandle< PlatformKind::CUDA > &handle, const int m, const int n, const float &alpha, const float *const x, const int incx, const float *const y, const int incy, float *const A, const int lda)
Definition: AccelBLAS_CUDA.hpp:225

qmcplusplus::compute::BLAS::gemv_batched
void gemv_batched(BLASHandle< PlatformKind::CUDA > &handle, const char trans, const int m, const int n, const T *alpha, const T *const A[], const int lda, const T *const x[], const int incx, const T *beta, T *const y[], const int incy, const int batch_count)
Definition: AccelBLAS_CUDA.hpp:206

qmcplusplus::syclBLAS::gemv_batched
sycl::event gemv_batched(sycl::queue &handle, const char trans, const int m, const int n, const T *alpha, const T *const A[], const int lda, const T *const x[], const int incx, const T *beta, T *const y[], const int incy, const size_t batch_count, const std::vector< sycl::event > &events={})
in-house version of gemv_batch implemented in SYCL. Can be dropped if we have vendor optimized versio...

AccelBLASHandle.hpp

qmcplusplus::compute::BLAS::gemm_batched
void gemm_batched(BLASHandle< PlatformKind::CUDA > &handle, const char transa, const char transb, int m, int n, int k, const float &alpha, const float *const A[], int lda, const float *const B[], int ldb, const float &beta, float *const C[], int ldc, int batchCount)
Definition: AccelBLAS_CUDA.hpp:315

qmcplusplus::compute::BLAS::gemv
void gemv(BLASHandle< PlatformKind::SYCL > &handle, const char trans, const int m, const int n, const T &alpha, const T *const A, const int lda, const T *const x, const int incx, const T &beta, T *const y, const int incy)
Definition: AccelBLAS_SYCL.hpp:60

syclBLAS.hpp

qmcplusplus::lda
int lda
Definition: test_cuBLAS_LU.cpp:217

QueueSYCL.hpp

qmcplusplus::compute::BLASHandle< PlatformKind::SYCL >::queue_
sycl::queue & queue_
Definition: AccelBLAS_SYCL.hpp:27

qmcplusplus::Units::charge::e
const real e
Definition: unit_conversion.h:78

qmcplusplus::compute::BLAS::copy_batched
void copy_batched(BLASHandle< PlatformKind::CUDA > &handle, const int n, const T *const in[], const int incx, T *const out[], const int incy, const int batch_count)
Definition: AccelBLAS_CUDA.hpp:303

qmcplusplus::n
int n
Definition: test_cuBLAS_LU.cpp:216

qmcplusplus::compute::BLAS::gemm
void gemm(BLASHandle< PlatformKind::SYCL > &handle, const char transa, const char transb, int m, int n, int k, const T &alpha, const T *A, int lda, const T *B, int ldb, const T &beta, T *C, int ldc)
Definition: AccelBLAS_SYCL.hpp:33

qmcplusplus::compute::BLAS::ger
void ger(BLASHandle< PlatformKind::SYCL > &handle, const int m, const int n, const T &alpha, const T *const x, const int incx, const T *const y, const int incy, T *const A, const int lda)
Definition: AccelBLAS_SYCL.hpp:110

qmcplusplus::compute::BLASHandle< PlatformKind::SYCL >::BLASHandle
BLASHandle(Queue< PlatformKind::SYCL > &queue)
Definition: AccelBLAS_SYCL.hpp:25

qmcplusplus::compute::BLASHandle< PlatformKind::SYCL >
Definition: AccelBLAS_SYCL.hpp:22

qmcplusplus::compute::BLAS::ger_batched
void ger_batched(BLASHandle< PlatformKind::CUDA > &handle, const int m, const int n, const T *alpha, const T *const x[], const int incx, const T *const y[], const int incy, T *const A[], const int lda, const int batch_count)
Definition: AccelBLAS_CUDA.hpp:286

B
double B(double x, int k, int i, const std::vector< double > &t)
Definition: soecp_eval_reference.cpp:27

qmcplusplus::compute::BLAS::gemv
void gemv(BLASHandle< PlatformKind::CUDA > &handle, const char trans, const int m, const int n, const float &alpha, const float *const A, const int lda, const float *const x, const int incx, const float &beta, float *const y, const int incy)
Definition: AccelBLAS_CUDA.hpp:131

qmcplusplus::PlatformKind
PlatformKind
Definition: PlatformKinds.hpp:19

qmcplusplus::Units::distance::A
const real A
Definition: unit_conversion.h:38

qmcplusplus::PlatformKind::SYCL

qmcplusplus::syclBLAS::syclBLAS_int
std::int64_t syclBLAS_int
Definition: syclBLAS.hpp:24

qmcplusplus::compute::BLASHandle
Definition: AccelBLASHandle.hpp:24