d4/d51/a01520_source.html

 //////////////////////////////////////////////////////////////////////////////////////
 // This file is distributed under the University of Illinois/NCSA Open Source License.
 // See LICENSE file in top directory for details.
 //
 // Copyright (c) 2024 QMCPACK developers.
 //
 // File developed by: Ye Luo, yeluo@anl.gov, Argonne National Laboratory
 //
 // File created by: Ye Luo, yeluo@anl.gov, Argonne National Laboratory
 //////////////////////////////////////////////////////////////////////////////////////


 #ifndef QMCPLUSPLUS_COMPUTE_MATRIX_UPDATE_CUDA_H
 #define QMCPLUSPLUS_COMPUTE_MATRIX_UPDATE_CUDA_H

 #include <QueueAliases.hpp>
 #include "matrix_update_helper.hpp"

 namespace qmcplusplus
 {

 namespace compute
 {

 template<typename T>
 void copyAinvRow_saveGL_batched(Queue<PlatformKind::CUDA>& queue,
                                 const int rowchanged,
                                 const int n,
                                 const T* const Ainv[],
                                 const int lda,
                                 T* const temp[],
                                 T* const rcopy[],
                                 const T* const phi_vgl_in[],
                                 const size_t phi_vgl_stride,
                                 T* const dphi_out[],
                                 T* const d2phi_out[],
                                 const int batch_count)
 {
   cudaErrorCheck(CUDA::copyAinvRow_saveGL_batched(queue.getNative(), rowchanged, n, Ainv, lda, temp, rcopy, phi_vgl_in,
                                                   phi_vgl_stride, dphi_out, d2phi_out, batch_count),
                  "CUDA::copyAinvRow_saveGL_cuda failed!");
 }

 template<typename T>
 void calcGradients_batched(Queue<PlatformKind::CUDA>& queue,
                            const int n,
                            const T* const Ainvrow[],
                            const T* const dpsiMrow[],
                            T* const grads_now,
                            const int batch_count)
 {
   cudaErrorCheck(CUDA::calcGradients_batched(queue.getNative(), n, Ainvrow, dpsiMrow, grads_now, batch_count),
                  "CUDA::calcGradients_cuda failed!");
 }

 template<typename T>
 void add_delay_list_save_sigma_VGL_batched(Queue<PlatformKind::CUDA>& queue,
                                            int* const delay_list[],
                                            const int rowchanged,
                                            const int delay_count,
                                            T* const binv[],
                                            const int binv_lda,
                                            const T* const ratio_inv,
                                            const T* const phi_vgl_in[],
                                            const size_t phi_vgl_stride,
                                            T* const phi_out[],
                                            T* const dphi_out[],
                                            T* const d2phi_out[],
                                            const int norb,
                                            const int n_accepted,
                                            const int batch_count)
 {
   cudaErrorCheck(CUDA::add_delay_list_save_sigma_VGL_batched(queue.getNative(), delay_list, rowchanged, delay_count,
                                                              binv, binv_lda, ratio_inv, phi_vgl_in, phi_vgl_stride,
                                                              phi_out, dphi_out, d2phi_out, norb, n_accepted,
                                                              batch_count),
                  "CUDA::add_delay_list_save_y_VGL_batched failed!");
 }


 template<typename T>
 void applyW_batched(Queue<PlatformKind::CUDA>& queue,
                     const int* const delay_list[],
                     const int delay_count,
                     T* const tempMat[],
                     const int lda,
                     const int batch_count)
 {
   cudaErrorCheck(CUDA::applyW_batched(queue.getNative(), delay_list, delay_count, tempMat, lda, batch_count),
                  "CUDA::applyW_batched failed!");
 }


 } // namespace compute
 } // namespace qmcplusplus
 #endif
qmcplusplus::compute::add_delay_list_save_sigma_VGL_batched
void add_delay_list_save_sigma_VGL_batched(Queue< PlatformKind::CUDA > &queue, int *const delay_list[], const int rowchanged, const int delay_count, T *const binv[], const int binv_lda, const T *const ratio_inv, const T *const phi_vgl_in[], const size_t phi_vgl_stride, T *const phi_out[], T *const dphi_out[], T *const d2phi_out[], const int norb, const int n_accepted, const int batch_count)
Definition: AccelMatrixUpdateCUDA.hpp:57

qmcplusplus::DataLocality::queue

qmcplusplus::compute::applyW_batched
void applyW_batched(Queue< PlatformKind::CUDA > &queue, const int *const delay_list[], const int delay_count, T *const tempMat[], const int lda, const int batch_count)
Definition: AccelMatrixUpdateCUDA.hpp:82

qmcplusplus
helper functions for EinsplineSetBuilder
Definition: Configuration.h:43

qmcplusplus::CUDA::add_delay_list_save_sigma_VGL_batched
cudaError_t add_delay_list_save_sigma_VGL_batched(cudaStream_t hstream, int *const delay_list[], const int rowchanged, const int delay_count, T *const binv[], const int binv_lda, const T *const ratio_inv, const T *const phi_vgl_in[], const size_t phi_vgl_stride, T *const phi_out[], T *const dphi_out[], T *const d2phi_out[], const int norb, const int n_accepted, const int batch_count)

qmcplusplus::CUDA::calcGradients_batched
cudaError_t calcGradients_batched(cudaStream_t hstream, const int n, const T *const Ainvrow[], const T *const dpsiMrow[], T *const grads_now, const int batch_count)
calculate gradients

QueueAliases.hpp

qmcplusplus::compute::calcGradients_batched
void calcGradients_batched(Queue< PlatformKind::CUDA > &queue, const int n, const T *const Ainvrow[], const T *const dpsiMrow[], T *const grads_now, const int batch_count)
Definition: AccelMatrixUpdateCUDA.hpp:45

qmcplusplus::cudaErrorCheck
cudaErrorCheck(cudaMemcpyAsync(dev_lu.data(), lu.data(), sizeof(decltype(lu)::value_type) *lu.size(), cudaMemcpyHostToDevice, hstream), "cudaMemcpyAsync failed copying log_values to device")

qmcplusplus::compute::copyAinvRow_saveGL_batched
void copyAinvRow_saveGL_batched(Queue< PlatformKind::CUDA > &queue, const int rowchanged, const int n, const T *const Ainv[], const int lda, T *const temp[], T *const rcopy[], const T *const phi_vgl_in[], const size_t phi_vgl_stride, T *const dphi_out[], T *const d2phi_out[], const int batch_count)
Definition: AccelMatrixUpdateCUDA.hpp:26

qmcplusplus::lda
int lda
Definition: test_cuBLAS_LU.cpp:217

matrix_update_helper.hpp

qmcplusplus::n
int n
Definition: test_cuBLAS_LU.cpp:216

qmcplusplus::CUDA::applyW_batched
cudaError_t applyW_batched(cudaStream_t hstream, const int *const delay_list[], const int delay_count, T *const tempMat[], const int lda, const int batch_count)

qmcplusplus::CUDA::copyAinvRow_saveGL_batched
cudaError_t copyAinvRow_saveGL_batched(cudaStream_t hstream, const int rowchanged, const int n, const T *const Ainv[], const int lda, T *const temp[], T *const rcopy[], const T *const phi_vgl_in[], const size_t phi_vgl_stride, T *const dphi_out[], T *const d2phi_out[], const int batch_count)
helper function for SM-1 Fahy update subtract one in temp copy Ainv changed row to rcopy save phi G a...

qmcplusplus::compute::Queue< PlatformKind::CUDA >
Definition: QueueCUDA.hpp:25