d4/dae/a01994_source.html

 //////////////////////////////////////////////////////////////////////////////////////
 // This file is distributed under the University of Illinois/NCSA Open Source License.
 // See LICENSE file in top directory for details.
 //
 // Copyright (c) 2021 QMCPACK developers.
 //
 // File developed by: Peter Doak, doakpw@ornl.gov, Oak Ridge National Laboratory
 //
 // File created by: Peter Doak, doakpw@ornl.gov, Oak Ridge National Laboratory
 //////////////////////////////////////////////////////////////////////////////////////


 /** \file
  *  This implements micro benchmarking on DiracMatrixComputeCUDA.hpp
  *  Currently it also benchmarks the same size matrix's and batch sizes
  *  using the Legacy DiracMatrix serially.
  */

 #include "catch.hpp"

 #include <algorithm>
 #include "Configuration.h"
 #include "OhmmsData/Libxml2Doc.h"
 #include "OhmmsPETE/OhmmsMatrix.h"
 #include "OhmmsPETE/OhmmsVector.h"
 #include "QMCWaveFunctions/WaveFunctionComponent.h"
 #include "QMCWaveFunctions/Fermion/DiracMatrixComputeCUDA.hpp"
 #include "makeRngSpdMatrix.hpp"
 #include "Utilities/for_testing/checkMatrix.hpp"
 #include "Utilities/for_testing/RandomForTest.h"
 #include "Platforms/DualAllocatorAliases.hpp"
 #include "Platforms/CUDA/QueueCUDA.hpp"

 // Legacy CPU inversion for temporary testing
 #include "QMCWaveFunctions/Fermion/DiracMatrix.h"

 namespace qmcplusplus
 {
 template<typename T>
 using OffloadPinnedMatrix = Matrix<T, PinnedDualAllocator<T>>;
 template<typename T>
 using OffloadPinnedVector = Vector<T, PinnedDualAllocator<T>>;

 // Mechanism to pretty print benchmark names.
 struct DiracComputeBenchmarkParameters;
 std::ostream& operator<<(std::ostream& out, const DiracComputeBenchmarkParameters& dcbmp);
 struct DiracComputeBenchmarkParameters
 {
   std::string name;
   size_t n;
   int batch_size;
   std::string str()
   {
     std::stringstream stream;
     stream << *this;
     return stream.str();
   }
 };

 std::ostream& operator<<(std::ostream& out, const DiracComputeBenchmarkParameters& dcbmp)
 {
   out << dcbmp.name << " n=" << dcbmp.n << " batch=" << dcbmp.batch_size;
   return out;
 }

 /** This and other [.benchmark] benchmarks only run if "[benchmark]" is explicitly passed as tag to test.
  */
 TEST_CASE("DiracMatrixComputeCUDA_large_determinants_benchmark_legacy_1024_4", "[wavefunction][fermion][.benchmark]")
 {
   DiracComputeBenchmarkParameters params;
   params.name       = "Batched CUDA";
   params.n          = 1024;
   params.batch_size = 4;

   compute::Queue<PlatformKind::CUDA> queue;
   DiracMatrixComputeCUDA<double> dmcc;

   std::vector<Matrix<double>> spd_mats(params.batch_size, {params.n, params.n});
   std::vector<OffloadPinnedMatrix<double>> pinned_spd_mats(params.batch_size, {params.n, params.n});

   qmcplusplus::testing::MakeRngSpdMatrix<double> makeRngSpdMatrix{};
   for (int im = 0; im < params.batch_size; ++im)
   {
     makeRngSpdMatrix(spd_mats[im]);
     for (int i = 0; i < params.n; ++i)
       for (int j = 0; j < params.n; ++j)
         pinned_spd_mats[im](i, j) = spd_mats[im](i, j);
   }

   OffloadPinnedVector<std::complex<double>> log_values(params.batch_size);
   std::vector<OffloadPinnedMatrix<double>> pinned_inv_mats(params.batch_size, {params.n, params.n});

   auto a_mats = makeRefVector<const decltype(pinned_spd_mats)::value_type>(pinned_spd_mats);
   RefVector<OffloadPinnedMatrix<double>> inv_a_mats =
       makeRefVector<decltype(pinned_inv_mats)::value_type>(pinned_inv_mats);

   std::vector<bool> compute_mask(params.batch_size, true);
   BENCHMARK_ADVANCED(params.str())(Catch::Benchmark::Chronometer meter)
   {
     meter.measure([&] { dmcc.mw_invertTranspose(queue, a_mats, inv_a_mats, log_values); });
   };

   DiracMatrix<double> dmat;
   std::vector<Matrix<double>> inv_mats_test(params.batch_size, {params.n, params.n});
   ;
   std::vector<std::complex<double>> log_values_test(params.batch_size);

   params.name = "legacy CPU";
   BENCHMARK_ADVANCED(params.str())(Catch::Benchmark::Chronometer meter)
   {
     meter.measure([&] {
       for (int im = 0; im < params.batch_size; ++im)
         dmat.invert_transpose(spd_mats[im], inv_mats_test[im], log_values_test[im]);
     });
   };
 }

 /** This test will run by default.
  */
 TEST_CASE("benchmark_DiracMatrixComputeCUDA_vs_legacy_256_10", "[wavefunction][fermion][benchmark]")
 {
   DiracComputeBenchmarkParameters params;
   params.name       = "Batched CUDA";
   params.n          = 256;
   params.batch_size = 10;

   compute::Queue<PlatformKind::CUDA> queue;
   DiracMatrixComputeCUDA<double> dmcc;

   std::vector<Matrix<double>> spd_mats(params.batch_size, {params.n, params.n});
   std::vector<OffloadPinnedMatrix<double>> pinned_spd_mats(params.batch_size, {params.n, params.n});

   testing::MakeRngSpdMatrix<double> makeRngSpdMatrix;
   for (int im = 0; im < params.batch_size; ++im)
   {
     makeRngSpdMatrix(spd_mats[im]);
     for (int i = 0; i < params.n; ++i)
       for (int j = 0; j < params.n; ++j)
         pinned_spd_mats[im](i, j) = spd_mats[im](i, j);
   }

   OffloadPinnedVector<std::complex<double>> log_values(params.batch_size);
   std::vector<OffloadPinnedMatrix<double>> pinned_inv_mats(params.batch_size, {params.n, params.n});

   auto a_mats = makeRefVector<const decltype(pinned_spd_mats)::value_type>(pinned_spd_mats);
   RefVector<OffloadPinnedMatrix<double>> inv_a_mats =
       makeRefVector<decltype(pinned_inv_mats)::value_type>(pinned_inv_mats);

   std::vector<bool> compute_mask(params.batch_size, true);
   BENCHMARK_ADVANCED(params.str())(Catch::Benchmark::Chronometer meter)
   {
     meter.measure([&] { dmcc.mw_invertTranspose(queue, a_mats, inv_a_mats, log_values); });
   };


   DiracMatrix<double> dmat;
   std::vector<Matrix<double>> inv_mats_test(params.batch_size, {params.n, params.n});
   ;
   std::vector<std::complex<double>> log_values_test(params.batch_size);

   params.name = "legacy CPU";
   BENCHMARK_ADVANCED(params.str())(Catch::Benchmark::Chronometer meter)
   {
     meter.measure([&] {
       for (int im = 0; im < params.batch_size; ++im)
         dmat.invert_transpose(spd_mats[im], inv_mats_test[im], log_values_test[im]);
     });
   };
 }

 /** Only runs if [benchmark] tag is passed.
  */
 TEST_CASE("benchmark_DiracMatrixComputeCUDASingle_vs_legacy_256_10", "[wavefunction][fermion][.benchmark]")
 {
   DiracComputeBenchmarkParameters params;
   params.name       = "Forced Serial Batched CUDA";
   params.n          = 256;
   params.batch_size = 10;

   compute::Queue<PlatformKind::CUDA> queue;
   DiracMatrixComputeCUDA<double> dmcc;

   std::vector<Matrix<double>> spd_mats(params.batch_size, {params.n, params.n});
   std::vector<OffloadPinnedMatrix<double>> pinned_spd_mats(params.batch_size, {params.n, params.n});

   testing::MakeRngSpdMatrix<double> makeRngSpdMatrix;
   for (int im = 0; im < params.batch_size; ++im)
   {
     makeRngSpdMatrix(spd_mats[im]);
     for (int i = 0; i < params.n; ++i)
       for (int j = 0; j < params.n; ++j)
         pinned_spd_mats[im](i, j) = spd_mats[im](i, j);
   }

   std::vector<OffloadPinnedMatrix<double>> pinned_inv_mats(params.batch_size, {params.n, params.n});
   std::vector<OffloadPinnedVector<std::complex<double>>> log_values(params.batch_size);
   for (auto& log_value : log_values)
     log_value.resize(1, {0, 0});

   auto a_mats = makeRefVector<decltype(pinned_spd_mats)::value_type>(pinned_spd_mats);
   RefVector<OffloadPinnedMatrix<double>> inv_a_mats =
       makeRefVector<decltype(pinned_inv_mats)::value_type>(pinned_inv_mats);

   std::vector<bool> compute_mask(params.batch_size, true);
   BENCHMARK_ADVANCED(params.str())(Catch::Benchmark::Chronometer meter)
   {
     meter.measure([&] {
       for (int im = 0; im < params.batch_size; ++im)
         dmcc.invert_transpose(queue, pinned_spd_mats[im], pinned_inv_mats[im], log_values[im]);
     });
   };


   DiracMatrix<double> dmat;
   std::vector<Matrix<double>> inv_mats_test(params.batch_size, {params.n, params.n});
   std::vector<std::complex<double>> log_values_test(params.batch_size);

   params.name = "legacy CPU";
   BENCHMARK_ADVANCED(params.str())(Catch::Benchmark::Chronometer meter)
   {
     meter.measure([&] {
       for (int im = 0; im < params.batch_size; ++im)
         dmat.invert_transpose(spd_mats[im], inv_mats_test[im], log_values_test[im]);
     });
   };
 }

 /** Only runs if [benchmark] tag is passed.
  */
 TEST_CASE("benchmark_DiracMatrixComputeCUDASingle_vs_legacy_1024_4", "[wavefunction][fermion][.benchmark]")
 {
   DiracComputeBenchmarkParameters params;
   params.name       = "Forced Serial Batched CUDA";
   params.n          = 1024;
   params.batch_size = 4;

   compute::Queue<PlatformKind::CUDA> queue;
   DiracMatrixComputeCUDA<double> dmcc;

   std::vector<Matrix<double>> spd_mats(params.batch_size, {params.n, params.n});
   std::vector<OffloadPinnedMatrix<double>> pinned_spd_mats(params.batch_size, {params.n, params.n});


   testing::MakeRngSpdMatrix<double> makeRngSpdMatrix;
   for (int im = 0; im < params.batch_size; ++im)
   {
     makeRngSpdMatrix(spd_mats[im]);
     for (int i = 0; i < params.n; ++i)
       for (int j = 0; j < params.n; ++j)
         pinned_spd_mats[im](i, j) = spd_mats[im](i, j);
   }

   std::vector<OffloadPinnedMatrix<double>> pinned_inv_mats(params.batch_size, {params.n, params.n});
   std::vector<OffloadPinnedVector<std::complex<double>>> log_values(params.batch_size);
   for (auto& log_value : log_values)
     log_value.resize(1, {0, 0});

   auto a_mats = makeRefVector<decltype(pinned_spd_mats)::value_type>(pinned_spd_mats);
   RefVector<OffloadPinnedMatrix<double>> inv_a_mats =
       makeRefVector<decltype(pinned_inv_mats)::value_type>(pinned_inv_mats);

   std::vector<bool> compute_mask(params.batch_size, true);
   BENCHMARK_ADVANCED(params.str())(Catch::Benchmark::Chronometer meter)
   {
     meter.measure([&] {
       for (int im = 0; im < params.batch_size; ++im)
         dmcc.invert_transpose(queue, pinned_spd_mats[im], pinned_inv_mats[im], log_values[im]);
     });
   };


   DiracMatrix<double> dmat;
   std::vector<Matrix<double>> inv_mats_test(params.batch_size, {params.n, params.n});
   ;
   std::vector<std::complex<double>> log_values_test(params.batch_size);

   params.name = "legacy CPU";

   BENCHMARK_ADVANCED(params.str())(Catch::Benchmark::Chronometer meter)
   {
     meter.measure([&] {
       for (int im = 0; im < params.batch_size; ++im)
         dmat.invert_transpose(spd_mats[im], inv_mats_test[im], log_values_test[im]);
     });
   };
 }


 } // namespace qmcplusplus
qmcplusplus::DataLocality::queue

qmcplusplus::DiracComputeBenchmarkParameters::batch_size
int batch_size
Definition: benchmark_DiracMatrixComputeCUDA.cpp:51

qmcplusplus
helper functions for EinsplineSetBuilder
Definition: Configuration.h:43

qmcplusplus::log_values
std::vector< StdComp, CUDAHostAllocator< StdComp > > log_values(batch_size)

qmcplusplus::TEST_CASE
TEST_CASE("complex_helper", "[type_traits]")
Definition: test_complex_helper.cpp:38

qmcplusplus::DiracComputeBenchmarkParameters
Definition: benchmark_DiracMatrixComputeCUDA.cpp:47

RandomForTest.h

checkMatrix.hpp

qmcplusplus::Vector
Definition: OhmmsVector.h:33

qmcplusplus::DiracMatrixComputeCUDA::mw_invertTranspose
std::enable_if_t<!std::is_same< VALUE_FP, TMAT >::value > mw_invertTranspose(compute::Queue< PlatformKind::CUDA > &queue, const RefVector< const DualMatrix< TMAT >> &a_mats, const RefVector< DualMatrix< TMAT >> &inv_a_mats, DualVector< LogValue > &log_values)
Mixed precision specialization When TMAT is not full precision we need to still do the inversion and ...
Definition: DiracMatrixComputeCUDA.hpp:291

qmcplusplus::DiracComputeBenchmarkParameters::name
std::string name
Definition: benchmark_DiracMatrixComputeCUDA.cpp:49

qmcplusplus::testing::makeRngSpdMatrix
void makeRngSpdMatrix(testing::RandomForTest< RngValueType< T >> &rng, Matrix< T > &mat_spd)
Definition: makeRngSpdMatrix.hpp:37

makeRngSpdMatrix.hpp

Libxml2Doc.h

DiracMatrix.h

qmcplusplus::DiracMatrix
helper class to compute matrix inversion and the log value of determinant
Definition: DiracMatrix.h:111

DualAllocatorAliases.hpp
These allocators are to make code that should be generic with the respect to accelerator code flavor ...

qmcplusplus::DiracMatrixComputeCUDA::invert_transpose
void invert_transpose(compute::Queue< PlatformKind::CUDA > &queue, DualMatrix< TMAT > &a_mat, DualMatrix< TMAT > &inv_a_mat, DualVector< LogValue > &log_values)
Given a_mat returns inverted amit and log determinant of a_matches.
Definition: DiracMatrixComputeCUDA.hpp:244

qmcplusplus::operator<<
std::ostream & operator<<(std::ostream &out, const AntiSymTensor< T, D > &rhs)
Definition: AntiSymTensor.h:615

Configuration.h

qmcplusplus::Units::meter
Definition: unit_conversion.h:134

qmcplusplus::RefVector
std::vector< std::reference_wrapper< T > > RefVector
Definition: template_types.hpp:32

DiracMatrixComputeCUDA.hpp

OhmmsVector.h
Declaraton of Vector<T,Alloc> Manage memory through Alloc directly and allow referencing an existing ...

qmcplusplus::DiracMatrixComputeCUDA
class defining a compute and memory resource to compute matrix inversion and the log determinants of ...
Definition: DiracMatrixComputeCUDA.hpp:49

qmcplusplus::Matrix
Definition: OhmmsMatrix.h:27

qmcplusplus::DiracComputeBenchmarkParameters::str
std::string str()
Definition: benchmark_DiracMatrixComputeCUDA.cpp:52

qmcplusplus::DiracComputeBenchmarkParameters::n
size_t n
Definition: benchmark_DiracMatrixComputeCUDA.cpp:50

WaveFunctionComponent.h
Declaration of WaveFunctionComponent.

qmcplusplus::DiracMatrix::invert_transpose
std::enable_if_t< std::is_same< T_FP, TMAT >::value > invert_transpose(const Matrix< TMAT, ALLOC1 > &amat, Matrix< TMAT, ALLOC2 > &invMat, std::complex< TREAL > &LogDet)
compute the inverse of the transpose of matrix A and its determinant value in log when T_FP and TMAT ...
Definition: DiracMatrix.h:188

OhmmsMatrix.h

QueueCUDA.hpp

qmcplusplus::compute::Queue< PlatformKind::CUDA >
Definition: QueueCUDA.hpp:25

qmcplusplus::testing::MakeRngSpdMatrix
Functor to provide scope for rng when making SpdMatrix for testing.
Definition: makeRngSpdMatrix.hpp:118