openucx · yosefe · Aug 7, 2021 · Akshay-Venkatesh · Aug 9, 2021 · yosefe
diff --git a/config/m4/cuda.m4 b/config/m4/cuda.m4
@@ -54,13 +54,20 @@ AS_IF([test "x$cuda_checked" != "xyes"],
 
          LDFLAGS="$save_LDFLAGS"
 
-         # Check for cuda static library
          have_cuda_static="no"
          AS_IF([test "x$cuda_happy" = "xyes"],
-               [AC_CHECK_LIB([cudart_static], [cudaGetDeviceCount],
+               [
+                # Check for cuda static library
+                AC_CHECK_LIB([cudart_static], [cudaGetDeviceCount],
                              [CUDA_STATIC_LIBS="$CUDA_STATIC_LIBS -lcudart_static"
                               have_cuda_static="yes"],
-                             [], [-ldl -lrt -lpthread])])
+                             [], [-ldl -lrt -lpthread])
+                # Check for async allocation APIs
+                AC_CHECK_DECLS([cuMemAllocAsync, cuMemFreeAsync], [], [],
+                               [[#include <cuda.h>]])
+                AC_CHECK_DECLS([cudaMallocAsync, cudaFreeAsync], [], [],
+                               [[#include <cuda_runtime.h>]])
+               ])
 
          CPPFLAGS="$save_CPPFLAGS"
          LDFLAGS="$save_LDFLAGS"

diff --git a/src/ucm/cuda/cudamem.c b/src/ucm/cuda/cudamem.c
@@ -46,15 +46,15 @@
     }
 
 /* Create a body of CUDA memory release replacement function */
-#define UCM_CUDA_FREE_FUNC(_name, _retval, _ptr_type, _mem_type) \
-    _retval ucm_##_name(_ptr_type ptr) \
+#define UCM_CUDA_FREE_FUNC(_name, _retval, _mem_type, ...) \
+    _retval ucm_##_name(UCM_FUNC_DEFINE_ARGS(__VA_ARGS__)) \
     { \
         _retval ret; \
         \
         ucm_event_enter(); \
-        ucm_trace("%s(ptr=%p)", __FUNCTION__, (void*)ptr); \
-        ucm_cuda_dispatch_mem_free((CUdeviceptr)ptr, _mem_type, #_name); \
-        ret = ucm_orig_##_name(ptr); \
+        ucm_trace("%s(ptr=%p)", __FUNCTION__, (void*)arg0); \
+        ucm_cuda_dispatch_mem_free((CUdeviceptr)arg0, _mem_type, #_name); \
+        ret = ucm_orig_##_name(UCM_FUNC_PASS_ARGS(__VA_ARGS__)); \
         ucm_event_leave(); \
         return ret; \
     }
@@ -75,6 +75,8 @@ UCM_DEFINE_REPLACE_DLSYM_PTR_FUNC(cuMemAlloc, CUresult, -1, CUdeviceptr*,
                                   size_t)
 UCM_DEFINE_REPLACE_DLSYM_PTR_FUNC(cuMemAlloc_v2, CUresult, -1, CUdeviceptr*,
                                   size_t)
+UCM_DEFINE_REPLACE_DLSYM_PTR_FUNC(cuMemAllocAsync, CUresult, -1, CUdeviceptr*,
+                                  size_t, CUstream)
 UCM_DEFINE_REPLACE_DLSYM_PTR_FUNC(cuMemAllocManaged, CUresult, -1, CUdeviceptr*,
                                   size_t, unsigned int)
 UCM_DEFINE_REPLACE_DLSYM_PTR_FUNC(cuMemAllocPitch, CUresult, -1, CUdeviceptr*,
@@ -84,13 +86,19 @@ UCM_DEFINE_REPLACE_DLSYM_PTR_FUNC(cuMemAllocPitch_v2, CUresult, -1,
                                   unsigned int)
 UCM_DEFINE_REPLACE_DLSYM_PTR_FUNC(cuMemFree, CUresult, -1, CUdeviceptr)
 UCM_DEFINE_REPLACE_DLSYM_PTR_FUNC(cuMemFree_v2, CUresult, -1, CUdeviceptr)
+UCM_DEFINE_REPLACE_DLSYM_PTR_FUNC(cuMemFreeAsync, CUresult, -1, CUdeviceptr,
+                                  CUstream)
 UCM_DEFINE_REPLACE_DLSYM_PTR_FUNC(cuMemFreeHost, CUresult, -1, void*)
 UCM_DEFINE_REPLACE_DLSYM_PTR_FUNC(cuMemFreeHost_v2, CUresult, -1, void*)
 
 /* Runtime API */
 UCM_DEFINE_REPLACE_DLSYM_PTR_FUNC(cudaFree, cudaError_t, -1, void*)
+UCM_DEFINE_REPLACE_DLSYM_PTR_FUNC(cudaFreeAsync, cudaError_t, -1, void*,
+                                  cudaStream_t)
 UCM_DEFINE_REPLACE_DLSYM_PTR_FUNC(cudaFreeHost, cudaError_t, -1, void*)
 UCM_DEFINE_REPLACE_DLSYM_PTR_FUNC(cudaMalloc, cudaError_t, -1, void**, size_t)
+UCM_DEFINE_REPLACE_DLSYM_PTR_FUNC(cudaMallocAsync, cudaError_t, -1, void**,
+                                  size_t, cudaStream_t)
 UCM_DEFINE_REPLACE_DLSYM_PTR_FUNC(cudaMallocManaged, cudaError_t, -1, void**,
                                   size_t, unsigned int)
 UCM_DEFINE_REPLACE_DLSYM_PTR_FUNC(cudaMallocPitch, cudaError_t, -1, void**,
@@ -156,6 +164,9 @@ UCM_CUDA_ALLOC_FUNC(cuMemAlloc, UCS_MEMORY_TYPE_CUDA, CUresult, CUDA_SUCCESS,
                     arg0, CUdeviceptr, "size=%zu", size_t)
 UCM_CUDA_ALLOC_FUNC(cuMemAlloc_v2, UCS_MEMORY_TYPE_CUDA, CUresult, CUDA_SUCCESS,
                     arg0, CUdeviceptr, "size=%zu", size_t)
+UCM_CUDA_ALLOC_FUNC(cuMemAllocAsync, UCS_MEMORY_TYPE_CUDA, CUresult,
+                    CUDA_SUCCESS, arg0, CUdeviceptr, "size=%zu stream=%p",
+                    size_t, CUstream)
 UCM_CUDA_ALLOC_FUNC(cuMemAllocManaged, UCS_MEMORY_TYPE_CUDA_MANAGED, CUresult,
                     CUDA_SUCCESS, arg0, CUdeviceptr, "size=%zu flags=0x%x",
                     size_t, unsigned)
@@ -167,19 +178,23 @@ UCM_CUDA_ALLOC_FUNC(cuMemAllocPitch_v2, UCS_MEMORY_TYPE_CUDA, CUresult,
                     CUDA_SUCCESS, (size_t)arg1 * arg2, CUdeviceptr,
                     "pitch=%p width=%zu height=%zu elem=%u", size_t*, size_t,
                     size_t, unsigned)
-UCM_CUDA_FREE_FUNC(cuMemFree, CUresult, CUdeviceptr, UCS_MEMORY_TYPE_CUDA)
-UCM_CUDA_FREE_FUNC(cuMemFree_v2, CUresult, CUdeviceptr, UCS_MEMORY_TYPE_CUDA)
-UCM_CUDA_FREE_FUNC(cuMemFreeHost, CUresult, void*, UCS_MEMORY_TYPE_HOST)
-UCM_CUDA_FREE_FUNC(cuMemFreeHost_v2, CUresult, void*, UCS_MEMORY_TYPE_HOST)
+UCM_CUDA_FREE_FUNC(cuMemFree, CUresult, UCS_MEMORY_TYPE_CUDA, CUdeviceptr)
+UCM_CUDA_FREE_FUNC(cuMemFree_v2, CUresult, UCS_MEMORY_TYPE_CUDA, CUdeviceptr)
+UCM_CUDA_FREE_FUNC(cuMemFreeAsync, CUresult, UCS_MEMORY_TYPE_CUDA, CUdeviceptr,
+                   CUstream)
+UCM_CUDA_FREE_FUNC(cuMemFreeHost, CUresult, UCS_MEMORY_TYPE_HOST, void*)
+UCM_CUDA_FREE_FUNC(cuMemFreeHost_v2, CUresult, UCS_MEMORY_TYPE_HOST, void*)
 
 static ucm_cuda_func_t ucm_cuda_driver_funcs[] = {
     UCM_CUDA_FUNC_ENTRY(cuMemAlloc),
     UCM_CUDA_FUNC_ENTRY(cuMemAlloc_v2),
+    UCM_CUDA_FUNC_ENTRY(cuMemAllocAsync),
     UCM_CUDA_FUNC_ENTRY(cuMemAllocManaged),
     UCM_CUDA_FUNC_ENTRY(cuMemAllocPitch),
     UCM_CUDA_FUNC_ENTRY(cuMemAllocPitch_v2),
     UCM_CUDA_FUNC_ENTRY(cuMemFree),
     UCM_CUDA_FUNC_ENTRY(cuMemFree_v2),
+    UCM_CUDA_FUNC_ENTRY(cuMemFreeAsync),
     UCM_CUDA_FUNC_ENTRY(cuMemFreeHost),
     UCM_CUDA_FUNC_ENTRY(cuMemFreeHost_v2),
     {{NULL}, NULL}
@@ -188,19 +203,26 @@ static ucm_cuda_func_t ucm_cuda_driver_funcs[] = {
 /* Runtime API replacements */
 UCM_CUDA_ALLOC_FUNC(cudaMalloc, UCS_MEMORY_TYPE_CUDA, cudaError_t, cudaSuccess,
                     arg0, void*, "size=%zu", size_t)
+UCM_CUDA_ALLOC_FUNC(cudaMallocAsync, UCS_MEMORY_TYPE_CUDA, cudaError_t,
+                    cudaSuccess, arg0, void*, "size=%zu stream=%p", size_t,
+                    cudaStream_t)
 UCM_CUDA_ALLOC_FUNC(cudaMallocManaged, UCS_MEMORY_TYPE_CUDA_MANAGED,
                     cudaError_t, cudaSuccess, arg0, void*,
                     "size=%zu flags=0x%x", size_t, unsigned)
 UCM_CUDA_ALLOC_FUNC(cudaMallocPitch, UCS_MEMORY_TYPE_CUDA, cudaError_t,
                     cudaSuccess, (size_t)arg1 * arg2, void*,
                     "pitch=%p width=%zu height=%zu", size_t*, size_t, size_t)
-UCM_CUDA_FREE_FUNC(cudaFree, cudaError_t, void*, UCS_MEMORY_TYPE_CUDA)
-UCM_CUDA_FREE_FUNC(cudaFreeHost, cudaError_t, void*, UCS_MEMORY_TYPE_HOST)
+UCM_CUDA_FREE_FUNC(cudaFree, cudaError_t, UCS_MEMORY_TYPE_CUDA, void*)
+UCM_CUDA_FREE_FUNC(cudaFreeAsync, cudaError_t, UCS_MEMORY_TYPE_CUDA, void*,
+                   cudaStream_t)
+UCM_CUDA_FREE_FUNC(cudaFreeHost, cudaError_t, UCS_MEMORY_TYPE_HOST, void*)
 
 static ucm_cuda_func_t ucm_cuda_runtime_funcs[] = {
     UCM_CUDA_FUNC_ENTRY(cudaFree),
+    UCM_CUDA_FUNC_ENTRY(cudaFreeAsync),
     UCM_CUDA_FUNC_ENTRY(cudaFreeHost),
     UCM_CUDA_FUNC_ENTRY(cudaMalloc),
+    UCM_CUDA_FUNC_ENTRY(cudaMallocAsync),
     UCM_CUDA_FUNC_ENTRY(cudaMallocManaged),
     UCM_CUDA_FUNC_ENTRY(cudaMallocPitch),
     {{NULL}, NULL}

diff --git a/src/ucm/cuda/cudamem.h b/src/ucm/cuda/cudamem.h
@@ -13,6 +13,7 @@
 
 CUresult ucm_cuMemAlloc(CUdeviceptr *dptr, size_t size);
 CUresult ucm_cuMemAlloc_v2(CUdeviceptr *dptr, size_t size);
+CUresult ucm_cuMemAllocAsync(CUdeviceptr *dptr, size_t size, CUstream hstream);
 CUresult ucm_cuMemAllocManaged(CUdeviceptr *dptr, size_t size, unsigned int flags);
 CUresult ucm_cuMemAllocPitch(CUdeviceptr *dptr, size_t *pPitch,
                              size_t WidthInBytes, size_t Height,
@@ -22,12 +23,15 @@ CUresult ucm_cuMemAllocPitch_v2(CUdeviceptr *dptr, size_t *pPitch,
                                 unsigned int ElementSizeBytes);
 CUresult ucm_cuMemFree(CUdeviceptr dptr);
 CUresult ucm_cuMemFree_v2(CUdeviceptr dptr);
+CUresult ucm_cuMemFreeAsync(CUdeviceptr dptr, CUstream stream);
 CUresult ucm_cuMemFreeHost(void *p);
 CUresult ucm_cuMemFreeHost_v2(void *p);
 
 cudaError_t ucm_cudaFree(void *devPtr);
+cudaError_t ucm_cudaFreeAsync(void *devPtr, cudaStream_t stream);
 cudaError_t ucm_cudaFreeHost(void *ptr);
 cudaError_t ucm_cudaMalloc(void **devPtr, size_t size);
+cudaError_t ucm_cudaMallocAsync(void **devPtr, size_t size, cudaStream_t stream);
 cudaError_t ucm_cudaMallocManaged(void **devPtr, size_t size, unsigned int flags);
 cudaError_t ucm_cudaMallocPitch(void **devPtr, size_t *pitch,
                                 size_t width, size_t height);

diff --git a/test/gtest/ucm/cuda_hooks.cc b/test/gtest/ucm/cuda_hooks.cc
@@ -96,56 +96,75 @@ class cuda_hooks : public ucs::test {
     CUcontext  context;
 };
 
-UCS_TEST_F(cuda_hooks, test_cuMem_Alloc_Free) {
+UCS_TEST_F(cuda_hooks, test_cuMemAllocFree) {
     CUresult ret;
     CUdeviceptr dptr, dptr1;
 
     /* small allocation */
     ret = cuMemAlloc(&dptr, 64);
-    ASSERT_EQ(ret, CUDA_SUCCESS);
+    ASSERT_EQ(CUDA_SUCCESS, ret);
     check_mem_alloc_events((void *)dptr, 64);
 
     ret = cuMemFree(dptr);
-    ASSERT_EQ(ret, CUDA_SUCCESS);
+    ASSERT_EQ(CUDA_SUCCESS, ret);
     check_mem_free_events((void *)dptr, 64);
 
     /* large allocation */
     ret = cuMemAlloc(&dptr, (256 * 1024 *1024));
-    ASSERT_EQ(ret, CUDA_SUCCESS);
+    ASSERT_EQ(CUDA_SUCCESS, ret);
     check_mem_alloc_events((void *)dptr, (256 * 1024 *1024));
 
     ret = cuMemFree(dptr);
-    ASSERT_EQ(ret, CUDA_SUCCESS);
+    ASSERT_EQ(CUDA_SUCCESS, ret);
     check_mem_free_events((void *)dptr, (256 * 1024 *1024));
 
     /* multiple allocations, cudafree in reverse order */
     ret = cuMemAlloc(&dptr, (1 * 1024 *1024));
-    ASSERT_EQ(ret, CUDA_SUCCESS);
+    ASSERT_EQ(CUDA_SUCCESS, ret);
     check_mem_alloc_events((void *)dptr, (1 * 1024 *1024));
 
     ret = cuMemAlloc(&dptr1, (1 * 1024 *1024));
-    ASSERT_EQ(ret, CUDA_SUCCESS);
+    ASSERT_EQ(CUDA_SUCCESS, ret);
     check_mem_alloc_events((void *)dptr1, (1 * 1024 *1024));
 
     ret = cuMemFree(dptr1);
-    ASSERT_EQ(ret, CUDA_SUCCESS);
+    ASSERT_EQ(CUDA_SUCCESS, ret);
     check_mem_free_events((void *)dptr1, (1 * 1024 *1024));
 
     ret = cuMemFree(dptr);
-    ASSERT_EQ(ret, CUDA_SUCCESS);
+    ASSERT_EQ(CUDA_SUCCESS, ret);
     check_mem_free_events((void *)dptr, (1 * 1024 *1024));
 }
 
+UCS_TEST_F(cuda_hooks, test_cuMemAllocAsync) {
+#if HAVE_DECL_CUMEMALLOCASYNC && HAVE_DECL_CUMEMFREEASYNC
+    CUresult ret;
+    CUdeviceptr dptr;
+
+    ret = cuMemAllocAsync(&dptr, 1024, CU_STREAM_PER_THREAD);
+    ASSERT_EQ(CUDA_SUCCESS, ret);
+    cuStreamSynchronize(CU_STREAM_PER_THREAD);
+    check_mem_alloc_events((void*)dptr, 1024);
+
+    ret = cuMemFreeAsync(dptr, CU_STREAM_PER_THREAD);
+    ASSERT_EQ(CUDA_SUCCESS, ret);
+    cuStreamSynchronize(CU_STREAM_PER_THREAD);
+    check_mem_free_events((void*)dptr, 1024);
+#else
+    UCS_TEST_SKIP_R("cuMemAllocAsync is unsupported");
+#endif
+}
+
 UCS_TEST_F(cuda_hooks, test_cuMemAllocManaged) {
     CUresult ret;
     CUdeviceptr dptr;
 
     ret = cuMemAllocManaged(&dptr, 64, CU_MEM_ATTACH_GLOBAL);
-    ASSERT_EQ(ret, CUDA_SUCCESS);
+    ASSERT_EQ(CUDA_SUCCESS, ret);
     check_mem_alloc_events((void *)dptr, 64, UCS_MEMORY_TYPE_CUDA_MANAGED);
 
     ret = cuMemFree(dptr);
-    ASSERT_EQ(ret, CUDA_SUCCESS);
+    ASSERT_EQ(CUDA_SUCCESS, ret);
     check_mem_free_events((void *)dptr, 0);
 }
 
@@ -155,11 +174,11 @@ UCS_TEST_F(cuda_hooks, test_cuMemAllocPitch) {
     size_t pitch;
 
     ret = cuMemAllocPitch(&dptr, &pitch, 4, 8, 4);
-    ASSERT_EQ(ret, CUDA_SUCCESS);
+    ASSERT_EQ(CUDA_SUCCESS, ret);
     check_mem_alloc_events((void *)dptr, (4 * 8));
 
     ret = cuMemFree(dptr);
-    ASSERT_EQ(ret, CUDA_SUCCESS);
+    ASSERT_EQ(CUDA_SUCCESS, ret);
     check_mem_free_events((void *)dptr, 0);
 }
 
@@ -169,54 +188,54 @@ UCS_TEST_F(cuda_hooks, test_cuda_Malloc_Free) {
 
     /* small allocation */
     ret = cudaMalloc(&ptr, 64);
-    ASSERT_EQ(ret, cudaSuccess);
+    ASSERT_EQ(cudaSuccess, ret);
     check_mem_alloc_events(ptr, 64);
 
     ret = cudaFree(ptr);
-    ASSERT_EQ(ret, cudaSuccess);
+    ASSERT_EQ(cudaSuccess, ret);
     check_mem_free_events(ptr, 64);
 
     /* large allocation */
     ret = cudaMalloc(&ptr, (256 * 1024 *1024));
-    ASSERT_EQ(ret, cudaSuccess);
+    ASSERT_EQ(cudaSuccess, ret);
     check_mem_alloc_events(ptr, (256 * 1024 *1024));
 
     ret = cudaFree(ptr);
-    ASSERT_EQ(ret, cudaSuccess);
+    ASSERT_EQ(cudaSuccess, ret);
     check_mem_free_events(ptr, (256 * 1024 *1024));
 
     /* multiple allocations, cudafree in reverse order */
     ret = cudaMalloc(&ptr, (1 * 1024 *1024));
-    ASSERT_EQ(ret, cudaSuccess);
+    ASSERT_EQ(cudaSuccess, ret);
     check_mem_alloc_events(ptr, (1 * 1024 *1024));
 
     ret = cudaMalloc(&ptr1, (1 * 1024 *1024));
-    ASSERT_EQ(ret, cudaSuccess);
+    ASSERT_EQ(cudaSuccess, ret);
     check_mem_alloc_events(ptr1, (1 * 1024 *1024));
 
     ret = cudaFree(ptr1);
-    ASSERT_EQ(ret, cudaSuccess);
+    ASSERT_EQ(cudaSuccess, ret);
     check_mem_free_events(ptr1, (1 * 1024 *1024));
 
     ret = cudaFree(ptr);
-    ASSERT_EQ(ret, cudaSuccess);
+    ASSERT_EQ(cudaSuccess, ret);
     check_mem_free_events(ptr, (1 * 1024 *1024));
 
     /* cudaFree with NULL */
     ret = cudaFree(NULL);
-    ASSERT_EQ(ret, cudaSuccess);
+    ASSERT_EQ(cudaSuccess, ret);
 }
 
 UCS_TEST_F(cuda_hooks, test_cudaMallocManaged) {
     cudaError_t ret;
     void *ptr;
 
     ret = cudaMallocManaged(&ptr, 64, cudaMemAttachGlobal);
-    ASSERT_EQ(ret, cudaSuccess);
+    ASSERT_EQ(cudaSuccess, ret);
     check_mem_alloc_events(ptr, 64, UCS_MEMORY_TYPE_CUDA_MANAGED);
 
     ret = cudaFree(ptr);
-    ASSERT_EQ(ret, cudaSuccess);
+    ASSERT_EQ(cudaSuccess, ret);
     check_mem_free_events(ptr, 0);
 }
 
@@ -226,10 +245,29 @@ UCS_TEST_F(cuda_hooks, test_cudaMallocPitch) {
     size_t pitch;
 
     ret = cudaMallocPitch(&devPtr, &pitch, 4, 8);
-    ASSERT_EQ(ret, cudaSuccess);
+    ASSERT_EQ(cudaSuccess, ret);
     check_mem_alloc_events(devPtr, (4 * 8));
 
     ret = cudaFree(devPtr);
-    ASSERT_EQ(ret, cudaSuccess);
+    ASSERT_EQ(cudaSuccess, ret);
     check_mem_free_events(devPtr, 0);
 }
+
+UCS_TEST_F(cuda_hooks, test_cudaMallocAsync) {
+#if HAVE_DECL_CUDAMALLOCASYNC && HAVE_DECL_CUDAFREEASYNC
+    cudaError_t ret;
+    void *devPtr;
+
+    ret = cudaMallocAsync(&devPtr, 1024, cudaStreamPerThread);
+    ASSERT_EQ(ret, cudaSuccess);
+    cudaStreamSynchronize(cudaStreamPerThread);
+    check_mem_alloc_events(devPtr, 1024);
+
+    ret = cudaFreeAsync(devPtr, cudaStreamPerThread);
+    ASSERT_EQ(ret, cudaSuccess);
+    cudaStreamSynchronize(cudaStreamPerThread);
+    check_mem_free_events(devPtr, 1024);
+#else
+    UCS_TEST_SKIP_R("cudaMallocAsync is unsupported");
+#endif
+}