ai-dynamo · magicYang1573 · Dec 12, 2025 · Dec 12, 2025 · Dec 12, 2025 · Dec 12, 2025
@@ -218,8 +218,8 @@ rm "libfabric-${LIBFABRIC_VERSION#v}.tar.bz2"
   cd Mooncake && \
   $SUDO bash dependencies.sh && \
   mkdir build && cd build && \
-  cmake .. -DBUILD_SHARED_LIBS=ON && \
-  make -j2 && \
+  cmake .. -DBUILD_SHARED_LIBS=ON -DUSE_CUDA=ON&& \
-  cmake .. -DBUILD_SHARED_LIBS=ON -DUSE_CUDA=ON&& \
+  cmake .. -DBUILD_SHARED_LIBS=ON -DUSE_CUDA=ON && \
-  cmake .. -DBUILD_SHARED_LIBS=ON -DUSE_CUDA=ON&& \
+  cmake .. -DBUILD_SHARED_LIBS=ON -DUSE_CUDA=ON && \
+  make -j"$NPROC" && \
   $SUDO make install && \
   $SUDO ldconfig
 )

@@ -106,10 +106,9 @@ kill -s INT $telePID
 ./bin/nixl_gusli_test -n 4 -s 16
 ./bin/ucx_backend_multi
 ./bin/serdes_test
-# TODO: Enable Mooncake test once data corruption issue is resolved
-# if $HAS_GPU ; then
-#     ./bin/mooncake_backend_test
-# fi
+if $HAS_GPU ; then
+    ./bin/mooncake_backend_test
+fi
 
 # shellcheck disable=SC2154
 gtest-parallel --workers=1 --serialize_test_cases ./bin/gtest -- --min-tcp-port="$min_gtest_port" --max-tcp-port="$max_gtest_port"

@@ -126,7 +126,7 @@ nixl_status_t
 nixlMooncakeEngine::loadRemoteConnInfo(const std::string &remote_agent,
                                        const std::string &remote_conn_info) {
     std::lock_guard<std::mutex> lock(mutex_);
-    auto segment_id = openSegment(engine_, remote_conn_info.c_str());
+    auto segment_id = openSegmentNoCache(engine_, remote_conn_info.c_str());
     if (segment_id < 0) return NIXL_ERR_BACKEND;
     connected_agents_[remote_agent].segment_id = segment_id;
     return NIXL_SUCCESS;

@@ -487,8 +487,9 @@ test_intra_agent_transfer(bool p_thread, nixlBackendEngine *mooncake, nixl_mem_t
 
     std::cout << std::endl << std::endl;
     std::cout << "****************************************************" << std::endl;
-    std::cout << "   Intra-agent memory transfer test: " << "P-Thr=" << (p_thread ? "ON" : "OFF")
-              << ", " << memType2Str(mem_type) << std::endl;
+    std::cout << "   Intra-agent memory transfer test: "
+              << "P-Thr=" << (p_thread ? "ON" : "OFF") << ", " << memType2Str(mem_type)
+              << std::endl;
     std::cout << "****************************************************" << std::endl;
     std::cout << std::endl << std::endl;
 
@@ -728,7 +729,7 @@ main() {
     for (int i = 0; i < 2; i++) {
         // Test local memory to local memory transfer
         //  std::cout << "thread_on" <<i<<thread_on[i]<<endl;
-        //  test_intra_agent_transfer(thread_on[i], mooncake[i][0], DRAM_SEG);
+        test_intra_agent_transfer(thread_on[i], mooncake[i][0], DRAM_SEG);
 #ifdef HAVE_CUDA
         if (n_vram_dev > 0) {
             test_intra_agent_transfer(thread_on[i], mooncake[i][0], VRAM_SEG);
@@ -780,13 +781,16 @@ main() {
 #endif
     }
 
-#ifdef HAVE_CUDA
-    if (n_vram_dev > 1) {
-        // Test if registering on a different GPU fails correctly
-        allocateWrongGPUTest(mooncake[0][0], 1);
-        std::cout << "Verified registration on wrong GPU fails correctly\n";
-    }
-#endif
+    // The following allocateWrongGPUTest is temporarily commented
+    // because it attempts to register VRAM on a different GPU and expects
+    // NIXL_ERR_NOT_SUPPORTED, which is not supported in current backend
+    // #ifdef HAVE_CUDA
+    // if (n_vram_dev > 1) {
+    // Test if registering on a different GPU fails correctly
+    // allocateWrongGPUTest(mooncake[0][0], 1);
+    // std::cout << "Verified registration on wrong GPU fails correctly\n";
+    // }
+    // #endif
 
     // Deallocate Mooncake engines
     for (int i = 0; i < 2; i++) {