NVIDIA
diff --git a/‎transformer_engine/common/common.cu‎
Lines changed: 26 additions & 41 deletions b/‎transformer_engine/common/common.cu‎
Lines changed: 26 additions & 41 deletions
diff --git a/‎transformer_engine/common/common.h‎
Lines changed: 5 additions & 11 deletions b/‎transformer_engine/common/common.h‎
Lines changed: 5 additions & 11 deletions
diff --git a/‎transformer_engine/common/util/cast_kernels.cuh‎
Lines changed: 24 additions & 54 deletions b/‎transformer_engine/common/util/cast_kernels.cuh‎
Lines changed: 24 additions & 54 deletions
@@ -197,17 +197,11 @@ void create_2D_tensor_map(CUtensorMap &tensorMap, const SimpleTensor &tensor,
 }
 
 // TMA descriptor with swizzle
-void create_2D_tensor_map(
-  CUtensorMap &tensorMap,
-  const SimpleTensor &tensor,
-  CUtensorMapSwizzle swizzle,
-  const uint64_t globalY, 
-  const uint64_t globalX,
-  const uint32_t shmemY,
-  const uint32_t shmemX,
-  const uint32_t stride_elems,
-  const uint32_t offset_elems,
-  const size_t type_num_bits) {
+void create_2D_tensor_map(CUtensorMap &tensorMap, const SimpleTensor &tensor,
+                          CUtensorMapSwizzle swizzle, const uint64_t globalY,
+                          const uint64_t globalX, const uint32_t shmemY, const uint32_t shmemX,
+                          const uint32_t stride_elems, const uint32_t offset_elems,
+                          const size_t type_num_bits) {
   static PFN_cuTensorMapEncodeTiled_v12000 cuDriverTensorMapEncodeTiled = []() {
     void *driver_ptr = cuda_driver::get_symbol("cuTensorMapEncodeTiled");
     return reinterpret_cast<PFN_cuTensorMapEncodeTiled_v12000>(driver_ptr);
@@ -227,46 +221,37 @@ void create_2D_tensor_map(
 
   const CUtensorMapDataType tensorDataType = get_CUtensorMapDataType(tensor.dtype);
   void *dataPtr = reinterpret_cast<void *>(reinterpret_cast<uint8_t *>(tensor.dptr) +
-                                            (offset_elems * type_num_bits) / 8);
-  
+                                           (offset_elems * type_num_bits) / 8);
+
   NVTE_CHECK(is_aligned_ptr(dataPtr, TMA_GMEM_ALIGNMENT),
              "Tensor data pointer must be 16B aligned");
   const int32_t TMA_needed_size = (TMA_GMEM_ALIGNMENT * 8) / type_num_bits;
   NVTE_CHECK(globalX % TMA_needed_size == 0, "Shape not supported. For ", type_num_bits,
              "-bit data type, expected multiple of ", TMA_needed_size, ", got ", globalX);
 
   int32_t swizzle_size = [&]() {
-        switch (swizzle) {
-            case CU_TENSOR_MAP_SWIZZLE_32B:
-                return 32;
-            case CU_TENSOR_MAP_SWIZZLE_64B:
-                return 64;
-            case CU_TENSOR_MAP_SWIZZLE_128B:
-                return 128;
-            case CU_TENSOR_MAP_SWIZZLE_NONE:
-            default:
-                return 0;
-        }
-    }();
+    switch (swizzle) {
+      case CU_TENSOR_MAP_SWIZZLE_32B:
+        return 32;
+      case CU_TENSOR_MAP_SWIZZLE_64B:
+        return 64;
+      case CU_TENSOR_MAP_SWIZZLE_128B:
+        return 128;
+      case CU_TENSOR_MAP_SWIZZLE_NONE:
+      default:
+        return 0;
+    }
+  }();
   if (swizzle != CUtensorMapSwizzle::CU_TENSOR_MAP_SWIZZLE_NONE) {
-    NVTE_CHECK(boxSize[0] * (type_num_bits / 8) <= swizzle_size,
-               "boxSize[0]:", boxSize[0], " must be less than swizzle size:", swizzle_size);
+    NVTE_CHECK(boxSize[0] * (type_num_bits / 8) <= swizzle_size, "boxSize[0]:", boxSize[0],
+               " must be less than swizzle size:", swizzle_size);
   }
 
-  NVTE_CHECK_CUDA_DRIVER(cuDriverTensorMapEncodeTiled(
-    &tensorMap,
-    tensorDataType,
-    rank,
-    dataPtr,
-    size,
-    stride,
-    boxSize,
-    elemStride,
-    CUtensorMapInterleave::CU_TENSOR_MAP_INTERLEAVE_NONE,
-    swizzle,
-    CUtensorMapL2promotion::CU_TENSOR_MAP_L2_PROMOTION_NONE,
-    CUtensorMapFloatOOBfill::CU_TENSOR_MAP_FLOAT_OOB_FILL_NONE
-  ));
+  NVTE_CHECK_CUDA_DRIVER(
+      cuDriverTensorMapEncodeTiled(&tensorMap, tensorDataType, rank, dataPtr, size, stride, boxSize,
+                                   elemStride, CUtensorMapInterleave::CU_TENSOR_MAP_INTERLEAVE_NONE,
+                                   swizzle, CUtensorMapL2promotion::CU_TENSOR_MAP_L2_PROMOTION_NONE,
+                                   CUtensorMapFloatOOBfill::CU_TENSOR_MAP_FLOAT_OOB_FILL_NONE));
 }
 
 bool is_supported_by_CC_100() {
 
@@ -710,17 +710,11 @@ void create_2D_tensor_map(CUtensorMap &tensorMap, const SimpleTensor &tensor,
                           const uint32_t shmemX, const uint32_t stride_elems,
                           const uint32_t offset_elems, const size_t type_num_bits);
 
-void create_2D_tensor_map(
-  CUtensorMap &tensorMap,
-  const SimpleTensor &tensor,
-  CUtensorMapSwizzle swizzle,
-  const uint64_t globalY, 
-  const uint64_t globalX,
-  const uint32_t shmemY,
-  const uint32_t shmemX,
-  const uint32_t stride_elems,
-  const uint32_t offset_elems,
-  const size_t type_num_bits);
+void create_2D_tensor_map(CUtensorMap &tensorMap, const SimpleTensor &tensor,
+                          CUtensorMapSwizzle swizzle, const uint64_t globalY,
+                          const uint64_t globalX, const uint32_t shmemY, const uint32_t shmemX,
+                          const uint32_t stride_elems, const uint32_t offset_elems,
+                          const size_t type_num_bits);
 
 bool is_supported_by_CC_100();
 
 
@@ -22,10 +22,10 @@
 #include "../transpose/cast_transpose.h"
 #include "../util/vectorized_pointwise.h"
 #include "../utils.cuh"
+#include "cast_kernels_spec.cuh"
 #include "math.h"
 #include "ptx.cuh"
 #include "transformer_engine/transformer_engine.h"
-#include "cast_kernels_spec.cuh"
 
 namespace transformer_engine {
 
@@ -1083,31 +1083,21 @@ void mxfp8_quantize(const Tensor &input, const Tensor *act_input,
           output->dtype(), OType,
 
           if (spec::hasSpec<IS_DBIAS, IS_DACT, IS_ACT, IType, OType>()) {
-
             switch (scaling_type) {
               case ScalingType::ROWWISE: {
                 using traits = spec::CastTraits<IType, OType, true, false>;
                 auto kernel = spec::cast_mxfp8_kernel<traits>;
 
-                cudaFuncSetAttribute(
-                  kernel,
-                  cudaFuncAttributeMaxDynamicSharedMemorySize,
-                  traits::smem);
+                cudaFuncSetAttribute(kernel, cudaFuncAttributeMaxDynamicSharedMemorySize,
+                                     traits::smem);
 
-                dim3 block(traits::threadLayout::num,
-                           traits::warpLayout::N,
-                           traits::warpLayout::M);
+                dim3 block(traits::threadLayout::num, traits::warpLayout::N, traits::warpLayout::M);
                 dim3 grid((cols + traits::blockDimN - 1) / traits::blockDimN,
                           (rows + traits::blockDimM - 1) / traits::blockDimM);
                 kernel<<<grid, block, traits::smem, stream>>>(
-                  reinterpret_cast<typename traits::IType *>(input.data.dptr),
-                  reinterpret_cast<typename traits::OType *>(output->data.dptr),
-                  scales_rowwise_ptr,
-                  rows,
-                  cols,
-                  scale_stride_rowwise,
-                  scale_stride_colwise
-                );
+                    reinterpret_cast<typename traits::IType *>(input.data.dptr),
+                    reinterpret_cast<typename traits::OType *>(output->data.dptr),
+                    scales_rowwise_ptr, rows, cols, scale_stride_rowwise, scale_stride_colwise);
 
                 break;
               }
@@ -1119,55 +1109,35 @@ void mxfp8_quantize(const Tensor &input, const Tensor *act_input,
                 using traits = spec::CastTraits<IType, OType, true, true>;
                 auto kernel = spec::cast_mxfp8_kernel<traits>;
 
-                cudaFuncSetAttribute(
-                  kernel,
-                  cudaFuncAttributeMaxDynamicSharedMemorySize,
-                  traits::smem
-                );
+                cudaFuncSetAttribute(kernel, cudaFuncAttributeMaxDynamicSharedMemorySize,
+                                     traits::smem);
                 // TMA for loading, so that we don't need STS for transposing
                 alignas(64) CUtensorMap tensor_map_input{};
                 constexpr size_t input_type_bit_size = TypeInfo<IType>::size;
-                create_2D_tensor_map(tensor_map_input,
-                                     input.data,
-                                     traits::input_swizzle_pattern,
-                                     rows, cols,
-                                     traits::blockIterDim::M, traits::blockIterDim::N,
-                                     /*stride_elems=*/cols, 
-                                     /*offset_elems=*/0,
-                                     input_type_bit_size);
+                create_2D_tensor_map(tensor_map_input, input.data, traits::input_swizzle_pattern,
+                                     rows, cols, traits::blockIterDim::M, traits::blockIterDim::N,
+                                     /*stride_elems=*/cols,
+                                     /*offset_elems=*/0, input_type_bit_size);
                 alignas(64) CUtensorMap tensor_map_rowwise_output{};
                 alignas(64) CUtensorMap tensor_map_colwise_output{};
                 constexpr size_t output_type_bit_size = TypeInfo<OType>::size;
-                create_2D_tensor_map(tensor_map_rowwise_output,
-                                     output->data,
-                                     traits::output_swizzle_pattern,
-                                     rows, cols,
+                create_2D_tensor_map(tensor_map_rowwise_output, output->data,
+                                     traits::output_swizzle_pattern, rows, cols,
                                      traits::blockIterDim::M, traits::blockIterDim::N,
-                                     /*stride_elems=*/cols, 
-                                     /*offset_elems=*/0,
+                                     /*stride_elems=*/cols,
+                                     /*offset_elems=*/0, output_type_bit_size);
+                create_2D_tensor_map(tensor_map_colwise_output, output->columnwise_data,
+                                     traits::output_swizzle_pattern, rows, cols,
+                                     traits::blockIterDim::M, traits::blockIterDim::N, cols, 0,
                                      output_type_bit_size);
-                create_2D_tensor_map(tensor_map_colwise_output,
-                                     output->columnwise_data,
-                                     traits::output_swizzle_pattern,
-                                     rows, cols,
-                                     traits::blockIterDim::M, traits::blockIterDim::N,
-                                     cols, 0, output_type_bit_size);
 
-                dim3 block(traits::rowThreadLayout::num,
-                           traits::numWarps);
+                dim3 block(traits::rowThreadLayout::num, traits::numWarps);
                 dim3 grid((cols + traits::blockDIM::N - 1) / traits::blockDIM::N,
                           (rows + traits::blockDIM::M - 1) / traits::blockDIM::M);
                 kernel<<<grid, block, traits::smem, stream>>>(
-                  tensor_map_input,
-                  tensor_map_rowwise_output,
-                  tensor_map_colwise_output,
-                  scales_rowwise_ptr,
-                  scales_colwise_ptr,
-                  rows,
-                  cols,
-                  scale_stride_rowwise,
-                  scale_stride_colwise
-                );
+                    tensor_map_input, tensor_map_rowwise_output, tensor_map_colwise_output,
+                    scales_rowwise_ptr, scales_colwise_ptr, rows, cols, scale_stride_rowwise,
+                    scale_stride_colwise);
 
                 break;
               }