first commit

zhoutianzi666 · zhoutianzi666 · commit 5bddd3ec7367 · 2025-11-19T15:28:46.000+08:00
diff --git a/fastdeploy/model_executor/layers/attention/append_attn_backend.py b/fastdeploy/model_executor/layers/attention/append_attn_backend.py
@@ -80,26 +80,26 @@ def allocate_launch_related_buffer(
     # NOTE: (changwenbin) When using auto_chunk,
     # decode_max_tile_size must take into account the maximum case, where *1024 can cover 128K.
     decode_max_tile_size = (
-        1024 * max_batch_size * np.ceil((decoder_step_token_num * group_size) / decoder_block_shape_q)
+        1024 * max_batch_size * (int)(np.ceil(decoder_step_token_num * group_size / decoder_block_shape_q))
     )
     encode_max_tile_size = max_batch_size * (max_model_len * group_size // encoder_block_shape_q)
     kv_max_tile_size = max_batch_size * max_model_len // block_size
     res = {}
-    res["decoder_batch_ids"] = paddle.full([int(decode_max_tile_size)], 0, dtype="int32")
-    res["decoder_tile_ids_per_batch"] = paddle.full([int(decode_max_tile_size)], 0, dtype="int32")
+    res["decoder_batch_ids"] = paddle.full([decode_max_tile_size], 0, dtype="int32")
+    res["decoder_tile_ids_per_batch"] = paddle.full([decode_max_tile_size], 0, dtype="int32")
     res["decoder_num_blocks_cpu"] = paddle.full([1], 0, dtype="int32").pin_memory()
     # NOTE: (changwenbin) MLA kernel only needs decoder_num_blocks_device in place of GPU tensor,
     # adapted to cudagraph.
     res["decoder_num_blocks_device"] = paddle.full([1], 0, dtype="int32")
     res["decoder_chunk_size_device"] = paddle.full([1], 64, dtype="int32")
     res["max_len_tensor_cpu"] = paddle.full([5], 0, dtype="int32").cpu()
 
-    res["encoder_batch_ids"] = paddle.full([int(encode_max_tile_size)], 0, dtype="int32")
-    res["encoder_tile_ids_per_batch"] = paddle.full([int(encode_max_tile_size)], 0, dtype="int32")
+    res["encoder_batch_ids"] = paddle.full([encode_max_tile_size], 0, dtype="int32")
+    res["encoder_tile_ids_per_batch"] = paddle.full([encode_max_tile_size], 0, dtype="int32")
     res["encoder_num_blocks_x_cpu"] = paddle.full([1], 0, dtype="int32").cpu()
 
-    res["kv_batch_ids"] = paddle.full([int(kv_max_tile_size)], 0, dtype="int32")
-    res["kv_tile_ids_per_batch"] = paddle.full([int(kv_max_tile_size)], 0, dtype="int32")
+    res["kv_batch_ids"] = paddle.full([kv_max_tile_size], 0, dtype="int32")
+    res["kv_tile_ids_per_batch"] = paddle.full([kv_max_tile_size], 0, dtype="int32")
     res["kv_num_blocks_x_cpu"] = paddle.full([1], 0, dtype="int32").cpu()
 
     return res