unify method & spec_method to method to avoid bug

freeliuzc · freeliuzc · commit 7cb8a5fbabdf · 2026-03-07T02:11:57.000+08:00
diff --git a/fastdeploy/config.py b/fastdeploy/config.py
@@ -788,7 +788,6 @@ def _init_from_defaults(self):
         """Initialize all config options from class defaults."""
         for key, value in self._DEFAULTS.items():
             setattr(self, key, value)
-        self.spec_method = None  # Will be set during validation
 
     def _apply_user_args(self, args: Dict[str, Any]):
         """Apply user-provided arguments."""
@@ -822,14 +821,14 @@ def _convert_and_validate(self):
         """
         Convert string configs to enums and validate all parameters.
         """
-        # Parse spec_method from string to enum using the new from_string method
+        # Convert method from string to SpecMethod enum
         if self.method is not None:
             from fastdeploy.spec_decode import SpecMethod
 
-            self.spec_method = SpecMethod.from_string(self.method)
+            self.method = SpecMethod.from_string(self.method)
 
             # Set method-specific computed values
-            if self.spec_method == SpecMethod.MTP:
+            if self.method == SpecMethod.MTP:
                 self.num_extra_cache_layer = 1
 
         # Run validation (includes dependency validation)
@@ -886,15 +885,15 @@ def check_legality_parameters(
                 m.value for m in SpecMethod
             ], f"speculative method only support {[m.value for m in SpecMethod]} now, but get {self.method}."
 
-            if self.spec_method != SpecMethod.NAIVE:
+            if self.method != SpecMethod.NAIVE:
                 assert (
                     self.num_speculative_tokens >= 1 and self.num_speculative_tokens <= 5
                 ), f"num_speculative_tokens only support in range[1, 5], but get {self.num_speculative_tokens}."
                 assert (
                     self.num_model_steps >= 1 and self.num_model_steps <= 5
                 ), f"num_model_steps only support in range[1, 5], but get {self.num_model_steps}."
 
-            if self.spec_method == SpecMethod.MTP:
+            if self.method == SpecMethod.MTP:
                 if self.num_speculative_tokens < self.num_model_steps:
                     logger.warning(
                         f"Get num_model_steps > num_speculative_tokens. Reset num_speculative_tokens to {self.num_model_steps}"
@@ -968,8 +967,8 @@ def _validate_dependencies(self) -> None:
             ],
         }
 
-        if self.spec_method in constraints:
-            method_constraints = constraints[self.spec_method]
+        if self.method in constraints:
+            method_constraints = constraints[self.method]
             for constraint in method_constraints:
                 if not constraint["check"]():
                     if constraint["auto_fix"] is not None:
@@ -1820,7 +1819,7 @@ def __init__(
 
         # Initialize cuda graph capture list
         max_capture_shape = self.scheduler_config.max_num_seqs
-        if self.speculative_config is not None and self.speculative_config.spec_method in [
+        if self.speculative_config is not None and self.speculative_config.method in [
             SpecMethod.MTP,
             SpecMethod.SUFFIX,
         ]:
@@ -2054,7 +2053,7 @@ def postprocess(self):
             )
 
         # adjust speculative config
-        if self.speculative_config is not None and self.speculative_config.spec_method == SpecMethod.MTP:
+        if self.speculative_config is not None and self.speculative_config.method == SpecMethod.MTP:
             if self.scheduler_config.splitwise_role == "prefill":
                 self.speculative_config.num_speculative_tokens = 1
                 self.speculative_config.num_model_steps = 1
diff --git a/fastdeploy/engine/common_engine.py b/fastdeploy/engine/common_engine.py
@@ -564,7 +564,7 @@ def _insert_prefilled_requests(self, request_outputs: List[RequestOutput]):
             cur_req.metrics = req_out.metrics
             cur_req.metrics.decode_inference_start_time = time.time()
             if (
-                self.cfg.speculative_config.spec_method == SpecMethod.MTP
+                self.cfg.speculative_config.method == SpecMethod.MTP
                 and self.cfg.scheduler_config.splitwise_role == "decode"
             ):
                 cur_req.draft_token_ids = copy.deepcopy(req_out.outputs.draft_token_ids)
diff --git a/fastdeploy/engine/sched/resource_manager_v1.py b/fastdeploy/engine/sched/resource_manager_v1.py
@@ -1361,7 +1361,7 @@ def add_prefilled_request(self, request_output: RequestOutput):
             request.output_token_ids.append(request_output.outputs.token_ids[0])
             request.num_cached_tokens = request_output.num_cached_tokens
             if (
-                self.config.speculative_config.spec_method == SpecMethod.MTP
+                self.config.speculative_config.method == SpecMethod.MTP
                 and self.config.scheduler_config.splitwise_role == "decode"
             ):
                 request.draft_token_ids = copy.deepcopy(request_output.outputs.draft_token_ids)
diff --git a/fastdeploy/model_executor/layers/attention/append_attn_backend.py b/fastdeploy/model_executor/layers/attention/append_attn_backend.py
@@ -144,10 +144,10 @@ def __init__(
         if fd_config.speculative_config.model_type != "main":
             self.rope_3d = False
         self.causal: bool = getattr(fd_config.model_config, "causal", True)
-        self.speculative_method: str = fd_config.speculative_config.method
+        self.speculative_method = fd_config.speculative_config.method
         self.speculate_max_draft_token_num: int = fd_config.speculative_config.num_speculative_tokens
         self.keep_pd_step_flag: bool = fd_config.speculative_config.model_type == "mtp"
-        self.num_layers_draft_model: int = int(fd_config.speculative_config.spec_method == SpecMethod.MTP)
+        self.num_layers_draft_model: int = int(fd_config.speculative_config.method == SpecMethod.MTP)
 
         self.kv_num_heads: int = kv_num_heads
         self.num_heads: int = num_heads
diff --git a/fastdeploy/model_executor/layers/attention/flash_attn_backend.py b/fastdeploy/model_executor/layers/attention/flash_attn_backend.py
@@ -245,11 +245,11 @@ def __init__(
         self.encoder_block_shape_q: int = encoder_block_shape_q
         self.decoder_block_shape_q: int = decoder_block_shape_q
 
-        self.speculative_method = fd_config.speculative_config.spec_method
+        self.speculative_method = fd_config.speculative_config.method
         self.use_speculate = self.speculative_method is not None
         self.speculate_max_draft_token_num = fd_config.speculative_config.num_speculative_tokens
         self.keep_pd_step_flag: bool = fd_config.speculative_config.model_type == "mtp"
-        self.num_layers_draft_model: int = int(fd_config.speculative_config.spec_method == SpecMethod.MTP)
+        self.num_layers_draft_model: int = int(fd_config.speculative_config.method == SpecMethod.MTP)
 
         self.pd_disaggregation_mode: str = fd_config.parallel_config.pd_disaggregation_mode
 
diff --git a/fastdeploy/model_executor/layers/attention/flash_mask_attn_backend.py b/fastdeploy/model_executor/layers/attention/flash_mask_attn_backend.py
@@ -103,11 +103,11 @@ def __init__(
         self.encoder_block_shape_q: int = encoder_block_shape_q
         self.decoder_block_shape_q: int = decoder_block_shape_q
 
-        self.speculative_method = fd_config.speculative_config.spec_method
+        self.speculative_method = fd_config.speculative_config.method
         self.use_speculate = self.speculative_method is not None
         self.speculate_max_draft_token_num = fd_config.speculative_config.num_speculative_tokens
         self.keep_pd_step_flag: bool = fd_config.speculative_config.model_type == "mtp"
-        self.num_layers_draft_model: int = int(fd_config.speculative_config.spec_method == SpecMethod.MTP)
+        self.num_layers_draft_model: int = int(fd_config.speculative_config.method == SpecMethod.MTP)
 
         self.pd_disaggregation_mode: str = fd_config.parallel_config.pd_disaggregation_mode
 
diff --git a/fastdeploy/model_executor/layers/attention/mla_attention_backend.py b/fastdeploy/model_executor/layers/attention/mla_attention_backend.py
@@ -258,11 +258,11 @@ def __init__(
         )
         self.rope_3d: bool = getattr(fd_config.model_config, "rope_3d", False)
         self.causal: bool = getattr(fd_config.model_config, "causal", True)
-        self.speculative_method: str = fd_config.speculative_config.method
+        self.speculative_method = fd_config.speculative_config.method
         self.use_speculate: bool = self.speculative_method is not None
         self.speculate_max_draft_token_num: int = fd_config.speculative_config.num_speculative_tokens
         self.keep_pd_step_flag: bool = fd_config.speculative_config.model_type == "mtp"
-        self.num_layers_draft_model: int = int(fd_config.speculative_config.spec_method == SpecMethod.MTP)
+        self.num_layers_draft_model: int = int(fd_config.speculative_config.method == SpecMethod.MTP)
 
         self.num_heads: int = num_heads
         self.head_dim: int = fd_config.model_config.head_dim
diff --git a/fastdeploy/model_executor/layers/backends/intel_hpu/attention/hpu_attn_backend.py b/fastdeploy/model_executor/layers/backends/intel_hpu/attention/hpu_attn_backend.py
@@ -221,7 +221,7 @@ def __init__(
         self.rope_theta = 10000.0 if llm_config.model_config.rope_theta is None else llm_config.model_config.rope_theta
         self.rope_3d = getattr(llm_config.model_config, "rope_3d", False)
         self.causal = getattr(llm_config.model_config, "causal", True)
-        self.speculative_method: str = llm_config.speculative_config.method
+        self.speculative_method = llm_config.speculative_config.method
         self.use_speculate: bool = self.speculative_method is not None
         self.speculate_max_draft_token_num: int = llm_config.speculative_config.num_speculative_tokens
         self.keep_pd_step_flag: bool = llm_config.speculative_config.model_type == "mtp"
diff --git a/fastdeploy/model_executor/layers/backends/metax/attention/flash_attn_backend.py b/fastdeploy/model_executor/layers/backends/metax/attention/flash_attn_backend.py
@@ -103,11 +103,11 @@ def __init__(
         )
         self.rope_3d: bool = getattr(fd_config.model_config, "rope_3d", False)
         self.causal: bool = getattr(fd_config.model_config, "causal", True)
-        self.speculative_method: str = fd_config.speculative_config.method
+        self.speculative_method = fd_config.speculative_config.method
         self.use_speculate: bool = self.speculative_method is not None
         self.speculate_max_draft_token_num: int = fd_config.speculative_config.num_speculative_tokens
         self.keep_pd_step_flag: bool = fd_config.speculative_config.model_type == "mtp"
-        self.num_layers_draft_model: int = int(fd_config.speculative_config.spec_method == SpecMethod.MTP)
+        self.num_layers_draft_model: int = int(fd_config.speculative_config.method == SpecMethod.MTP)
         self.encoder_block_shape_q: int = encoder_block_shape_q
         self.decoder_block_shape_q: int = decoder_block_shape_q
 
diff --git a/fastdeploy/model_executor/layers/backends/metax/attention/mla_attn_metax_backend.py b/fastdeploy/model_executor/layers/backends/metax/attention/mla_attn_metax_backend.py
@@ -107,11 +107,11 @@ def __init__(
         )
         self.rope_3d: bool = getattr(fd_config.model_config, "rope_3d", False)
         self.causal: bool = getattr(fd_config.model_config, "causal", True)
-        self.speculative_method: str = fd_config.speculative_config.method
+        self.speculative_method = fd_config.speculative_config.method
         self.use_speculate: bool = self.speculative_method is not None
         self.speculate_max_draft_token_num: int = fd_config.speculative_config.num_speculative_tokens
         self.keep_pd_step_flag: bool = fd_config.speculative_config.model_type == "mtp"
-        self.num_layers_draft_model: int = int(fd_config.speculative_config.spec_method == SpecMethod.MTP)
+        self.num_layers_draft_model: int = int(fd_config.speculative_config.method == SpecMethod.MTP)
 
         self.kv_num_heads: int = kv_num_heads
         self.num_heads: int = num_heads
diff --git a/fastdeploy/model_executor/layers/backends/xpu/attention.py b/fastdeploy/model_executor/layers/backends/xpu/attention.py
@@ -93,7 +93,7 @@ def __init__(
         )
         self.causal: bool = getattr(fd_config.model_config, "causal", True)
         self.keep_pd_step_flag: bool = fd_config.speculative_config.model_type == "mtp"
-        self.num_layers_draft_model: int = int(fd_config.speculative_config.spec_method == SpecMethod.MTP)
+        self.num_layers_draft_model: int = int(fd_config.speculative_config.method == SpecMethod.MTP)
 
         self.kv_num_heads: int = kv_num_heads
         self.num_heads: int = num_heads
diff --git a/fastdeploy/model_executor/layers/sample/sampler.py b/fastdeploy/model_executor/layers/sample/sampler.py
@@ -633,7 +633,7 @@ def __init__(self, fd_config: FDConfig):
         spec_config = fd_config.speculative_config
         # Verify strategy enum: VerifyStrategy.TOPP/GREEDY/TARGET_MATCH
         # Use .value (0/1/2) when passing to CUDA kernel
-        self.spec_method = spec_config.spec_method
+        self.spec_method = spec_config.method
         self.verify_strategy = spec_config.verify_strategy
         self.prefill_one_step_stop = fd_config.parallel_config.prefill_one_step_stop
 
diff --git a/fastdeploy/output/token_processor.py b/fastdeploy/output/token_processor.py
@@ -585,7 +585,7 @@ def _compute_speculative_status(self, result: RequestOutput):
                 f" average accept len: {self.number_of_output_tokens / self.total_step}"
             )
 
-            if self.cfg.speculative_config.spec_method == SpecMethod.MTP:
+            if self.cfg.speculative_config.method == SpecMethod.MTP:
                 single_head_acceptance_rates = []
                 for i in range(1, self.cfg.speculative_config.num_speculative_tokens + 1):
                     if self.accept_token_num_per_head[i - 1] != 0:
@@ -1016,7 +1016,7 @@ def _record_speculative_decoding_metrics(self, accept_num):
         """Record metrics of speculative decoding"""
         if not hasattr(main_process_metrics, "spec_decode_draft_acceptance_rate"):
             main_process_metrics._init_speculative_metrics(
-                self.cfg.speculative_config.spec_method,
+                self.cfg.speculative_config.method,
                 self.cfg.speculative_config.num_speculative_tokens,
             )
 
@@ -1029,12 +1029,12 @@ def _record_speculative_decoding_metrics(self, accept_num):
         main_process_metrics.spec_decode_num_accepted_tokens_total.set(self.num_accepted_tokens)
         main_process_metrics.spec_decode_num_emitted_tokens_total.set(self.num_emitted_tokens)
 
-        if self.cfg.speculative_config.spec_method == SpecMethod.NGRAM:
+        if self.cfg.speculative_config.method == SpecMethod.NGRAM:
             main_process_metrics.spec_decode_draft_acceptance_rate.set(
                 self.num_accepted_tokens / self.num_emitted_tokens
             )
 
-        if self.cfg.speculative_config.spec_method == SpecMethod.MTP:
+        if self.cfg.speculative_config.method == SpecMethod.MTP:
             num_draft_tokens = len(real_accept_num) * self.cfg.speculative_config.num_speculative_tokens
             self.num_draft_tokens += num_draft_tokens
 
diff --git a/fastdeploy/rl/rollout_model.py b/fastdeploy/rl/rollout_model.py
@@ -706,7 +706,7 @@ def __init__(self, fd_config: FDConfig):
         """
         super(Glm4MoeForCausalLMRL, self).__init__(fd_config)
         self.speculative_decoding = fd_config.speculative_config.method is not None
-        self.speculative_method = fd_config.speculative_config.spec_method
+        self.speculative_method = fd_config.speculative_config.method
 
         if self.speculative_decoding and self.speculative_method == SpecMethod.MTP:
             fd_config.parallel_config.tp_group = None
diff --git a/fastdeploy/spec_decode/base.py b/fastdeploy/spec_decode/base.py
@@ -64,7 +64,7 @@ def __init__(self, fd_config: "FDConfig"):
 
         self.max_num_seqs = self.scheduler_config.max_num_seqs
         self.max_model_len = self.model_config.max_model_len
-        self.speculative_method = self.speculative_config.spec_method
+        self.speculative_method = self.speculative_config.method
         self.max_draft_token_num = self.speculative_config.num_speculative_tokens
         self.num_model_steps = self.speculative_config.num_model_steps
 
diff --git a/fastdeploy/worker/gcu_model_runner.py b/fastdeploy/worker/gcu_model_runner.py
@@ -66,7 +66,7 @@ def __init__(
         self.rank = rank
         self.local_rank = local_rank
         self.device_id = device_id
-        self.speculative_method = self.fd_config.speculative_config.spec_method
+        self.speculative_method = self.fd_config.speculative_config.method
         self.speculative_decoding = self.speculative_method is not None
         self.enable_logprob = fd_config.model_config.enable_logprob
 
@@ -1062,7 +1062,7 @@ class at the server level, which is too granular for ModelRunner.
             accept_num=(self.share_inputs["accept_num"] if self.speculative_decoding else None),
         )
 
-        if self.speculative_config.spec_method == SpecMethod.MTP and self.scheduler_config.splitwise_role == "prefill":
+        if self.speculative_config.method == SpecMethod.MTP and self.scheduler_config.splitwise_role == "prefill":
             skip_save_output = True
         else:
             skip_save_output = False
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
@@ -121,7 +121,7 @@ def __init__(
         self.rank = rank
         self.local_rank = local_rank
         self.device_id = device_id
-        self.spec_method = self.fd_config.speculative_config.spec_method
+        self.spec_method = self.fd_config.speculative_config.method
         self.speculative_decoding = self.spec_method is not None
         self.enable_logprob = fd_config.model_config.enable_logprob
         self.enable_early_stop = self.fd_config.early_stop_config.enable_early_stop
diff --git a/fastdeploy/worker/hpu_model_runner.py b/fastdeploy/worker/hpu_model_runner.py
@@ -430,7 +430,7 @@ def __init__(
         self.rank = rank
         self.local_rank = local_rank
         self.device_id = device_id
-        self.speculative_method = self.fd_config.speculative_config.spec_method
+        self.speculative_method = self.fd_config.speculative_config.method
         self.speculative_decoding = self.speculative_method is not None
         # This measurement_mode only works in BF16 mode!
         self.measurement_mode = True if envs.FD_HPU_MEASUREMENT_MODE == "1" else False
diff --git a/fastdeploy/worker/metax_model_runner.py b/fastdeploy/worker/metax_model_runner.py
@@ -101,7 +101,7 @@ def __init__(
         self.rank = rank
         self.local_rank = local_rank
         self.device_id = device_id
-        self.speculative_method = self.fd_config.speculative_config.spec_method
+        self.speculative_method = self.fd_config.speculative_config.method
         self.speculative_decoding = self.speculative_method is not None
         self.enable_logprob = fd_config.model_config.enable_logprob
         self.enable_early_stop = self.fd_config.early_stop_config.enable_early_stop
@@ -2230,10 +2230,7 @@ def _postprocess(
                 enable_pd_reorder=getattr(self.share_inputs, "enable_pd_reorder", False),
             )
 
-            if (
-                self.speculative_config.spec_method == SpecMethod.MTP
-                and self.scheduler_config.splitwise_role == "prefill"
-            ):
+            if self.speculative_config.method == SpecMethod.MTP and self.scheduler_config.splitwise_role == "prefill":
                 skip_save_output = True
             else:
                 skip_save_output = False
diff --git a/fastdeploy/worker/xpu_model_runner.py b/fastdeploy/worker/xpu_model_runner.py
@@ -135,7 +135,7 @@ def __init__(
                 self.encoder_cache = None
 
         self.device_id = device_id
-        self.speculative_method = self.fd_config.speculative_config.spec_method
+        self.speculative_method = self.fd_config.speculative_config.method
         self.speculative_decoding = self.speculative_method is not None
 
         # used by SamplingMetadata
@@ -1630,8 +1630,7 @@ class at the server level, which is too granular for ModelRunner.
             )
 
             skip_save_output = is_dummy_run or (
-                self.speculative_config.spec_method == SpecMethod.MTP
-                and self.scheduler_config.splitwise_role == "prefill"
+                self.speculative_config.method == SpecMethod.MTP and self.scheduler_config.splitwise_role == "prefill"
             )
 
             if self.speculative_decoding: