fix: use cpu apply kernel for npu and others

windreamer · windreamer · commit 2a3bbdff6492 · 2025-10-11T15:16:53.000+08:00
diff --git a/lmdeploy/pytorch/engine/guided_process.py b/lmdeploy/pytorch/engine/guided_process.py
@@ -22,7 +22,15 @@ def process(self, scores: torch.Tensor) -> torch.Tensor:
         """Apply grammar constraints to logits before sampling the next
         token."""
         self.matcher.fill_next_token_bitmask(self.token_bitmask)
-        xgr.apply_token_bitmask_inplace(scores, self.token_bitmask.to(scores.device))
+        device = scores.device
+        if device in {'cpu', 'cuda'}:
+            xgr.apply_token_bitmask_inplace(scores, self.token_bitmask.to(device))
+        else:
+            cpu_scores = scores.cpu()
+            cpu_mask = self.token_bitmask.cpu()
+            xgr.apply_token_bitmask_inplace(cpu_scores, cpu_mask)
+            scores.copy_(cpu_scores.to(device))
+
         return scores
 
     def accept(self, token_id: int) -> bool: