首包出现重复token或幻觉问题

cosyvoice2 使用vllm或triton推理时一定概率出现长时间重复token，甚至一直到max_tokens才停止，生成出来的音频也是静音。
vllm可以使用ras缓解，triton有什么办法吗？
或者是能不能llm输出后做个检测，发现连续重复多少个（比如25个）token就认为这个llm请求无效（实际也是大概率无法恢复），进行重新请求呢？大家都什么好的方法吗？