cosyvoice2 使用vllm或triton推理时一定概率出现长时间重复token,甚至一直到max_tokens才停止,生成出来的音频也是静音。 vllm可以使用ras缓解,triton有什么办法吗? 或者是能不能llm输出后做个检测,发现连续重复多少个(比如25个)token就认为这个llm请求无效(实际也是大概率无法恢复),进行重新请求呢?大家都什么好的方法吗?
cosyvoice2 使用vllm或triton推理时一定概率出现长时间重复token,甚至一直到max_tokens才停止,生成出来的音频也是静音。
vllm可以使用ras缓解,triton有什么办法吗?
或者是能不能llm输出后做个检测,发现连续重复多少个(比如25个)token就认为这个llm请求无效(实际也是大概率无法恢复),进行重新请求呢?大家都什么好的方法吗?