Skip to content

首包出现重复token或幻觉问题 #1877

@dl8207531

Description

@dl8207531

cosyvoice2 使用vllm或triton推理时一定概率出现长时间重复token,甚至一直到max_tokens才停止,生成出来的音频也是静音。
vllm可以使用ras缓解,triton有什么办法吗?
或者是能不能llm输出后做个检测,发现连续重复多少个(比如25个)token就认为这个llm请求无效(实际也是大概率无法恢复),进行重新请求呢?大家都什么好的方法吗?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions