Skip to content

Conversation

@weedge
Copy link
Collaborator

@weedge weedge commented Feb 21, 2025

feat:

  • add step-audio LM
  • add modal run step tts/voice inference
image image image

PS:

  • Step-Audio是Step-Omni的组成部分,论文中介绍了训练过程4,5章节,但Step-Omni 未公开(原因未知,可能还在训练调优),
  • LM: 将语音和文本对齐,训练已有文本模型,增加语音理解生成能力 (首先在预训练好的文本模型 130B参数 step1 LM -> 然后训练130B参数统一的图像语音文本多模态模型(Step-Omni),其中包括 语音文本理解能力模型(Step-Audio)的训练 -> RLHF -> Chat model)。其中基座 LM 采用step1 LM 130B -> scaling 了模型训练数据(学到更多的多模态知识,调整参数),按照scaling law 性能 比其他参数少的sota模型好, 但是硬件要求相对高,以及推理性能可以复用Transformer attention的推理优化。(端侧适合整合成一体omni(结合端侧硬件芯片定制化蒸馏量化优化(比如量化成INT4,适合端侧推理)),而服务端侧则适合拆解部署(整体的模型权重大,FP32(float) BF16(bfloat16) FP16(float16) 低精度量化技术,如INT4、INT8 FP8(float8)),降低部署的推理成本,以及深入优化(常结合GPU的芯片显存能力深度优化kernel算子); 复用文本基座模型的推理部署
  • 当语音文本理解Chat模型根据提示词输出文本和语音时,直接对接TTS中的flow, hift 来生成语音(无需tts中的LM)
  • 当模型结合提示词,直接输出文本,直接解耦对接TTS
  • 模型生成的文本中有特殊语音语气词,需要抽取出来,对应的TTS需要有对应语气词的理解能力,如果没有,则需要数据进行微调

语音文本对齐后的模型(LM),其文本语音能力可以支持这几种, 但是公开代码示例只有A1-T2 以及原本 T1->T2的方式, 其他能力以后有时间再去挖掘

    - A1-T1: (speech)-to-(text) (asr)
    - A1-T2: (speech)-to-(text) (audio gen/chat to text)
    - T1-T2A2: (text)-to-(speech and text) ((text-llm)+tts) (text gen/chat to text/audio)
    - A1-T2A2: (speech)-to-(speech and text) (asr+(text-llm)+tts) (audio gen/chat to text/audio)
    - T1-A1: (text)-to-(speech) (tts)
    - T1-A2: (text)-to-(speech) (text gen/chat to audio)
    - T1-T2 (text)-to-(text) (text gen/chat to text) 文本模型已有能力
image
  • 论文中提到的 Real-time Inference ,系统工程代码并没有开源, 论文中没有给出RTF的对比
image
  • 论文中提到的 function call (tool call),系统工程代码并未开源 (这个和daily_describe_vision_tools_bot 实现方式类似,2个旁路分支,一个旁路分支执行工具调用链路,另一执行语音合成,主干执行模型工具文本和语音文本的生成)
    image


相对而言,论文中对比到模型, 其结构类似

  • ⭐️ 2025.1 Minmo: A multimodal large language model for seamless voice interaction. (supports full-duplex interactions) ;
    • Architecture: Voice Encoder(SenseVoice-large) + Input Projector (two-layer Transformer + downsampling CNN ) + Backbone LLM (Qwen2.5-7B-instruct) + Output Projector (single-layer NN.Linear) + Voice Token LM(CosyVoice 2) + Token2wav Synthesizer(Flow+HiFT from CosyVoice 2) + Full Duplex Predictor (single-layer Transformer and a linear softmax output layer) 借鉴了moshi (而Step-Audio是系统工程化实现)
image image

deploy:

@weedge weedge added the voice label Feb 21, 2025
@weedge weedge changed the title feat: add step-audio voice LM feat: add audio step chat LM Feb 21, 2025
@weedge weedge added AR Flow VQ A1-T2A2 (speech)-to-(text and speech) labels Feb 22, 2025
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants