Skip to content

医疗方向拓展 #22

@TMacChen

Description

@TMacChen

您好,我学习了ReasonFlux、BoT等相关论文思想,我们想的是否能基于开源的ReasonFlux-V2-32B模型继续训练,让其同时具有数学和医疗的能力。
开始我们想的是按论文的步骤走,但是论文中对于一些具体的训练脚本、训练数据、DPO、分层强化学习等没有很细致的说明。
按照我们的目标,我们是否有可行的方案来实现?(分层强化模板轨迹也是比较难且复杂的)
谢谢

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions