您好,我学习了ReasonFlux、BoT等相关论文思想,我们想的是否能基于开源的ReasonFlux-V2-32B模型继续训练,让其同时具有数学和医疗的能力。 开始我们想的是按论文的步骤走,但是论文中对于一些具体的训练脚本、训练数据、DPO、分层强化学习等没有很细致的说明。 按照我们的目标,我们是否有可行的方案来实现?(分层强化模板轨迹也是比较难且复杂的) 谢谢