医疗方向拓展

您好，我学习了ReasonFlux、BoT等相关论文思想，我们想的是否能基于开源的ReasonFlux-V2-32B模型继续训练，让其同时具有数学和医疗的能力。
开始我们想的是按论文的步骤走，但是论文中对于一些具体的训练脚本、训练数据、DPO、分层强化学习等没有很细致的说明。
按照我们的目标，我们是否有可行的方案来实现？（分层强化模板轨迹也是比较难且复杂的）
谢谢