OpenRFT:将通用推理模型通过强化微调适应于特定领域任务的框架

浏览:51次阅读
没有评论

共计 870 个字符,预计需要花费 3 分钟才能阅读完成。

北京交通大学计算机科学与技术学院推出 OpenRFT,这是一个旨在将通用推理模型通过强化微调(Reinforcement Fine-Tuning,简称 RFT)适应于特定领域任务的框架。OpenRFT 通过利用特定领域的样本,解决了缺乏推理步骤数据和训练样本数量有限的挑战,以此来提高模型在特定任务上的表现。

主要功能:

  • 数据增强(Data Augmentation):通过改写问题和重新排列选项来生成更多的特定领域数据。
  • 基于 SFT 的模仿学习(SFT-based Imitation):利用更强的推理基础模型合成推理过程数据,然后通过监督式微调(Supervised Fine-Tuning,简称 SFT)来预适应学生策略模型。
  • 基于 RL 的探索和自我改进(RL-based Exploration and Self-improvement):将特定领域的样本以少量上下文学习(In-Context Learning,简称 ICL)的方式整合到策略模型中,通过过程奖励模型(Process Reward Model,简称 PRM)进行过程监督,探索并持续优化策略模型。
OpenRFT:将通用推理模型通过强化微调适应于特定领域任务的框架

主要特点:

  • 适应性:能够适应特定领域的任务,通过强化学习减少对初始样本数量的依赖。
  • 推理过程合成:合成推理过程数据,以弥补领域特定样本中缺乏推理步骤的不足。
  • 过程奖励模型:监督推理过程的合理性,增强正确推理过程的概率,稳定 RL 训练。

工作原理:

OpenRFT 的工作原理基于三个主要模块:

  1. 数据增强:通过问题重写技术生成更多的领域特定数据。
  2. 基于 SFT 的模仿学习:使用教师模型合成推理过程数据,然后使用这些数据通过 SFT 预适应学生模型。
  3. 基于 RL 的探索和自我改进:在 RL 环境中,策略模型在 PRM 的过程监督下进行探索和优化。

具体应用场景:

  • 科学知识评估:在 SciKnowEval 这样的科学基准测试中,OpenRFT 被用来评估大型语言模型在不同科学领域的多级科学知识。
  • 特定领域的任务:如生物学、化学、物理学和材料科学等领域的问题解决和知识推理任务。
正文完
关注公众号获取最新教程
post-qrcode
 0
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 于2024-12-24发表,共计870字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。