简介:

Light-R1 是一个专注于长链推理(Long COT)的开源项目,通过课程式 SFT、DPO 和 RL 提供从零开始的训练方法。

功能:

提供从零开始的长链推理训练方法,无需依赖预训练的长链推理能力

开源完整的训练数据集和代码,便于研究者复现和改进

采用课程式学习,通过 SFT 和 DPO 提升模型性能

支持强化学习(RL)训练,进一步优化模型表现

在数学推理领域表现出色,特别是在 AIME24 和 AIME25 等基准测试中

需求人群:

"目标受众包括人工智能研究者、机器学习工程师以及对长链推理模型感兴趣的开发者。该项目适合那些希望在有限资源下训练高性能长链推理模型的研究团队和企业,同时也为开源社区提供了宝贵的参考。"

浏览量:19

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2025     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图