简介:

利用强化学习提升扩散大语言模型的推理能力。

功能:

高质量推理轨迹:使用经过筛选的 1000 个推理问题进行微调。

有效的策略梯度算法:引入 diffu-GRPO,以适应掩蔽扩散大语言模型。

对数概率估计:采用均场近似方法,提供高效的对数概率估计。

随机掩蔽:创建扰动视图,增强策略优化的正则化效果。

稳定的学习动态:提高内更新的次数,降低外部批量迭代需求。

需求人群:

"适合研究人员和开发者,他们希望利用强化学习来优化语言模型的推理能力,提升应用效率。"

浏览量:60

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2025     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图