Llama3-70B-SteerLM-RM

简介:

70亿参数的多方面奖励模型

功能:

评估助手回答的五个属性:有用性、正确性、连贯性、复杂性和冗余性。

可以作为传统奖励模型输出单一标量。

使用HelpSteer2数据集进行训练,提高模型性能。

与NVIDIA NeMo-Aligner兼容,支持数据和模型并行训练。

所有检查点与NeMo生态系统兼容,支持推理部署和进一步定制。

在RewardBench Primary Dataset LeaderBoard上表现优异。

需求人群:

"目标受众为需要评估和改进语言模型输出质量的研究人员和开发者。该模型通过多方面评分帮助他们理解模型响应的质量,并提供改进方向。"

浏览量:26

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图