简介:

一款在推理和编程基准测试中表现与o1-preview相当的推理模型。

功能:

在数学和编程领域均展现出强大的推理能力。

使用QwQ-32B-Preview生成训练数据,并通过拒绝采样和数据重写提高数据质量。

利用8个H100 GPU和DeepSpeed Zero-3 offload在19小时内完成训练,成本约450美元。

提供详细的开源代码和模型权重,便于社区复现和改进。

通过在不同数据集上的评估,展示了模型在数学和编程任务上的竞争力。

需求人群:

"目标受众包括研究人员、开发者和学术机构。该模型适合那些希望在低成本下进行高级推理模型研究和开发的团队,以及希望利用开源资源推动技术进步的社区。"

浏览量:25

打开站点

类似产品

© 2025     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图