DCLM-7B

优质新品

简介:

7亿参数的语言模型,展示数据整理技术的有效性。

功能:

使用Decoder-only Transformer架构,专注于解码任务。

支持英语(主要是)的语言处理。

使用AdamW优化器,具有2e-3的峰值学习率。

结合了StarCoder和ProofPile2数据集,达到4.1T token的数据量。

在多个任务上进行了评估,如MMLU、HellaSwag、Jeopardy等。

提供了详细的训练细节和评估结果,方便用户了解模型性能。

需求人群:

"DCLM-7B模型适合需要进行大规模语言处理和生成的研究人员和开发者,特别是在需要处理英语数据的场景中。它的大规模参数和系统化数据整理技术使其在提高语言模型性能方面具有优势。"

浏览量:38

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图