DCLM

DataComp-LM (DCLM) 是一个为构建和训练大型语言模型(LLMs)而设计的综合性框架,提供了标准化的语料库、基于open_lm框架的高效预训练配方,以及超过50种评估方法。DCLM 支持研究人员在不同的计算规模上实验不同的数据集构建策略,从411M到7B参数模型。DCLM 通过优化的数据集设计显著提高了模型性能,并且已经促成了多个高质量数据集的创建,这些数据集在不同规模上表现优异,超越了所有开放数据集。

需求人群:

"DCLM 面向需要构建和训练大型语言模型的研究人员和开发者,特别是那些寻求通过优化数据集设计来提升模型性能的专业人士。它适用于需要处理大规模数据集并希望在不同计算规模上进行实验的场景。"

使用场景示例:

研究人员使用DCLM创建了DCLM-BASELINE数据集,并用其训练模型,展现出与封闭源模型和其他开源数据集相比的优越性能。

DCLM 支持在不同规模上训练模型,例如400M-1x和7B-2x,以适应不同的计算需求。

社区成员通过提交模型到DCLM的排行榜,展示了在不同数据集和规模上训练的模型性能。

产品特色:

提供超过300T未过滤的CommonCrawl语料库

基于open_lm框架提供有效的预训练配方

提供超过50种评估方法来评估模型性能

支持从411M到7B参数模型的不同计算规模

允许研究人员实验不同的数据集构建策略

通过优化数据集设计提高模型性能

使用教程:

克隆DCLM仓库到本地

安装所需的依赖项

设置AWS存储和Ray分布式处理环境

选择原始数据源并创建引用JSON

定义数据处理步骤并创建pipeline配置文件

设置Ray集群并运行数据处理脚本

将处理后的数据tokenize和shuffle

使用tokenized数据集运行模型训练脚本

评估训练好的模型并提交结果到DCLM排行榜

浏览量:48

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
网站流量情况

最新流量情况

月访问量

4.75m

平均访问时长

00:06:34

每次访问页数

6.10

跳出率

36.20%

流量来源

直接访问

52.19%

自然搜索

32.64%

邮件

0.04%

外链引荐

12.93%

社交媒体

2.02%

展示广告

0

截止目前所有流量趋势图

地理流量分布情况

中国

14.32%

德国

3.68%

印度

9.04%

俄罗斯

3.92%

美国

19.25%

类似产品

© 2025     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图