Nemotron-CC

Nemotron-CC是一个基于Common Crawl的6.3万亿token的数据集。它通过分类器集成、合成数据改写和减少启发式过滤器的依赖,将英文Common Crawl转化为一个6.3万亿token的长期预训练数据集,包含4.4万亿全球去重的原始token和1.9万亿合成生成的token。该数据集在准确性和数据量之间取得了更好的平衡,对于训练大型语言模型具有重要意义。

需求人群:

"目标受众主要是从事人工智能研究和开发的专业人士,特别是那些专注于自然语言处理和大型语言模型训练的科学家和工程师。Nemotron-CC为他们提供了一个高质量、大规模的数据集,能够帮助他们训练更准确、更强大的模型,推动自然语言处理技术的发展。"

使用场景示例:

使用Nemotron-CC数据集训练一个8B参数的模型,在MMLU指标上比DCLM提高了5.6

一个8B参数模型使用该数据集训练15T tokens后,在多个任务上表现优于Llama 3.1 8B模型

研究人员可以利用其不同质量等级的分区,进行针对性的模型训练和研究

产品特色:

提供6.3万亿token的数据集,包含原始和合成token

通过多种方法优化数据质量,提高模型训练效果

支持长期预训练,解锁先进的训练能力

数据集包含多个质量等级和种类的分区,满足不同需求

提供jsonl和parquet两种格式的数据,方便不同场景使用

使用教程:

1. 访问Nemotron-CC的官方网站,了解数据集的详细信息和下载方式

2. 根据研究需求,选择合适的数据分区和格式进行下载

3. 使用下载的数据集对语言模型进行预训练

4. 在预训练过程中,根据模型表现调整训练参数和策略

5. 利用预训练好的模型进行特定任务的微调和应用

浏览量:2

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
网站流量情况

最新流量情况

月访问量

12.79k

平均访问时长

00:01:49

每次访问页数

2.25

跳出率

34.46%

流量来源

直接访问

33.16%

自然搜索

32.10%

邮件

0.08%

外链引荐

30.27%

社交媒体

3.77%

展示广告

0

截止目前所有流量趋势图

地理流量分布情况

中国

4.56%

德国

28.67%

印度尼西亚

4.49%

印度

11.17%

美国

22.61%

类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图