简介:

将Common Crawl转化为精细的长期预训练数据集

功能:

提供6.3万亿token的数据集,包含原始和合成token

通过多种方法优化数据质量,提高模型训练效果

支持长期预训练,解锁先进的训练能力

数据集包含多个质量等级和种类的分区,满足不同需求

提供jsonl和parquet两种格式的数据,方便不同场景使用

需求人群:

"目标受众主要是从事人工智能研究和开发的专业人士,特别是那些专注于自然语言处理和大型语言模型训练的科学家和工程师。Nemotron-CC为他们提供了一个高质量、大规模的数据集,能够帮助他们训练更准确、更强大的模型,推动自然语言处理技术的发展。"

浏览量:4

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2025     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图