需求人群:
"目标受众主要是从事人工智能研究和开发的专业人士,特别是那些专注于自然语言处理和大型语言模型训练的科学家和工程师。Nemotron-CC为他们提供了一个高质量、大规模的数据集,能够帮助他们训练更准确、更强大的模型,推动自然语言处理技术的发展。"
使用场景示例:
使用Nemotron-CC数据集训练一个8B参数的模型,在MMLU指标上比DCLM提高了5.6
一个8B参数模型使用该数据集训练15T tokens后,在多个任务上表现优于Llama 3.1 8B模型
研究人员可以利用其不同质量等级的分区,进行针对性的模型训练和研究
产品特色:
提供6.3万亿token的数据集,包含原始和合成token
通过多种方法优化数据质量,提高模型训练效果
支持长期预训练,解锁先进的训练能力
数据集包含多个质量等级和种类的分区,满足不同需求
提供jsonl和parquet两种格式的数据,方便不同场景使用
使用教程:
1. 访问Nemotron-CC的官方网站,了解数据集的详细信息和下载方式
2. 根据研究需求,选择合适的数据分区和格式进行下载
3. 使用下载的数据集对语言模型进行预训练
4. 在预训练过程中,根据模型表现调整训练参数和策略
5. 利用预训练好的模型进行特定任务的微调和应用
浏览量:36
最新流量情况
月访问量
12.37k
平均访问时长
00:02:03
每次访问页数
1.76
跳出率
34.80%
流量来源
直接访问
36.24%
自然搜索
30.19%
邮件
0.08%
外链引荐
28.03%
社交媒体
4.81%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
德国
10.95%
法国
6.56%
印度
12.86%
日本
4.69%
美国
33.87%
将Common Crawl转化为精细的长期预训练数据集
Nemotron-CC是一个基于Common Crawl的6.3万亿token的数据集。它通过分类器集成、合成数据改写和减少启发式过滤器的依赖,将英文Common Crawl转化为一个6.3万亿token的长期预训练数据集,包含4.4万亿全球去重的原始token和1.9万亿合成生成的token。该数据集在准确性和数据量之间取得了更好的平衡,对于训练大型语言模型具有重要意义。
一个利用人工智能帮助学习和贡献美国手语(ASL)的平台。
Signs 是一个由 NVIDIA 支持的创新平台,旨在通过人工智能技术帮助用户学习美国手语(ASL),并允许用户通过录制手语视频贡献数据,以构建全球最大的开放手语数据集。该平台利用 AI 实时反馈和 3D 动画技术,为初学者提供友好的学习体验,同时为手语社区提供数据支持,推动手语学习的普及和多样性。平台计划在 2025 年下半年公开数据集,以促进更多相关技术和服务的开发。
提供高质量中文语料资源,助力人工智能大模型预训练。
中文互联网语料资源平台是由中国网络空间安全协会主办的专业网站,旨在为人工智能大模型的预训练提供高质量、安全合规的中文语料资源。该平台汇聚了来自企业、高校和科研单位的协同优势,依托‘共建-共享’机制,形成了包括中文互联网基础语料2.0、人民网主流价值数据集、国家版本馆明清文献语料等多个高质量语料库。这些语料库经过严格的信源筛选、格式清洗、语言过滤、数据去重、内容过滤、隐私过滤等处理步骤,确保了数据的合法性、真实性、准确性和客观性。平台的资源对于推动国家人工智能技术创新和产业发展具有重要意义,可帮助大模型更好地理解和生成中文内容,提升其知识能力与价值观对齐。
高质量的数据集、工具和概念,用于大型语言模型的微调。
mlabonne/llm-datasets 是一个专注于大型语言模型(LLM)微调的高质量数据集和工具的集合。该产品为研究人员和开发者提供了一系列经过精心筛选和优化的数据集,帮助他们更好地训练和优化自己的语言模型。其主要优点在于数据集的多样性和高质量,能够覆盖多种使用场景,从而提高模型的泛化能力和准确性。此外,该产品还提供了一些工具和概念,帮助用户更好地理解和使用这些数据集。其背景信息包括由 mlabonne 创建和维护,旨在推动 LLM 领域的发展。
多语言预训练数据集
FineWeb2是由Hugging Face提供的一个大规模多语言预训练数据集,覆盖超过1000种语言。该数据集经过精心设计,用于支持自然语言处理(NLP)模型的预训练和微调,特别是在多种语言上。它以其高质量、大规模和多样性而闻名,能够帮助模型学习跨语言的通用特征,提升在特定语言任务上的表现。FineWeb2在多个语言的预训练数据集中表现出色,甚至在某些情况下,比一些专门为单一语言设计的数据库表现更好。
一万亿Token和34亿张图像的多模态数据集
MINT-1T是由Salesforce AI开源的多模态数据集,包含一万亿个文本标记和34亿张图像,规模是现有开源数据集的10倍。它不仅包含HTML文档,还包括PDF文档和ArXiv论文,丰富了数据集的多样性。MINT-1T的数据集构建涉及多种来源的数据收集、处理和过滤步骤,确保了数据的高质量和多样性。
大规模图像编辑数据集
UltraEdit是一个大规模的图像编辑数据集,包含约400万份编辑样本,自动生成,基于指令的图像编辑。它通过利用大型语言模型(LLMs)的创造力和人类评估员的上下文编辑示例,提供了一个系统化的方法来生产大规模和高质量的图像编辑样本。UltraEdit的主要优点包括:1) 它通过利用大型语言模型的创造力和人类评估员的上下文编辑示例,提供了更广泛的编辑指令;2) 其数据源基于真实图像,包括照片和艺术作品,提供了更大的多样性和减少了偏见;3) 它还支持基于区域的编辑,通过高质量、自动生成的区域注释得到增强。
一种用于生成超详细图像描述的模型,用于训练视觉语言模型。
ImageInWords (IIW) 是一个由人类参与的循环注释框架,用于策划超详细的图像描述,并生成一个新的数据集。该数据集通过评估自动化和人类并行(SxS)指标来实现最先进的结果。IIW 数据集在生成描述时,比以往的数据集和GPT-4V输出在多个维度上有了显著提升,包括可读性、全面性、特异性、幻觉和人类相似度。此外,使用IIW数据微调的模型在文本到图像生成和视觉语言推理方面表现出色,能够生成更接近原始图像的描述。
高质量英文网页数据集
FineWeb数据集包含超过15万亿个经过清洗和去重的英文网页数据,来源于CommonCrawl。该数据集专为大型语言模型预训练设计,旨在推动开源模型的发展。数据集经过精心处理和筛选,以确保高质量,适用于各种自然语言处理任务。
Apollo是一个多语言医学领域的模型、数据集、基准和代码库
Apollo项目由FreedomIntelligence组织维护,旨在通过提供多语言医学领域的大型语言模型(LLMs)来民主化医疗AI,覆盖6亿人。该项目包括模型、数据集、基准测试和相关代码。
数学文本智能标记数据集
AutoMathText是一个广泛且精心策划的数据集,包含约200GB的数学文本。数据集中的每条内容都被最先进的开源语言模型Qwen进行自主选择和评分,确保高标准的相关性和质量。该数据集特别适合促进数学和人工智能交叉领域的高级研究,作为学习和教授复杂数学概念的教育工具,以及为开发和训练专门处理和理解数学内容的AI模型提供基础。
文本转音乐和音频
MAGNeT是一个提供各种人工智能模型和数据集的社区平台。用户可以在平台上找到各种先进的自然语言处理和机器学习模型,以及相关的数据集。该平台还提供了一系列解决方案,包括文本到语音转换、图像处理等。MAGNeT定位于为开发人员、研究人员和企业提供高质量的人工智能模型和数据集。
一站式 AI 开发平台
OpenXLab浦源面向人工智能领域开发者和使用者,提供一站式 AI 开发平台。包括应用开发,模型免费托管,数据集下载等服务。应用中心提供应用构建平台,模型中心提供社区化模型托管平台,数据集中心提供海量优质人工智能数据集。
AI数据引擎,涵盖标注、工作流、数据集和人工智能
V7是一个AI数据引擎,提供企业级训练数据的完整基础设施,涵盖标注、工作流、数据集和人工在循环中。它能够帮助用户快速高效地标注、处理和管理训练数据,提高AI模型的准确性和性能。V7支持自动化标注、视频标注、文档处理等功能,适用于各种行业和应用场景。
OpenTrain AI是一个全球自由职业者市场,将您现有的标注工具与全球经过审核的人工数据专家连接起来。
OpenTrain AI是一个人工智能训练数据市场,可以让您直接雇佣全球经过审核的人工数据专家,使用您喜欢的标注软件。降低成本,保持控制,快速构建高质量的AI训练数据。
Clado是一个全球人才搜索平台,利用人工智能精确匹配人才。
Clado是一个全球人才搜索平台,利用100,000个AI智能代理为用户搜索、筛选和排名人才。其独特的邮件和电话号码增强引擎使得用户能获得完整的丰富人才信息。
Rork通过AI和React Native从您的描述中构建完整、可投入生产的移动应用程序。
Rork是一个移动应用程序构建工具,利用人工智能和React Native技术,帮助用户快速构建跨平台的移动应用。它的主要优点包括高效率、易用性和强大的功能定制能力。
提高文字转化率,吸引更多客户。
New Copy是一款能够帮助用户写出更具吸引力和转化率的文案的人工智能工具。其主要优点在于能够大幅提升营销效果和转化率,节省时间和精力。该产品的背景信息为创立团队拥有丰富的营销经验,定位于为中小型企业提供效果显著的营销工具。
BAGEL是一款开源的统一多模态模型,您可以在任何地方进行微调、精简和部署。
BAGEL是一款可扩展的统一多模态模型,它正在革新AI与复杂系统的交互方式。该模型具有对话推理、图像生成、编辑、风格转移、导航、构图、思考等功能,通过深度学习视频和网络数据进行预训练,为生成高保真度、逼真图像提供了基础。
自动化生产计划排程软件,内置人工智能优化工厂生产,告别繁琐表格手工计划。
SkyPlanner APS是一款集成人工智能的高级生产计划和排程软件。其内置的AI能够在几秒钟内优化工厂的生产计划。产品定位于解决生产调度中的效率和资源管理问题。
AI分析自拍照,提供个性化健康建议,帮助提升幸福感和平衡生活。
Reflecta.me是您的日常自我护理伴侣,利用人工智能分析您的自拍照,提供个性化健康建议,帮助您感到平衡、充满活力和快乐。私密、安全、简单美观。
快速筛选顶级候选人,提供AI面试服务,加速招聘流程。
AI Interview是一个AI招聘平台,利用人工智能技术快速筛选简历和进行面试。其主要优点包括快速、准确的候选人筛选,节省招聘时间和成本。定位于帮助企业高效招聘人才。
DMind 是一个开源的 Web3 AGI 研究机构,致力于 AI 与 Web3 的交汇探索。
DMind-1 和 DMind-1-mini 是针对 Web3 任务的领域专用大型语言模型,提供比其他通用模型更高的领域准确性、指令跟随能力及专业理解。DMind-1 经过专家策划的 Web3 数据微调,并通过强化学习与人类反馈对齐,适合复杂指令和多轮对话,适用于区块链、DeFi 和智能合约等领域。DMind-1-mini 作为更轻量的版本,旨在满足实时和资源高效的应用场景,特别适合代理部署和链上工具。产品定价及具体信息需进一步确认。
AI人脸年龄检测工具,上传照片即可获取面部年龄分析,包括面部年龄、眼部年龄、皮肤年龄和皱纹年龄。
FaceAge AI是一款基于人工智能的面部年龄检测工具,通过上传照片,快速准确地分析面部各个部位的年龄信息。其主要优点在于提供私密、快速、准确的年龄分析结果,可帮助用户更好地了解自己的面部特征。
Xagio SEO AI 软件提供直观插件和WordPress仪表板,为任何人(新手到专家)提供快速简单的优化。
Xagio SEO AI 软件通过直观的插件和WordPress仪表板帮助您实现非凡的结果,使优化变得快速简单,适用于任何人。它采用人工智能技术,综合了关键词研究、页面优化和页面外优化等三个基本SEO实践步骤。
先进的视频生成模型,具备更高的真实性和创造力。
Veo 3 是最新的视频生成模型,旨在通过更高的现实主义和音频效果,提供 4K 输出,能更准确地遵循用户的提示。这一技术代表了视频生成领域的重大进步,具有更强的创造控制能力。Veo 3 的推出是对 Veo 2 的一次重要升级,旨在帮助创作者实现他们的创意愿景。该产品适合需要高质量视频生成的创意行业,从广告到游戏开发等多个领域。无具体价格信息披露。
智能在线文档清隐软件,自动清隐47种文件格式中的敏感信息。
iDox.ai文档清隐软件利用人工智能技术,提供自动清隐敏感信息的功能,大幅提高数据清隐效率并降低人为错误风险。产品背景信息包括其通过SOC2和ISO 27001认证,具备AES256加密合规性等特点。
© 2025 AIbase 备案号:闽ICP备08105208号-14