tulu-3-sft-olmo-2-mixture

简介:

大规模多语言文本数据集

功能:

包含939,344个样本,覆盖多种语言和任务。

数据集来源于多个不同的数据集,如CoCoNot、FLAN v2、No Robots等。

适用于训练和微调语言模型,特别是在多语言环境下。

数据集结构包含id、messages、source等标准指令调整数据点。

支持研究和教育用途,符合Ai2的负责任使用指南。

包含输出数据,这些数据由第三方模型生成,受其单独的条款管辖。

数据集在Hugging Face平台上可被直接访问和使用。

需求人群:

"目标受众为自然语言处理领域的研究人员、开发者和教育工作者。他们可以利用这个数据集来训练和测试多语言AI模型,改进模型在不同语言和文化背景下的表现和准确性。"

浏览量:8

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图