需求人群:
"计算机视觉、机器学习等领域的研究人员"
使用场景示例:
研究人员可以用该数据集进行场景理解、手势识别等方面的研究
可用于训练识别日常物品和场景的计算机视觉模型
开发具备环境感知能力的视觉导航系统
产品特色:
包含日常生活场景的第一人称视频序列
丰富的传感器数据和注释数据
由Aria机器感知服务生成的3D点云数据
配套的研究工具
浏览量:79
最新流量情况
月访问量
46.37k
平均访问时长
00:00:36
每次访问页数
2.22
跳出率
38.21%
流量来源
直接访问
46.28%
自然搜索
38.20%
邮件
0.07%
外链引荐
8.32%
社交媒体
6.46%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
加拿大
4.72%
德国
8.68%
英国
8.57%
印度
7.98%
美国
52.90%
Aria每日活动数据集,加速机器感知和人工智能发展
Aria每日活动数据集是Aria项目发布的首个试点数据集的重新发布版本,该数据集利用新的工具和位置数据进行了更新,以加速机器感知和人工智能技术的发展。数据集包含日常生活场景下的第一人称视频序列,并配有丰富的传感器数据、注释数据以及由Aria机器感知服务生成的3D点云数据等。研究人员可以使用Aria提供的专用工具快速上手使用该数据集开展研究。
LiveFood是一个美食视频高光检测数据集和全局原型编码模型
LiveFood是一个包含超过5100个美食视频的数据集,视频包括食材、烹饪、呈现和食用四个领域,所有视频均由专业工人精细注释,并采用严格的双重检查机制进一步保证注释质量。我们还提出了全局原型编码(GPE)模型来处理这个增量学习问题,与传统技术相比获得了竞争性的性能。
大规模视频自动配音数据集
ANIM-400K是一个包含超过425,000个对齐的日语和英语动画视频片段的综合数据集,支持自动配音、同声翻译、视频摘要、流派/主题/风格分类等各种视频相关任务。该数据集公开用于研究目的。
大规模人脸文本-视频数据集
CelebV-Text是一个大规模、高质量、多样化的人脸文本-视频数据集,旨在促进人脸文本-视频生成任务的研究。数据集包含70,000个野外人脸视频剪辑,每个视频剪辑都配有20个文本,涵盖40种一般外观、5种详细外观、6种光照条件、37种动作、8种情绪和6种光线方向。CelebV-Text通过全面的统计分析验证了其在视频、文本和文本-视频相关性方面的优越性,并构建了一个基准来标准化人脸文本-视频生成任务的评估。
Jellypod 2.0 是一款革命性的 AI 播客工具,支持视频和多种。
Jellypod 2.0 是一款全新的 AI 播客创作平台,旨在提供更高的创作自由度和灵活性。它不仅支持音频播客,还能生成视频内容,帮助用户提升播客的视觉效果和受众参与度。通过强大的 AI 技术,Jellypod 2.0 让用户无需设计技能即可创建专业的封面艺术,同时支持多语言播出和一键发布到多个平台。该产品适合各种类型的播客创作者,提供丰富的创作工具和发布选项,帮助他们更快地成长和吸引听众。
EgoLife是一个长期、多模态、多视角的日常生活AI助手项目,旨在推进长期上下文理解研究。
EgoLife是一个面向长期、多模态、多视角日常生活的AI助手项目。该项目通过记录六名志愿者一周的共享生活体验,生成了约50小时的视频数据,涵盖日常活动、社交互动等场景。其多模态数据(包括视频、视线、IMU数据)和多视角摄像头系统为AI研究提供了丰富的上下文信息。此外,该项目提出了EgoRAG框架,用于解决长期上下文理解任务,推动了AI在复杂环境中的应用能力。
Level-Navi Agent是一个无需训练即可使用的框架,利用大语言模型进行深度查询理解和精准搜索。
Level-Navi Agent是一个开源的通用网络搜索代理框架,能够将复杂问题分解并逐步搜索互联网上的信息,直至回答用户问题。它通过提供Web24数据集,覆盖金融、游戏、体育、电影和事件等五大领域,为评估模型在搜索任务上的表现提供了基准。该框架支持零样本和少样本学习,为大语言模型在中文网络搜索代理领域的应用提供了重要参考。
一个利用人工智能帮助学习和贡献美国手语(ASL)的平台。
Signs 是一个由 NVIDIA 支持的创新平台,旨在通过人工智能技术帮助用户学习美国手语(ASL),并允许用户通过录制手语视频贡献数据,以构建全球最大的开放手语数据集。该平台利用 AI 实时反馈和 3D 动画技术,为初学者提供友好的学习体验,同时为手语社区提供数据支持,推动手语学习的普及和多样性。平台计划在 2025 年下半年公开数据集,以促进更多相关技术和服务的开发。
Dolphin R1是一个用于训练推理模型的数据集,包含80万条样本。
Dolphin R1是一个由Cognitive Computations团队创建的数据集,旨在训练类似DeepSeek-R1 Distill模型的推理模型。该数据集包含30万条来自DeepSeek-R1的推理样本、30万条来自Gemini 2.0 flash thinking的推理样本以及20万条Dolphin聊天样本。这些数据集的组合为研究人员和开发者提供了丰富的训练资源,有助于提升模型的推理能力和对话能力。该数据集的创建得到了Dria、Chutes、Crusoe Cloud等多家公司的赞助支持,这些赞助商为数据集的开发提供了计算资源和资金支持。Dolphin R1数据集的发布,为自然语言处理领域的研究和开发提供了重要的基础,推动了相关技术的发展。
提供字幕下载、解析、生成、翻译及格式转换等功能的一站式字幕服务平台
熊猫字幕是一个专注于字幕服务的平台,其功能覆盖字幕下载、解析、生成、翻译及格式转换等。该平台为用户提供了便捷的字幕获取和处理方式,无论是学习外语、制作视频还是其他需要字幕的场景,都能满足用户的需求。它的重要性在于满足了用户对字幕的多样化需求,提高了视频内容的可访问性和可理解性。目前,熊猫字幕以免费的形式提供服务,旨在为广大用户提供便利。
将YouTube视频快速转换为AI生成的笔记,节省时间,专注学习。
Swiftnotes.ai 是一款专注于提升学习效率的工具,它利用AI技术将YouTube视频内容快速转换为结构化的笔记。这种技术能够帮助用户节省大量的手动笔记时间,同时通过内嵌的引用链接,用户可以快速跳转到视频的关键部分。该产品的定位是为学生、研究人员和知识工作者提供高效的学习解决方案,目前暂未明确其是否收费,但其高效、便捷的特性使其在教育领域具有重要价值。
您的终极智能解决方案AI助手。
Hailuo AI是一个智能AI助手,提供聊天、视频和音频等多种交互方式,能够轻松处理长文本上下文,帮助用户解决问题。它以强大的自然语言处理技术和友好的用户体验为特点,旨在为用户提供高效、智能的解决方案。产品定位为面向广大用户的通用AI助手,价格策略未明确说明。
将Common Crawl转化为精细的长期预训练数据集
Nemotron-CC是一个基于Common Crawl的6.3万亿token的数据集。它通过分类器集成、合成数据改写和减少启发式过滤器的依赖,将英文Common Crawl转化为一个6.3万亿token的长期预训练数据集,包含4.4万亿全球去重的原始token和1.9万亿合成生成的token。该数据集在准确性和数据量之间取得了更好的平衡,对于训练大型语言模型具有重要意义。
高质量的数据集、工具和概念,用于大型语言模型的微调。
mlabonne/llm-datasets 是一个专注于大型语言模型(LLM)微调的高质量数据集和工具的集合。该产品为研究人员和开发者提供了一系列经过精心筛选和优化的数据集,帮助他们更好地训练和优化自己的语言模型。其主要优点在于数据集的多样性和高质量,能够覆盖多种使用场景,从而提高模型的泛化能力和准确性。此外,该产品还提供了一些工具和概念,帮助用户更好地理解和使用这些数据集。其背景信息包括由 mlabonne 创建和维护,旨在推动 LLM 领域的发展。
大规模机器人学习数据集,推动多用途机器人策略发展。
AGIBOT WORLD是一个专为推进多用途机器人策略而设计的大规模机器人学习数据集。它包括基础模型、基准测试和一个生态系统,旨在为学术界和工业界提供高质量的机器人数据,为具身AI铺平道路。该数据集包含100多台机器人的100万条以上轨迹,覆盖100多个真实世界场景,涉及精细操控、工具使用和多机器人协作等任务。它采用尖端的多模态硬件,包括视觉触觉传感器、耐用的6自由度灵巧手和具有全身控制的移动双臂机器人,支持模仿学习、多智能体协作等研究。AGIBOT WORLD的目标是改变大规模机器人学习,推进可扩展的机器人系统生产,是一个开源平台,邀请研究人员和实践者共同塑造具身AI的未来。
首个说唱音乐生成数据集
RapBank是一个专注于说唱音乐的数据集,它从YouTube收集了大量说唱歌曲,并提供了一个精心设计的数据预处理流程。这个数据集对于音乐生成领域具有重要意义,因为它提供了大量的说唱音乐内容,可以用于训练和测试音乐生成模型。RapBank数据集包含94,164首歌曲链接,成功下载了92,371首歌曲,总时长达到5,586小时,覆盖84种不同的语言,其中英语歌曲的总时长最高,占总时长的大约三分之二。
用于强化学习验证的数学问题数据集
RLVR-GSM-MATH-IF-Mixed-Constraints数据集是一个专注于数学问题的数据集,它包含了多种类型的数学问题和相应的解答,用于训练和验证强化学习模型。这个数据集的重要性在于它能够帮助开发更智能的教育辅助工具,提高学生解决数学问题的能力。产品背景信息显示,该数据集由allenai在Hugging Face平台上发布,包含了GSM8k和MATH两个子集,以及带有可验证约束的IF Prompts,适用于MIT License和ODC-BY license。
大规模多模态推理与指令调优平台
MAmmoTH-VL是一个大规模多模态推理平台,它通过指令调优技术,显著提升了多模态大型语言模型(MLLMs)在多模态任务中的表现。该平台使用开放模型创建了一个包含1200万指令-响应对的数据集,覆盖了多样化的、推理密集型的任务,并提供了详细且忠实的理由。MAmmoTH-VL在MathVerse、MMMU-Pro和MuirBench等基准测试中取得了最先进的性能,展现了其在教育和研究领域的重要性。
多语言预训练数据集
FineWeb2是由Hugging Face提供的一个大规模多语言预训练数据集,覆盖超过1000种语言。该数据集经过精心设计,用于支持自然语言处理(NLP)模型的预训练和微调,特别是在多种语言上。它以其高质量、大规模和多样性而闻名,能够帮助模型学习跨语言的通用特征,提升在特定语言任务上的表现。FineWeb2在多个语言的预训练数据集中表现出色,甚至在某些情况下,比一些专门为单一语言设计的数据库表现更好。
大规模多语言偏好混合数据集
OLMo 2 1124 13B Preference Mixture是一个由Hugging Face提供的大型多语言数据集,包含377.7k个生成对,用于训练和优化语言模型,特别是在偏好学习和指令遵循方面。该数据集的重要性在于它提供了一个多样化和大规模的数据环境,有助于开发更加精准和个性化的语言处理技术。
科学文献综合评估平台
ScholarQABench是一个用于测试大型语言模型(LLMs)在协助研究人员进行科学文献综合方面能力的综合评估平台。它来源于OpenScholar项目,提供了一个全面的评估框架,包括多个数据集和评估脚本,以衡量模型在不同科学领域的表现。该平台的重要性在于它能够帮助研究人员和开发者理解并提升语言模型在科学文献研究中的实用性和准确性。
高质量数据集,用于OLMo2训练的第二阶段。
DOLMino dataset mix for OLMo2 stage 2 annealing training是一个混合了多种高质数据的数据集,用于在OLMo2模型训练的第二阶段。这个数据集包含了网页页面、STEM论文、百科全书等多种类型的数据,旨在提升模型在文本生成任务中的表现。它的重要性在于为开发更智能、更准确的自然语言处理模型提供了丰富的训练资源。
开源的先进语言模型后训练框架
Tülu 3是一系列开源的先进语言模型,它们经过后训练以适应更多的任务和用户。这些模型通过结合专有方法的部分细节、新颖技术和已建立的学术研究,实现了复杂的训练过程。Tülu 3的成功根植于精心的数据管理、严格的实验、创新的方法论和改进的训练基础设施。通过公开分享数据、配方和发现,Tülu 3旨在赋予社区探索新的和创新的后训练方法的能力。
数据驱动的框架,增强大型语言模型的工作流编排能力
WorkflowLLM是一个以数据为中心的框架,旨在增强大型语言模型(LLMs)在工作流编排方面的能力。核心是WorkflowBench,这是一个大规模的监督式微调数据集,包含来自83个应用、28个类别的1503个API的106763个样本。WorkflowLLM通过微调Llama-3.1-8B模型,创建了专门针对工作流编排任务优化的WorkflowLlama模型。实验结果表明,WorkflowLlama在编排复杂工作流方面表现出色,并且能够很好地泛化到未见过的API。
生成任何3D和4D场景的先进框架
GenXD是一个专注于3D和4D场景生成的框架,它利用日常生活中常见的相机和物体运动来联合研究一般的3D和4D生成。由于社区缺乏大规模的4D数据,GenXD首先提出了一个数据策划流程,从视频中获取相机姿态和物体运动强度。基于此流程,GenXD引入了一个大规模的现实世界4D场景数据集:CamVid-30K。通过利用所有3D和4D数据,GenXD框架能够生成任何3D或4D场景。它提出了多视图-时间模块,这些模块分离相机和物体运动,无缝地从3D和4D数据中学习。此外,GenXD还采用了掩码潜在条件,以支持多种条件视图。GenXD能够生成遵循相机轨迹的视频以及可以提升到3D表示的一致3D视图。它在各种现实世界和合成数据集上进行了广泛的评估,展示了GenXD在3D和4D生成方面与以前方法相比的有效性和多功能性。
自监督触觉表示,用于基于视觉的触觉传感。
Sparsh是一系列通过自监督算法(如MAE、DINO和JEPA)训练的通用触觉表示。它能够为DIGIT、Gelsight'17和Gelsight Mini生成有用的表示,并在TacBench提出的下游任务中大幅度超越端到端模型,同时能够为新下游任务的数据高效训练提供支持。Sparsh项目包含PyTorch实现、预训练模型和与Sparsh一起发布的数据集。
教育滚动应用,用学习取代浪费时间
JustLearn是一个教育性质的滚动应用,旨在用快速、有趣且共享的学习机会替代我们在社交媒体上的无效时间消耗。开发者通过观察到许多人在社交媒体上浪费大量时间,决定创建一个平台,让人们在短短5分钟内学到新知识,就像刷TikTok一样轻松有趣。JustLearn提供选择话题、浏览验证过的视频、回答问题、进行测验和参加由顶尖教授制作的迷你课程等功能,让用户在短时间内学到超过90%的人一天所学。产品背景是创造一个让学习变得吸引人、快速且社区化的平台。
AI驱动的多语言翻译平台,支持文档、图片和视频翻译。
Transmonkey是一个AI驱动的在线翻译平台,支持超过130种语言的文档、图片和视频翻译。该平台利用大型语言模型提供高精度的翻译服务,同时保持文件原有格式和布局。Transmonkey以其高效的翻译速度、广泛的文件格式支持和用户友好的操作界面受到用户青睐。产品背景信息显示,Transmonkey致力于打破语言障碍,提升用户的数字体验。价格方面,Transmonkey提供免费试用,并有付费订阅服务。
© 2025 AIbase 备案号:闽ICP备08105208号-14