浏览量:145
最新流量情况
月访问量
25296.55k
平均访问时长
00:04:45
每次访问页数
5.83
跳出率
43.31%
流量来源
直接访问
48.39%
自然搜索
35.85%
邮件
0.03%
外链引荐
12.76%
社交媒体
2.96%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
17.08%
印度
8.40%
日本
3.42%
俄罗斯
4.58%
美国
17.94%
大规模视频自动配音数据集
ANIM-400K是一个包含超过425,000个对齐的日语和英语动画视频片段的综合数据集,支持自动配音、同声翻译、视频摘要、流派/主题/风格分类等各种视频相关任务。该数据集公开用于研究目的。
Aria每日活动数据集,加速机器感知和人工智能发展
Aria每日活动数据集是Aria项目发布的首个试点数据集的重新发布版本,该数据集利用新的工具和位置数据进行了更新,以加速机器感知和人工智能技术的发展。数据集包含日常生活场景下的第一人称视频序列,并配有丰富的传感器数据、注释数据以及由Aria机器感知服务生成的3D点云数据等。研究人员可以使用Aria提供的专用工具快速上手使用该数据集开展研究。
LiveFood是一个美食视频高光检测数据集和全局原型编码模型
LiveFood是一个包含超过5100个美食视频的数据集,视频包括食材、烹饪、呈现和食用四个领域,所有视频均由专业工人精细注释,并采用严格的双重检查机制进一步保证注释质量。我们还提出了全局原型编码(GPE)模型来处理这个增量学习问题,与传统技术相比获得了竞争性的性能。
大规模人脸文本-视频数据集
CelebV-Text是一个大规模、高质量、多样化的人脸文本-视频数据集,旨在促进人脸文本-视频生成任务的研究。数据集包含70,000个野外人脸视频剪辑,每个视频剪辑都配有20个文本,涵盖40种一般外观、5种详细外观、6种光照条件、37种动作、8种情绪和6种光线方向。CelebV-Text通过全面的统计分析验证了其在视频、文本和文本-视频相关性方面的优越性,并构建了一个基准来标准化人脸文本-视频生成任务的评估。
TwelveLabs是被领先研究人员认可为视频理解中性能最出色的人工智能,超越了云计算巨头和开源模型的基准。
TwelveLabs是一个强大的视频智能平台,通过能够看、听、推理的人工智能,发现深度见解,分析、重组和自动化工作流程。它可以看到视频背后的整个故事,是视频智能的未来。
一种高效的无泄漏唇同步技术。
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题,同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果,适用于自动配音等实际应用场景。
Content Compass AI是一个AI驱动的YouTube创作者反馈工具。
Content Compass AI是一款Chrome插件,利用人工智能即时生成与您的YouTube视频相关的反馈调查,无缝集成了Google表单。它通过分析YouTube评论和视频内容,帮助您了解观众真实想法,从而提供有针对性的改进建议。该产品背景信息丰富,提供免费计划并设有透明的定价政策。
无需注册,免费在线交换视频、照片和GIF中的面孔。
FaceswapFree是一款免费的AI人脸交换工具,使用强大的AI技术快速、准确地交换面孔。该工具的主要优点在于免费、无需注册,支持多种媒体格式,快速处理并提供高质量的交换结果。
生成AI库存视频,无版权问题,灵感立现。
AI Stock Video是一个基于人工智能技术生成的库存视频平台。它利用先进的深度学习模型,快速创建符合描述的独特视频,提供高品质色彩分级、逼真光线和自然运动,无需担心许可问题。
Sand AI是一家人工智能研究和产品公司,旨在推动AI发展造福全人类。
Sand AI是一家致力于推动AI发展的人工智能研究和产品公司。其最新产品Magi 1是第一个具有顶尖质量输出的自回归视频模型,具有广泛的应用前景。
Jellypod 2.0 是一款革命性的 AI 播客工具,支持视频和多种。
Jellypod 2.0 是一款全新的 AI 播客创作平台,旨在提供更高的创作自由度和灵活性。它不仅支持音频播客,还能生成视频内容,帮助用户提升播客的视觉效果和受众参与度。通过强大的 AI 技术,Jellypod 2.0 让用户无需设计技能即可创建专业的封面艺术,同时支持多语言播出和一键发布到多个平台。该产品适合各种类型的播客创作者,提供丰富的创作工具和发布选项,帮助他们更快地成长和吸引听众。
EgoLife是一个长期、多模态、多视角的日常生活AI助手项目,旨在推进长期上下文理解研究。
EgoLife是一个面向长期、多模态、多视角日常生活的AI助手项目。该项目通过记录六名志愿者一周的共享生活体验,生成了约50小时的视频数据,涵盖日常活动、社交互动等场景。其多模态数据(包括视频、视线、IMU数据)和多视角摄像头系统为AI研究提供了丰富的上下文信息。此外,该项目提出了EgoRAG框架,用于解决长期上下文理解任务,推动了AI在复杂环境中的应用能力。
Level-Navi Agent是一个无需训练即可使用的框架,利用大语言模型进行深度查询理解和精准搜索。
Level-Navi Agent是一个开源的通用网络搜索代理框架,能够将复杂问题分解并逐步搜索互联网上的信息,直至回答用户问题。它通过提供Web24数据集,覆盖金融、游戏、体育、电影和事件等五大领域,为评估模型在搜索任务上的表现提供了基准。该框架支持零样本和少样本学习,为大语言模型在中文网络搜索代理领域的应用提供了重要参考。
一个利用人工智能帮助学习和贡献美国手语(ASL)的平台。
Signs 是一个由 NVIDIA 支持的创新平台,旨在通过人工智能技术帮助用户学习美国手语(ASL),并允许用户通过录制手语视频贡献数据,以构建全球最大的开放手语数据集。该平台利用 AI 实时反馈和 3D 动画技术,为初学者提供友好的学习体验,同时为手语社区提供数据支持,推动手语学习的普及和多样性。平台计划在 2025 年下半年公开数据集,以促进更多相关技术和服务的开发。
Dolphin R1是一个用于训练推理模型的数据集,包含80万条样本。
Dolphin R1是一个由Cognitive Computations团队创建的数据集,旨在训练类似DeepSeek-R1 Distill模型的推理模型。该数据集包含30万条来自DeepSeek-R1的推理样本、30万条来自Gemini 2.0 flash thinking的推理样本以及20万条Dolphin聊天样本。这些数据集的组合为研究人员和开发者提供了丰富的训练资源,有助于提升模型的推理能力和对话能力。该数据集的创建得到了Dria、Chutes、Crusoe Cloud等多家公司的赞助支持,这些赞助商为数据集的开发提供了计算资源和资金支持。Dolphin R1数据集的发布,为自然语言处理领域的研究和开发提供了重要的基础,推动了相关技术的发展。
提供字幕下载、解析、生成、翻译及格式转换等功能的一站式字幕服务平台
熊猫字幕是一个专注于字幕服务的平台,其功能覆盖字幕下载、解析、生成、翻译及格式转换等。该平台为用户提供了便捷的字幕获取和处理方式,无论是学习外语、制作视频还是其他需要字幕的场景,都能满足用户的需求。它的重要性在于满足了用户对字幕的多样化需求,提高了视频内容的可访问性和可理解性。目前,熊猫字幕以免费的形式提供服务,旨在为广大用户提供便利。
将YouTube视频快速转换为AI生成的笔记,节省时间,专注学习。
Swiftnotes.ai 是一款专注于提升学习效率的工具,它利用AI技术将YouTube视频内容快速转换为结构化的笔记。这种技术能够帮助用户节省大量的手动笔记时间,同时通过内嵌的引用链接,用户可以快速跳转到视频的关键部分。该产品的定位是为学生、研究人员和知识工作者提供高效的学习解决方案,目前暂未明确其是否收费,但其高效、便捷的特性使其在教育领域具有重要价值。
您的终极智能解决方案AI助手。
Hailuo AI是一个智能AI助手,提供聊天、视频和音频等多种交互方式,能够轻松处理长文本上下文,帮助用户解决问题。它以强大的自然语言处理技术和友好的用户体验为特点,旨在为用户提供高效、智能的解决方案。产品定位为面向广大用户的通用AI助手,价格策略未明确说明。
将Common Crawl转化为精细的长期预训练数据集
Nemotron-CC是一个基于Common Crawl的6.3万亿token的数据集。它通过分类器集成、合成数据改写和减少启发式过滤器的依赖,将英文Common Crawl转化为一个6.3万亿token的长期预训练数据集,包含4.4万亿全球去重的原始token和1.9万亿合成生成的token。该数据集在准确性和数据量之间取得了更好的平衡,对于训练大型语言模型具有重要意义。
高质量的数据集、工具和概念,用于大型语言模型的微调。
mlabonne/llm-datasets 是一个专注于大型语言模型(LLM)微调的高质量数据集和工具的集合。该产品为研究人员和开发者提供了一系列经过精心筛选和优化的数据集,帮助他们更好地训练和优化自己的语言模型。其主要优点在于数据集的多样性和高质量,能够覆盖多种使用场景,从而提高模型的泛化能力和准确性。此外,该产品还提供了一些工具和概念,帮助用户更好地理解和使用这些数据集。其背景信息包括由 mlabonne 创建和维护,旨在推动 LLM 领域的发展。
大规模机器人学习数据集,推动多用途机器人策略发展。
AGIBOT WORLD是一个专为推进多用途机器人策略而设计的大规模机器人学习数据集。它包括基础模型、基准测试和一个生态系统,旨在为学术界和工业界提供高质量的机器人数据,为具身AI铺平道路。该数据集包含100多台机器人的100万条以上轨迹,覆盖100多个真实世界场景,涉及精细操控、工具使用和多机器人协作等任务。它采用尖端的多模态硬件,包括视觉触觉传感器、耐用的6自由度灵巧手和具有全身控制的移动双臂机器人,支持模仿学习、多智能体协作等研究。AGIBOT WORLD的目标是改变大规模机器人学习,推进可扩展的机器人系统生产,是一个开源平台,邀请研究人员和实践者共同塑造具身AI的未来。
首个说唱音乐生成数据集
RapBank是一个专注于说唱音乐的数据集,它从YouTube收集了大量说唱歌曲,并提供了一个精心设计的数据预处理流程。这个数据集对于音乐生成领域具有重要意义,因为它提供了大量的说唱音乐内容,可以用于训练和测试音乐生成模型。RapBank数据集包含94,164首歌曲链接,成功下载了92,371首歌曲,总时长达到5,586小时,覆盖84种不同的语言,其中英语歌曲的总时长最高,占总时长的大约三分之二。
用于强化学习验证的数学问题数据集
RLVR-GSM-MATH-IF-Mixed-Constraints数据集是一个专注于数学问题的数据集,它包含了多种类型的数学问题和相应的解答,用于训练和验证强化学习模型。这个数据集的重要性在于它能够帮助开发更智能的教育辅助工具,提高学生解决数学问题的能力。产品背景信息显示,该数据集由allenai在Hugging Face平台上发布,包含了GSM8k和MATH两个子集,以及带有可验证约束的IF Prompts,适用于MIT License和ODC-BY license。
YouTube自动配音功能,打破语言障碍。
YouTube自动配音功能是一项旨在消除语言障碍的技术,它通过自动将视频配音转换成不同语言,使得全球用户能够无障碍地享受来自世界各地的内容。这项技术特别适用于教育、信息分享以及文化交流等领域,它不仅提高了视频的可访问性,还促进了全球创作者和观众之间的互动。YouTube自动配音目前对YouTube合作伙伴计划中的数十万频道开放,并计划很快扩展到其他类型的内容。
大规模多模态推理与指令调优平台
MAmmoTH-VL是一个大规模多模态推理平台,它通过指令调优技术,显著提升了多模态大型语言模型(MLLMs)在多模态任务中的表现。该平台使用开放模型创建了一个包含1200万指令-响应对的数据集,覆盖了多样化的、推理密集型的任务,并提供了详细且忠实的理由。MAmmoTH-VL在MathVerse、MMMU-Pro和MuirBench等基准测试中取得了最先进的性能,展现了其在教育和研究领域的重要性。
多语言预训练数据集
FineWeb2是由Hugging Face提供的一个大规模多语言预训练数据集,覆盖超过1000种语言。该数据集经过精心设计,用于支持自然语言处理(NLP)模型的预训练和微调,特别是在多种语言上。它以其高质量、大规模和多样性而闻名,能够帮助模型学习跨语言的通用特征,提升在特定语言任务上的表现。FineWeb2在多个语言的预训练数据集中表现出色,甚至在某些情况下,比一些专门为单一语言设计的数据库表现更好。
© 2025 AIbase 备案号:闽ICP备08105208号-14