需求人群:
"目标受众为计算机视觉领域的研究人员和开发者,尤其是那些专注于目标分割技术的研究者。SA-V Dataset提供了丰富的视频数据和分割掩模,有助于他们开发和改进目标分割算法,推动计算机视觉技术的发展。"
使用场景示例:
研究人员使用SA-V Dataset训练深度学习模型以识别视频中的多个对象。
开发者利用该数据集评估他们的目标分割算法在不同场景下的表现。
教育机构可能使用SA-V Dataset作为教学材料,教授学生如何使用机器学习处理视频数据。
产品特色:
包含51K个视频和643K个时空分割掩模
用于训练和评估通用目标分割模型
提供大规模视频数据集的开放访问
视频分辨率平均为1401×1037像素
没有视频或掩模注释的类别标签
训练集掩模以COCO运行长度编码(RLE)格式提供,验证和测试集以PNG格式提供
所有643K掩模注释均经人工审核和验证
使用教程:
1. 访问SA-V Dataset的官方网页。
2. 点击下载数据集以获取视频和掩模文件。
3. 阅读相关论文以了解数据集的详细结构和使用方式。
4. 使用数据集进行目标分割模型的训练或评估。
5. 根据需要,将模型生成的掩模与人工注释的掩模进行比较和验证。
6. 利用数据集进行计算机视觉领域的研究或开发工作。
浏览量:41
最新流量情况
月访问量
2316.44k
平均访问时长
00:01:43
每次访问页数
1.55
跳出率
70.31%
流量来源
直接访问
32.85%
自然搜索
49.61%
邮件
0.06%
外链引荐
12.66%
社交媒体
4.68%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
加拿大
2.84%
中国
6.41%
德国
3.59%
英国
3.93%
印度
12.34%
美国
34.64%
用于训练通用目标分割模型的视频数据集
SA-V Dataset是一个专为训练通用目标分割模型设计的开放世界视频数据集,包含51K个多样化视频和643K个时空分割掩模(masklets)。该数据集用于计算机视觉研究,允许在CC BY 4.0许可下使用。视频内容多样,包括地点、对象和场景等主题,掩模从建筑物等大规模对象到室内装饰等细节不等。
LiveFood是一个美食视频高光检测数据集和全局原型编码模型
LiveFood是一个包含超过5100个美食视频的数据集,视频包括食材、烹饪、呈现和食用四个领域,所有视频均由专业工人精细注释,并采用严格的双重检查机制进一步保证注释质量。我们还提出了全局原型编码(GPE)模型来处理这个增量学习问题,与传统技术相比获得了竞争性的性能。
生成开放世界视频游戏的扩散变换模型
GameGen-O 是首个为生成开放世界视频游戏而定制的扩散变换模型。该模型通过模拟游戏引擎的多种特性,如创新角色、动态环境、复杂动作和多样化事件,实现了高质量、开放领域的生成。此外,它还提供了交互式可控性,允许游戏玩法模拟。GameGen-O 的开发涉及从零开始的全面数据收集和处理工作,包括构建首个开放世界视频游戏数据集(OGameData),通过专有的数据管道进行高效的排序、评分、过滤和解耦标题。这个强大且广泛的 OGameData 构成了模型训练过程的基础。
内容风格合成在文本到图像生成中的应用
CSGO是一个基于内容风格合成的文本到图像生成模型,它通过一个数据构建管道生成并自动清洗风格化数据三元组,构建了首个大规模的风格迁移数据集IMAGStyle,包含210k图像三元组。CSGO模型采用端到端训练,明确解耦内容和风格特征,通过独立特征注入实现。它实现了图像驱动的风格迁移、文本驱动的风格合成以及文本编辑驱动的风格合成,具有无需微调即可推理、保持原始文本到图像模型的生成能力、统一风格迁移和风格合成等优点。
用于手术视频分割的先进模型
Segment Anything 2 for Surgical Video Segmentation 是一个基于Segment Anything Model 2的手术视频分割模型。它利用先进的计算机视觉技术,对手术视频进行自动分割,以识别和定位手术工具,提高手术视频分析的效率和准确性。该模型适用于内窥镜手术、耳蜗植入手术等多种手术场景,具有高精度和高鲁棒性的特点。
大规模多模态医学数据集
MedTrinity-25M是一个大规模多模态数据集,包含多粒度的医学注释。它由多位作者共同开发,旨在推动医学图像和文本处理领域的研究。数据集的构建包括数据提取、多粒度文本描述生成等步骤,支持多种医学图像分析任务,如视觉问答(VQA)、病理学图像分析等。
3D人体姿态估计技术
AvatarPose是一种用于从稀疏多视角视频中估计多个紧密互动人的3D姿态和形状的方法。该技术通过重建每个人的个性化隐式神经化身,并将其作为先验,通过颜色和轮廓渲染损失来细化姿态,显著提高了在紧密互动中估计3D姿态的鲁棒性和精确度。
一万亿Token和34亿张图像的多模态数据集
MINT-1T是由Salesforce AI开源的多模态数据集,包含一万亿个文本标记和34亿张图像,规模是现有开源数据集的10倍。它不仅包含HTML文档,还包括PDF文档和ArXiv论文,丰富了数据集的多样性。MINT-1T的数据集构建涉及多种来源的数据收集、处理和过滤步骤,确保了数据的高质量和多样性。
一种用于图像和视频的视觉分割基础模型。
Segment Anything Model 2 (SAM 2)是Meta公司AI研究部门FAIR推出的一个视觉分割模型,它通过简单的变换器架构和流式内存设计,实现实时视频处理。该模型通过用户交互构建了一个模型循环数据引擎,收集了迄今为止最大的视频分割数据集SA-V。SAM 2在该数据集上训练,提供了在广泛任务和视觉领域中的强大性能。
下一代视频和图像实时对象分割模型。
Meta Segment Anything Model 2 (SAM 2)是Meta公司开发的下一代模型,用于视频和图像中的实时、可提示的对象分割。它实现了最先进的性能,并且支持零样本泛化,即无需定制适配即可应用于之前未见过的视觉内容。SAM 2的发布遵循开放科学的方法,代码和模型权重在Apache 2.0许可下共享,SA-V数据集也在CC BY 4.0许可下共享。
用于体育分析的计算机视觉工具集
roboflow/sports 是一个开源的计算机视觉工具集,专注于体育领域的应用。它利用先进的图像处理技术,如目标检测、图像分割、关键点检测等,来解决体育分析中的挑战。这个工具集由Roboflow开发,旨在推动计算机视觉技术在体育领域的应用,并通过社区贡献不断优化。
深度学习驱动的三维重建技术
VGGSfM是一种基于深度学习的三维重建技术,旨在从一组不受限制的2D图像中重建场景的相机姿态和3D结构。该技术通过完全可微分的深度学习框架,实现端到端的训练。它利用深度2D点跟踪技术提取可靠的像素级轨迹,同时基于图像和轨迹特征恢复所有相机,并通过可微分的捆绑调整层优化相机和三角化3D点。VGGSfM在CO3D、IMC Phototourism和ETH3D三个流行数据集上取得了最先进的性能。
高性能语言模型基准测试数据集
DCLM-baseline是一个用于语言模型基准测试的预训练数据集,包含4T个token和3B个文档。它通过精心策划的数据清洗、过滤和去重步骤,从Common Crawl数据集中提取,旨在展示数据策划在训练高效语言模型中的重要性。该数据集仅供研究使用,不适用于生产环境或特定领域的模型训练,如代码和数学。
3D图像匹配的先进模型
MASt3R是由Naver Corporation开发的一种用于3D图像匹配的先进模型,它专注于提升计算机视觉领域中的几何3D视觉任务。该模型利用了最新的深度学习技术,通过训练能够实现对图像之间精确的3D匹配,对于增强现实、自动驾驶以及机器人导航等领域具有重要意义。
大规模图像编辑数据集
UltraEdit是一个大规模的图像编辑数据集,包含约400万份编辑样本,自动生成,基于指令的图像编辑。它通过利用大型语言模型(LLMs)的创造力和人类评估员的上下文编辑示例,提供了一个系统化的方法来生产大规模和高质量的图像编辑样本。UltraEdit的主要优点包括:1) 它通过利用大型语言模型的创造力和人类评估员的上下文编辑示例,提供了更广泛的编辑指令;2) 其数据源基于真实图像,包括照片和艺术作品,提供了更大的多样性和减少了偏见;3) 它还支持基于区域的编辑,通过高质量、自动生成的区域注释得到增强。
3D生成建模的高精度和结构化辐射表示
GaussianCube是一种创新的3D辐射表示方法,它通过结构化和显式的表示方式,极大地促进了三维生成建模的发展。该技术通过使用一种新颖的密度约束高斯拟合算法和最优传输方法,将高斯函数重新排列到预定义的体素网格中,从而实现了高精度的拟合。与传统的隐式特征解码器或空间无结构的辐射表示相比,GaussianCube具有更少的参数和更高的质量,使得3D生成建模变得更加容易。
大规模图像描述数据集,提供超过16M的合成图像描述。
PixelProse是一个由tomg-group-umd创建的大规模数据集,它利用先进的视觉-语言模型Gemini 1.0 Pro Vision生成了超过1600万个详细的图像描述。这个数据集对于开发和改进图像到文本的转换技术具有重要意义,可以用于图像描述生成、视觉问答等任务。
4D重建模型,快速生成动画对象
L4GM是一个4D大型重建模型,能够从单视图视频输入中快速生成动画对象。它采用了一种新颖的数据集,包含多视图视频,这些视频展示了Objaverse中渲染的动画对象。该数据集包含44K种不同的对象和110K个动画,从48个视角渲染,生成了12M个视频,总共包含300M帧。L4GM基于预训练的3D大型重建模型LGM构建,该模型能够从多视图图像输入中输出3D高斯椭球。L4GM输出每帧的3D高斯Splatting表示,然后将其上采样到更高的帧率以实现时间平滑。此外,L4GM还添加了时间自注意力层,以帮助学习时间上的一致性,并使用每个时间步的多视图渲染损失来训练模型。
高效生成一致性人物视频动画的模型
UniAnimate是一个用于人物图像动画的统一视频扩散模型框架。它通过将参考图像、姿势指导和噪声视频映射到一个共同的特征空间,以减少优化难度并确保时间上的连贯性。UniAnimate能够处理长序列,支持随机噪声输入和首帧条件输入,显著提高了生成长期视频的能力。此外,它还探索了基于状态空间模型的替代时间建模架构,以替代原始的计算密集型时间Transformer。UniAnimate在定量和定性评估中都取得了优于现有最先进技术的合成结果,并且能够通过迭代使用首帧条件策略生成高度一致的一分钟视频。
表情包视觉标注数据集
emo-visual-data 是一个公开的表情包视觉标注数据集,它通过使用 glm-4v 和 step-free-api 项目完成的视觉标注,收集了5329个表情包。这个数据集可以用于训练和测试多模态大模型,对于理解图像内容和文本描述之间的关系具有重要意义。
一种用于跨领域视频帧中对象匹配的通用模型。
MASA是一个用于视频帧中对象匹配的先进模型,它能够处理复杂场景中的多目标跟踪(MOT)。MASA不依赖于特定领域的标注视频数据集,而是通过Segment Anything Model(SAM)丰富的对象分割,学习实例级别的对应关系。MASA设计了一个通用适配器,可以与基础的分割或检测模型配合使用,实现零样本跟踪能力,即使在复杂领域中也能表现出色。
生物医学领域的专业通用模型
UltraMedical项目旨在开发生物医学领域的专业通用模型,这些模型旨在回答与考试、临床场景和研究问题相关的问题,同时保持广泛的通用知识基础,以有效处理跨领域问题。通过使用先进的对齐技术,包括监督微调(SFT)、直接偏好优化(DPO)和赔率比偏好优化(ORPO),训练大型语言模型在UltraMedical数据集上,以创建强大且多功能的模型,有效服务于生物医学社区的需求。
高效的检索增强生成研究工具包
FlashRAG是一个Python工具包,用于检索增强生成(RAG)研究的复现和开发。它包括32个预处理的基准RAG数据集和12种最先进的RAG算法。FlashRAG提供了一个广泛且可定制的框架,包括检索器、重排器、生成器和压缩器等RAG场景所需的基本组件,允许灵活组装复杂流程。此外,FlashRAG还提供了高效的预处理阶段和优化的执行,支持vLLM、FastChat等工具加速LLM推理和向量索引管理。
Vast 3D Gaussians for Large Scene Reconstruction的非官方实现
VastGaussian是一个3D场景重建的开源项目,它通过使用3D高斯来模拟大型场景的几何和外观信息。这个项目是作者从零开始实现的,可能存在一些错误,但为3D场景重建领域提供了一种新的尝试。项目的主要优点包括对大型数据集的处理能力,以及对原始3DGS项目的改进,使其更易于理解和使用。
提供关于人工智能的最佳资源,学习机器学习、数据科学、自然语言处理等。
AI Online Course是一个互动学习平台,提供清晰简明的人工智能介绍,使复杂的概念易于理解。它涵盖机器学习、深度学习、计算机视觉、自动驾驶、聊天机器人等方面的知识,并强调实际应用和技术优势。
一种用于生成超详细图像描述的模型,用于训练视觉语言模型。
ImageInWords (IIW) 是一个由人类参与的循环注释框架,用于策划超详细的图像描述,并生成一个新的数据集。该数据集通过评估自动化和人类并行(SxS)指标来实现最先进的结果。IIW 数据集在生成描述时,比以往的数据集和GPT-4V输出在多个维度上有了显著提升,包括可读性、全面性、特异性、幻觉和人类相似度。此外,使用IIW数据微调的模型在文本到图像生成和视觉语言推理方面表现出色,能够生成更接近原始图像的描述。
TikTok验证码解决API
SadCaptcha是一个解决TikTok验证码的插件,它可以快速、准确地解决TikTok的旋转、拼图和3D形状验证码。它使用先进的计算机视觉算法,能够高效解决验证码,并且适用于任何设备和屏幕分辨率。
一个由真实世界用户与ChatGPT交互构成的语料库。
WildChat数据集是一个由100万真实世界用户与ChatGPT交互组成的语料库,特点是语言多样和用户提示的多样性。该数据集用于微调Meta的Llama-2,创建了WildLlama-7b-user-assistant聊天机器人,能够预测用户提示和助手回应。
© 2024 AIbase 备案号:闽ICP备08105208号-14