简介:

Tarsier 是由字节跳动推出的用于生成高质量视频描述的大型视频语言模型。

功能:

生成高质量视频描述,能够详细描述视频中的事件、动作和场景。

支持多任务预训练,涵盖视频描述、视频问答等多种任务。

采用多粒度指令微调,提升模型对不同复杂度视频的理解能力。

在多个视频理解基准测试中取得 SOTA 结果,包括 MVBench、NeXT-QA 等。

提供 DREAM-1K 视频描述基准测试数据集,用于评估模型性能。

支持多种输入格式,包括视频、图像和 GIF 文件。

提供在线演示和开源代码,方便开发者进行研究和部署。

需求人群:

"Tarsier 适合需要高质量视频内容生成和理解的用户,包括视频内容创作者、研究人员、视频平台开发者以及需要自动化视频描述的商业用户。它能够帮助用户快速生成详细的视频描述,提升视频内容的可访问性和用户体验。"

浏览量:72

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2025     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图