简介:

长视频语言理解的时空自适应压缩模型

功能:

利用DINOv2特征去除高相似性的冗余帧

使用文本引导的跨模态查询进行选择性帧特征缩减

基于帧间时间依赖性进行空间标记缩减

在有限上下文长度内有效处理大量视频帧

在多种视频理解基准测试中超越现有方法

支持轻量级大型语言模型,实现高性能视频理解

需求人群:

"LongVU的目标受众是视频内容分析和理解领域的研究人员和开发者,尤其是那些需要处理长视频内容并希望在有限计算资源下实现高效视频理解的专业人士。此外,对于希望在视频分析领域应用最新人工智能技术的企业和机构,LongVU提供了一种先进的解决方案。"

浏览量:11

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图