简介:

视频理解领域的新型状态空间模型,提供视频建模的多功能套件。

功能:

视频时间建模:用于时间动作定位、时间动作分割、视频密集字幕生成等任务。

跨模态交互:实现视频时间定位和高亮检测等交互式任务。

视频时间适配器:支持零样本/微调多实例检索和微调动作识别。

空间-时间建模:提供零样本/微调多实例检索和微调动作识别功能。

模型动物园:包含多种预训练模型,如TimeSformer-B、CLIP-400M、Ego4D-4M等。

需求人群:

["计算机视觉研究人员:提供新的视频理解模型,促进研究进展。","视频分析开发者:集成高效的视频分析工具,提升产品性能。","AI企业:利用先进的视频建模技术,开发创新的AI应用。"]

浏览量:77

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图