VideoPrism

VideoPrism是一个通用的视频编码模型,能够在各种视频理解任务上取得领先的性能,包括分类、定位、检索、字幕生成和问答等。其创新点在于预训练的数据集非常大且多样,包含3600万高质量的视频-文本对,以及5.82亿带有嘈杂文本的视频剪辑。预训练采用两阶段策略,先利用对比学习匹配视频和文本,然后预测遮蔽的视频块,充分利用不同的监督信号。一个固定的VideoPrism模型可以直接适配到下游任务,并在30个视频理解基准上刷新状态最优成绩。

需求人群:

"- 视频分类、定位\n- 视频检索\n- 视频字幕生成\n- 视频问答\n- 科学视频分析"

使用场景示例:

"- 利用VideoPrism进行视频分类,实现动作识别\n- 应用VideoPrism提取视频特征,检索相似视频\n- 基于VideoPrism为视频自动生成描述文字\n- 与语言模型结合,构建视频问答系统"

产品特色:

- 预训练数据包含3600万高质量视频-文本对,5820万带嘈杂文本的视频剪辑,数据规模最大、质量最高 - 采用两阶段预训练策略,对比学习匹配视频和文本,预测遮蔽的视频块 - 一个固定模型直接适配下游任务,无需调参和微调 - 在30个视频理解基准上刷新最优记录

浏览量:149

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
网站流量情况

最新流量情况

月访问量

1092.87k

平均访问时长

00:00:41

每次访问页数

3.28

跳出率

53.22%

流量来源

直接访问

36.98%

自然搜索

52.18%

邮件

0.09%

外链引荐

7.90%

社交媒体

2.61%

展示广告

0

截止目前所有流量趋势图

地理流量分布情况

加拿大

3.22%

英国

3.55%

印度

8.97%

意大利

4.45%

美国

31.12%

类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图