简介:

一种自监督的视听特征对齐模型。

功能:

无需监督即可从视频中发现单词意义和声音位置。

使用多头特征聚合操作符进行对比学习。

在没有标签的情况下通过自监督学习模式。

在语义分割任务上超越先前的艺术水平。

在跨模态检索上使用更少的参数超越ImageBind。

为提高视听表示评估贡献了两个新的数据集。

需求人群:

"DenseAV适用于需要从视频内容中自动提取语义信息的研究者和开发者,特别是在没有明确标注数据的情况下进行视听内容分析的领域。"

浏览量:32

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图