简介:

音频生成与自动字幕生成模型

功能:

AutoCap:利用音频元数据提高字幕质量,达到83.2的CIDEr得分。

GenAu:基于FIT架构,使用1.25亿参数的可扩展变换器架构生成音频。

音频1D-VAE:从Mel-Spectrogram表示生成潜在序列。

Q-Former模块:将音频表示压缩为更少的token,提高字幕模型效率。

跨注意力层:在输入潜在和可学习的潜在token之间传递信息。

全局注意力层:使潜在token能够进行全局通信。

支持大规模音频-文本数据集的生成和训练。

需求人群:

"GenAU的目标受众是音频内容创作者、音频合成研究人员以及需要高质量音频生成技术的企业。它适合于需要生成环境声音、背景音乐或特定声音效果的应用场景,如游戏开发、电影制作或虚拟现实体验。"

浏览量:18

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图