PixelPlayer

PixelPlayer是一个能够通过观看大量无标注视频学会定位产生声音的图像区域并分离输入声音成一组表示每个像素声音的组件的系统。我们的方法利用视觉和听觉双模态的自然同步特点,在不需要额外人工标注的情况下学习联合解析声音和图像的模型。该系统使用大量包含不同乐器组合独奏和二重奏演奏的训练视频进行训练。对每个视频没有提供出现了哪些乐器、它们在哪里以及它们是什么声音的监督。在测试阶段,系统的输入是一个展示不同乐器演奏的视频和单声道听觉输入。系统执行音频视觉源分离和定位,将输入声音信号分离成N个声音通道,每个通道对应不同的乐器类别。此外,系统可以定位声音并为输入视频中的每个像素分配不同的音频波形。

需求人群:

["进行无监督的音频视觉分离","分析视听关系"]

使用场景示例:

PixelPlayer可用于分离混合音频中的不同乐器声音。

PixelPlayer可用于研究视觉和听觉感知之间的关系。

PixelPlayer可用于探索不同像素区域对总体听觉体验的贡献。

产品特色:

音频视觉源分离与定位

将声音信号分离成表示每个像素声音的组件

为输入视频的每个像素分配不同的音频波形

浏览量:123

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图