简介:

微软亚洲研究院开发的语音合成技术

功能:

利用离散编码的语音大模型,展现强大的上下文学习能力

只需3秒的录音作为提示,即可合成个性化语音

重复感知采样技术,改进了原始的核采样过程,稳定解码并避免无限循环问题

分组编码建模技术,有效缩短序列长度,提高推理速度

在LibriSpeech和VCTK数据集上,零样本TTS性能与人类水平相近

可以生成与原始说话人声音较为一致的准确自然的语音

需求人群:

"VALL-E 2 适合需要高质量语音合成的企业和研究机构,如教育领域的语音教材制作、娱乐产业的语音角色生成、多语言交流中的语音翻译等。其高度自然度和说话人相似度,使其在提高用户体验和无障碍交流方面具有显著优势。"

浏览量:50

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图