StyleTTS 2

StyleTTS 2 是一款文本转语音(TTS)模型,使用大型语音语言模型(SLMs)进行风格扩散和对抗训练,实现了人级别的 TTS 合成。它通过扩散模型将风格建模为潜在随机变量,以生成最适合文本的风格,而无需参考语音。此外,我们使用大型预训练的 SLMs(如 WavLM)作为判别器,并结合我们的创新可微持续时间建模进行端到端训练,从而提高了语音的自然度。StyleTTS 2 在单说话人 LJSpeech 数据集上超越了人类录音,并在多说话人 VCTK 数据集上与之匹配,得到了母语为英语的评审人员的认可。此外,当在 LibriTTS 数据集上进行训练时,我们的模型优于先前公开可用的零样本扩展模型。通过展示风格扩散和对抗训练与大型 SLMs 的潜力,这项工作在单个和多说话人数据集上实现了一个人级别的 TTS 合成。

需求人群:

"适用于文本转语音合成任务"

产品特色:

通过风格扩散生成最适合文本的风格

使用大型预训练的 SLMs 作为判别器

具有创新的可微持续时间建模

在单说话人和多说话人数据集上实现人级别的 TTS 合成

浏览量:443

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
网站流量情况

最新流量情况

月访问量

4.58m

平均访问时长

00:07:29

每次访问页数

6.65

跳出率

37.90%

流量来源

直接访问

51.57%

自然搜索

29.65%

邮件

0.89%

外链引荐

11.44%

社交媒体

6.43%

展示广告

0

截止目前所有流量趋势图

地理流量分布情况

美国

16.83%

中国

14.47%

印度

9.23%

日本

3.69%

德国

3.38%

类似产品

© 2024     AIbase    备案号:闽ICP备2023012347号-1

隐私政策

用户协议

意见反馈 网站地图