简介:

开源的全双工音频生成基础模型

功能:

hertz-codec:一个卷积音频自动编码器,将单声道16kHz语音转换为8Hz潜在表示,具有约1kbps的比特率。

hertz-vae:一个18亿参数的变换器解码器,具有8192个采样潜在表示的上下文,并预测下一个编码音频帧。

hertz-dev:一个66亿参数的变换器堆栈,主要检查点部分从预训练的语言模型权重初始化,并在2000万小时的音频上训练一个周期。

理论延迟65ms,实际平均延迟120ms,比任何公共模型的延迟都要低,适合实时交互。

开源模型,易于研究人员进行微调和构建,是实时语音交互的未来。

提供了样本音频生成,包括单通道和双通道音频以及模型与人类之间的实时对话。

需求人群:

"目标受众为研究人员、开发者和对音频处理、语音识别和生成感兴趣的企业。hertz-dev因其开源特性、低延迟和高效率,非常适合需要进行音频模型研究和开发的专业人士。"

浏览量:14

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图