VITA-1.5

优质新品

简介:

VITA-1.5: 实时视觉和语音交互的GPT-4o级多模态大语言模型

功能:

显著降低语音交互延迟,从4秒降至1.5秒

增强多模态性能,平均提升至70.8%

改进语音处理能力,ASR WER降低至7.5%

采用端到端的语音合成模块

支持图像和视频理解

提供多种训练和推理工具

支持实时交互演示

兼容多种多模态评估基准

需求人群:

"适用于需要高效多模态交互的应用开发者、研究人员和企业,如智能助手、语音识别系统和图像识别系统等。"

浏览量:14

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图