需求人群:
"目标受众为任何希望搭建 Voice Agent的开发者及企业,特别是希望构建低延迟、可打断的、实时语音和多模态对话功能的团队。TEN 既支持级联模式,也支持端到端模式,并且已经集成大量的STT、LLM、TTS 等插件,能够支持开发者灵活选择、快速调整,是 Voice Agent 开发者进行快速原型设计和产品开发的理想选择。"
使用场景示例:
AI 虚拟客服:通过语音让 AI 与客户进行交流,提高客户满意度或承担,同时支持 SIP 电话接入。
AI 口语陪练:与 AI 进行实时对话,提供实时的发音纠正、语法建议和表达方式优化,提高口语水平。
AI 情感陪伴:根据用户的实时情绪状态,提供个性化的回应和支持,例如安慰、鼓励、倾听等
AI 个人助理:解放双手,通过语音让用户能够通过语音指令控制设备、获取信息、完成任务。
产品特色:
支持多模态与端到端模型,满足语音、文本和图像的输入与输出
内置优化后的实时通信能力,提供低延时、可打断的交互体验
集成全球主流 STT、LLM和 TTS等插件,灵活编排、快速开发
支持C++、 Go、 Python、 Node.JS等主流语言,Agent可跨平台无缝衔接
使用教程:
1. 申请所需模块的 key:Agora + ASR + LLM + TTS
2. 安装前置软件: Docker + NodeJS18 +
3. 进入容器拉起环境
4. 进入虚拟机跑起 TEN Agent
5. 详细步骤操作可参考 readme及文档
浏览量:305
最新流量情况
月访问量
4.92m
平均访问时长
00:06:33
每次访问页数
6.11
跳出率
36.20%
流量来源
直接访问
51.61%
自然搜索
33.46%
邮件
0.04%
外链引荐
12.58%
社交媒体
2.19%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
12.55%
德国
3.84%
印度
9.38%
俄罗斯
4.61%
美国
18.64%
主流对话式 Voice Agent开源框架,让 AI 能听能说
TEN Agent 是基于 TEN 框架构建的实时对话 AI引擎,为开发者提供快速、高效的工具来构建实时对话式 AI Agent,如AI虚拟客服、AI 口语陪练、AI 情感陪伴、AI 个人助理等。 TEN Agent 目前已集成 DeepSeek、Gemini 2.0、OpenAI Realtime、Qwen、RTC 等多种模型及组件,同时适配 Dify、Coze 主流编排工具,并且支持 ESP 32,快速让你的 AI bot 能听能说。
真实时间语音变声
AI Voice Changer是一款强大的实时语音变声软件,让你可以修改自己的声音,选择来自Voice Universe的声音,或者克隆任何你想要的声音。无限的可能性等待着你,无论你是在玩Minecraft、Fortnite、Among Us或其他你喜欢的视频游戏!通过最好的在线语音变声器,创造一个新的声音身份,并探索我们众多的声音效果。
实时语音AI代理,500毫秒内响应语音查询。
Real-time Voice AI Agent是一个高度灵活的实时语音交互模型,它能够在大约500毫秒内通过语音回答任何查询。该模型支持用户选择任何大型语言模型、文本到语音(TTS)模型和语音到文本(STT)模型。它非常适合用于客户服务机器人、接待员等涉及语音的应用场景。
让Voice Remaker成为您最强大的AI语音生成助手
Voice Remaker是一个完全免费的AI语音生成工具,使用最好的合成音色,为您生成最接近人声的文本转语音(TTS)音频。即时将文本转换为自然流畅的语音,并以MP3音频文件的形式下载。
实时对话式人工智能,一键式API接入。
Deepgram Voice Agent API 是一个统一的语音到语音API,它允许人类和机器之间进行自然听起来的对话。该API由行业领先的语音识别和语音合成模型提供支持,能够自然且实时地听、思考和说话。Deepgram致力于通过其语音代理API推动语音优先AI的未来,通过集成先进的生成AI技术,打造能够进行流畅、类似人类语音代理的业务世界。
用于全球协作的实时语音翻译
DeepL Voice是一款提供即时、安全的语音翻译产品,旨在帮助全球团队打破语言障碍,实现无缝沟通。它利用先进的人工智能技术,提供高质量的语音翻译服务,支持多种语言,并集成到多种平台中,如Microsoft Teams。DeepL Voice的主要优点包括低延迟、高性能的翻译,无与伦比的翻译质量,以及以安全为核心的设计理念。
语音转文字,支持实时语音识别、录音文件识别等
腾讯云语音识别(ASR)为开发者提供语音转文字服务的最佳体验。语音识别服务具备识别准确率高、接入便捷、性能稳定等特点。腾讯云语音识别服务开放实时语音识别、一句话识别和录音文件识别三种服务形式,满足不同类型开发者需求。技术先进,性价比高,多语种支持,适用于客服、会议、法庭等多场景。
实时低延迟语音转换技术
StreamVC是由Google研发的实时低延迟语音转换解决方案,能够在保持源语音内容和韵律的同时,匹配目标语音的音色。该技术特别适合实时通信场景,如电话和视频会议,并且可用于语音匿名化等用例。StreamVC利用SoundStream神经音频编解码器的架构和训练策略,实现轻量级高质量的语音合成。它还展示了学习软语音单元的因果性以及提供白化基频信息以提高音高稳定性而不泄露源音色信息的有效性。
用语音编写代码
Copilot Voice是一款能够通过语音输入代码的插件,用户只需用自然语言描述自己的意图,Copilot Voice就会自动生成相应的代码。同时,用户还可以通过语音控制IDE,实现代码编辑、导航、运行等操作。Copilot Voice的主要优势在于提高编写代码的效率,减少打字错误,同时也方便了手部不便的用户。目前,Copilot Voice处于技术预览阶段,用户可以通过官网进行注册。
提供语音识别、语音合成等语音AI能力
依图语音开放平台为开发者提供语音识别、语音合成等语音AI能力,包括精准语音转文本、文本转语音合成、声纹识别、语音增强降噪等服务,支持不同场景下的语音交互应用开发。平台提供高效、灵活的语音AI能力接入方式,可轻松将语音技术应用于各类产品与业务场景。
实时语音和视频AI平台
Outspeed是一个为构建快速、实时语音和视频AI应用提供网络和推理基础设施的平台。它由Google和MIT的工程师开发,旨在为实时AI应用提供直观且强大的工具,无论是构建下一个大型应用还是扩展现有解决方案,Outspeed都能帮助用户更快、更有信心地进行创新。
GitHub Copilot Agent模式是GitHub Copilot的最新功能,支持自动迭代代码、修复错误和执行任务。
GitHub Copilot Agent模式是GitHub Copilot的一项重大升级,它通过引入自主智能体(Agent)技术,使开发者能够更高效地完成复杂的编程任务。Agent模式能够自动迭代代码、识别并修复错误,甚至可以推断出完成任务所需的额外步骤。其主要优点包括减少重复性工作、提高代码质量以及增强开发效率。Agent模式支持多种语言模型,如Google的Gemini 2.0 Flash,并通过安全沙箱技术确保代码的安全性。它适用于需要快速开发和优化代码的开发者,尤其是那些处理复杂项目的团队。
实时语音翻译APP
speakSync是一个基于人工智能的实时语音翻译APP。它能够实现多种语言之间的即时翻译,支持语音转文本和文本转语音,采用了OpenAI的Whisper和GPT模型,实现了流畅准确的翻译效果。该APP专为旅行者、商务人士和语言学习者设计,简化了翻译流程,创建无障碍的跨语言交流环境。
智能编程助手,助力高效编程。
JoyCoder 是京东自主研发的智能编程助手,基于大语言模型,适配多种 IDE,提供代码预测、智能问答等功能。它能够提升开发人员的编程效率和代码质量,减少编程错误,降低修复问题的频率。该产品适合各种开发者使用,特别是在快速开发和测试需求中。随着智能编程的兴起,JoyCoder 为开发者提供了一个高效、流畅的编程环境,满足其多样化需求。产品定价方面,具体信息请联系售前顾问。
基于Qwen>=2.0的Agent框架和应用,支持函数调用、代码解释器、RAG和Chrome扩展。
Qwen-Agent是一个基于Qwen>=2.0构建的Agent框架,它具备指令遵循、工具使用、规划和记忆能力。该框架提供了如浏览器助手、代码解释器和自定义助手等示例应用。Qwen-Agent的主要优点包括其高度的可扩展性和模块化设计,允许开发者根据需要集成不同的工具和功能。产品背景信息显示,Qwen-Agent旨在为开发者提供一个强大的工具集,以构建和部署基于大型语言模型的应用程序。Qwen-Agent在GitHub上开源,允许社区贡献和协作。
实时语音转文字,实现快速沟通
Actual Chat是一款结合了实时语音、即时转录和人工智能辅助的应用,让您能够更快速地沟通,详细回复,不浪费时间等待。它重新构想了电话、文字和语音消息,将语音和文字融合成一个单一的媒介。通过Actual Chat,您可以实时观看语音转录,选择听或读,随时加入对话,匿名参与聊天,保持对话记录,提高清晰度,完善口语,提升对话质量,包括在家庭、工作、网络研讨会、在线课程和客户支持等场景中的应用。
使用OpenAI实时API与文档进行语音聊天
voice-chat-pdf是一个基于LlamaIndex项目,使用Next.js构建的示例,它通过简单的RAG系统,允许用户通过语音与PDF文档进行交互。这个项目需要OpenAI API密钥来访问实时API,并在项目中生成文档的嵌入向量,以便进行语音交互。它展示了如何将先进的机器学习技术应用于提高文档交互的效率和便捷性。
端到端中英语音对话模型
GLM-4-Voice是由清华大学团队开发的端到端语音模型,能够直接理解和生成中英文语音,进行实时语音对话。它通过先进的语音识别和合成技术,实现了语音到文本再到语音的无缝转换,具备低延迟和高智商的对话能力。该模型在语音模态下的智商和合成表现力上进行了优化,适用于需要实时语音交互的场景。
让应用通过语音与文本的转换实现智能交互。
Azure 认知服务语音是微软推出的一款语音识别与合成服务,支持超过100种语言和方言的语音转文本和文本转语音功能。它通过创建可处理特定术语、背景噪音和重音的自定义语音模型,提高听录的准确度。此外,该服务还支持实时语音转文本、语音翻译、文本转语音等功能,适用于多种商业场景,如字幕生成、通话后听录分析、视频翻译等。
使用自得语音技术,创造属于你的角色
自得语音技术可通过简单的步骤创造出属于你的角色。类似GPT,可生成与真人无异的语音片段,在情感、音色和语速等方面与真人一致。自得语音支持快速定制角色,只需要上传一段语音即可立即生成属于你的语音角色。无需下载软件,可在浏览器上完成语音生成。同时提供API接口,方便开发者集成到自己的产品中。商用用户可享受7x24小时的技术支持。
实时语音翻译,跨语言沟通的桥梁。
StreamSpeech是一款基于多任务学习的实时语音到语音翻译模型。它通过统一框架同时学习翻译和同步策略,有效识别流式语音输入中的翻译时机,实现高质量的实时通信体验。该模型在CVSS基准测试中取得了领先的性能,并能提供低延迟的中间结果,如ASR或翻译结果。
集成聊天、文本转图像、文本转语音和机器翻译的桌面应用
Rodel Agent 是一款集成了聊天、文本到图像、文本到语音以及机器翻译功能的Windows桌面应用程序。它支持当前主流的AI服务,为用户提供了卓越的桌面AI体验。该产品的主要优点包括强大的集成功能、用户友好的界面以及对主流AI服务的支持,能够显著提高用户的工作效率和创造力。
基于WebRTC的语音AI流应用,使用OpenAI实时API和WebRTC开发。
该项目是一个使用OpenAI实时API和WebRTC技术开发的WebRTC-based Voice AI stream application,以Next.js框架搭建,具备服务器端渲染和API路由功能,配合shadcn/ui开发的UI组件,支持实时音频对话,还加入了抽象WebRTC处理的hook,以及6个示例函数展示客户端工具与实时API结合使用。项目开源免费,主要面向开发者,可用于快速搭建具有语音AI功能的Web应用。
语音编程助手,提高开发效率
Voqal革新了开发者与集成开发环境(IDE)的互动方式,将其从图形用户界面(GUI)转变为语音用户界面(VUI),使程序员可以用语音进行软件开发。Voqal不仅理解您说的话,更重要的是理解您说的话在软件开发上的含义。它让开发者能够用最少甚至零打字的方式编写干净、简洁的代码。此外,Voqal还提供“语音意图”,为开发者提供了语音替代键盘快捷键的选择。它还具有无限召回功能,可根据您的偏好进行记忆,并可配置个性化的助手,轻松导航和管理项目生态系统,实现语音控制调试,并使用Picovoice进行本地转录,确保您的语音永远不离开计算机。Voqal还支持与OpenAI和其他AI提供商集成,提供高效的语音编程助手。个人每月6美元,组织每月10美元,可免费试用。
© 2025 AIbase 备案号:闽ICP备08105208号-14