需求人群:
"目标受众为任何希望搭建 Voice Agent的开发者及企业,特别是希望构建低延迟、可打断的、实时语音和多模态对话功能的团队。TEN 既支持级联模式,也支持端到端模式,并且已经集成大量的STT、LLM、TTS 等插件,能够支持开发者灵活选择、快速调整,是 Voice Agent 开发者进行快速原型设计和产品开发的理想选择。"
使用场景示例:
AI 虚拟客服:通过语音让 AI 与客户进行交流,提高客户满意度或承担,同时支持 SIP 电话接入。
AI 口语陪练:与 AI 进行实时对话,提供实时的发音纠正、语法建议和表达方式优化,提高口语水平。
AI 情感陪伴:根据用户的实时情绪状态,提供个性化的回应和支持,例如安慰、鼓励、倾听等
AI 个人助理:解放双手,通过语音让用户能够通过语音指令控制设备、获取信息、完成任务。
产品特色:
支持多模态与端到端模型,满足语音、文本和图像的输入与输出
内置优化后的实时通信能力,提供低延时、可打断的交互体验
集成全球主流 STT、LLM和 TTS等插件,灵活编排、快速开发
支持C++、 Go、 Python、 Node.JS等主流语言,Agent可跨平台无缝衔接
使用教程:
1. 申请所需模块的 key:Agora + ASR + LLM + TTS
2. 安装前置软件: Docker + NodeJS18 +
3. 进入容器拉起环境
4. 进入虚拟机跑起 TEN Agent
5. 详细步骤操作可参考 readme及文档
浏览量:268
最新流量情况
月访问量
2313
平均访问时长
00:00:55
每次访问页数
4.95
跳出率
0.92%
流量来源
直接访问
49.03%
自然搜索
0
邮件
0
外链引荐
0
社交媒体
50.97%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
日本
100.00%
主流对话式 Voice Agent开源框架,让 AI 能听能说
TEN Agent 是基于 TEN 框架构建的实时对话 AI引擎,为开发者提供快速、高效的工具来构建实时对话式 AI Agent,如AI虚拟客服、AI 口语陪练、AI 情感陪伴、AI 个人助理等。 TEN Agent 目前已集成 DeepSeek、Gemini 2.0、OpenAI Realtime、Qwen、RTC 等多种模型及组件,同时适配 Dify、Coze 主流编排工具,并且支持 ESP 32,快速让你的 AI bot 能听能说。
一个智能助手,通过自然语言简化 AI 算法的调试和部署。
ComfyUI-Copilot 是一个基于 Comfy-UI 框架的智能助手,旨在通过自然语言交互简化和增强 AI 算法的调试和部署过程。该产品的设计目标是降低开发门槛,让即使是初学者也能轻松使用。其智能推荐功能和实时支持能够显著提高开发效率,解决开发过程中遇到的问题。同时,ComfyUI-Copilot 支持多种模型,并提供详细的节点查询和工作流建议,为用户提供全面的开发辅助。此项目仍在早期阶段,用户可通过 GitHub 获取最新代码和功能更新。
Gemini 2.5 是谷歌最智能的 AI 模型,具备推理能力。
Gemini 2.5 是谷歌推出的最先进的 AI 模型,具备高效的推理能力和编码性能,能够处理复杂问题,并在多项基准测试中表现出色。该模型引入了新的思维能力,结合增强的基础模型和后期训练,支持更复杂的任务,旨在为开发者和企业提供强大的支持。Gemini 2.5 Pro 可在 Google AI Studio 和 Gemini 应用中使用,适合需要高级推理和编码能力的用户。
一个轻量级且强大的多智能体工作流框架
OpenAI Agents SDK是一个用于构建多智能体工作流的框架。它允许开发者通过配置指令、工具、安全机制和智能体之间的交接来创建复杂的自动化流程。该框架支持与任何符合OpenAI Chat Completions API格式的模型集成,具有高度的灵活性和可扩展性。它主要用于编程场景中,帮助开发者快速构建和优化智能体驱动的应用程序。
AI Dev通过自动化重复开发任务,帮助开发者节省时间,专注于创造力。
AI Dev是一款专注于编程领域的工具,通过自动化处理重复性开发任务,让开发者能够将更多精力投入到创造性工作中。这种技术的重要性在于提高开发效率,减少人力成本,同时提升开发质量。产品主要面向软件开发者和企业,定位为高效开发助手,目前暂无明确价格信息。
Gemini Embedding 是一种先进的文本嵌入模型,通过 Gemini API 提供强大的语言理解能力。
Gemini Embedding 是 Google 推出的一种实验性文本嵌入模型,通过 Gemini API 提供服务。该模型在多语言文本嵌入基准测试(MTEB)中表现卓越,超越了之前的顶尖模型。它能够将文本转换为高维数值向量,捕捉语义和上下文信息,广泛应用于检索、分类、相似性检测等场景。Gemini Embedding 支持超过 100 种语言,具备 8K 输入标记长度和 3K 输出维度,同时引入了嵌套表示学习(MRL)技术,可灵活调整维度以满足存储需求。该模型目前处于实验阶段,未来将推出稳定版本。
基于LLM的代理框架,用于在代码库中执行大规模代码迁移。
Aviator Agents 是一款专注于代码迁移的编程工具。它通过集成LLM技术,能够直接与GitHub连接,支持多种模型,如Open-AI o1、Claude Sonnet 3.5、Llama 3.1和DeepSeek R1。该工具可以自动执行代码迁移任务,包括搜索代码依赖、优化代码、生成PR等,极大提高了代码迁移的效率和准确性。它主要面向开发团队,帮助他们高效完成代码迁移工作,节省时间和精力。
两个会话型AI代理在确认彼此为AI后切换到声音级协议进行通信
GibberLink是一个基于ggwave数据传输协议的AI通信模型。它允许两个独立的AI代理在对话中识别彼此为AI后,从英语切换到声音级协议进行通信。这种技术展示了AI在识别和切换通信方式上的灵活性,具有重要的研究和应用价值。项目基于开源协议,适合开发者进行二次开发和集成。目前未明确提及价格,但其开源性质意味着开发者可以免费使用和扩展。
将任何网页转化为Python编程环境,无需设置即可执行代码。
Cliprun 是一款基于浏览器的 Python 编程工具,通过 Chrome 插件的形式,让用户能够在任何网页上直接运行 Python 代码。它利用 Pyodide 技术,实现了无需本地环境配置的即时代码执行。该工具的主要优点包括无需安装 Python 环境、支持多种常用 Python 库(如 pandas、numpy、matplotlib 等)、提供代码片段保存功能以及支持数据可视化和自动化脚本运行。Cliprun 主要面向开发者、数据分析师和编程学习者,旨在提供一个便捷、高效的在线编程环境,帮助用户快速实现代码测试、数据分析和自动化任务。
OOMOL Studio 是一个通过直观视觉交互连接代码片段和 API 服务的 AI 工作流 IDE。
OOMOL Studio 是一款面向开发人员和数据科学家的 AI 工作流 IDE。它通过直观的视觉交互方式,帮助用户轻松连接代码片段和 API 服务,从而缩短从想法到产品的距离。该产品支持 Python 和 Node.js 等编程语言,内置丰富的 AI 功能节点和大模型 API,能够满足用户在数据处理、多媒体处理等多场景下的需求。其主要优点包括直观交互、预安装环境、编程友好和社区共享等。产品定位为高效、便捷的 AI 开发工具,适用于不同技术水平的用户。
专为专业软件工程师和大型代码库设计的人工智能开发助手。
Augment Code 是一款面向专业软件工程师的 AI 开发助手,旨在帮助开发者更好地管理和优化复杂的代码库。它通过智能的代码编辑建议、实时代码补全和团队协作功能,提升开发效率并降低维护成本。Augment Code 支持多种开发环境,如 VSCode、JetBrains 和 Vim,并与 GitHub 和 Slack 等工具无缝集成。其主要优点包括高效代码管理、智能编辑建议和强大的团队协作支持,适合大型团队和复杂项目。
国内首个AI原生IDE,深度理解中文开发场景,提供高效、优质的开发体验。
Trae是一款专为中文开发场景设计的AI原生IDE,将AI技术深度集成于开发环境中。它通过智能代码补全、上下文理解等功能,显著提升开发效率和代码质量。Trae的出现填补了国内AI集成开发工具的空白,满足了中文开发者对高效开发工具的需求。其定位为高端开发工具,旨在为专业开发者提供强大的技术支持,目前尚未明确公开价格,但预计会采用付费模式以匹配其高端定位。
一个用于构建Retrieval-Augmented Generation (RAG)应用的开源项目。
bRAG-langchain是一个开源项目,专注于Retrieval-Augmented Generation (RAG)技术的研究与应用。RAG是一种结合了检索和生成的AI技术,通过检索相关文档并生成回答,为用户提供更准确、更丰富的信息。该项目提供了从基础到高级的RAG实现指南,帮助开发者快速上手并构建自己的RAG应用。其主要优点是开源、灵活且易于扩展,适合各种需要自然语言处理和信息检索的应用场景。
QwQ-Max-Preview 是 Qwen 系列的最新成果,基于 Qwen2.5-Max 构建,具备强大的推理和多领域应用能力。
QwQ-Max-Preview 是 Qwen 系列的最新成果,基于 Qwen2.5-Max 构建。它在数学、编程以及通用任务中展现了更强的能力,同时在与 Agent 相关的工作流中也有不错的表现。作为即将发布的 QwQ-Max 的预览版,这个版本还在持续优化中。其主要优点包括深度推理、数学、编程和 Agent 任务的强大能力。未来计划以 Apache 2.0 许可协议开源发布 QwQ-Max 以及 Qwen2.5-Max,旨在推动跨领域应用的创新。
Claude 3.7 Sonnet 是 Anthropic 推出的最新智能模型,支持快速响应和深度推理。
Claude 3.7 Sonnet 是 Anthropic 推出的最新混合推理模型,能够实现快速响应和深度推理的无缝切换。它在编程、前端开发等领域表现出色,并通过 API 提供对推理深度的精细控制。该模型不仅提升了代码生成和调试能力,还优化了对复杂任务的处理,适用于企业级应用。其定价与前代产品一致,输入每百万 token 收费 3 美元,输出每百万 token 收费 15 美元。
一个开源的多智能体聊天界面,支持在一个动态对话中管理多个智能体。
Open Multi-Agent Canvas 是一个基于 Next.js、LangGraph 和 CopilotKit 构建的开源多智能体聊天界面。它允许用户在一个动态对话中管理多个智能体,主要用于旅行规划和研究。该产品利用先进的技术,为用户提供高效、灵活的多智能体交互体验。其开源特性使得开发者可以根据需求进行定制和扩展,具有很高的灵活性和可扩展性。
一个在线代码编辑器,支持多种编程语言,提供代码片段分享和Web开发功能。
CodeOrbital是一个在线代码编辑平台,为开发者提供了一个便捷的编程环境。它支持多种编程语言,如JavaScript等,用户可以在浏览器中直接编写、运行和调试代码。该平台还提供了代码片段分享功能,方便开发者之间交流和学习。此外,它还集成了Web开发功能,支持HTML、CSS和JavaScript的实时预览,让开发者能够快速构建和测试Web项目。CodeOrbital的主要优点是便捷性、实时反馈和社区共享功能,适合编程初学者和专业开发者使用。目前该平台是免费的,旨在为开发者提供一个高效、协作的编程环境。
一个专注于超大规模系统设计和优化的工具,提供高效解决方案。
The Ultra-Scale Playbook 是一个基于 Hugging Face Spaces 提供的模型工具,专注于超大规模系统的优化和设计。它利用先进的技术框架,帮助开发者和企业高效地构建和管理大规模系统。该工具的主要优点包括高度的可扩展性、优化的性能和易于集成的特性。它适用于需要处理复杂数据和大规模计算任务的场景,如人工智能、机器学习和大数据处理。产品目前以开源的形式提供,适合各种规模的企业和开发者使用。
在Kie.ai上集成DeepSeek R1和V3 API,提供安全且可扩展的AI解决方案。
DeepSeek R1与V3 API是Kie.ai提供的强大AI模型接口。DeepSeek R1是专为数学、编程和逻辑推理等高级推理任务设计的最新推理模型,经过大规模强化学习训练,能够提供精准结果。DeepSeek V3则适用于处理常规AI任务。这些API部署在美国安全服务器上,保障数据安全与隐私。Kie.ai还提供详细的API文档和多种定价方案,满足不同需求,助力开发者快速集成AI能力,提升项目性能。
Nia 是一款协作式 AI 开发工具,帮助开发者理解代码库、构建自定义应用并优化工作流程。
Nia 是一款面向开发者的 AI 工具,专注于代码库的理解和协作开发。它通过高级语义文件搜索和代码理解能力,帮助开发者快速找到所需文件、理解代码结构,并通过 API 集成到现有工作流程中。Nia 的主要优点包括高效理解代码库、简化新成员入职流程以及强大的 API 集成能力。目前处于免费试用阶段,目标是帮助开发者提高开发效率。
xAI推出的最新旗舰AI模型Grok 3,具备强大的推理和多模态处理能力。
Grok 3是由Elon Musk的AI公司xAI开发的最新旗舰AI模型。它在计算能力和数据集规模上显著提升,能够处理复杂的数学、科学问题,并支持多模态输入。其主要优点是推理能力强大,能够提供更准确的答案,并且在某些基准测试中超越了现有的顶尖模型。Grok 3的推出标志着xAI在AI领域的进一步发展,旨在为用户提供更智能、更高效的AI服务。该模型目前主要通过Grok APP和X平台提供服务,未来还将推出语音模式和企业API接口。其定位是高端AI解决方案,主要面向需要深度推理和多模态交互的用户。
SWE-Lancer 是一个包含 1400 多个自由软件工程任务的基准测试,总价值 100 万美元。
SWE-Lancer 是由 OpenAI 推出的一个基准测试,旨在评估前沿语言模型在真实世界中的自由软件工程任务中的表现。该基准测试涵盖了从 50 美元的漏洞修复到 32000 美元的功能实现等多种独立工程任务,以及模型在技术实现方案之间的选择等管理任务。通过模型将性能映射到货币价值,SWE-Lancer 为研究 AI 模型开发的经济影响提供了新的视角,并推动了相关研究的发展。
小艺是华为推出的智能助手,提供聊天、写作、编程等多种AI服务。
小艺是华为推出的智能助手,集成了自然语言处理和机器学习技术,能够提供聊天、写作、编程、翻译等多种功能。它基于深度学习模型,能够理解用户的问题并给出准确的回答。小艺的主要优点是功能丰富、响应速度快、智能化程度高。作为华为生态的一部分,小艺致力于为用户提供便捷的智能服务,提升用户体验。
OmniParser V2 是一种将任何 LLM 转化为计算机使用代理的技术。
OmniParser V2 是微软研究团队开发的一种先进的人工智能模型,旨在将大型语言模型(LLM)转化为能够理解和操作图形用户界面(GUI)的智能代理。该技术通过将界面截图从像素空间转换为可解释的结构化元素,使 LLM 能够更准确地识别可交互图标,并在屏幕上执行预定动作。OmniParser V2 在检测小图标和快速推理方面取得了显著进步,其结合 GPT-4o 在 ScreenSpot Pro 基准测试中达到了 39.6% 的平均准确率,远超原始模型的 0.8%。此外,OmniParser V2 还提供了 OmniTool 工具,支持与多种 LLM 结合使用,进一步推动了 GUI 自动化的发展。
为 Cursor Agent 提供 AI 团队和高级技能,增强代码开发和自动化能力。
cursor-tools 是一个为 Cursor 编程工具提供增强功能的插件。它通过集成 Perplexity 和 Gemini 等 AI 模型,为开发者提供强大的代码上下文理解、自动化浏览器操作以及 GitHub 集成等功能。该工具的主要优点是能够显著提升开发效率,帮助开发者快速解决复杂问题,同时支持本地和远程代码库的操作。cursor-tools 定位为开发者的智能助手,适用于需要高效代码管理和自动化测试的场景,目前在 GitHub 上开源,支持免费使用。
AI驱动的网站组件生成器,快速生成高质量的UI组件,助力高效开发。
CheapUI是一个AI驱动的网站组件生成平台,旨在帮助开发者和设计师快速生成高质量的UI组件。它结合了AI的精准性和现代UI设计的最佳实践,能够根据用户需求生成响应式、可定制化的代码,无缝集成到项目中。该平台的主要优点包括高效生成组件、高度可定制化以及易于集成。它适合希望节省时间和成本的开发者、设计师以及初创企业,提供了一个简单易用的设计解决方案。其每月仅需1欧元的付费模式,让使用者能够以较低的成本享受先进的AI设计服务。
一个AI驱动的网站开发竞技平台,用户可以挑战构建最佳网站。
WebDev Arena是一个专注于网站开发的AI竞技平台。它通过AI技术为用户提供一个互动式的开发环境,用户可以在平台上挑战构建各种类型的网站。该平台的核心功能是利用AI辅助生成代码和设计布局,帮助开发者快速实现创意。它主要面向有一定编程基础的开发者,尤其是那些希望提升前端开发技能的人群。平台目前处于开放状态,用户可以免费使用其功能,无需支付费用。
Gemini 2.0 是谷歌推出的最新一代生成式 AI 模型,包含 Flash、Flash-Lite 和 Pro 版本。
Gemini 2.0 是谷歌在生成式 AI 领域的重要进展,代表了最新的人工智能技术。它通过强大的语言生成能力,为开发者提供高效、灵活的解决方案,适用于多种复杂场景。Gemini 2.0 的主要优点包括高性能、低延迟和简化的定价策略,旨在降低开发成本并提高生产效率。该模型通过 Google AI Studio 和 Vertex AI 提供,支持多种模态输入,具备广泛的应用前景。
© 2025 AIbase 备案号:闽ICP备08105208号-14