构建和定制您自己的AI语音助手,连接数百种工具和集成,开始创建您的个性化语音代理。
11.ai是一个个人AI语音助手,通过ElevenLabs Conversational AI构建。它可以计划您的日程,研究客户信息,管理工单并与Slack团队交流,所有这些都可以通过语音实现。
利用人工智能即时为内容创建惊人逼真、类人声音
UntitledPen 是一个利用最先进的GPT模型进行音频生成的工具,可以为您的内容创建最逼真的人类声音。它能够将文字转换为自然语音,适用于播客、视频、演讲等多种场景。
创建您的动态NF-ID。超越简历,使用AI身份适应每个工作,并自动回答招聘者问题。
NUROFILE是一个代表未来的AI身份产品,能够适应各种工作机会,并为用户自动匹配招聘要求。其主要优点是能够为用户量身定制、智能推荐和自动生成个性化简历,背景信息包括简历的过时性和招聘过程的变化。目前为免费使用。
开源的高质量文本转语音模型,支持情感控制。
Chatterbox 是 Resemble AI 推出的第一个开源生产级文本转语音 (TTS) 模型,具有卓越的性能和稳定性。它经过与顶尖闭源系统的比较,展现出更优的效果。该模型的独特之处在于它支持情感夸张控制,适用于制作视频、游戏、AI 代理等多种场景。Chatterbox 的价格竞争力强,同时提供超低延迟,适合生产使用。
使用低延迟语音识别和合成模型与 AI 对话。
Unmute 是一款创新的语音识别与合成工具,旨在使用户能够通过自然语言与 AI 进行高效的互动。其低延迟技术确保用户体验流畅,适合需要实时反馈的场景。该产品将以开源形式发布,推动更多开发者和用户的参与。当前尚未公布价格,预计将采取免费和付费相结合的模式。
定制AI语音助手解决方案,为您的日常需求提供智能解决方案。
Aseto是一家总部位于塞浦路斯的公司,为欧盟各地的企业和公共部门客户提供定制的AI语音助手解决方案。Aseto的AI语音助手可提供实时人类化交互,为客户支持、销售和运营注入动力。
一个人性化的多代理系统,自动化网络任务。
Magentic-UI 是一个基于多代理系统的研究原型,允许用户通过透明且可控的界面进行网络浏览和任务自动化。其主要优势在于能够提高人机交互的效率,同时为用户提供对自动化过程的控制。该产品适用于需要在网络上执行复杂任务的用户支持多种操作和自定义设置。
提高产品采纳率,部署我们的AI语音代理,作为专业的采纳专家,引领用户从入门到领悟。
Overhyped AI是一种AI语音代理,旨在提高产品采纳率。它通过个性化引导,提供从用户启动到实现关键体验的专业指导,帮助用户快速掌握产品的核心功能,增加用户粘性。
AI 图像生成进入 “毫秒级” 时代,速度快、质量高。
腾讯混元图像 2.0 是腾讯最新发布的 AI 图像生成模型,显著提升了生成速度和画质。通过超高压缩倍率的编解码器和全新扩散架构,使得图像生成速度可达到毫秒级,避免了传统生成的等待时间。同时,模型通过强化学习算法与人类美学知识的结合,提升了图像的真实感和细节表现,适合设计师、创作者等专业用户使用。
自动化电话预约,专为服务提供商打造的AI语音助手。处理日程安排、确认和日历同步,无漏接电话,无麻烦。
Vocea是一款专为服务提供商设计的AI语音助手,通过自动化处理电话预约、日程确认和实时更新,节省时间、减少错过预约并提供更好的客户体验。它的主要优点在于简化预约流程、避免重复预约和提供实时日历同步功能。
为您的网站添加AI语音代理,实现即时回拨,自动化客户支持和会议安排。
Calldock是一个AI语音代理平台,能够实现网站访客的即时回拨功能。用户可以创建代理,上传知识库,选择语音并嵌入代码。产品定位于提高客户互动和支持效率。
一款高质量的英语自动语音识别模型,支持标点符号和时间戳预测。
parakeet-tdt-0.6b-v2 是一个 600 百万参数的自动语音识别(ASR)模型,旨在实现高质量的英语转录,具有准确的时间戳预测和自动标点符号、大小写支持。该模型基于 FastConformer 架构,能够高效地处理长达 24 分钟的音频片段,适合开发者、研究人员和各行业应用。
将 MCP 集成到 ChatGPT 等 AI 平台的 Chrome 扩展。
MCP SuperAssistant 是一个 Chrome 扩展,集成了模型上下文协议(MCP)工具,使用户能够直接从 AI 平台执行 MCP 工具,并将结果插入对话中。这项技术提高了基于 Web 的 AI 助手的功能,支持多种 AI 平台,为用户提供便捷的数据交互方式。
体验与AI虚拟女友或男友的实时语音聊天,在Idyll上选择头像、国籍,并探索角色扮演、幻想和深厚的纽带。10分钟免费聊天-立即开始!
Idyll是一个提供实时语音聊天的AI虚拟女友或男友平台。用户可以选择头像、国籍,探索角色扮演、幻想,建立深厚的情感纽带。产品具有高度个性化、安全保密的特点,用户可以通过付费解锁更多功能。
Kimi-Audio 是一个开源音频基础模型,擅长音频理解与生成。
Kimi-Audio 是一个先进的开源音频基础模型,旨在处理多种音频处理任务,如语音识别和音频对话。该模型在超过 1300 万小时的多样化音频数据和文本数据上进行了大规模预训练,具有强大的音频推理和语言理解能力。它的主要优点包括优秀的性能和灵活性,适合研究人员和开发者进行音频相关的研究与开发。
智能会议助手,实现会议内容实时转写与总结。
听脑 AI 是一个专业的智能 AI 会议助手,提供一站式的智能会议服务,旨在提高会议效率。它支持实时会议、会议录音和多语言翻译,能够自动生成会议纪要和总结。该产品适用于各种类型的会议,包括线下和线上视频会议,是提升工作效率的重要工具。
一个可以在一次传递中生成超逼真的对话的 TTS 模型。
Dia 是一个由 Nari Labs 开发的文本到语音(TTS)模型,具有 1.6 亿参数,能够直接从文本生成高度逼真的对话。该模型支持情感和语调控制,并能够生成非言语交流,如笑声和咳嗽。它的预训练模型权重托管在 Hugging Face 上,适用于英语生成。此产品对于研究和教育用途至关重要,能够推动对话生成技术的发展。
© 2025 AIbase 备案号:闽ICP备08105208号-14