需求人群:
"该产品适合需要高效语音交互体验的用户,无论是日常对话、信息查询还是任务管理,百聆都能提供便捷的语音支持,尤其适合对硬件配置要求不高但对语音交互质量有较高要求的用户。"
使用场景示例:
用户可以通过语音指令让百聆查询天气情况,如说‘杭州天气怎么样?’,百聆会返回杭州的天气信息。
用户可以使用百聆进行雅思口语练习,百聆会生成雅思口语练习题目和对话,帮助用户进行练习。
用户可以设置定时任务,如说‘每天早上8点提醒我喝水。’,百聆会按照设定的时间提醒用户。
产品特色:
高效开源模型:百聆使用多个开源模型,确保高效、可靠的语音对话体验。
无需GPU:通过优化,可本地部署,仍能提供类GPT-4的性能表现。
模块化设计:ASR、VAD、LLM和TTS模块相互独立,可根据需求进行替换和升级。
支持记忆功能:具备持续学习能力,能够记忆用户的偏好与历史对话,提供个性化的互动体验。
支持工具调用:灵活集成外部工具,用户可通过语音直接请求信息或执行操作,提升助手的实用性。
支持任务管理:高效管理用户任务,能够跟踪进度、设置提醒,并提供动态更新,确保用户不错过任何重要事项。
使用教程:
1. 克隆项目仓库:git clone https://github.com/wwbin2017/bailing.git,然后进入项目目录cd bailing。
2. 安装所需依赖:pip install -r requirements.txt。
3. 配置环境变量:打开config/config.yaml配置ASR LLM等相关配置,下载SenseVoiceSmall到目录models/SenseVoiceSmall,并获取deepseek的api_key。
4. 启动后端服务:cd server,运行python server.py(可选)。
5. 启动主程序:运行python main.py,系统会等待语音输入,用户即可开始使用百聆进行语音对话。
浏览量:99
最新流量情况
月访问量
5.13m
平均访问时长
00:06:32
每次访问页数
6.11
跳出率
36.07%
流量来源
直接访问
54.23%
自然搜索
31.90%
邮件
0.04%
外链引荐
11.74%
社交媒体
1.91%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
12.57%
德国
3.83%
印度
10.07%
俄罗斯
4.92%
美国
18.64%
使用自得语音技术,创造属于你的角色
自得语音技术可通过简单的步骤创造出属于你的角色。类似GPT,可生成与真人无异的语音片段,在情感、音色和语速等方面与真人一致。自得语音支持快速定制角色,只需要上传一段语音即可立即生成属于你的语音角色。无需下载软件,可在浏览器上完成语音生成。同时提供API接口,方便开发者集成到自己的产品中。商用用户可享受7x24小时的技术支持。
开源、注重隐私的语音助手
Home Assistant Voice Preview Edition是一款开源、注重隐私的语音助手硬件产品,旨在提供一种开放、本地化、私人化的语音控制解决方案。它允许用户通过语音控制家中的智能设备,同时确保用户的语音数据不会离开本地网络,保护用户隐私。该产品背景是响应对隐私保护日益增长的需求,特别是在智能家居领域。价格方面,产品定价为59美元,推荐零售价,具体价格可能会因零售商而异。
开源文本转语音系统
Whisper Speech是一款完全开源的文本转语音模型,由Collabora和Lion在Juwels超级计算机上训练。它支持多种语言和多种形式的输入,包括Node.js、Python、Elixir、HTTP、Cog和Docker。该模型的优势在于高效的语音合成和灵活的部署方式。定价方面,Whisper Speech完全免费。它定位于为开发者和研究人员提供一个强大的、可定制的文本转语音解决方案。
雷鸟自主研发的AI语音助手
RayNeo AI是雷鸟自主研发的人工智能语音助手,集成了自然语言处理、语音识别、语音合成等核心技术,可实现自然语言交互、语音控制等功能。该产品已在雷鸟XR系列产品中进行内测,支持行程规划、天气查询、百科知识问答等服务,提升了产品的智能化水平。下一步,RayNeo AI计划推出视觉识别等多模态交互能力,实现更丰富的人机交互体验。
Ai语音销售虚拟助手
Phonetiks.ai是一款Ai语音销售虚拟助手,能够进行完整的10-40分钟电话交谈,声音和真人一样,具有无限记忆、完美回忆,并能自主操作超过6000个应用程序。它可以完成全职代理的所有工作,无需培训、管理或激励。它可以全年无休地工作。
开源的语音到语音转换模块
speech-to-speech 是一个开源的模块化GPT4-o项目,通过语音活动检测、语音转文本、语言模型和文本转语音等连续部分实现语音到语音的转换。它利用了Transformers库和Hugging Face hub上可用的模型,提供了高度的模块化和灵活性。
提供语音识别、语音合成等语音AI能力
依图语音开放平台为开发者提供语音识别、语音合成等语音AI能力,包括精准语音转文本、文本转语音合成、声纹识别、语音增强降噪等服务,支持不同场景下的语音交互应用开发。平台提供高效、灵活的语音AI能力接入方式,可轻松将语音技术应用于各类产品与业务场景。
开源的高质量文本转语音模型,支持情感控制。
Chatterbox 是 Resemble AI 推出的第一个开源生产级文本转语音 (TTS) 模型,具有卓越的性能和稳定性。它经过与顶尖闭源系统的比较,展现出更优的效果。该模型的独特之处在于它支持情感夸张控制,适用于制作视频、游戏、AI 代理等多种场景。Chatterbox 的价格竞争力强,同时提供超低延迟,适合生产使用。
开源云平台,实现超低延迟的语音和视频AI。
Daily Bots是一个开源云平台,专注于提供超低延迟的语音和视频人工智能服务。它支持开发者构建和托管实时的全球基础设施上的代理,并利用快速增长的开源实时框架。该平台拥有全球实时云,提供5亿终端用户的13毫秒首跳延迟,符合SOC 2、HIPAA和GDPR标准。此外,Daily Bots提供了电话和工作流程的一站式企业连接解决方案,以及完整的PSTN和SIP堆栈。
基于Linux环境快速部署开源大模型的教程
该项目是一个围绕开源大模型的全流程指导教程,包括环境配置、模型部署、高效微调等,简化开源大模型的使用和应用,让更多普通学习者能够使用开源大模型。项目面向对开源大模型感兴趣且想自主上手的学习者,提供详细的环境配置、模型部署和微调方法。
语音转文字,支持实时语音识别、录音文件识别等
腾讯云语音识别(ASR)为开发者提供语音转文字服务的最佳体验。语音识别服务具备识别准确率高、接入便捷、性能稳定等特点。腾讯云语音识别服务开放实时语音识别、一句话识别和录音文件识别三种服务形式,满足不同类型开发者需求。技术先进,性价比高,多语种支持,适用于客服、会议、法庭等多场景。
Azure AI Studio提供的语音服务
Azure AI Studio是微软Azure提供的一套人工智能服务,其中包括语音服务。这些服务可能包括语音识别、语音合成、语音翻译等功能,帮助开发者在他们的应用程序中集成语音相关的智能功能。
个性化AI助手,记录每一刻,与AI对话获取反馈。
OMI APP是一个任务驱动的个性化AI助手,旨在通过语音和音频转录功能帮助用户提高记忆力和沟通效率。它是一个开源的AI记事本,提供提醒、建议等功能,同时注重用户隐私。
快速AI语音助手
Swift是一个由Groq、Cartesia和Vercel支持的快速AI语音助手。它使用Groq进行OpenAI Whisper和Meta Llama 3的快速推理,Cartesia的Sonic语音模型进行快速语音合成,并实时流式传输到前端。VAD技术用于检测用户说话并运行语音片段上的回调。Swift是一个使用TypeScript编写的Next.js项目,并部署在Vercel上。
AI智能语音助手
小爱同学是小米推出的AI智能语音助手,具有语音控制、智能问答、生活服务等功能。它可以帮助用户完成各种任务,提供实时天气、股票查询、音乐播放等服务。小爱同学可以与用户进行自然对话,提供个性化的建议和回答。同时,小爱同学还支持多平台接入,方便用户在不同设备上使用。
开源自托管AI编程助手
Tabby是一个开源的、自托管的AI编程助手,它利用Rust语言的优势,为开发者提供快速且安全的编程体验。Tabby允许用户通过简单的TOML配置文件来控制部署,确保代码的安全性和合规性。
AI语音助手,代替您进行个性化回复
AI Twin是一个基于AI的虚拟助手,它可以在语音通话中准确地模拟您的声音及语调,从而以极其逼真的方式代表您进行交流。无论您是网红、专业人士、企业家还是时间紧迫的忙碌者,AI Twin都可以帮助您代理个性化的语音回复,使您能更专注于重要的事情。只需将AI Twin添加到您的个人资料中,它就可以为您处理语音通话中的交互应答,从而帮助您扩大影响力及建立更牢固的人脉关系。
开源AI语音处理工具包,支持语音增强、分离和目标说话人提取。
ClearerVoice-Studio是一个开源的AI驱动语音处理工具包,专为研究人员、开发者和最终用户设计。它提供了语音增强、语音分离、目标说话人提取等功能,并提供了最新的预训练模型以及训练和推理脚本,全部可通过此仓库访问。该工具包以其预训练模型、易用性、全面功能和社区驱动的特点而受到青睐。
WhatsApp语音助手,与ChatGPT通过语音信息交互
GabbyGPT是一个通过WhatsApp实现的AI语音助手,用户可以方便地通过语音信息与ChatGPT进行交互。它可以回答问题、提供信息、执行任务等。GabbyGPT的优势在于其简便易用的操作方式和智能的语音识别功能。定价方面,用户可以免费使用基本功能,或选择订阅高级功能的付费套餐。GabbyGPT适用于个人用户和商业用户,能够满足不同场景的需求。
智能语音助手,助您解决各种问题
智能语音助手是一款基于人工智能技术的语音交互工具。它可以回答各种问题,提供实时的天气、新闻、时间等信息,还可以执行音乐播放、日程安排、提醒等功能。通过简单的语音指令,用户可以与助手进行自然对话,获取需要的信息。智能语音助手支持多种语言,提供便捷的语音交互体验。
ChatGPT AI助手,语音查询,眼镜控制
Lucyd App是一款配有ChatGPT AI助手的应用程序,支持语音查询和眼镜控制。通过Lucyd App,您可以通过语音与ChatGPT进行交流,无需键盘输入。该应用程序具有简洁易用的界面和灵活的历史功能,支持导出和回放查询记录。Lucyd App免费提供,适用于iOS和Android设备。
语音识别AI购物清单助手
HoneyDo是一款语音识别AI购物清单助手,通过语音输入购物清单,AI将其转化为整洁有序的列表。另外,还支持拍照识别食材并列出清单,以及与家人实时同步共享购物清单等功能。HoneyDo分为免费版和PRO版,PRO版提供无限语音录制和图像捕捉功能。
开源框架,用于构建语音和多模态对话AI。
Pipecat是一个开源框架,用于构建语音和多模态对话代理,如个人教练、会议助手、儿童故事玩具、客户支持机器人、接待流程和机智的社交伴侣。它支持本地运行,并可迁移到云端,集成了多种AI服务和传输方式,具有高度的可定制性和扩展性。
个人语音和视觉助手
Unitor.ai是一个个人语音和视觉助手,提供自然、温暖的语音对话,适用于所有年龄段和兴趣。它能够随着每次互动变得更加智能,帮助用户组织生活、提供情感支持和建议,以及在驾驶或工作时提供免提帮助。
将您的语音立即转换为文本。完全私密,开源,由AI技术驱动。
OpenWispr是一款由AI技术驱动的语音转文本工具,注重隐私保护,完全开源。其主要优点在于处理速度快、隐私保护严格,适用于写作、编程等领域。
一个开源文本转语音系统,致力于实现人类语音的自然化。
Orpheus TTS 是一个基于 Llama-3b 模型的开源文本转语音系统,旨在提供更加自然的人类语音合成。它具备较强的语音克隆能力和情感表达能力,适合各种实时应用场景。该产品是免费的,旨在为开发者和研究者提供便捷的语音合成工具。
真实文本转语音的AI语音生成平台
PlayHT AI语音生成器是一款能够使用人工智能技术将文本转化为自然、逼真的人类语音表演的工具。无论是哪种语言和口音,我们的语音AI都能瞬间将文本转化为自然流畅的语音。
© 2025 AIbase 备案号:闽ICP备08105208号-14