Vibe Coder 是一款开源的 VS Code 扩展,用于探索基于语音的 AI 编程体验。
Vibe Coder 是由 Deepgram 开发的一款开源 VS Code 扩展,旨在探索语音驱动编程的可能性。它利用语音识别技术,让用户通过语音指令与 AI 编程助手进行交互,快速将想法转化为代码原型。这种创新的编程方式被称为‘vibe coding’,旨在提高编程效率并改变未来软件开发的方式。Vibe Coder 目前处于实验阶段,Deepgram 希望通过社区反馈不断完善该工具。
致力于通过自然语音技术,打造个人语音伴侣和全天候可穿戴轻量级眼镜设备。
Sesame 是一个专注于语音技术的跨学科产品和研究团队,旨在通过自然语音交互,让用户与计算机的交互更加自然和高效。其主要产品包括个人语音伴侣和轻量级可穿戴眼镜设备,旨在实现计算机的拟人化,帮助用户更好地组织信息、提升效率。产品的主要优点是语音交互的自然性和设备的便携性,适合日常使用。目前,Sesame 正在积极招聘,致力于推动语音技术的创新。
为酒店提供多语言AI语音代理,提升客户体验并降低运营成本。
Riviera 是一款专为酒店行业设计的AI语音平台,旨在通过智能化的语音交互提升客户体验并优化酒店运营效率。它支持多语言对话,能够快速响应客户咨询,处理预订、房间服务等需求,同时通过数据分析提供个性化服务。该产品利用先进的AI技术,减少人工干预,降低运营成本,尤其适合酒店在高峰期减轻员工工作压力。其背景是随着酒店行业的数字化转型,客户对服务的即时性和个性化需求日益增长,Riviera 正是为满足这一需求而生。价格和具体定位需根据酒店规模和需求定制。
增强你的Lovable.dev工作流,提供文档访问、AI规划工具和自动化测试能力。
Lovify是Lovable.dev的扩展插件,旨在通过一系列AI驱动的功能提升开发人员的工作效率。它支持GitHub集成,能够快速导入和管理仓库;提供智能提示增强功能,根据上下文优化提示;具备项目规划工具,自动生成PRD和行动计划;支持语音交互,实现免手动编码和调试;还有快捷的斜杠命令,快速访问各种功能。这些功能的结合使得开发人员能够更高效地编写代码、管理项目,并获得实时帮助。目前该产品处于推广阶段,具体价格未明确,但可通过Chrome扩展程序商店免费试用。
Step-Audio是一个开源智能语音交互框架,支持多语言对话、情感语调和语音克隆等功能。
Step-Audio是首个生产级开源智能语音交互框架,整合了语音理解与生成能力,支持多语言对话、情感语调、方言、语速和韵律风格控制。其核心技术包括130B参数多模态模型、生成式数据引擎、精细语音控制和增强智能。该框架通过开源模型和工具,推动智能语音交互技术的发展,适用于多种语音应用场景。
一款为 Apple Watch 设计的智能语音助手应用,无需手机即可完成多种操作。
Chirp AI 是一款专为 Apple Watch 设计的智能语音助手应用。它通过强大的语音识别和人工智能技术,让用户能够仅通过语音指令完成各种操作,如发送信息、获取信息、搜索网络等,极大地提升了用户在移动场景下的操作效率。该产品的主要优点是无需频繁使用手机,即可实现高效的信息交互和任务处理。它适用于那些希望在日常生活中减少对手机依赖,同时又能快速获取信息和完成任务的用户。目前该应用提供免费下载,定位为提升用户生产力和便捷性的智能工具。
FoloUp 是一个用于招聘的 AI 驱动语音面试平台。
FoloUp 是一款专注于招聘流程的 AI 驱动语音面试平台。它通过智能生成面试问题、实时语音交互和深度分析候选人回答,帮助企业高效筛选和评估候选人。该平台利用先进的 AI 技术,确保面试过程的自然流畅,并提供详细的候选人表现报告。FoloUp 旨在通过技术提升招聘效率,降低人力成本,同时为候选人提供更公平的面试体验。目前,该平台以开源形式提供,支持自定义部署和使用。
一个基于语音交互的故事创作聊天机器人,提供沉浸式的“选择你自己的冒险”体验。
该产品利用 Gemini 2.0 语言模型和 Google Imagen 图像生成技术,结合语音识别和语音合成,为用户提供一个互动式的故事创作体验。用户可以通过语音输入选择故事走向,系统会实时生成故事内容和相关图像。该产品的主要优点是创新的交互方式和强大的内容生成能力,适合用于教育、娱乐和创意启发。目前该产品处于开源阶段,未明确具体定价,主要面向开发者和教育机构。
首个面向语境智能的人类级实时交互系统,支持多情感、多风格语音交互。
SpeechGPT 2.0-preview 是一款由复旦大学自然语言处理实验室开发的先进语音交互模型。它通过海量语音数据训练,实现了低延迟、高自然度的语音交互能力。该模型能够模拟多种情感、风格和角色的语音表达,同时支持工具调用、在线搜索和外部知识库访问等功能。其主要优点包括强大的语音风格泛化能力、多角色模拟以及低延迟交互体验。目前该模型仅支持中文语音交互,未来计划扩展到更多语言。
MiniCPM-o 2.6是一个强大的多模态大型语言模型,适用于视觉、语音和多模态直播。
MiniCPM-o 2.6是MiniCPM-o系列中最新且功能最强大的模型。该模型基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建,拥有8B参数。它在视觉理解、语音交互和多模态直播方面表现出色,支持实时语音对话和多模态直播功能。该模型在开源社区中表现优异,超越了多个知名模型。其优势在于高效的推理速度、低延迟、低内存和功耗,能够在iPad等终端设备上高效支持多模态直播。此外,MiniCPM-o 2.6易于使用,支持多种使用方式,包括llama.cpp的CPU推理、int4和GGUF格式的量化模型、vLLM的高吞吐量推理等。
随时随地陪伴你的智能助手
理想同学是由理想汽车依托自研大模型精心打造的一款人工智能应用,旨在为用户提供一个随时在线的智能助手。它具备知识问答能力,能解答汽车、出行、财经、科技等领域的问题,并擅长英文词句翻译、文本生成等,助力用户学习生活。此外,它还具备视觉感知能力,可以陪伴用户和家庭一起看世界,识别外出游玩时遇到的各种事物。产品界面设计简洁大方,语音输入精准迅速,输出自然流畅,近似人声,是一款集知识问答、视觉识别和语音交互于一体的智能助手。
AI模型上构建的AI应用和网站平台
Agentplace是一个无需编码知识即可在AI模型上构建AI应用和网站平台。它利用AI的适应性、常识、知识和语音能力,允许用户完全通过文本编程。产品的主要优点包括动态用户界面、语音模式、常识理解和即时发布。Agentplace的背景信息显示,它旨在通过AI技术简化网站和应用的创建过程,使非技术用户也能轻松构建交互式和动态的网站。价格方面,Agentplace提供免费和付费两种定价计划,以满足不同用户的需求。
AI助手,通过语音和动画指导用户,提升网站交互体验。
Speek是一款AI驱动的助手,通过语音和动画鼠标指针指导用户在网站上的操作,帮助解答问题、引导用户了解网站功能,并简化购买决策。它通过提供实时帮助,结合支持和引导,快速安装并立即开始工作,改善用户体验,提升销售,并减少客户支持查询。
Google的AI助手,提升创造力与生产力。
Google Gemini是一款由Google开发的AI助手应用,旨在通过人工智能技术帮助用户提高创造力和生产力。它允许用户通过语音与应用交互,进行头脑风暴、简化复杂话题、为重要时刻排练等。Gemini能够连接用户喜爱的Google应用,如搜索、YouTube、Google Map、Gmail等,提供交互式视觉和现实世界示例,解锁专业知识,获取关于任何主题的定制信息。此外,它还能帮助用户更快速、更好地规划旅行,创建AI生成的图像,并提供摘要、深入研究和源链接。
多模态AI平台,整合文本、图像和音频交互
GPT-4o是OpenAI推出的先进多模态AI平台,它在GPT-4的基础上进一步扩展,实现了真正的多模态方法,涵盖文本、图像和音频。GPT-4o设计上更快、更低成本、更普及,彻底革新我们与AI互动的方式。它提供了流畅且直观的AI交互体验,无论是参与自然对话、解读复杂文本,还是识别语音中的微妙情感,GPT-4o的适应能力都是无与伦比的。
使用OpenAI实时API与文档进行语音聊天
voice-chat-pdf是一个基于LlamaIndex项目,使用Next.js构建的示例,它通过简单的RAG系统,允许用户通过语音与PDF文档进行交互。这个项目需要OpenAI API密钥来访问实时API,并在项目中生成文档的嵌入向量,以便进行语音交互。它展示了如何将先进的机器学习技术应用于提高文档交互的效率和便捷性。
低延迟的实时语音交互API
Realtime API 是 OpenAI 推出的一款低延迟语音交互API,它允许开发者在应用程序中构建快速的语音到语音体验。该API支持自然语音到语音对话,并可处理中断,类似于ChatGPT的高级语音模式。它通过WebSocket连接,支持功能调用,使得语音助手能够响应用户请求,触发动作或引入新上下文。该API的推出,意味着开发者不再需要组合多个模型来构建语音体验,而是可以通过单一API调用实现自然对话体验。
低延迟、高质量的端到端语音交互模型
LLaMA-Omni是一个基于Llama-3.1-8B-Instruct构建的低延迟、高质量的端到端语音交互模型,旨在实现GPT-4o级别的语音能力。该模型支持低延迟的语音交互,能够同时生成文本和语音响应。它在不到3天的时间内使用仅4个GPU完成训练,展示了其高效的训练能力。
© 2025 AIbase 备案号:闽ICP备08105208号-14