Google即将推出的AI视频模型,可通过聊天创建、编辑和混音视频。
Gemini Omni是Google即将推出的下一代AI视频模型,预计在2026年Google I/O大会发布。它将文本转视频、图像转视频、混音和对话式编辑四个工作流程统一在一个Gemini对话中,而不是使用四个独立的工具。该模型基于Veo系列,继承了Veo 3.1的原生音频、电影级运动和4 - 8秒剪辑质量。使用时需要消耗信用点,例如生成一个8秒、1080p分辨率的视频需要20个信用点。它的定位是覆盖完整的对话式视频创作循环,适用于多种视频创作场景,如教育、营销、企业培训等。
GPT Realtime 2可实现即时、自然的AI音频生成,支持文本转语音。
GPT Realtime 2是一款基于OpenRouter的AI音频生成和文本转语音API产品。其重要性在于为用户提供便捷、高效的语音生成解决方案。主要优点包括:具有六种自然、富有情感语调的AI语音,可即时生成音频;支持流式音频响应并提供转录反馈;拥有简单的REST API和多语言SDK,便于开发者集成。产品提供免费的演示模式,可在浏览器中直接测试,无需注册。真实的音频生成则通过用户配置的OpenRouter账户和模型路由进行计费。该产品定位为帮助团队快速实现语音生成,适用于多种场景,从原型设计到实际应用开发均可使用。
AI语音助手,语音输入比打字快10倍,支持多平台,可跨应用执行语音命令。
NovaVoice App是一款语音驱动的生产力辅助工具,适用于多种操作系统。它具有智能语音听写、文本格式转换、跨应用语音操作等功能。主要优点在于大幅提高输入效率,支持上下文感知的格式处理,能执行各种应用程序中的实际操作。产品背景是为满足用户在日常工作和生活中更高效输入和操作的需求而开发。价格方面,提供免费试用,还有月付和年付的付费计划,标准计划每月10美元,团队计划每个座位每月20美元。产品定位是成为用户的语音生产力副驾驶,帮助用户更高效地完成各种任务。
集AI音乐创作、语音转换等多功能于一体的音频工具平台
Lalals是一款基于领先AI技术的音频工具平台。其重要性在于为音乐创作者、音频处理人员等提供了一站式的音频处理解决方案。主要优点包括功能丰富多样,拥有1000多种AI语音,支持多种音频处理操作,处理速度快,能极大提高工作效率。产品背景是为满足音乐创作和音频处理领域不断增长的需求而开发。关于价格,文中提到可以免费开始使用,具体是否有付费模式未明确提及,定位是面向广大音乐创作者、音频爱好者等群体。
Conversaic助力对话式AI应用通过联盟推荐实现货币化。
Conversaic是一款专注于对话式AI应用联盟货币化的产品。其重要性在于为对话式AI产品提供了一种有效的盈利途径。主要优点包括提供清晰标注的赞助和联盟推荐,给予发布者一定的控制权,并且集成过程轻量级,对发布者的技术要求较低。该产品面向AI发布者,帮助他们将对话流量转化为收益。目前文档中未提及价格相关信息,推测可能有免费试用阶段,之后可能会根据使用情况收费。其定位是为对话式AI产品提供货币化解决方案,提升发布者的收入。
VoidMagic是AI语音创作平台,可克隆名人声音、定制语音。
VoidMagic是一款AI语音创作平台,运用尖端神经网络技术,将用户的声音想象变为现实。其重要性在于打破了传统语音创作的限制,为创作者提供了更多的可能性。主要优点包括:支持名人声纹复刻、全能声纹克隆,不仅能复制声音,还能创造带有情感、韵律与人格的语音;创作速度快,能将原本数周的工作在分钟内完成。产品背景信息暂未提及,价格相关信息未给出,它定位为服务全球创作者,助力他们实现音频梦想。
新一代 AI 原生浏览器,支持多 AI 模型,免费下载开启高效浏览
Tabbit 浏览器是由 LUMINALAB PTE LTD 推出的新一代 AI 原生浏览器,定位为提升用户浏览效率的生产力工具。它具有智能理解上下文的能力,支持 GLM - 5.1、DeepSeek - V3.2 等多个 AI 模型自由切换。产品适用于内容创作、科研学习、数据分析等场景,macOS 和 Windows 版均可免费下载使用。其主要优点在于能大幅提高用户处理网页信息的效率,减少重复性劳动,让用户更专注于核心工作。
VoiceDash是AI语音打字工具,可速将语音转为结构化文本,提升生产力。
VoiceDash是一款AI语音打字工具,它能将语音实时转化为结构化文本。重要性在于极大提升了文字输入效率,减少打字工作量。主要优点包括闪电般快速转录、智能文本编辑、能无缝集成到任何应用程序中。该产品对个人、创作者、开发者、领导者、产品经理、学生和残障人士都适用。价格方面,有免费试用版本,也有付费的基础版、专业版和团队版。基础版每月0美元,专业版每月15美元(年付12美元),团队版每月29美元(年付24美元)。
Mac语音优先应用,支持会议记录、语音笔记和听写,本地模式免费
Mumble AI是一款专为Mac设计的语音优先应用程序,支持会议记录、语音笔记和听写功能。它的重要性在于提供了一种高效、便捷的方式来记录和处理信息。主要优点包括支持云端和本地处理,本地模式下数据完全在设备上处理,无需传输,保障数据安全;处理速度比打字快5倍,提高工作效率;支持43种语言,并带有说话人标签和AI摘要。产品背景是为满足用户在会议记录、笔记整理等方面的需求而开发。价格方面,公测期间完全免费,公测后本地模式永久免费,云端模式有免费额度,高级功能和大量使用需付费。定位是为Mac用户提供一站式的会议记录和语音输入解决方案。
Readio可让用户用自然AI语音朗读网页、PDF和电子书,支持140+语言。
Readio是一款由AI驱动的文本转语音应用程序,它能够将文本转化为自然的语音。其重要性在于为用户提供了一种便捷的阅读方式,尤其适合需要长时间阅读或希望解放双手的人群。主要优点包括使用自然的OpenAI TTS语音,具有完美的语调;提供6种独特声音,支持50种语言;可在140种口音中朗读内容。产品背景方面,它从readio online迁移至readiolabs.org。价格上有免费试用和付费计划。定位是帮助用户实现免手持阅读,适用于学习和工作场景。
AI驱动的电话接听服务,24/7支持24种语言,实现智能客户沟通。
TeleIQ是一款由人工智能驱动的电话接听服务产品,它借助最新一代语音和对话式AI模型,实现了高度拟人化的沟通体验。其重要性在于能够帮助企业提升客户沟通效率和质量,确保不错过任何一个潜在客户。主要优点包括:24/7不间断服务、支持24种语言、能理解上下文和情感、交互自然流畅、设置简单无需技术背景。产品背景是为了解决企业在客户服务方面的痛点,如错过来电、服务不及时等。价格方面,提供免费试用,具体付费模式未提及。产品定位是为中小企业提供高效、智能的电话接听解决方案。
LPM 1.0是17B参数模型,实时生成全双工AI视频,低延迟身份一致。
LPM 1.0是一个拥有17B参数的扩散变压器(Diffusion Transformer),专为实时全双工对话式AI视频生成而设计。其主要优点包括低至0.35秒的延迟、身份一致的无限长度视频输出、跨任何角色风格的零样本泛化能力以及多模态条件控制等。背景方面,它是一个学术研究项目,目前没有开源或商业化产品计划。价格上,在发布周年度计划可享4折优惠,购买年度计划可以解锁优先队列并生成更多AI视频。该产品定位为先进的AI视频生成解决方案,为用户提供高效、高质量的视频生成体验。
KindredMind用克隆语音为痴呆症家人回电,基于模拟存在疗法,温暖贴心
KindredMind是一款专为痴呆症家庭设计的语音陪伴产品。它基于模拟存在疗法,按照阿尔茨海默病协会的沟通准则设计,采用验证疗法协议。该产品由加拿大的一位护理人员开发,注重隐私保护,采用AES 256加密,数据绝不出售。它能有效缓解痴呆症患者的分离焦虑,减轻护理人员的压力。价格为179加元,提供45天免费试用和30天退款保证。其定位是为加拿大和美国的痴呆症家庭提供支持,帮助他们更好地应对痴呆症带来的挑战。
实时语音翻译器,支持60+语言,用于会议、活动、直播,可免费试用。
Palabra.ai是一款基于AI技术的实时语音翻译工具。其重要性在于打破语言障碍,让不同语言的人能够顺畅交流。主要优点包括支持60多种语言、实时翻译、适用于多种场景(如会议、活动、直播等)。产品背景未提及。价格方面可免费试用。定位是满足跨语言交流需求的高效翻译工具。
VoiceOS语音操作,免切换应用,提升10倍工作效率
VoiceOS是一款支持语音操作的桌面客户端产品,其核心功能是通过语音指令实现跨应用操作,消除应用间的频繁切换,从而让用户能够将更多的注意力集中在工作上,大幅提升工作效率。该产品强调用户数据隐私,用户可自主决定数据存储方式,音频除非用户主动选择分享,否则不会存储在服务器上。价格方面,提供免费版本,适合试用,有每月10美元的专业版以及定制的企业版,分别面向不同需求的用户群体。
24/7 AI前台语音代理,实时接听、筛选来电、预约会议并同步CRM
AI Front Desk Voice Agent(简称AVA)是一款24小时不间断服务的人工智能语音代理产品。它的重要性在于能够让企业不会错过任何一个潜在客户的来电,提高电话沟通效率。其主要优点包括能立即接听来电、精准筛选来电者、帮助预约会议以及将所有信息自动记录到CRM系统,避免潜在客户的流失。从产品背景来看,随着市场竞争加剧,企业需要更高效的客户服务方式,AVA应运而生。关于价格,页面未提及具体定价,但可能提供免费试用机会。该产品主要定位于需要高效电话沟通和客户管理的企业,帮助他们提升客户服务质量和销售业绩。
专业AI面试助手,提供实时语音识别、智能回答生成等功能,提升面试成功率。
即答侠(HireMe AI)是专业的AI面试助手平台,致力于帮助求职者提升面试成功率。它提供实时语音识别、智能回答生成、简历优化等功能,支持中英文面试辅导。该产品的主要优点包括95%的识别准确率、<1秒的响应速度。其背景是为了满足求职者在面试过程中的需求,提供有效的辅助工具。价格方面,有免费版、基础版、专业版等多种选择,灵活定价,按需付费。定位是成为求职者面试的得力助手。
© 2026 AIbase 备案号:闽ICP备08105208号-14