实时字幕和语音输入,适用于桌面端各类对话,支持翻译和多语言。
Caption.IM是一款来自法国的桌面端应用,提供实时字幕和语音输入功能。其核心技术为AI驱动的转录和翻译,能在不同应用场景中准确识别语音并转化为文字,还可实时翻译。主要优点包括高精度(98%准确率)、保障隐私(本地处理音频)、支持多语言(100种语言用于实时翻译)以及系统级音频捕获。价格方面,有免费版、9.9欧元/月的专业版和企业定制版,定位为满足从个人到企业不同用户的沟通需求,帮助打破语言障碍,提升信息获取和交流的效率。
PUNK可远程控制笔记本上的Claude Code,在手机上操作本地代理。
PUNK是一款用于远程控制笔记本上Claude Code的应用程序。其重要性在于打破了传统工具将执行和控制集中于一处的模式,将执行和控制分离。主要优点包括可随时随地通过手机控制本地的Claude Code,提高工作效率,不受设备和地点的限制。产品背景是为了满足开发者在不同场景下对代码操作的便捷需求。目前暂未提及价格信息,定位为面向开发者的生产力工具。
FineVoice可将文本转换为超1500种逼真AI语音,支持风格、速度等多方面自定义。
FineVoice文本转语音是一款强大的AI语音生成平台核心技术。它能实现超逼真、上下文感知的语音合成和精确的声音克隆,支持多种语音模型和情感标签。产品优势在于可快速处理文本转语音,实现精准动态的情感控制,自定义语音设置,闪电般快速转换,输出高质量音频,拥有1500种免费AI语音,支持灵活的文本输入。该产品受领先企业和媒体信赖,定位为让专业语音技术人人可用,价格方面可获取免费额度,也有相关定价方案。
Nano Banana 2是快速AI图像生成与编辑器,可秒级创建、编辑和增强图像。
Nano Banana 2是一款基于Gemini 3 1 Flash的先进图像生成与编辑工具,结合了Nano Banana Pro的高级特性与快速生成能力。它具有快速生成、先进世界知识、精确文本处理和增强创意控制等优点,适用于从社交视觉到营销资产等多种场景,为专业人士和普通用户提供高质量的图像创作体验。页面未提及具体价格信息。
PA广播与姓名播报自动化,支持国际姓名播报和自动多语言翻译
EasyAnnounce 是一款专注于自动化语音通知的产品,主要应用于机场、医院等场所。其核心技术在于专用姓名 AI 发音模型和专业音频处理流程,能有效解决人工播报不统一以及 AI 语音助手误读生僻或国际姓名的问题。该产品的重要性在于提升了现场语音通知和 AI 语音助手的清晰度与准确性。主要优点包括减少重复呼叫和姓名重播,提升旅客理解率,支持多语言播报,覆盖更多客户群体,自动化流程更可靠等。价格方面,提供免费试用。产品定位为满足各类需要现场姓名呼叫或语音通知的组织,以及希望优化姓名播报的 AI 语音助手用户。
上传图片与运动参考视频,生成逐帧精准、角色一致的电影级视频。
Kling 2.6 Motion Control是一款强大的AI运动控制视频生成器,由Kling 2.6引擎驱动。该产品的主要优点在于精准的运动迁移技术,能够实现逐帧精准控制,保持卓越的角色一致性,输出照片级真实的高清视频。其架构能提供1080p输出,具有物理精准的光照、流畅纹理和真实物理效果,媲美传统CGI渲染。此外,它还能轻松驾驭复杂动作,快速生成视频,支持电影级镜头运动。该产品受到全球50000名创作者的信赖。价格方面,有入门版、专业版和旗舰版三种付费方案可供选择,按年付费可节省20%。它主要定位于电影制作人、内容创作者、工作室以及营销机构等专业人士和高频用户。
Speakoala可将网页和本地文档转为自然语音,支持多语言
Speakoala是一款文字转语音(TTS)插件,可将网页、本地文档等内容以自然逼真的语音朗读出来。它支持70多种语言,包括英语、中文、日语等。其主要优点在于提供自然的语音、多语言支持、多种播放方式(如选区域、选文本播放)。产品免费版提供机器人语音,升级到付费版每月4.99美元可获得数十种自然语音。该产品定位于辅助用户在忙碌时或需要减少视觉疲劳时能够轻松获取文字信息,适用于通勤、锻炼等场景。
支持23种语言,63+自然AI语音,可克隆语音,离线桌面使用,每月9美元起。
Vois是一款专业的AI语音工作室,可在桌面离线运行。其重要性在于提供了便捷、高效且高质量的语音生成解决方案。主要优点包括支持23种语言、拥有63种以上自然AI语音、可克隆语音、具备专业音频处理、无字符使用限制等。该产品背景是为满足创作者对于高质量语音生成的需求而开发。价格从每月9美元起,定位是为创作者提供专业的语音生成工具,适用于多种场景,如播客、有声读物、视频等内容的制作。
ZeroClaw是本地私人AI助理,可连多平台,数据不离开本地,无云无订阅。
ZeroClaw是一款由ZeroClaw Labs开发的私人AI助理,它能够100%在本地机器上运行,无需依赖云端服务。其重要性在于为用户提供了高度的数据隐私保护,用户数据不会离开自己的计算机,避免了数据泄露风险。该产品采用Rust语言开发,具有轻量级、高性能的特点,典型内存占用小于5MB,在低端硬件上也能实现近即时启动,冷启动时间小于10ms。它的定位是为个人用户和企业团队提供一个安全、高效、可定制的AI助理解决方案,且无需订阅费用,完全免费使用。
免费的一体化AI视频与图像生成器,可创电影级内容。
Klingaio是全球领先的统一AI视频与图像生成器,将业内顶级模型聚合到一个无缝工作流中。它集成了Kling 3.0、Seedance 2.0等多种模型,能创建具有原生音频和精准控制的电影级1080p内容。其优势在于多模型切换、精准控制、视听同步等,可减少生成漂移和元素不匹配问题。产品定位为一站式AI视频与图像创作平台,价格方面未提及是否付费,推测可能有免费和付费模式,有免费使用的宣传。
AI驱动学习平台,可按需生成含幻灯片、测验的互动课程,支持进度跟踪。
didacu是一个由人工智能驱动的学习平台,其重要性在于打破传统学习模式的限制,利用先进的AI技术为用户提供高效、个性化的学习体验。主要优点包括快速生成课程、互动性强、多语言支持等。产品背景源于对高效学习工具的需求,旨在帮助不同类型的学习者更轻松地掌握知识。目前可在didacu.com免费开始使用,其定位是为学生、专业人士等各类学习者提供便捷的学习解决方案。
Banana 2是由Nano Banana 2驱动的AI图像生成器,可创建4K视觉效果。
Banana 2是一款由Nano Banana 2提供支持的AI图像和视频生成平台。其重要性在于为用户提供了便捷、高效且高质量的内容创作方式。主要优点包括:生成速度快,约每秒生成一张图像;支持原生4K分辨率和16位色彩深度;文本渲染近乎完美、跨图像保持角色一致。背景信息方面,它是独立产品,不与谷歌等AI模型提供商关联,通过自定义接口访问AI模型。价格上,提供免费每日积分用于图像生成,也有可负担的订阅计划。定位是满足个人和专业工作流的内容创作需求。
ToolSpend可跨供应商跟踪AI支出,避免浪费,实时查看成本趋势。
ToolSpend是一款用于跨供应商跟踪AI支出的工具。它的重要性在于能帮助企业避免AI预算的浪费,防止意外账单的产生,让企业对AI支出有全面的可见性。主要优点包括实时跟踪AI支出、提供准确的成本数据、具备异常检测和预测功能等。产品背景是为了满足企业在管理AI成本方面的需求。价格方面,有14天免费试用,专业计划每月39.99美元,按年订阅可节省25%。该产品定位为面向创始人、开发者和财务团队等,帮助他们更好地管理LLM成本。
由Gemini 3 Pro驱动的AI图像生成平台,可秒速生成4K图像。
Nano Banana Pro是谷歌基于Gemini 3 Pro打造的先进AI图像生成平台。其重要性在于为创作者和专业人士提供了强大的图像生成能力。主要优点包括先进的文本渲染,能精确呈现多语言文本;支持高达4K的分辨率,可快速生成高质量图像;具备专业的创意控制选项,能满足多样化的视觉需求;可进行复杂场景合成,保持画面元素的一致性。该产品有基础、专业、高级三种付费套餐,分别面向个人轻量用户、专业创作者和团队、大型团队和工作室。
Seedance 2.0可从图像和文本创建惊艳AI视频,具备高级运动合成与专业输出。
Seedance 2.0是字节跳动推出的先进AI视频生成工具。它凭借前沿的AI视频生成技术,能实现高达2K的电影级画质,支持多镜头叙事和自然运动合成。该产品定位为满足创作者、营销人员和电影制作人等专业人士的视频创作需求。在价格方面,生成一个视频需80积分,属于付费使用。其主要优点包括能够快速从文本或图像生成专业视频,支持多语言唇形同步,提供多种画面比例,理解复杂提示,风格灵活多样等。
开源个人AI助理,本地运行,支持多平台控制,可自动化多项任务。
Clawd Bot是一款开源的个人AI助理,可在本地机器上运行。它具有多种强大功能,可以通过WhatsApp、Telegram、Discord等多种聊天应用进行控制。其主要优点包括拥有持久内存、可进行浏览器控制、系统访问等,并且支持技能和插件扩展,能无限定制。数据默认保存在本地,保障用户隐私。该产品免费使用,仅在使用云模型如Claude、GPT等时需要支付API费用,本地模型则完全免费。产品定位为帮助用户提高生产力,自动处理各种日常任务。
Seedance 2.0可快速生成2K画质AI视频,支持多模态输入与编辑。
Seedance 2.0是一款先进的AI视频生成产品。它具有多模态输入能力,允许用户自由组合图像、视频、音频和文本进行创作。主要优点在于能够提供高达2K的电影级画质,支持多镜头叙事,实现自然的动作合成,确保视频中角色和风格的一致性。产品定位为创作者、营销人员和电影制作人提供专业的视频生成解决方案。目前有限时优惠,年度计费可节省50%,价格模式为付费。
Lyria 3可将文本、图像和视频上下文转化为30秒音乐片段,具备多种优势。
Lyria 3是Google DeepMind Lyria家族于2026年2月18日在Gemini中推出的最新模型。它的重要性在于推动了AI音乐生成领域的发展,能将文本、图像、视频上下文转化为音乐。其主要优点包括可自动生成歌词、歌曲结构更连贯、短格式输出质量更高、支持更丰富的多模态控制。产品背景上,Lyria始于2023年的YouTube Shorts音乐创作,Lyria 2在2024年改进了乐器处理和和声连贯性。价格方面,有免费使用但有计划限制,还有Plus、Pro和Ultra付费层级,付费层级有更高的生成上限。产品定位为面向消费者的音乐生成模型,而Lyria 2则是企业API路径。
© 2026 AIbase 备案号:闽ICP备08105208号-14