一个人性化的多代理系统,自动化网络任务。
Magentic-UI 是一个基于多代理系统的研究原型,允许用户通过透明且可控的界面进行网络浏览和任务自动化。其主要优势在于能够提高人机交互的效率,同时为用户提供对自动化过程的控制。该产品适用于需要在网络上执行复杂任务的用户支持多种操作和自定义设置。
提高产品采纳率,部署我们的AI语音代理,作为专业的采纳专家,引领用户从入门到领悟。
Overhyped AI是一种AI语音代理,旨在提高产品采纳率。它通过个性化引导,提供从用户启动到实现关键体验的专业指导,帮助用户快速掌握产品的核心功能,增加用户粘性。
一个基于 AI 的电影制作工具,助力创作。
Flow 是一个为创作者打造的 AI 电影制作工具,利用 Google DeepMind 的先进模型,用户可以轻松创建出色的电影片段、场景和故事。该工具提供了无缝的创作体验,支持用户自定义资产,或在 Flow 中生成内容。定价上,Google AI Pro 和 Google AI Ultra 两个计划提供不同的功能,适合不同需求的用户。
AI 图像生成进入 “毫秒级” 时代,速度快、质量高。
腾讯混元图像 2.0 是腾讯最新发布的 AI 图像生成模型,显著提升了生成速度和画质。通过超高压缩倍率的编解码器和全新扩散架构,使得图像生成速度可达到毫秒级,避免了传统生成的等待时间。同时,模型通过强化学习算法与人类美学知识的结合,提升了图像的真实感和细节表现,适合设计师、创作者等专业用户使用。
将 MCP 集成到 ChatGPT 等 AI 平台的 Chrome 扩展。
MCP SuperAssistant 是一个 Chrome 扩展,集成了模型上下文协议(MCP)工具,使用户能够直接从 AI 平台执行 MCP 工具,并将结果插入对话中。这项技术提高了基于 Web 的 AI 助手的功能,支持多种 AI 平台,为用户提供便捷的数据交互方式。
AI Frame是一个针对Framer的AI网站构建工具和内容生成器,帮助您自动化繁琐的工作,让您设计更智能更快速,专注于创意过程。
AI Frame是一个AI网站构建工具和内容生成器,旨在帮助用户自动化繁琐的工作,提高设计效率。其主要优点包括智能化设计、快速生成响应式网页、定制化文字生成等功能。AI Frame背景信息丰富,价格合理,定位于为设计师和创意人士提供优质的工具。
Revyme是一款强大的网站构建工具,旨在为那些希望在不编写代码的情况下打造视觉令人惊叹、富有动画的网站的创作者提供支持。
Revyme是一个让创作者能够轻松创建视觉效果丰富的动画网站的工具。其灵活性和丰富的元素库使用户能够在不需要编写代码的情况下定制网站。Revyme的主要优点包括丰富的动画效果、响应式设计、定制化程度高。
AI技术生成实时跟进的对话式调查
Duonut AI通过AI技术生成实时跟进的对话式调查,利用人工智能代理进行和总结数百次对话,适用于概念测试、客户反馈和市场研究。产品背景信息详尽,价格合理定位适用于企业和个人用户。
Roblox Foundation Model for 3D Intelligence。
Cube 是一个强大的 3D 智能生成模型,旨在帮助开发者在 Roblox 平台上创建各种 3D 资产和场景。该模型具备生成 3D 对象、角色动画绑定及程序脚本生成等功能。它的出现将极大地提升创作者的生产效率,激发更多的创意,帮助用户以更快的速度构建出丰富的 3D 体验。当前版本已经开放源代码,旨在与研究社区共享,以推进 3D 智能的发展。适用于各种规模的开发者和创作者,支持实验与创新,推动负责任的使用。
基于Gemini 2.0的机器人模型,将AI带入物理世界,具备视觉、语言和动作能力。
Gemini Robotics是Google DeepMind推出的一种先进的人工智能模型,专为机器人应用而设计。它基于Gemini 2.0架构,通过视觉、语言和动作(VLA)的融合,使机器人能够执行复杂的现实世界任务。该技术的重要性在于它推动了机器人从实验室走向日常生活和工业应用的进程,为未来智能机器人的发展奠定了基础。Gemini Robotics的主要优点包括强大的泛化能力、交互性和灵巧性,使其能够适应不同的任务和环境。目前,该技术处于研究和开发阶段,尚未明确具体的价格和市场定位。
一个用于生成对话式语音的模型,支持从文本和音频输入生成高质量的语音。
CSM 是一个由 Sesame 开发的对话式语音生成模型,它能够根据文本和音频输入生成高质量的语音。该模型基于 Llama 架构,并使用 Mimi 音频编码器。它主要用于语音合成和交互式语音应用,例如语音助手和教育工具。CSM 的主要优点是能够生成自然流畅的语音,并且可以通过上下文信息优化语音输出。该模型目前是开源的,适用于研究和教育目的。
通过趣味挑战帮助用户养成健康习惯并建立有意义的社交联系。
Habfun 是一款旨在通过互动挑战帮助用户养成健康习惯并建立社交联系的移动应用。它基于创始人 Sam Ryan 的理念,通过小而持续的习惯改变来实现长期的个人成长。该应用结合了社交互动和 AI 驱动的挑战,旨在帮助用户在家庭、朋友、事业、健康和精神刺激五个方面建立平衡的生活方式。Habfun 通过社区支持和挑战活动,鼓励用户以有趣的方式实现目标,适合那些希望改善生活质量并结识志同道合的人。
MeshPad 是一款基于草图输入的交互式艺术化网格生成与编辑工具。
MeshPad 是一种创新的生成式设计工具,专注于从草图输入创建和编辑 3D 网格模型。它通过简单的草图操作实现复杂的网格生成与编辑,为用户提供了直观且高效的 3D 建模体验。该工具基于三角形序列网格表示法,并利用大型 Transformer 模型实现网格的添加和删除操作,同时通过顶点对齐的预测策略显著降低计算成本,使每次编辑仅需几秒钟。MeshPad 在网格质量上超越了现有的草图条件网格生成方法,其在感知评估中也获得了用户的高度认可。它主要面向设计师、艺术家以及需要快速进行 3D 建模的用户,帮助他们以更直观的方式创建艺术化设计。
主流对话式 Voice Agent开源框架,让 AI 能听能说
TEN Agent 是基于 TEN 框架构建的实时对话 AI引擎,为开发者提供快速、高效的工具来构建实时对话式 AI Agent,如AI虚拟客服、AI 口语陪练、AI 情感陪伴、AI 个人助理等。 TEN Agent 目前已集成 DeepSeek、Gemini 2.0、OpenAI Realtime、Qwen、RTC 等多种模型及组件,同时适配 Dify、Coze 主流编排工具,并且支持 ESP 32,快速让你的 AI bot 能听能说。
Proxy Lite 是一款开源的 3B 参数视觉语言模型(VLM),专注于网页自动化任务。
Proxy Lite 是 Convergence AI 推出的一款开源模型,具有强大的网页自动化能力。它通过独特的三步响应机制(观察、思考、工具调用)实现高效的网页交互,显著提升了任务的成功率和效率。该模型在 WebVoyager 任务中表现出色,仅使用少量计算资源就能达到顶尖水平。其开源特性使得开发者和研究人员可以自由使用、改进和扩展,推动了开源社区在自动化领域的进步。
下一代情感智能的对话视频界面,让AI交互更自然、更人性。
Conversational Video Interface(CVI)是Tavus推出的一种情感智能对话视频界面。它通过Phoenix-3、Raven-0和Sparrow-0三个模型协同工作,赋予AI真正的人类感知、倾听、理解和实时互动能力。CVI不仅是一个工具,更是一种全新的人机沟通方式,可应用于医疗、心理健康、销售培训、客户服务等多个领域,具有无限的使用场景。其背后的技术突破在于将人类对话的细微情感和节奏融入AI交互中,使AI不再是简单的回应,而是能思考、反应并改变我们与机器的互动方式。
AI Mode 是谷歌搜索中的一项实验性生成式 AI 功能,可帮助用户解决复杂问题。
AI Mode 是谷歌搜索中的一项实验性功能,基于 Gemini 2.0 模型开发。它通过高级推理和多模态能力,为用户提供更深入、更全面的搜索结果。该功能旨在帮助用户更高效地处理复杂的多部分问题,并通过实时数据和知识图谱提供高质量的响应。AI Mode 的推出体现了谷歌在提升搜索体验方面的持续创新,同时也展示了生成式 AI 在信息检索中的应用潜力。
Pig 是一款通过 AI 技术实现 Windows 应用程序自动化的生产力工具。
Pig 是一款专注于通过 AI 技术实现 Windows 应用程序自动化的工具。它通过自然语言交互界面,让用户无需编写代码即可快速构建复杂的工作流程。Pig 的核心优势在于其强大的 AI 能力,能够模拟人类操作行为,如点击、输入和截图等,从而实现对 Windows 应用的精准控制。此外,Pig 提供了低代码的 SDK,支持开发者构建更高级的自动化解决方案。该产品主要面向需要提高工作效率的企业和个人用户,尤其是那些希望减少重复性任务的用户。Pig 的价格和具体定位尚未明确,但从其功能来看,它可能更适合企业级用户,用于实现业务流程的自动化。
© 2025 AIbase 备案号:闽ICP备08105208号-14