Matrix Game 2提供实时交互式世界生成。
Matrix Game 2是一个实时交互式世界生成平台,利用先进的Matrix-Game 2 AI技术构建、探索和玩耐人的AI生成环境。该平台提供即时访问,为用户创造出与动态响应玩家互动的世界。
使用 AI 轻松构建网页,快速将创意变为美丽网站。
Deamoy 是一款创新的 AI 网页构建工具,旨在帮助用户轻松将创意转化为专业设计的网页。它适合从个人爱好项目到中大型企业需求的各类用户,提供了多种定价方案,免费版本适合爱好者,付费版本则满足专业需求。Deamoy 的设计快速且高效,用户可以通过可视化编辑工具和 AI 智能助手,迅速实现网页的构建与修改。
通过文本提示生成交互式AI世界。
Genie 3 World是一个基于AI技术的创新性交互式世界生成工具,可以通过简单的文本提示生成令人沉浸的3D环境,适用于训练、教育和娱乐应用。其主要优点在于实时物理仿真、动态天气和AI角色响应能力。
通过文本提示生成交互式环境的AI世界模型。
Genie 3是一种通过文本提示生成交互式环境的AI世界模型。它在AI领域具有革命性意义,能以24 FPS的速度生成具有720p分辨率的世界,并保持物理一致性。
无需开发人员,即可从提示到您的网站,转换时间不超过分钟。
Embeddable - 交互式工具构建器是一个让您可以快速构建交互式工具的平台。它为营销人员提供了在短时间内在网站上集成交互式工具的能力,无需依赖开发人员。通过简单的操作,您可以快速创建多种交互式工具,增强用户体验和提高转化率。
Browserfly是一个生产力工具,是一个AI代理,可在浏览器中执行任务。
Browserfly是一个AI代理,可以像人类一样与浏览器进行交互。它能够完成任务、搜索信息、总结内容,并根据您的指令自动操作网页。
一个人性化的多代理系统,自动化网络任务。
Magentic-UI 是一个基于多代理系统的研究原型,允许用户通过透明且可控的界面进行网络浏览和任务自动化。其主要优势在于能够提高人机交互的效率,同时为用户提供对自动化过程的控制。该产品适用于需要在网络上执行复杂任务的用户支持多种操作和自定义设置。
提高产品采纳率,部署我们的AI语音代理,作为专业的采纳专家,引领用户从入门到领悟。
Overhyped AI是一种AI语音代理,旨在提高产品采纳率。它通过个性化引导,提供从用户启动到实现关键体验的专业指导,帮助用户快速掌握产品的核心功能,增加用户粘性。
强大的模型上下文协议 (MCP) 服务器,提供实时网页数据访问解决方案。
Bright Data MCP 是一种强大的模型上下文协议服务器,允许 AI 代理和应用程序实时访问和提取网页数据。其主要优点包括能够绕过地理限制和网站检测,提供无阻碍的网络数据访问,极大地增强了 AI 在数据采集和信息检索方面的能力。该产品定位于为需要实时、可靠网页数据的商业用户提供支持,定价为按需计费,新用户可获得免费试用额度。
AI 图像生成进入 “毫秒级” 时代,速度快、质量高。
腾讯混元图像 2.0 是腾讯最新发布的 AI 图像生成模型,显著提升了生成速度和画质。通过超高压缩倍率的编解码器和全新扩散架构,使得图像生成速度可达到毫秒级,避免了传统生成的等待时间。同时,模型通过强化学习算法与人类美学知识的结合,提升了图像的真实感和细节表现,适合设计师、创作者等专业用户使用。
强大的网页抓取能力,支持多种客户端。
Firecrawl MCP Server 是一款集成了强大网页抓取功能的插件,支持多种 LLM 客户端如 Cursor 和 Claude。它能高效地抓取、搜索和提取网页内容,并提供自动重试及流量限制等功能,适合开发者和研究人员使用。该产品具有高度的灵活性与可扩展性,可用于批量抓取和深度研究。
将 MCP 集成到 ChatGPT 等 AI 平台的 Chrome 扩展。
MCP SuperAssistant 是一个 Chrome 扩展,集成了模型上下文协议(MCP)工具,使用户能够直接从 AI 平台执行 MCP 工具,并将结果插入对话中。这项技术提高了基于 Web 的 AI 助手的功能,支持多种 AI 平台,为用户提供便捷的数据交互方式。
基于Gemini 2.0的机器人模型,将AI带入物理世界,具备视觉、语言和动作能力。
Gemini Robotics是Google DeepMind推出的一种先进的人工智能模型,专为机器人应用而设计。它基于Gemini 2.0架构,通过视觉、语言和动作(VLA)的融合,使机器人能够执行复杂的现实世界任务。该技术的重要性在于它推动了机器人从实验室走向日常生活和工业应用的进程,为未来智能机器人的发展奠定了基础。Gemini Robotics的主要优点包括强大的泛化能力、交互性和灵巧性,使其能够适应不同的任务和环境。目前,该技术处于研究和开发阶段,尚未明确具体的价格和市场定位。
一个用于生成对话式语音的模型,支持从文本和音频输入生成高质量的语音。
CSM 是一个由 Sesame 开发的对话式语音生成模型,它能够根据文本和音频输入生成高质量的语音。该模型基于 Llama 架构,并使用 Mimi 音频编码器。它主要用于语音合成和交互式语音应用,例如语音助手和教育工具。CSM 的主要优点是能够生成自然流畅的语音,并且可以通过上下文信息优化语音输出。该模型目前是开源的,适用于研究和教育目的。
通过趣味挑战帮助用户养成健康习惯并建立有意义的社交联系。
Habfun 是一款旨在通过互动挑战帮助用户养成健康习惯并建立社交联系的移动应用。它基于创始人 Sam Ryan 的理念,通过小而持续的习惯改变来实现长期的个人成长。该应用结合了社交互动和 AI 驱动的挑战,旨在帮助用户在家庭、朋友、事业、健康和精神刺激五个方面建立平衡的生活方式。Habfun 通过社区支持和挑战活动,鼓励用户以有趣的方式实现目标,适合那些希望改善生活质量并结识志同道合的人。
MeshPad 是一款基于草图输入的交互式艺术化网格生成与编辑工具。
MeshPad 是一种创新的生成式设计工具,专注于从草图输入创建和编辑 3D 网格模型。它通过简单的草图操作实现复杂的网格生成与编辑,为用户提供了直观且高效的 3D 建模体验。该工具基于三角形序列网格表示法,并利用大型 Transformer 模型实现网格的添加和删除操作,同时通过顶点对齐的预测策略显著降低计算成本,使每次编辑仅需几秒钟。MeshPad 在网格质量上超越了现有的草图条件网格生成方法,其在感知评估中也获得了用户的高度认可。它主要面向设计师、艺术家以及需要快速进行 3D 建模的用户,帮助他们以更直观的方式创建艺术化设计。
主流对话式 Voice Agent开源框架,让 AI 能听能说
TEN Agent 是基于 TEN 框架构建的实时对话 AI引擎,为开发者提供快速、高效的工具来构建实时对话式 AI Agent,如AI虚拟客服、AI 口语陪练、AI 情感陪伴、AI 个人助理等。 TEN Agent 目前已集成 DeepSeek、Gemini 2.0、OpenAI Realtime、Qwen、RTC 等多种模型及组件,同时适配 Dify、Coze 主流编排工具,并且支持 ESP 32,快速让你的 AI bot 能听能说。
Proxy Lite 是一款开源的 3B 参数视觉语言模型(VLM),专注于网页自动化任务。
Proxy Lite 是 Convergence AI 推出的一款开源模型,具有强大的网页自动化能力。它通过独特的三步响应机制(观察、思考、工具调用)实现高效的网页交互,显著提升了任务的成功率和效率。该模型在 WebVoyager 任务中表现出色,仅使用少量计算资源就能达到顶尖水平。其开源特性使得开发者和研究人员可以自由使用、改进和扩展,推动了开源社区在自动化领域的进步。
下一代情感智能的对话视频界面,让AI交互更自然、更人性。
Conversational Video Interface(CVI)是Tavus推出的一种情感智能对话视频界面。它通过Phoenix-3、Raven-0和Sparrow-0三个模型协同工作,赋予AI真正的人类感知、倾听、理解和实时互动能力。CVI不仅是一个工具,更是一种全新的人机沟通方式,可应用于医疗、心理健康、销售培训、客户服务等多个领域,具有无限的使用场景。其背后的技术突破在于将人类对话的细微情感和节奏融入AI交互中,使AI不再是简单的回应,而是能思考、反应并改变我们与机器的互动方式。
Pig 是一款通过 AI 技术实现 Windows 应用程序自动化的生产力工具。
Pig 是一款专注于通过 AI 技术实现 Windows 应用程序自动化的工具。它通过自然语言交互界面,让用户无需编写代码即可快速构建复杂的工作流程。Pig 的核心优势在于其强大的 AI 能力,能够模拟人类操作行为,如点击、输入和截图等,从而实现对 Windows 应用的精准控制。此外,Pig 提供了低代码的 SDK,支持开发者构建更高级的自动化解决方案。该产品主要面向需要提高工作效率的企业和个人用户,尤其是那些希望减少重复性任务的用户。Pig 的价格和具体定位尚未明确,但从其功能来看,它可能更适合企业级用户,用于实现业务流程的自动化。
© 2025 AIbase 备案号:闽ICP备08105208号-14