Proxy Lite 是一款开源的 3B 参数视觉语言模型(VLM),专注于网页自动化任务。
Proxy Lite 是 Convergence AI 推出的一款开源模型,具有强大的网页自动化能力。它通过独特的三步响应机制(观察、思考、工具调用)实现高效的网页交互,显著提升了任务的成功率和效率。该模型在 WebVoyager 任务中表现出色,仅使用少量计算资源就能达到顶尖水平。其开源特性使得开发者和研究人员可以自由使用、改进和扩展,推动了开源社区在自动化领域的进步。
低占用、快速且可私有部署的免费版离线翻译服务器。
MTranServer 是一个专注于低资源消耗和快速响应的离线翻译服务器。它基于高效的翻译模型和优化的后端架构,能够在普通硬件上实现快速的翻译服务。该产品的主要优点是资源占用低(仅需1G内存即可运行),无需显卡支持,同时翻译速度极快,单个请求平均响应时间仅50ms。它适用于需要在本地环境中进行快速翻译的用户和企业,尤其适合对隐私和数据安全有较高要求的场景。产品完全免费,支持多种语言的翻译,是 Google Translate 的一个优秀的私有化替代方案。
Pig 是一款通过 AI 技术实现 Windows 应用程序自动化的生产力工具。
Pig 是一款专注于通过 AI 技术实现 Windows 应用程序自动化的工具。它通过自然语言交互界面,让用户无需编写代码即可快速构建复杂的工作流程。Pig 的核心优势在于其强大的 AI 能力,能够模拟人类操作行为,如点击、输入和截图等,从而实现对 Windows 应用的精准控制。此外,Pig 提供了低代码的 SDK,支持开发者构建更高级的自动化解决方案。该产品主要面向需要提高工作效率的企业和个人用户,尤其是那些希望减少重复性任务的用户。Pig 的价格和具体定位尚未明确,但从其功能来看,它可能更适合企业级用户,用于实现业务流程的自动化。
Wan2GP 是一个优化后的开源视频生成模型,专为低配置 GPU 用户设计,支持多种视频生成任务。
Wan2GP 是基于 Wan2.1 的改进版本,旨在为低配置 GPU 用户提供高效、低内存占用的视频生成解决方案。该模型通过优化内存管理和加速算法,使得普通用户也能在消费级 GPU 上快速生成高质量的视频内容。它支持多种任务,包括文本到视频、图像到视频、视频编辑等,同时具备强大的视频 VAE 架构,能够高效处理 1080P 视频。Wan2GP 的出现降低了视频生成技术的门槛,使得更多用户能够轻松上手并应用于实际场景。
这是一个基于HunyuanVideo模型的适配器,用于基于关键帧的视频生成。
HunyuanVideo Keyframe Control Lora 是一个针对HunyuanVideo T2V模型的适配器,专注于关键帧视频生成。它通过修改输入嵌入层以有效整合关键帧信息,并应用低秩适配(LoRA)技术优化线性层和卷积输入层,从而实现高效微调。该模型允许用户通过定义关键帧精确控制生成视频的起始和结束帧,确保生成内容与指定关键帧无缝衔接,增强视频连贯性和叙事性。它在视频生成领域具有重要应用价值,尤其在需要精确控制视频内容的场景中表现出色。
Cloudflare 推出的用于构建 AI 代理的平台,支持高效自动化任务执行。
Cloudflare AI Agents 是一个基于 Cloudflare Workers 和 Workers AI 的平台,旨在帮助开发者构建能够自主执行任务的 AI 代理。该平台通过提供 agents-sdk 和其他工具,使开发者能够快速创建、部署和管理 AI 代理。其主要优势在于低延迟、高可扩展性和成本效益,同时支持复杂任务的自动化和动态决策。Cloudflare 的全球分布式网络和 Durable Objects 技术为 AI 代理提供了强大的基础支持。
DeepEP 是一个针对 Mixture-of-Experts 和专家并行通信的高效通信库。
DeepEP 是一个专为混合专家模型(MoE)和专家并行(EP)设计的通信库。它提供了高吞吐量和低延迟的全连接 GPU 内核,支持低精度操作(如 FP8)。该库针对非对称域带宽转发进行了优化,适合训练和推理预填充任务。此外,它还支持流处理器(SM)数量控制,并引入了一种基于钩子的通信-计算重叠方法,不占用任何 SM 资源。DeepEP 的实现虽然与 DeepSeek-V3 论文略有差异,但其优化的内核和低延迟设计使其在大规模分布式训练和推理任务中表现出色。
Langflow 是一个低代码 AI 构建工具,用于快速开发强大的 AI 代理和工作流。
Langflow 是一款面向开发者的低代码工具,专注于简化 AI 代理和工作流的构建过程。它允许开发者通过可视化界面快速搭建复杂的 AI 应用,支持多种 API、模型和数据库的集成。该工具通过提供丰富的预构建组件和可定制化选项,帮助开发者专注于创意而非复杂的代码实现。Langflow 提供免费试用,并支持在云平台部署,适合从个人开发者到企业团队的广泛用户。
基于支付宝的生活场景,通过领先的大模型技术,为企业快速构建专业级智能体。
Tbox 是一款基于支付宝生活场景的大模型技术产品,旨在为企业快速构建专业级智能体,助力业务增长。它融合了蚂蚁百灵大模型、蚁天鉴、灵境数字人等先进技术,能够实现体验升级、智能决策等功能。Tbox 适用于多种行业,如民生、政务、出行、景区、医疗等,通过智能化服务提升用户体验和业务效率。其价格和具体定位因企业需求而异,为企业提供定制化的解决方案。
UIGEN-T1-Qwen-7b 是一个基于 Qwen2.5-Coder-7B-Instruct 的 70 亿参数模型,用于推理生成 HTML 和 CSS 基础的 UI 组件。
UIGEN-T1-Qwen-7b 是一个专注于 UI 推理生成的大型语言模型。它通过复杂的推理链路方法生成基于 HTML 和 CSS 的 UI 组件,能够为前端开发提供快速的布局生成方案。该模型基于 Qwen2.5-Coder-7B-Instruct 微调而成,专注于基本前端应用的生成,如仪表盘、登录页面和注册表单。其主要优点在于能够快速生成结构化的 HTML/CSS 代码,并通过推理生成符合设计原则的 UI 布局。该模型的主要应用场景是简化前端开发流程,提高开发效率,并为低代码/无代码工具提供支持。
ToolJet 是一个 AI 原生平台,用于快速构建内部工具,支持低代码开发和 AI 驱动的应用程序创建。
ToolJet 是一款面向企业的 AI 原生开发平台,旨在通过低代码和自然语言处理技术,帮助企业快速构建和部署内部应用程序。其核心优势在于能够显著降低开发门槛和时间成本,同时提供强大的 AI 驱动功能,支持与多种数据库、API 和第三方服务的无缝集成。ToolJet 适用于需要高效开发和灵活迭代的企业,支持自托管部署,满足企业级安全和合规要求。
Devv Builder 是一款无需代码即可生成生产级 API 的工具。
Devv Builder 是一款面向开发人员的低代码工具,能够将自然语言描述的后端需求快速转化为安全、可自动扩展的后端代码。它利用人工智能技术,通过简单的描述生成完整的 API,极大地简化了开发流程,节省了开发时间和成本。该工具支持多种数据库集成,采用行业标准的最佳实践,确保生成的代码安全可靠。Devv Builder 适合中小型企业、初创公司以及希望快速开发和部署后端服务的开发者使用,目前提供免费试用版本,未来将推出更多高级功能。
Hibiki 是一款用于流式语音翻译(即同声传译)的模型,能够实时逐块生成正确翻译。
Hibiki 是一款专注于流式语音翻译的先进模型。它通过实时积累足够的上下文信息来逐块生成正确的翻译,支持语音和文本翻译,并可进行声音转换。该模型基于多流架构,能够同时处理源语音和目标语音,生成连续的音频流和时间戳文本翻译。其主要优点包括高保真语音转换、低延迟实时翻译以及对复杂推理策略的兼容性。Hibiki 目前支持法语到英语的翻译,适合需要高效实时翻译的场景,如国际会议、多语言直播等。模型开源免费,适合开发者和研究人员使用。
Codev 是一个将文本描述转换为全栈 Next.js 网络应用的人工智能平台。
Codev 是一个强大的 AI 驱动的开发平台,它能够将自然语言描述快速转化为功能完备的全栈 Next.js 网络应用。其核心优势在于极大地缩短了从创意到产品落地的时间,降低了开发门槛,即使是非开发者也能轻松上手。该平台背后有强大的技术支持,如 Next.js 框架和 Supabase 数据库,确保生成的应用具有良好的性能和可扩展性。它主要面向开发者和创意者,帮助他们快速实现想法,目前处于免费阶段,旨在吸引用户并拓展社区。
Gemini 2.0 是谷歌推出的最新一代生成式 AI 模型,包含 Flash、Flash-Lite 和 Pro 版本。
Gemini 2.0 是谷歌在生成式 AI 领域的重要进展,代表了最新的人工智能技术。它通过强大的语言生成能力,为开发者提供高效、灵活的解决方案,适用于多种复杂场景。Gemini 2.0 的主要优点包括高性能、低延迟和简化的定价策略,旨在降低开发成本并提高生产效率。该模型通过 Google AI Studio 和 Vertex AI 提供,支持多种模态输入,具备广泛的应用前景。
Mistral Small 3 是一款开源的 24B 参数模型,专为低延迟和高效性能设计。
Mistral Small 3 是由 Mistral AI 推出的一款开源语言模型,具有 24B 参数,采用 Apache 2.0 许可证。该模型专为低延迟和高效性能设计,适合需要快速响应的生成式 AI 任务。它在多任务语言理解(MMLU)基准测试中达到 81% 的准确率,并且能够以每秒 150 个标记的速度生成文本。Mistral Small 3 的设计目标是提供一个强大的基础模型,用于本地部署和定制化开发,支持多种行业应用,如金融服务、医疗保健和机器人技术等。该模型未使用强化学习(RL)或合成数据训练,因此在模型生产管线中处于较早期阶段,适合用于构建推理能力。
首个面向语境智能的人类级实时交互系统,支持多情感、多风格语音交互。
SpeechGPT 2.0-preview 是一款由复旦大学自然语言处理实验室开发的先进语音交互模型。它通过海量语音数据训练,实现了低延迟、高自然度的语音交互能力。该模型能够模拟多种情感、风格和角色的语音表达,同时支持工具调用、在线搜索和外部知识库访问等功能。其主要优点包括强大的语音风格泛化能力、多角色模拟以及低延迟交互体验。目前该模型仅支持中文语音交互,未来计划扩展到更多语言。
百聆是一个类似GPT-4o的语音对话机器人,通过ASR+LLM+TTS实现,低配置也可运行,支持打断。
百聆是一个开源的语音对话助手,旨在通过语音与用户进行自然的对话。该项目结合了语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)技术,提供高质量的语音对话体验。其主要优点是无需GPU即可实现类GPT-4o的对话效果,适用于各种边缘设备和低资源环境。百聆完全开源,鼓励社区贡献与二次开发,用户可以根据自己的需求进行定制和优化。
© 2025 AIbase 备案号:闽ICP备08105208号-14