需求人群:
"该产品适合需要高效完成网络任务的用户,尤其是那些需要自动化处理复杂网络操作、进行数据提取或需要灵活使用 AI 模型的开发者和研究人员。它也适合对隐私和成本敏感的用户,因为它完全免费且在本地运行,不涉及云服务。"
使用场景示例:
从 TechCrunch 提取过去 24 小时内的前 10 条新闻标题。
在 GitHub 上查找最受欢迎的 Python 仓库。
在亚马逊上寻找一款价格低于 50 美元且防水的便携式蓝牙音箱。
产品特色:
支持多智能体系统,不同智能体协同完成复杂任务。
提供交互式侧边栏,实时更新任务状态。
支持任务自动化,可跨网站执行重复性任务。
支持多种 LLM 模型,用户可自由选择并分配给不同智能体。
提供会话历史管理功能,方便用户回顾和管理交互记录。
使用教程:
1. 从 GitHub 的 [release 页面](https://github.com/nanobrowser/nanobrowser/releases) 下载最新的 `nanobrowser.zip` 文件。
2. 解压下载的文件,打开 Chrome 浏览器,进入 `chrome://extensions/` 页面。
3. 启用开发者模式(右上角),点击左上角的 `Load unpacked`,选择解压后的 `nanobrowser` 文件夹。
4. 点击浏览器工具栏中的 Nanobrowser 图标,打开侧边栏。
5. 点击右上角的 `Settings` 图标,添加自己的 LLM API 密钥,并为不同智能体选择合适的模型。
6. 在侧边栏中输入任务指令,Nanobrowser 将自动执行任务并实时反馈结果。
浏览量:176
最新流量情况
月访问量
5.21m
平均访问时长
00:06:29
每次访问页数
6.12
跳出率
35.96%
流量来源
直接访问
52.10%
自然搜索
32.78%
邮件
0.05%
外链引荐
12.82%
社交媒体
2.16%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
13.96%
德国
3.65%
印度
9.02%
俄罗斯
4.03%
美国
19.10%
开源的 Chrome 扩展程序,用于 AI 驱动的网络自动化,支持多智能体工作流。
Nanobrowser 是一款开源的 Chrome 扩展工具,旨在通过 AI 技术实现高效的网络自动化操作。它支持多智能体系统,用户可以使用自己的 LLM API 密钥运行复杂的网络任务。与 OpenAI Operator 类似,但完全免费且开源,用户可以在本地浏览器中运行任务,确保隐私安全。Nanobrowser 提供了灵活的 LLM 选项,允许用户根据需求选择不同的模型,并为不同的智能体分配不同的模型,从而在性能和成本之间取得平衡。此外,它还具备任务自动化、交互式侧边栏、会话历史等功能,适合需要高效网络操作的用户。
构建可靠的多智能体系统
🧬🌍 GenWorlds是一个用于构建可靠的多智能体系统的开源框架。它具有可自定义的环境、可扩展的架构、即插即用的组件、多样的认知过程、协调协议和第三方GenWorld集成等特点。
开放源代码的 8B 参数文本到图像扩散模型。
Flex.2 是当前最灵活的文本到图像扩散模型,具备内置的重绘和通用控制功能。它是一个开源项目,由社区支持,旨在推动人工智能的民主化。Flex.2 具备 8 亿参数,支持 512 个令牌长度输入,并符合 OSI 的 Apache 2.0 许可证。此模型可以在许多创意项目中提供强大的支持。用户可以通过反馈不断改善模型,推动技术进步。
一个可以在一次传递中生成超逼真的对话的 TTS 模型。
Dia 是一个由 Nari Labs 开发的文本到语音(TTS)模型,具有 1.6 亿参数,能够直接从文本生成高度逼真的对话。该模型支持情感和语调控制,并能够生成非言语交流,如笑声和咳嗽。它的预训练模型权重托管在 Hugging Face 上,适用于英语生成。此产品对于研究和教育用途至关重要,能够推动对话生成技术的发展。
开源的全能 AI 助手,帮助完成各种任务。
Suna 是一个开源的 AI 助手,通过自然对话帮助用户轻松完成研究、数据分析和日常挑战。它结合强大的功能与直观的界面,能够高效解决复杂问题并自动化工作流程。Suna 的工具包包括无缝的浏览器自动化、文件管理、网站部署和与多种 API 的集成。其功能强大且灵活,适用于各种用户需求。
一个高效的强化学习框架,用于训练推理和搜索引擎调用的语言模型。
Search-R1 是一个强化学习框架,旨在训练能够进行推理和调用搜索引擎的语言模型(LLMs)。它基于 veRL 构建,支持多种强化学习方法和不同的 LLM 架构,使得在工具增强的推理研究和开发中具备高效性和可扩展性。
一款现代、功能丰富的无数据库平面文件 Wiki 平台。
LeoMoon Wiki-Go 是一款快速、现代的平面文件 Wiki,使用 Go 语言构建。它专注于简单性和性能,支持 Markdown 格式,完全不依赖数据库,零维护。适合个人知识管理、团队协作及内部文档。
基于 Intel Arc GPU 的 AI 图像生成与聊天机器人应用。
AI Playground 是一个开源项目,旨在为用户提供 AI 图像创建、图像风格化和聊天机器人的功能。它专为使用 Intel® Arc™ GPU 的 PC 设计,支持多种生成 AI 库和模型。此应用程序的主要优点在于其强大的图像生成能力和便捷的使用体验。适合 AI 开发者、设计师和爱好者,帮助他们探索和利用先进的 AI 技术。该软件为用户提供了自由选择和下载模型的灵活性,适合各种应用场景。
开源视频生成模型,支持多种生成任务。
Wan2.1-FLF2V-14B 是一个开源的大规模视频生成模型,旨在推动视频生成领域的进步。该模型在多项基准测试中表现优异,支持消费者级 GPU,能够高效生成 480P 和 720P 的视频。它在文本到视频、图像到视频等多个任务中表现出色,具有强大的视觉文本生成能力,适用于各种实际应用场景。
一个简单易用的语音克隆和语音模型训练工具。
EaseVoice Trainer 是一个后端项目,旨在简化和增强语音合成与转换训练过程。该项目基于 GPT-SoVITS 进行改进,注重用户体验和系统的可维护性。其设计理念不同于原始项目,旨在提供更模块化和定制化的解决方案,适用于从小规模实验到大规模生产的多种场景。该工具可以帮助开发者和研究人员更高效地进行语音合成和转换的研究与开发。
一款基于 Vue3 + ElementPlus 的聊天应用,内置多个大语言模型。
PureChat 是一款结合 AI 和前沿技术的现代聊天应用,采用 Vue3 和 ElementPlus 构建,内置 OpenAI、Ollama、DeepSeek 等大语言模型。其主要优点包括支持 Markdown 渲染和聊天记录截图功能,极大提升了用户的沟通效率与体验。PureChat 致力于为开发者提供一个快速掌握现代技术的平台。
一键将视频和音频转化为各种风格的文档。
AI 视频图文创作助手是一个开源工具,旨在将视频和音频内容转化为多种格式的文档,帮助用户进行二次阅读和思考。该产品的主要优势在于其完全开源、无需注册,用户可以在本地处理音视频文件,降低了使用成本。它非常适合需要将视听内容转化为文本的学生、研究人员和内容创作者。
轻松将现有代理框架中的工具、代理和调度器转换为 MCP 服务器。
automcp 是一个开源工具,旨在简化将各种现有代理框架(如 CrewAI、LangGraph 等)转换为 MCP 服务器的过程。这使得开发者可以通过标准化接口更容易地访问这些服务器。该工具支持多种代理框架的部署,并且通过易于使用的 CLI 界面进行操作。适合需要快速集成和部署 AI 代理的开发者,价格免费,适合个人和团队使用。
昆仑万维开源的高性能数学代码推理模型,性能卓越
Skywork-OR1是由昆仑万维天工团队开发的高性能数学代码推理模型。该模型系列在同等参数规模下实现了业界领先的推理性能,突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。Skywork-OR1系列包括Skywork-OR1-Math-7B、Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview三款模型,分别聚焦数学推理、通用推理和高性能推理任务。此次开源不仅涵盖模型权重,还全面开放了训练数据集和完整训练代码,所有资源均已上传至GitHub和Huggingface平台,为AI社区提供了完全可复现的实践参考。这种全方位的开源策略有助于推动整个AI社区在推理能力研究上的共同进步。
使 AI 能够控制 Android 设备的强大自动化工具。
Droidrun 是一个强大的 Android 自动化工具,旨在使 AI 代理能够无缝地与 Android 应用程序进行互动。它结合了视觉理解和 UI 结构提取,为 AI 提供了一个强大的移动平台。Droidrun 目前处于等待名单阶段,面向个人开发者、小型团队和企业提供不同的解决方案。
mcp-use 是与 MCP 工具交互的最简单方式,支持自定义代理。
mcp-use 是一个开源的 MCP 客户端库,旨在帮助开发者将任何大型语言模型(LLM)连接到 MCP 工具,构建具有工具访问能力的自定义代理,而无需使用闭源或应用程序客户端。该产品提供了简单易用的 API 和强大的功能,可以应用于多个领域。
Pusa 是一个新颖的视频扩散模型,支持多种视频生成任务。
Pusa 通过帧级噪声控制引入视频扩散建模的创新方法,能够实现高质量的视频生成,适用于多种视频生成任务(文本到视频、图像到视频等)。该模型以其卓越的运动保真度和高效的训练过程,提供了一个开源的解决方案,方便用户进行视频生成任务。
一款通过生成模型提升图像生成一致性的工具。
UNO 是一个基于扩散变换器的多图像条件生成模型,通过引入渐进式跨模态对齐和通用旋转位置嵌入,实现高一致性的图像生成。其主要优点在于增强了对单一或多个主题生成的可控性,适用于各种创意图像生成任务。
一个用于 PDF 科学论文翻译和双语对比的库。
BabelDOC 是一款旨在简化文档翻译的工具,特别是 PDF 文件。它不仅提供了命令行界面,还支持 Python API,并允许用户进行自我部署。该产品的主要优点在于其支持高达 1000 页的免费在线翻译服务,并具有良好的兼容性和扩展性。BabelDOC 旨在成为各种程序的嵌入式翻译解决方案,适用于学术研究、商业文件翻译等多个场景。
一份由自主 AI 代理提供的每日 AI 时事通讯。
AGI News 是一个开源项目,利用自主 AI 代理技术收集并发送最新的 AI 新闻。该项目通过 Firecrawl、Resend 等工具搭建,致力于为用户提供精准及时的 AI 资讯。其主要优势在于自动化的信息收集和快速的信息发布,使得用户能够方便快捷地获取行业动态。
一个开放源代码的 14B 参数编程模型,具备高效的代码推理能力。
DeepCoder-14B-Preview 是一个基于强化学习的代码推理大型语言模型,能够处理长上下文,具有 60.6% 的通过率,适用于编程任务和自动化代码生成。该模型的优势在于其训练方法的创新,提供了比其他模型更优的性能,且完全开源,支持广泛的社区应用和研究。
在视频扩散变换器中合成任何内容的框架。
SkyReels-A2 是一个基于视频扩散变换器的框架,允许用户合成和生成视频内容。该模型通过利用深度学习技术,提供了灵活的创作能力,适合多种视频生成应用,尤其是在动画和特效制作方面。该产品的优点在于其开源特性和高效的模型性能,适合研究人员和开发者使用,且目前不收取费用。
一个高效的语音合成模型,支持中英文及语音克隆。
MegaTTS 3 是由字节跳动开发的一款基于 PyTorch 的高效语音合成模型,具有超高质量的语音克隆能力。其轻量级架构只包含 0.45B 参数,支持中英文及代码切换,能够根据输入文本生成自然流畅的语音,广泛应用于学术研究和技术开发。
一个强大的文本生成模型,适用于多种对话应用。
DeepSeek-V3-0324 是一个先进的文本生成模型,具有 685 亿参数,采用 BF16 和 F32 张量类型,能够支持高效的推理和文本生成。该模型的主要优点在于其强大的生成能力和开放源码的特性,使其可以被广泛应用于多种自然语言处理任务。该模型的定位是为开发者和研究人员提供一个强大的工具,帮助他们在文本生成领域取得突破。
通过强化学习驱动的金融推理大模型。
Fin-R1 是一个专为金融领域设计的大型语言模型,旨在提升金融推理能力。由上海财经大学和财跃星辰联合研发,基于 Qwen2.5-7B-Instruct 进行微调和强化学习,具有高效的金融推理能力,适用于银行、证券等核心金融场景。该模型免费开源,便于用户使用和改进。
生成高质量 SVG 代码的基础模型。
StarVector 是一个先进的生成模型,旨在将图像和文本指令转化为高质量的可缩放矢量图形(SVG)代码。其主要优点在于能够处理复杂的 SVG 元素,并在各种图形风格和复杂性上表现出色。作为开放源代码资源,StarVector 推动了图形设计的创新和效率,适用于设计、插图和技术文档等多种应用场景。
© 2025 AIbase 备案号:闽ICP备08105208号-14