需求人群:
"browser-use的目标受众是开发者和自动化工程师,特别是那些需要构建或集成智能网页自动化解决方案的人。由于其支持多种语言模型和自动化复杂的网页交互,它适合需要处理大量网页数据和操作的专业人士,以及希望提高网页自动化任务效率的开发者。"
使用场景示例:
使用browser-use在hackernews上获取show hn的前10个帖子标题、积分和小时数,并计算每个帖子的积分每小时比率。
搜索2024年的前3大AI公司,并在3个新标签页中找出它们各自使用的硬件模型。
在kayak.com上查找2025年1月12日从苏黎世到旧金山的单程航班。
产品特色:
通用LLM支持 - 与任何语言模型兼容
交互元素自动检测 - 自动找到可交互的网页元素
多标签页管理 - 无缝处理浏览器标签页
XPath提取 - 无需手动检查DevTools即可进行数据抓取
视觉模型支持 - 处理视觉页面信息
可定制动作 - 添加自定义浏览器交互
处理动态内容 - 自动处理cookies或变化内容
链式思维提示与记忆 - 解决长期任务
自我纠正 - 如果LLM出错,代理将自我纠正其动作
使用教程:
1. 创建虚拟环境并安装依赖:使用pip安装browser-use。
2. 添加API密钥到.env文件:复制.env.example到.env,并添加你的API密钥。
3. 使用LangChain支持的任何LLM模型,通过添加适当的环境变量来配置。
4. 编写代码实现自动化任务:通过编写Python代码,使用browser-use库来实现具体的网页自动化任务。
5. 运行你的自动化脚本:执行你的Python脚本,browser-use将根据你的指令自动执行网页操作。
6. 查看结果:browser-use将输出自动化任务的结果,你可以在控制台或指定的输出文件中查看。
浏览量:422
最新流量情况
月访问量
4.92m
平均访问时长
00:06:33
每次访问页数
6.11
跳出率
36.20%
流量来源
直接访问
51.61%
自然搜索
33.46%
邮件
0.04%
外链引荐
12.58%
社交媒体
2.19%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
12.55%
德国
3.84%
印度
9.38%
俄罗斯
4.61%
美国
18.64%
开源的网页自动化库,支持任何大型语言模型(LLM)
browser-use是一个开源的网页自动化库,允许大型语言模型(LLM)与网站进行交互,通过简单的接口实现复杂的网页操作。该技术的主要优点包括对多种语言模型的通用支持、交互元素自动检测、多标签页管理、XPath提取、视觉模型支持等。它解决了传统网页自动化中的一些痛点,如动态内容处理、长任务解决等。browser-use以其灵活性和易用性,为开发者提供了一个强大的工具,以构建更加智能和自动化的网页交互体验。
基于代理的自动化系统,专注于网页自动化。
Agent-E 是一个基于 AutoGen 代理框架的系统,旨在自动化用户计算机上的操作,目前专注于浏览器内的自动化。它通过自然语言与网页浏览器交互,执行填写表单、搜索和排序电商产品、定位网站内容、管理播放设置、执行网络搜索、管理项目管理平台任务等操作。Agent-E 正在成长中,已经能够处理多样化的任务,但最佳任务是用户自行发掘的。
Proxy Lite 是一款开源的 3B 参数视觉语言模型(VLM),专注于网页自动化任务。
Proxy Lite 是 Convergence AI 推出的一款开源模型,具有强大的网页自动化能力。它通过独特的三步响应机制(观察、思考、工具调用)实现高效的网页交互,显著提升了任务的成功率和效率。该模型在 WebVoyager 任务中表现出色,仅使用少量计算资源就能达到顶尖水平。其开源特性使得开发者和研究人员可以自由使用、改进和扩展,推动了开源社区在自动化领域的进步。
2分钟内实现网页抓取、监控和自动化
Browse AI是一款无需编码的工具,可以在2分钟内训练一个机器人来抓取任何网站的数据。您可以使用简单的点-and-click界面设置网页抓取自动化任务,将数据下载为电子表格或与Google表格同步,定时运行任务并监控数据变化。您还可以使用Zapier集成或REST API和Webhooks将数据流入任何其他软件,甚至可以将任何网站转化为API。Browse AI可帮助您节省大量时间和精力,提高工作效率。
用简单语言指令实现自动化
Neural Wave是一款基于生成式人工智能技术的自动化工具,通过简单的语言指令,使任何企业都能够轻松实现自动化任务,无需昂贵的技术专业知识。我们的自定义大型语言模型(LLM)可以在任何软件应用程序上自动化任何任务(具有或不具有API),并处理任何结构化和完全非结构化的文档。我们的工具不需要任何RPA开发技能或技术专业知识,任何用户都可以通过简单的语言解释任务来自动化任何任务,无需技术技能。
突破大型语言模型限制的自动化框架
AutoDAN-Turbo是一个自动化的、无需人为干预的框架,旨在自动发现并实施多种策略,以突破大型语言模型(LLMs)的限制。该框架能够自动开发出多样的攻击策略,显著提高了攻击成功率,并且可以作为一个统一的框架整合现有的人为设计的越狱策略。AutoDAN-Turbo的重要性在于其能够提升LLMs在对抗环境中的安全性和可靠性,为红队评估工具提供了一种新的自动化方法。
浏览器插件,使用AI进行自动化网页浏览和操作
HARPA AI是一款基于GPT的自动化智能助手,可在浏览器上进行网页浏览和操作。它集成了GPT-3和GPT-4,支持智能搜索、网页摘要、翻译、写作等功能。此外,它还可以监控网页、自动刷新、提供价格降低和货物补货的提醒,并可将网站转化为API接口。HARPA AI拥有用户友好的设计,支持自定义命令和自动化,并且保护用户的隐私。
自然语言工作流自动化
DryMerge允许您使用简单的自然语言指令自动化内部团队的重复工作流程。我们的聊天机器人听取流程描述并自动处理实现,无需工程工作。自动化运营、销售、支持等工作流程,无需提交工单并等待工程师。灵活的软件集成,连接Slack、Gmail、Notion等SaaS工具。AI聚焦用户体验,通过聊天理解工作流的人际和微妙的性质,提供准确的自动化。无与伦比的产品分析,持续改进自动化质量,提供可视化的长时间运行自动化监控。[定价:免费试用]
企业自动化平台
Moveworks 是一个基于世界上最先进的大型语言模型训练的生成式 AI 的企业自动化平台,能够自动化工作流程。它适用于各个部门,提供了自然语言的连接和沟通方式,帮助员工更高效地完成工作。
自然语言智能助手,实现自动化办公
iMean - AI智能助手是一款基于自然语言理解和生成AI技术的办公自动化插件。它能够通过自然语言执行各种任务,与各种网页和软件无缝集成,无需连接。您可以使用iMean来自动发送电子邮件、安排日程、在Jira中分割任务等。它能够理解自然语言并与系统交互完成任务,帮助您提高工作效率。
AI编程智能体语言,实现LLM与IDE之间的通信以自动化编程。
the Shire是一种AI编程智能体语言,旨在实现大型语言模型(LLM)与集成开发环境(IDE)之间的通信,以支持自动化编程。它起源于AutoDev项目,旨在为开发者提供一个AI驱动的IDE,包括DevIns,Shire的前身。Shire通过提供定制化的AI代理,使用户能够构建符合个人需求的AI驱动开发环境。
LaVague是一个大型动作模型框架,用于自动化浏览器交互
LaVague旨在通过将自然语言指令转换为无缝的浏览器交互来重新定义互联网浏览体验。它利用自然语言处理和Selenium集成,使用户或其他AI能够轻松表达网络工作流程并在浏览器上执行它们。
AI代理在网页上执行任务的API
Nfig是一个为AI代理设计的API,允许它们在网页上浏览、点击和执行任务,使用自然语言指令。它通过提供易于集成的API,增强AI工作流程,释放强大的代理能力。Nfig支持自动化登录、虚拟化DOM等复杂操作,使得AI代理能够执行以前难以触及的任务。产品背景强调了其开发者友好的设计、安全性和自我修复能力,以及对数据隐私的承诺。Nfig的价格策略是按使用付费,没有月度承诺,用户只需为实际使用的服务付费。
与顶级网站程序化交互,无需担心自动化脚本问题。
Web Action SDK 是由 Actionbase 提供的软件开发工具包,它允许开发者通过编程方式与互联网上的顶级网站进行交互,而无需编写易碎或复杂的自动化脚本。这使得开发者可以更加便捷地集成第三方服务到自己的应用程序中,提高开发效率,降低维护成本。
YouTube自动配音功能,打破语言障碍。
YouTube自动配音功能是一项旨在消除语言障碍的技术,它通过自动将视频配音转换成不同语言,使得全球用户能够无障碍地享受来自世界各地的内容。这项技术特别适用于教育、信息分享以及文化交流等领域,它不仅提高了视频的可访问性,还促进了全球创作者和观众之间的互动。YouTube自动配音目前对YouTube合作伙伴计划中的数十万频道开放,并计划很快扩展到其他类型的内容。
自动化报告引擎
Instaphrase是一款自动化报告引擎,能够帮助用户自动完成作业和报告的研究、写作和格式化过程。它会从最新的文章、新闻和学术论文中寻找来源,并提供所有使用的参考文献。用户可以选择所需的语言和引用格式,并将报告下载为PDF文档。订阅费用为每月20美元,提供20个积分,额外积分可以购买。
通过结合ChatGPT自动化与代码,创建简单的自动化任务
Magic Loops是一种基于ChatGPT的自动化工具,可以连接数据、发送电子邮件、接收短信、爬取网站等功能。它能够帮助用户自动化生活中的各种任务,提高工作效率。Magic Loops的主要优点是可以与各种数据源和应用程序集成,轻松实现个性化的自动化需求。
构建浏览器自动化,快人一步
Autotab是一个快速构建浏览器自动化的工具,可以用于各种实际任务。它基于Python语言,并提供了强大的自动化功能,包括网页操作、数据抓取、表单填写等。Autotab的优势在于简单易用、高效稳定,可以帮助用户节省大量的时间和精力。产品定价灵活,提供免费试用和按需付费的订阅模式。适用于个人用户和企业用户,可以应用于各种场景,如数据采集、自动化测试、网页监控等。
自动化搜索人工生命的基础模型
SakanaAI/asal是一个利用基础模型(Foundation Models, FMs)来自动化搜索人工生命(Artificial Life, ALife)的科研项目。该项目通过结合最新的人工智能技术,特别是视觉语言基础模型,来发现能够产生目标现象、生成时间开放性新颖性以及照亮整个有趣多样的模拟空间的人工生命模拟。它能够跨越多种ALife基底,包括Boids、Particle Life、Game of Life、Lenia和神经细胞自动机等,展示了通过技术手段加速人工生命研究的潜力。
自动化您的邮箱
InboxGPT是一款AI客服工具,可以为您的客服邮件提供智能建议,让您的客服回复速度翻倍,管理所有邮件变得轻松。您可以将所有Gmail帐户无缝连接到InboxGPT,并在一个统一的收件箱中方便地接收所有电子邮件。InboxGPT还可以根据您的网站内容和以前的回复进行培训,为您提供定制的新消息和响应建议。我们的AI模型还可以学习您的业务上下文和客户查询,每天提供更好、更准确的建议。
自动化广告管理
MisterCMO是一款AI广告自动化引擎,为广告主提供全天候的广告创建、管理和优化服务。通过无需编码的集成系统,快速连接到广告平台。自动化创建广告素材,并通过AI技术定位目标受众并生成多个广告变体。用户可根据需求定制自动化规则,或选择让MisterCMO AI实时管理广告。帮助用户轻松提升广告效果。
自动化数据录入
DocumentPro使用AI从文档和电子邮件中提取信息和表格,快速准确地完成数据录入。它可以处理各种标准的商业文档,无需任何设置,节省时间和精力。支持各类文档类型,包括发票、采购订单、收据、提货单、身份证等。通过智能OCR和GPT技术,DocumentPro能够自动提取数据字段和表格,并支持导出为Excel或JSON格式。无需培训即可使用,还可以处理自定义文档(即将推出)。
Stagehand 是一个 AI 网页浏览框架,可将 Playwright 扩展为自然语言自动化浏览器。
Stagehand 是一个创新的 AI 驱动的网页自动化框架,它通过自然语言处理技术,扩展了 Playwright 的功能,使开发者能够以更直观的方式自动化浏览器操作。这种技术的重要性在于,它降低了自动化脚本编写的门槛,让非技术用户也能轻松实现复杂的网页交互任务。Stagehand 的主要优点是其强大的自然语言理解能力,能够将简单的指令转化为精确的浏览器操作。它由 Browserbase 团队开发,目标是为开发者提供更高效、更智能的自动化工具。目前,Stagehand 是免费使用的,主要面向开发者和自动化测试人员。
Ajent自动化AI客服
Ajent是一个使用AI智能代理的客户支持自动化工具。它能够自动处理80%的初级支持问题,帮助您节省时间和精力。Ajent具备快速响应、安全可靠、多语言支持、知识自动化、智能学习等功能,并提供灵活的定价计划以满足不同用户需求。
自动化研究与分析
Nuntium AI利用人工智能技术,通过综合公开可得的信息与私有数据库,生成长篇研究报告。传统上需要人工分析师数小时甚至数天完成的工作,现在只需点击一下按钮,完全自动化。具有优化的高效研究和分析能力,可节省时间和成本。
自动化网络工具,创建、运行和扩展网络自动化。
H是一个致力于网络自动化的产品,它允许用户创建、运行和扩展网络自动化任务。这项技术的重要性在于它能够提高工作效率,减少重复性劳动,让用户能够专注于更有创造性和战略性的任务。H的背景信息显示,它是一个API beta产品,目前正在招募用户参与测试。产品的主要优点包括提高效率、减少错误和节省时间。关于价格和定位,目前没有具体的信息,但用户可以加入等待名单以开始构建与H相关的项目。
多模态大型语言模型,提升视觉与语言的交互能力
InternVL2_5-8B-MPO-AWQ是OpenGVLab推出的一款多模态大型语言模型,它基于InternVL2.5系列,并采用混合偏好优化(Mixed Preference Optimization, MPO)技术。该模型在视觉和语言的理解与生成方面展现了卓越的性能,尤其在多模态任务中表现出色。它通过结合视觉部分InternViT和语言部分InternLM或Qwen,使用随机初始化的MLP投影器进行增量预训练,实现了对图像和文本的深入理解与交互。该技术的重要性在于它能够处理包括单图像、多图像以及视频数据在内的多种数据类型,为多模态人工智能领域提供了新的解决方案。
© 2025 AIbase 备案号:闽ICP备08105208号-14