需求人群:
"Project Mariner的目标受众是技术爱好者和早期采用者,特别是那些对AI代理技术和未来人机交互方式感兴趣的用户。这个项目适合希望在浏览器环境中提高效率、简化复杂任务的用户,同时也适合开发者和研究人员,他们可以基于这个项目进行进一步的研究和开发。"
使用场景示例:
用户在使用Project Mariner时,可以直接通过代理完成网上购物、信息查询等任务,而无需手动操作。
开发者可以利用Project Mariner的API,将其集成到自己的应用中,为用户提供更加智能的网络服务。
研究人员可以通过Project Mariner收集的数据,分析用户行为和偏好,以改进产品设计。
产品特色:
理解网页信息:能够理解浏览器屏幕上的信息,包括文本、代码、图像和表单等元素。
任务执行:使用实验性的Chrome扩展程序,根据用户指令完成浏览器中的任务。
性能评估:在WebVoyager基准测试中,Project Mariner达到了83.5%的完成率,展现了其在实际网络任务中的性能。
安全交互:在执行敏感操作前请求用户最终确认,以防止潜在的欺诈和钓鱼尝试。
持续学习:通过与网络生态系统的互动,不断学习和改进,以提高准确性和效率。
使用教程:
步骤1:安装并设置实验性的Chrome扩展程序,以便与Project Mariner交互。
步骤2:在浏览器中打开需要自动化任务的网页。
步骤3:通过扩展程序向Project Mariner发出指令,让其理解当前页面内容。
步骤4:Project Mariner根据用户的指令,在浏览器中执行相应的任务,如填写表单、搜索信息等。
步骤5:在执行敏感操作前,Project Mariner会请求用户确认,确保操作的安全性。
步骤6:监控Project Mariner的执行过程,确保任务按照预期完成。
步骤7:根据执行结果提供反馈,帮助改进Project Mariner的性能和用户体验。
浏览量:83
最新流量情况
月访问量
7573.29k
平均访问时长
00:00:55
每次访问页数
2.19
跳出率
49.85%
流量来源
直接访问
32.25%
自然搜索
58.06%
邮件
0.08%
外链引荐
7.32%
社交媒体
2.18%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
巴西
3.10%
英国
5.01%
印度
8.75%
日本
4.41%
美国
30.84%
探索未来人机交互的AI代理项目
Project Mariner是Google DeepMind基于Gemini 2.0模型开发的早期研究原型,旨在探索未来的人机交互方式,特别是在网络浏览器中的应用。这个项目能够理解浏览器屏幕上的信息,包括像素和网页元素,如文本、代码、图像和表单,并利用这些信息完成任务。Project Mariner在技术上实现了通过Chrome扩展程序在浏览器中直接操作,为用户提供了一种全新的代理服务体验。
浏览器AI助手,提升工作学习效率
豆包浏览器插件旨在通过AI技术提升用户的工作效率和学习效率。它具备快速视频与一键从网页、PDF和视频中总结并生成亮点的功能,同时支持在网页任意地方划词进行全方位AI搜索。此外,它还提供全文对照翻译功能,帮助用户在阅读外文资料时更轻松地理解内容。豆包插件的设计理念是将AI技术与日常使用场景相结合,让用户在进行网页浏览、文档阅读和视频观看时能够更加便捷地获取信息和知识。
使用AI自动化浏览器工作流程
Skyvern是一款基于AI技术的浏览器自动化工具,它利用计算机视觉和自然语言处理技术来理解网页内容,实现对任何网站的自动化操作。Skyvern接受自然语言指令,能够执行复杂的目标任务。作为API优先的产品,Skyvern能够在云端执行工作流程,支持同时运行数百个工作流程。它还具备可解释AI、代理网络、验证码支持、用户认证、数据提取等功能,为用户提供了一种高效、可扩展的自动化解决方案。
AI浏览器自动化插件
BrowseGPT是一款AI浏览器自动化插件,利用OpenAI的GPT-3模型处理网页并执行点击、输入文字和导航等指令。虽然可能会偶尔出现问题,但它会提供每个决策的原因,让您可以帮助它纠正错误。⚠️这是一个实验性插件,请谨慎使用,不要在涉及私人信息或可能导致严重问题的页面上使用⚠️。
使用AI驱动规划的浏览器自动化系统
Cerebellum是一个轻量级的浏览器代理,通过键盘和鼠标动作在网页上实现用户定义的目标。它将网页浏览简化为导航有向图,使用大型语言模型(LLM)来分析页面内容和交互元素,决定下一步操作。Cerebellum以其创新的AI驱动自动化技术,提高了网页自动化任务的效率和准确性。目前,Cerebellum支持与任何Selenium支持的浏览器兼容,并能够使用用户提供的JSON数据填充表单。产品目前处于Beta阶段,免费提供给开发者和研究人员使用。
最强自动化浏览器
Eagle Bot是一款集浏览器、聊天机器人和自动化软件于一体的创新产品。它基于先进的自然语言处理、计算机视觉和AI驱动的机器人流程自动化引擎,将您的指令转化为动作,为您提供无缝集成的定制浏览器,大大提升您的浏览和自动化体验。它具备强大的搜索功能、独特的对话体验、创造性的可视内容生成、跨平台的自动化等特点。
浏览器插件,使用AI进行自动化网页浏览和操作
HARPA AI是一款基于GPT的自动化智能助手,可在浏览器上进行网页浏览和操作。它集成了GPT-3和GPT-4,支持智能搜索、网页摘要、翻译、写作等功能。此外,它还可以监控网页、自动刷新、提供价格降低和货物补货的提醒,并可将网站转化为API接口。HARPA AI拥有用户友好的设计,支持自定义命令和自动化,并且保护用户的隐私。
一个人性化的多代理系统,自动化网络任务。
Magentic-UI 是一个基于多代理系统的研究原型,允许用户通过透明且可控的界面进行网络浏览和任务自动化。其主要优势在于能够提高人机交互的效率,同时为用户提供对自动化过程的控制。该产品适用于需要在网络上执行复杂任务的用户支持多种操作和自定义设置。
构建浏览器自动化,快人一步
Autotab是一个快速构建浏览器自动化的工具,可以用于各种实际任务。它基于Python语言,并提供了强大的自动化功能,包括网页操作、数据抓取、表单填写等。Autotab的优势在于简单易用、高效稳定,可以帮助用户节省大量的时间和精力。产品定价灵活,提供免费试用和按需付费的订阅模式。适用于个人用户和企业用户,可以应用于各种场景,如数据采集、自动化测试、网页监控等。
开源无头浏览器API,云端控制浏览器舰队。
Steel是一个开源的无头浏览器API,允许用户在云端控制浏览器舰队。它支持开发者使用简单的API调用来创建即时的浏览器会话,具备自动解决CAPTCHA、代理和浏览器指纹识别等功能,以避免被标记为机器人。Steel适用于大规模的网络抓取任务和完全自动化的网络代理,使得在云端运行浏览器自动化任务变得简单。产品背景信息显示,Steel提供了80亿以上的Token抓取量和超过200,000小时的浏览器服务,平均会话启动时间少于1秒。价格方面,Steel提供了免费套餐和多种付费套餐,以满足不同规模用户的需求。
浏览器AI助手,提供多链接总结、站内高级检索等功能
智谱清言是一款浏览器插件,旨在提升用户的上网体验。它通过AI技术,为用户提供多链接总结、站内高级检索、写作助手和划线翻译等功能,帮助用户更高效地获取和管理信息。产品背景信息显示,智谱清言致力于成为用户的全自动上网助手,通过智能化服务提升工作效率。目前产品提供免费试用,定位于需要高效信息处理和写作支持的用户群体。
AI智能助手,浏览器侧边栏自动化执行在线任务。
Fuji-Web是一个AI智能助手,它通过浏览器侧边栏与用户交互,理解用户意图,自动导航网站,并代表用户执行任务,同时解释每一步操作。它支持创建和运行自动化脚本,可以显著提高用户在线完成任务的效率。产品背景信息包括使用开源Apache-2.0许可,支持多种编程语言,并且有一个活跃的社区参与开发和贡献。
AI代理和应用程序的网络浏览器
Browserbase是一个为AI代理和应用程序设计的网络浏览器,提供无缝集成、可扩展性、速度、安全性、可观察性和隐身性等功能。它允许用户无需维护自己的浏览器基础设施即可运行和管理头less浏览器。Browserbase支持Playwright、Puppeteer或Selenium,使得开发者可以轻松集成而无需更改现有代码。产品背景信息显示,Browserbase被先锋和有远见的人所信赖,并且提供了透明的定价策略。
Fellou 是全球首个智能浏览器,自动化复杂任务。
Fellou 是一种基于深度行动技术的智能浏览器,旨在通过自动化复杂任务来提高工作效率。它为用户提供了无缝的跨平台工作流集成,具有军事级别的安全性,能够智能生成报告。Fellou 为用户提供一个数字伴侣,提升浏览和工作方式,极大地节省时间和精力。
无代码浏览器自动化,快速简单
Axiom.ai是一款无代码浏览器自动化插件,帮助用户快速简单地自动化网站操作和重复任务。它提供可视化网络抓取、数据录入、电子表格自动化等功能,用户可以在任何网站或Web应用程序上使用它。Axiom.ai支持自定义构建机器人,无需编码。同时,它还可以与Zapier、Integromat或Webhooks进行连接。您可以免费使用2小时的运行时间,详情请查看定价页面。
在浏览器中运行AI代理的用户界面
WebUI 是一个基于 Gradio 构建的用户界面,旨在为 AI 代理提供便捷的浏览器交互体验。该产品支持多种大型语言模型(LLM),如 Gemini、OpenAI 等,使得用户可以根据自己的需求选择合适的模型进行交互。WebUI 的主要优点在于其用户友好的界面设计和强大的自定义功能,用户可以使用自己的浏览器进行操作,避免了重复登录和认证的问题。此外,WebUI 还支持高清屏幕录制功能,为用户提供了更多的使用场景。该产品定位于为开发者和研究人员提供一个简单易用的 AI 交互平台,帮助他们更好地进行 AI 应用的开发和研究。
EasyWeb是一个用于构建和部署与浏览器交互的AI代理的开放平台。
EasyWeb是一个基于AI的开放平台,专注于构建和部署能够与浏览器交互的智能代理。它通过提供一个简单易用的界面,让用户能够快速部署AI代理来完成各种浏览器相关任务,如旅行规划、在线购物和新闻收集等。该平台基于OpenHands架构,支持并行处理多个用户请求,并允许用户根据需要切换不同的代理和LLM(大型语言模型)。其主要优点包括部署简单、使用方便、支持多种任务类型,并且完全开源,适合开发者和研究人员进行二次开发和研究。EasyWeb的出现为AI在自动化任务中的应用提供了新的可能性,同时也为相关领域的研究和开发提供了有力的支持。
Stagehand 是一个 AI 网页浏览框架,可将 Playwright 扩展为自然语言自动化浏览器。
Stagehand 是一个创新的 AI 驱动的网页自动化框架,它通过自然语言处理技术,扩展了 Playwright 的功能,使开发者能够以更直观的方式自动化浏览器操作。这种技术的重要性在于,它降低了自动化脚本编写的门槛,让非技术用户也能轻松实现复杂的网页交互任务。Stagehand 的主要优点是其强大的自然语言理解能力,能够将简单的指令转化为精确的浏览器操作。它由 Browserbase 团队开发,目标是为开发者提供更高效、更智能的自动化工具。目前,Stagehand 是免费使用的,主要面向开发者和自动化测试人员。
AI 浏览器
Pinokio 是一款浏览器,可以自动安装、运行和以编程方式控制任何应用程序。它简化了应用程序的安装和管理过程,并提供了自动化控制的功能。Pinokio 可以让用户轻松地在计算机上安装和运行终端应用程序,并通过简单的点击进行控制。
在3行代码内构建浏览器控制代理
Sentient 是一个框架/SDK,允许开发者在3行代码内构建能够控制浏览器的智能代理。它利用最新的人工智能技术,通过简单的代码即可实现复杂的网络交互和自动化任务。Sentient 支持多种AI模型,包括OpenAI、Together AI等,能够根据用户的具体需求提供定制化的解决方案。
Airtop 是一款基于 AI 的浏览器自动化工具,可实现自然语言控制的网页自动化操作。
Airtop 是一款创新的浏览器自动化工具,通过 AI 技术实现自然语言控制的网页自动化操作。它允许用户通过简单的指令完成复杂的网页任务,如数据抓取、网页浏览、登录操作等。该工具的主要优点包括易于使用、无需复杂脚本编写、支持大规模云浏览器部署等。Airtop 面向需要高效处理网页任务的企业和个人开发者,提供从免费到高级的多种定价方案,满足不同用户的需求。
使网站对AI代理可访问,提升网络交互效率。
Browser Use是一个致力于使网站对AI代理可访问的平台,通过提取所有交互元素,让AI代理能够专注于其核心任务。该产品结合了先进的AI能力和强大的浏览器自动化技术,支持多标签管理、元素跟踪、自定义动作等,兼容所有LangChain LLMs,包括GPT-4、Claude 3和Llama 2。Browser Use以其高精度的Web代理性能和易用性,成为AI网络自动化领域的佼佼者。
定制化浏览器助手,提高专业生产力。
BrowseWiz是一个高度可定制的浏览器扩展,提供广泛的AI模型访问。它旨在通过帮助您在浏览器内构建和利用定制AI工具来增强您的专业工作流程。其主要优点在于能够定制提示、指令,甚至构建集成外部服务的智能工作流程,实现复杂的自动化。
AI工人,自动化您的浏览器任务
Induced AI是一款AI工人平台,通过在云端运行具有类人推理能力的代理,自动完成浏览器上的手动任务。它可以根据您的工作流程或任务进行描述,上传屏幕录像视频或以文字形式描述任务。您可以安全地授权访问所需的工具,启动工作流程并实时观看远程执行的任务。在任务完成后,您将收到电子邮件通知和请求的数据输出(JSON,CSV,文本等)。Induced AI具有多个功能点,包括按需启动工作人员来委派重复和耗时的工作,内置反机器人检测功能,可运行多个并行的数据采集、自动化操作等工作流程,以及处理CAPTCHA和指纹识别的能力。它还可以自动编写电子邮件、候选人筛选、快速记账、内容抓取、质量保证与测试、自动入职、创建Jira工单、简历筛选、电子邮件摘要等。Induced AI还提供个性化的入职呼叫、定制集成、建立和支持工作流程等服务。该产品由Sam Altman、Nat Friedman、Daniel Gross和Balaji Srinvasan等投资者支持。
使用LLMs和计算机视觉自动化基于浏览器的工作流程
Skyvern是一个自动化工具,它结合了大型语言模型(LLMs)和计算机视觉技术,用于自动化基于浏览器的工作流程。它提供了一个简单的API端点,可以完全自动化手动工作流程,替代易碎或不可靠的自动化解决方案。
© 2025 AIbase 备案号:闽ICP备08105208号-14