产品库

首页发现 GPTS 排行榜提交 AI导航

首页编程 Cradle框架

Cradle框架

开发编程多模态代理

Cradle框架旨在使基础模型能够通过与人类相同的通用接口（屏幕作为输入，键盘和鼠标操作作为输出）执行复杂的计算机任务。该框架在Red Dead Redemption II游戏中进行了案例研究，展示了其在复杂环境中的泛化和适应能力。

需求人群：

"适用于需要在复杂环境中执行计算机任务的研究和开发，如游戏、软件应用等。"

使用场景示例：

在Red Dead Redemption II游戏中跟随主线故事并完成实际任务

在模拟和策略游戏中展示其灵活性和适应性

在各种软件应用中实现与人类相似的交互和控制

产品特色：

处理多模态输入

自我反思以重新思考过去经验

任务推理以选择最佳任务

技能策划以生成和更新相关技能

行动规划以决定键盘和鼠标控制的具体操作

存储和检索过去经验和已知技能

浏览量：208

打开站点

网站流量情况

Cradle框架

Cradle框架：用于控制计算机的多模态代理

Cradle框架旨在使基础模型能够通过与人类相同的通用接口（屏幕作为输入，键盘和鼠标操作作为输出）执行复杂的计算机任务。该框架在Red Dead Redemption II游戏中进行了案例研究，展示了其在复杂环境中的泛化和适应能力。

开发编程多模态代理

Awesome Computer Use

计算机使用代理资源集合

Awesome Computer Use 是一个专注于计算机使用代理的资源集合，包括论文和博客。这个资源库正在建设中，并将不断更新。它涵盖了与计算机使用代理相关的多个方面，如模型框架、基础、代理数据和评估等。这个项目对于研究人员和开发者来说是宝贵的资源，因为它提供了最新的研究成果和技术动态。

计算机使用代理人工智能

Computer use是Anthropic公司推出的AI模型Claude 3.5 Sonnet的一项新功能，它能够模拟人类与计算机的交互方式，执行点击屏幕、输入信息等操作。这项功能的开发代表了AI在模拟人类行为方面取得了重大进展，为AI助理解锁了广泛的应用场景。Computer use功能在安全性、多模态能力和逻辑推理方面都有显著提升，代表了AI技术的新前沿。目前，该功能处于公测阶段，其性能在同类AI模型中处于领先地位。

国外精选

AI 计算机交互

Landing.ai

云端计算机视觉软件平台

LandingLens是一个云端计算机视觉软件平台，通过直观的界面和自然的提示交互，使您能够在几分钟内创建自定义的计算机视觉项目。其数据导向的人工智能技术确保即使在小型数据集的情况下，模型也能正常工作。LandingLens提供灵活的部署选项，包括云端和边缘设备，使其易于集成到现有环境中。无论是单个生产线还是全球运营，LandingLens都能轻松扩展项目。

计算机视觉人工智能

Robovision.ai

计算机视觉AI平台

Robovision是一款计算机视觉AI平台，覆盖完整的AI生命周期。简化在不断变化的商业环境中开发、实施和调整AI的整个过程。

AI平台计算机视觉

Open Source Computer Vision Library

开源计算机视觉库

OpenCV是一个跨平台的开源计算机视觉和机器学习软件库，它提供了一系列编程功能，包括但不限于图像处理、视频分析、特征检测、机器学习等。该库广泛应用于学术研究和商业项目中，因其强大的功能和灵活性而受到开发者的青睐。

计算机视觉机器学习

agent.exe

一个让AI控制你电脑的简单应用

agent.exe是一个基于Electron的应用程序，它利用了Anthropic公司Claude 3.5 Sonnet的计算机使用API，允许用户通过AI直接控制本地计算机。开发者Kyle Corbitt创建这个项目是为了测试Claude的新API，并提供了一个比官方示例项目更轻量级的解决方案。该应用目前主要支持MacOS系统，理论上也支持Windows和Linux。产品的主要优点是提供了一种简便的方式让AI介入并执行计算机任务，但同时也存在一定的风险，因为它允许AI完全接管用户的电脑。

AI Electron

DuckTrack

准确的计算机活动跟踪

DuckTrack 是一款准确的计算机活动跟踪工具，可记录鼠标、键盘、屏幕视频和音频数据。它可以精确记录和回放鼠标和键盘操作，并提供屏幕录制功能。该工具适用于所有主要操作系统，是一款便捷易用的桌面应用程序。

计算机活动跟踪鼠标录制

U

计算机视觉自动化和RPA工具

U-xer是一款基于计算机视觉的测试自动化和RPA工具，旨在自动化屏幕上看到的任何内容，包括Web和桌面应用程序。它具有易用和高级两种模式，可以满足非技术用户和高级用户的不同需求。U-xer能够识别屏幕，像人类一样解释屏幕内容，实现更自然、准确的自动化。它适用于各种应用场景，包括Web应用程序、桌面软件、移动设备等，并提供定制化解决方案。U-xer的定价和定位请查看官方网站。

计算机视觉测试自动化

RoboflowSports

用于体育分析的计算机视觉工具集

roboflow/sports 是一个开源的计算机视觉工具集，专注于体育领域的应用。它利用先进的图像处理技术，如目标检测、图像分割、关键点检测等，来解决体育分析中的挑战。这个工具集由Roboflow开发，旨在推动计算机视觉技术在体育领域的应用，并通过社区贡献不断优化。

计算机视觉体育分析

Datagen

生成计算机视觉的合成数据集

Datagen是一个可通过平台或API访问的合成图像数据集，可根据需要生成逼真的全身人像和人与物体在不同环境中互动的场景。用户可以通过代码对单个参数进行完全控制，实现人类中心数据集的设计和生成。

合成数据计算机视觉

OpenCV

实时优化的计算机视觉库

OpenCV是一个实时优化的计算机视觉库，提供了一套功能强大的工具和硬件支持。它还支持机器学习（ML）和人工智能（AI）模型的执行。OpenCV是开源的，免费商用。

计算机视觉图像处理

Rerun

日志和可视化计算机视觉数据

Rerun是一个用于记录计算机视觉和机器人数据的SDK，配有可视化工具，用于随时间查看和调试数据。它可以帮助您以最少的代码调试和理解系统的内部状态和数据。Rerun提供灵活、快速和可移植的功能，适用于实时应用和数据探索。

计算机视觉机器人

Wrestle R&D

AI与计算机视觉结合的摔跤耐力挑战

Wrestling Endurance Challenge是一个结合了人工智能和计算机视觉的摔跤耐力挑战应用。该应用通过AI分配任务，利用计算机视觉检测用户的持续时间。用户可通过扬声器或耳机接收指令，以参与耐力挑战。应用使用持续的机器学习在云端进行计算，并保证隐私安全，不会发送视频，仅导出关节坐标和轨迹数据。

人工智能计算机视觉

Scenic

Jax 库，计算机视觉研究及更多

Scenic 是一个专注于基于注意力模型的计算机视觉研究的代码库，提供优化训练和评估循环、基线模型等功能，适用于图像、视频、音频等多模态数据。提供 SOTA 模型和基线，支持快速原型设计，价格免费。

计算机视觉注意力模型

NVIDIA Project DIGITS

NVIDIA Project DIGITS 是一款桌面超级计算机，专为 AI 开发者设计，提供强大的 AI 性能。

NVIDIA Project DIGITS 是一款基于 NVIDIA GB10 Grace Blackwell 超级芯片的桌面超级计算机，旨在为 AI 开发者提供强大的 AI 性能。它能够在功耗高效、紧凑的形态中提供每秒一千万亿次的 AI 性能。该产品预装了 NVIDIA AI 软件栈，并配备了 128GB 的内存，使开发者能够在本地原型设计、微调和推理高达 2000 亿参数的大型 AI 模型，并无缝部署到数据中心或云中。Project DIGITS 的推出标志着 NVIDIA 在推动 AI 开发和创新方面的又一重要里程碑，为开发者提供了一个强大的工具，以加速 AI 模型的开发和部署。

优质新品

AI 超级计算机

CountAnything

使用先进计算机视觉算法进行自动、准确计数的应用。

CountAnything是一个前沿应用，利用先进的计算机视觉算法实现自动、准确的物体计数。它适用于多种场景，包括工业、养殖业、建筑、医药和零售等。该产品的主要优点在于其高精度和高效率，能够显著提升计数工作的准确性和速度。产品背景信息显示，CountAnything目前已开放给非中国大陆地区用户使用，并且提供免费试用。

计算机视觉物体计数

YOLO-NAS Pose

一款用于训练PyTorch计算机视觉模型的开源库。

YOLO-NAS Pose是一款免费的、开源的库，用于训练基于PyTorch的计算机视觉模型。它提供了训练脚本和快速简单复制模型结果的示例。内置SOTA模型，可以轻松加载和微调生产就绪的预训练模型，包括最佳实践和验证的超参数，以实现最佳的准确性。可以缩短训练生命周期，消除不确定性。提供分类、检测、分割等不同任务的模型，可以轻松集成到代码库中。

计算机视觉深度学习

Vision Arena

Vision Arena是一个面向计算机视觉领域的开源模型测试平台

Vision Arena是一个由Hugging Face创建的开源平台,用于测试和比较不同的计算机视觉模型效果。它提供了一个友好的界面,允许用户上传图片并通过不同模型处理,从而直观地对比结果质量。平台预装了主流的图像分类、对象检测、语义分割等模型,也支持自定义模型。关键优势是开源免费,使用简单,支持多模型并行测试,有利于模型效果评估和选择。适用于计算机视觉研发人员、算法工程师等角色,可以加速计算机视觉模型的实验和调优。

计算机视觉模型评估

navan.ai

一站式无代码计算机视觉平台

navan.ai是一款无代码计算机视觉平台，帮助企业、开发者和学生快速构建和训练计算机视觉模型。无需编写代码，只需上传图片即可在几分钟内构建和训练模型。用户可以在nStudio中快速测试模型性能，并通过下载模型文件或使用API部署模型。navan.ai注重数据隐私，用户可以使用自己的数据进行模型训练，无需与平台共享数据。未来，用户还可以在navan.ai上将自己的计算机视觉模型进行商业化，为其他开发者提供使用，并从中获得收益。

计算机视觉无代码

Datature

构建计算机视觉应用的全方位AI视觉平台

Datature是一个全方位的AI视觉平台，帮助团队和企业快速构建计算机视觉应用，无需编码。它提供了管理数据集、标注、训练和部署的功能。Datature的主要功能包括数据集管理、数据标注工具、模型训练、模型部署等。其优势在于提供了一站式解决方案，让团队和企业能够高效地开发和部署计算机视觉应用。定价方面，请访问官方网站获取详细信息。

AI 计算机视觉

Augmented AI

你的个人编码、AI和计算机视觉助手-全天候提供支持

Augmented AI是你的个人AI和计算机视觉助手！我们的聊天机器人服务为你的技术问题和项目需求提供按需支持。无论你是初学者还是高级用户，我们的团队都可以帮助你提升技能水平。获得全天候专家指导和资源访问。

编码 AI

NVIDIA Jetson Orin Nano Super Developer Kit

NVIDIA推出的最经济的生成型AI超级计算机

NVIDIA Jetson Orin Nano Super Developer Kit是一款紧凑型生成型AI超级计算机，提供了更高的性能和更低的价格。它支持从商业AI开发者到业余爱好者和学生的广泛用户群体，提供了1.7倍的生成型AI推理性能提升，67 INT8 TOPS的性能提升，以及102GB/s的内存带宽提升。这款产品是开发基于检索增强生成的LLM聊天机器人、构建视觉AI代理或部署基于AI的机器人的理想选择。

NVIDIA Jetson 生成型AI

Computer Vision with DirectAI

无需代码或训练数据即可建立强大的计算机视觉模型

DirectAI是一个基于大型语言模型和零样本学习的平台，可以根据您的描述即时构建适合您需求的模型，无需训练数据。您可以在几秒钟内部署和迭代模型，省去了组装训练数据、标记数据、训练模型和微调模型的时间和费用。DirectAI在纽约市总部，并获得了风投支持，正在改变人们在现实世界中使用人工智能的方式。

人工智能计算机视觉

Computer Agent

一个虚拟计算机助手，可以执行，如搜索或创建图像。

Computer Agent 是一款能够帮助用户自动化各种计算机任务的工具。它能够处理从网络搜索到图像生成等多种功能，极大提高工作效率。此产品适合希望节省时间和精力的用户，尤其是在需要频繁执行重复性任务的场合。该应用是免费的，提供了简单直观的操作界面，适合各类用户使用。

自动化计算机助手

OmAgent

多模态智能代理框架，解决复杂任务

OmAgent是一个复杂的多模态智能代理系统，致力于利用多模态大型语言模型和其他多模态算法来完成引人入胜的任务。该项目包括一个轻量级的智能代理框架omagent_core，精心设计以应对多模态挑战。OmAgent由三个核心组件构成：Video2RAG、DnCLoop和Rewinder Tool，分别负责长视频理解、复杂问题分解和信息回溯。

多模态智能代理

Agent S

Agent S：一个开放的代理框架，让计算机像人类一样使用计算机。

Agent S是一个开放的代理框架，旨在通过图形用户界面(GUI)实现与计算机的自主交互，通过自动化复杂多步骤任务来转变人机交互。它引入了经验增强的分层规划方法，利用在线网络知识和叙事记忆，从过去的交互中提取高级经验，将复杂任务分解为可管理的子任务，并使用情景记忆进行逐步指导，Agent S不断优化其行动并从经验中学习，实现适应性强且有效的任务规划。Agent S在OSWorld基准测试中的表现超过了基线9.37%的成功率（相对提高了83.6%），并在WindowsAgentArena基准测试中展示了广泛的通用性。

人工智能自动化

Qwen3-VL-Reranker-2B

多模态重排序模型，支持文本、图像、视频等输入。

Qwen3-VL-Reranker-2B 是通义千问（Qwen）家族中的最新多模态重排序模型，旨在提升多模态信息检索的准确性与效率。它结合了文本、图像、截图和视频等多种输入形式，在多个检索任务中表现优异，适合全球化应用。

多模态信息检索

Shangchen Zhou

专注于计算机视觉和机器学习领域的研究与创新的博客网站

Shangchen Zhou 是一位在计算机视觉和机器学习领域有着深厚研究背景的博士生，他的工作主要集中在视觉内容增强、编辑和生成AI（2D和3D）上。他的研究成果广泛应用于图像和视频的超分辨率、去模糊、低光照增强等领域，为提升视觉内容的质量和用户体验做出了重要贡献。

计算机视觉机器学习

隐私政策

用户协议

意见反馈网站地图

用户协议

AIbase服务使用协议，由享联科技有限公司实施、托管和运营。客户必须同意这些条款才能使用服务。

本网站及位于 AIbase.com 及其他子域名的服务，包括网页 App、小程序 App、移动端 App（统称为“本 App”）是享联科技有限公司的著作权产品。

通过访问或使用本网站，您表示接受这些条款（代表您本人或您代表的实体），并声明和保证您有权、权力和能力遵守这些条款（代表您本人或您代表的实体）。如果您未满 18 岁，您不得访问或使用本网站或接受这些条款。如果您不同意这些条款的所有规定，请不要访问和/或使用本 App。除了以下协议外，您还需要遵守 https://www.chinaz.com/aboutus/agreement.html 中的协议。

用户账户

为了充分利用此网站的所有功能，用户需要创建账户并填写准确的资料。用户有义务保护自己的账户和密码的保密性，并对其账户内的所有活动承担责任。若用户发现其账户遭到未经授权的使用，应迅速告知我们。

用户内容

此网站允许用户将问题记录存储并发送至服务器。用户需要对自身存储和发送的内容负责，确保其不触犯任何法律、法规或本协议。

行为规范

用户在使用此网站服务时，应遵循以下规定：

禁止发布、传播任何违法、淫秽、色情、赌博、暴力、恐怖或煽动犯罪的内容；

禁止发布、传播侵犯他人知识产权或其他合法权益的内容；

禁止发布、传播误导、欺诈、虚假信息或进行任何不诚实的行为；

禁止发布、传播政治宣传或进行任何政治活动；

禁止从事危害网络安全的行为，包括但不限于恶意攻击、恶意破坏、恶意干扰等；

禁止从事影响本网站正常运行的行为，包括但不限于非法使用本网站的资源、恶意注册、恶意请求等；

若用户违反上述规定，我们有权立即终止本协议并禁止用户使用本网站。

一般性支付条款

本网站提供的所有服务均为一次性付款，您只需支付所需的会员服务时长。服务到期后，本网站不会使用您过往的支付方式自动续费，也不存在需要取消的订阅。

会员服务时长购买后无法转送他人。本公司保留调整订阅价格的权力，已购买的服务时长内不受影响。

退款保障

如果由于本公司的过失导致您无法使用服务，您可以在首次购买服务后的24小时内申请取消服务并退还服务费。如果不符合上述要求，您的退款申请可以被考虑，但是最终决定权由本公司全权决定。本公司仅有义务通过原支付渠道进行退款，退款申请将在申请后30天内处理。如果您想根据我们的退款保证申请退款，请通过网站页面上客服联系方式进行联系咨询我们，我们收到信息将为您解决。本退款保证条款仅适用于通过本网站直接订阅服务的用户。

知识产权

本网站包含的所有内容，包括但不限于文本、图片、音频、视频、软件、代码、商标、商业信息等，皆受著作权、商标权、专利权及其他知识产权法律的保护。未经我们书面同意，用户不得使用、复制、修改、拷贝、发布、出售、出租、传播本网站的任何内容。

网站服务器回答内容责任

本网站的服务器根据用户的问题提供答案，但用户需要自行判断回答内容的正确性和可靠性，并自行承担使用回答内容的风险。我们不对回答内容的准确性、可靠性、完整性、有效性、及时性、适用性等作出任何保证或承诺。

隐私保护

我们尊重用户的隐私权，并承诺在使用用户的个人信息时遵守相关法律法规。我们将采取合理的安全措施保护用户的个人信息，但不对因不可抗力或非因我们的原因导致的信息泄露承担责任。

免责声明

本网站提供的信息和服务仅供参考，不构成任何担保或承诺。我们不保证本网站的信息和服务的准确性、可靠性、完整性、有效性、及时性、适用性。用户使用本网站的信息和服务所产生的风险由用户自行承担。

变更和终止

我们有权随时修改本协议的任何条款，并将修改后的协议在本网站上公布。若用户继续使用本网站，即表示用户同意受修改后的协议约束。若用户不同意修改后的协议，应立即停止使用本网站。

我们有权在任何时候终止本协议，且无需提前通知用户。在协议终止后，用户无权继续使用本网站。

适用法律

本协议的订立、执行、解释及争议的解决均适用中华人民共和国法律。如发生本协议与中华人民共和国法律相抵触时，应以中华人民共和国法律的明文规定为准。

如双方就本协议内容或执行发生任何争议，双方应尽力友好协商解决；协商不成时，任何一方均可向本网站所在地的人民法院提起诉讼。

其他

本协议构成双方对本协议之约定事项及其他有关事宜的完整协议，除本协议规定的之外，未赋予本协议各方其他权利。

如本协议中的任何条款无论因何种原因完全或部分无效或不具有执行力，本协议的其余条款仍应有效并且有约束力。

本协议中的标题仅供方便参阅，不具有实际意义，不能作为本协议涵义解释的依据。

本协议未尽事宜，您需遵守我们不时发布的其他服务条款和操作规则。

本协议自您接受之日起生效，对我们和用户均具有约束力。

确认

隐私政策

欢迎访问我们的产品。AIbase（包括 App 和网站等产品提供的服务，以下简称“产品和服务”）是由享联科技有限公司（以下简称“我们”）开发并运营的。确保用户的数据安全和隐私保护是我们的首要任务，本隐私政策详细说明了您访问和使用我们的产品和服务时所收集的数据以及其处理方式。

在继续使用我们的产品之前，我们强烈建议您认真阅读并理解本隐私政策的全部规则和要点。一旦您选择使用，即表示您同意本隐私政策的全部内容，并同意我们收集和使用您相关的信息。如果您在阅读过程中对本政策有任何疑问，请通过产品中的反馈方式联系我们的客服进行咨询。如果您不同意其中的任何条款或相关协议，则应停止使用我们的产品和服务。

本隐私政策旨在帮助您了解以下内容：

一、我们如何收集和使用您的个人信息；

二、我们如何存储和保护您的个人信息；

三、我们如何公开披露您的个人信息；

四、我们如何使用 Cookie 和其他追踪技术；

五、其他补充说明；

一、我们如何收集和使用您的个人信息

个人信息是指以电子或其他方式记录的能够单独或与其他信息结合识别特定自然人身份或反映特定自然人活动情况的各种信息。我们根据《中华人民共和国网络安全法》和《信息安全技术个人信息安全规范》（GB/T 35273-2017）以及其他相关法律法规的要求，严格遵循正当、合法、必要的原则，出于您使用我们提供的服务和/或产品等过程中而收集和使用您的个人信息，包括但不限于电话号码、电子邮箱地址、偏好及兴趣等。

为接受我们全面的产品服务，您应首先注册一个用户账号，我们将通过它记录相关的数据。您所提供的所有信息均来自于您本人在注册时提供的数据。如扫码登录、手机验证登录等方式，我们可能通过发短信或邮件的方式来验证您的身份是否有效。

二、我们如何存储和保护您的个人信息

作为一般规则，我们仅在实现信息收集目的所需的时间内保留您的个人信息。当您开立帐户或从我们的产品获取服务时，我们会在对于管理与您之间的关系严格必要的时间内保留您的个人信息。出于遵守法律义务或为证明某项权利或合同满足适用的诉讼时效要求的目的，我们可能需要在上述期限到期后保留您存档的个人信息，并且无法按您的要求删除。当您的个人信息对于我们的法定义务或法定时效对应的目的或档案不再必要时，我们确保将其完全删除或匿名化。

我们使用符合业界标准的安全防护措施保护您提供的个人信息，并加密其中的关键数据，防止其遭到未经授权访问、公开披露、使用、修改、损坏或丢失。我们会采取一切合理可行的措施，保护您的个人信息。我们会使用加密技术确保数据的保密性；我们会使用受信赖的保护机制防止数据遭到恶意攻击。

值得一提的是，为了加强对隐私数据的保护，我们在收集时就已对其进行了脱敏处理，即使在我们自己的数据库中，也不会储存具有关联性的、明文的隐私数据。

三、我们如何公开披露您的个人信息

为了更好地服务客户并追求合法利益，我们将合规并且恰当地使用您的个人信息。我们可能会根据法律法规规定或政府主管部门的强制性要求，对外共享您的个人信息。在符合法律法规的前提下，当我们收到上述披露信息的请求时，我们会要求必须出具与之相应的法律文件，如传票或调查函。我们坚信，在法律允许的范围内，对于要求我们提供的信息，应该尽可能保持透明。

在以下情形中，共享、公开披露您的个人信息无需事先征得您的授权同意：

与国家安全、国防安全直接相关的；

与犯罪侦查、起诉、审判和判决执行等直接相关的；

出于维护您或其他个人的生命、财产等重大合法权益但难以得到本人同意的；

您自行向社会公众公开的个人信息；

从合法公开披露的信息中收集个人信息的，如合法的新闻报道、政府信息公开等渠道；

根据个人信息主体要求签订和履行合同所必需的；

用于维护所提供的产品或服务的安全稳定运行所必需的，例如发现、处置产品或服务的故障；

法律法规规定的其他情形。

四、如何使用 Cookie 和其他追踪技术

为了确保产品正常运作，我们会在您的计算机或移动设备上存储名为 Cookie 的小数据文件。 Cookie 通常包含标识符、产品名称以及一些数字和字符。通过使用 Cookie，我们可以存储您的偏好或产品数据，并用于判断注册用户是否已登录，提高服务和产品质量以及优化用户体验。我们出于不同目的使用各种 Cookie，包括：严格必要型 Cookie、性能 Cookie、营销 Cookie 和功能 Cookie。某些 Cookie 可能由第三方提供，以向我们的产品提供其他功能。我们不会将 Cookie 用于本政策所述目的之外的任何用途。您可以根据自己的偏好管理或删除 Cookie。您可以清除计算机或手机中保存的所有 Cookie，大多数网络浏览器都设有阻止或禁用 Cookie 的功能，您可以对浏览器进行配置。阻止或禁用 Cookie 功能后，可能会影响您使用或无法充分使用我们的产品和服务。

五：其他补充

1、有关用户身份注销问题

关于您注销账户的方式以及您应满足的条件，请详见《站长之家账户注销须知》。您注销账户后，我们将停止为您提供产品与/或服务，并依据您的要求，除法律法规另有规定外，我们将删除您的个人信息。请您理解，由于技术所限、法律或监管要求，我们可能无法满足您的所有要求，我们会在合理的期限内答复您的请求。

确认