简介:

掌握开放世界交互的视觉-时间上下文提示模型

功能:

• 视觉-时间上下文提示:利用过去和当前观察的对象分割来指导策略-环境交互。

• 因果变换器:处理交互类型、观察和对象分割,以预测动作。

• 实时对象跟踪:由SAM-2提供,增强模型的交互能力。

• 与高级推理器集成:GPT-4o模型和Molmo模型协同工作,将复杂任务分解为步骤。

• 零样本泛化能力评估:Minecraft交互基准测试设计用于评估模型的泛化能力。

• 多样化任务解决:在Minecraft中完成多种复杂和创造性的任务。

• 交互类型多样性:支持Minecraft中的六种交互类型,共计12个任务。

需求人群:

"目标受众为人工智能研究者、游戏开发者和多模态学习模型的开发者。ROCKET-1适合他们,因为它提供了一个先进的框架来研究和开发能够在复杂环境中进行具身决策的智能体,尤其是在需要空间理解和创造性任务解决能力的场景中。"

浏览量:12

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图