简介:

多智能体任务规划与推理的基准测试

功能:

• 包含100,000个自然语言任务,用于多智能体推理和规划研究

• 利用LLMs大规模生成任务,并通过模拟循环减少错误

• 支持与真实人类伙伴的AI代理评估

• 揭示现有基于LLM的规划器在任务协调、跟踪和从错误中恢复方面的局限性

• 提供人类在环基础设施,以评估AI代理

• 强调了自然语言任务中空间、时间和异构智能体能力约束的特点

• 分析显示,与人类相比,LLMs在任务解决能力上有显著差距

需求人群:

"目标受众为人工智能研究人员、开发者和教育工作者,特别是那些专注于多智能体系统、自然语言处理和人机交互的专业人士。PARTNR提供了一个平台,让他们可以测试和改进他们的算法和模型,以更好地理解和模拟人类与AI代理之间的互动。"

浏览量:4

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图