SWE-Lancer

国外精选

简介:

SWE-Lancer 是一个包含 1400 多个自由软件工程任务的基准测试,总价值 100 万美元。

功能:

提供超过 1400 个真实世界的自由软件工程任务,涵盖多种难度和价值范围

包含独立工程任务和管理决策任务,全面评估模型能力

独立任务通过经验丰富的软件工程师三重验证的端到端测试进行评分

管理决策任务与原始雇佣的工程经理的选择进行对比评估

开源统一的 Docker 镜像和公共评估分割,便于未来研究

通过任务价值映射模型性能,直观呈现 AI 模型的经济潜力

支持对前沿模型在实际软件工程任务中的表现进行量化分析

为研究人员提供标准化的测试环境和数据集,促进技术发展

需求人群:

"该产品主要面向研究人员、开发者和企业,帮助他们评估和研究 AI 模型在软件工程领域的实际应用能力和经济价值。通过 SWE-Lancer,他们可以更好地了解模型在解决真实世界软件工程任务中的表现,从而推动技术的改进和创新,同时也为探索 AI 在软件开发行业的经济影响提供了有力工具。"

浏览量:14

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2025     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图