SWE-bench Verified

优质新品

简介:

AI模型软件工程能力评估工具

功能:

从GitHub问题中提取并创建测试样本

提供FAIL_TO_PASS和PASS_TO_PASS测试以验证代码的正确性

人工注释筛选,确保测试样本的质量和问题描述的明确性

使用容器化的Docker环境简化评估过程,提高可靠性

与SWE-bench作者合作开发新的评估工具

GPT-4o在SWE-bench Verified上的表现显著提高,解决了33.2%的样本

需求人群:

"SWE-bench Verified主要面向AI研究者和软件开发者,他们需要评估和理解大型语言模型在软件工程任务中的表现和能力。通过这个工具,用户可以更准确地衡量AI模型的编程能力和问题解决技巧,进而优化和提升模型的性能。"

浏览量:7

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图