需求人群:
"该产品主要面向研究人员、开发者和企业,帮助他们评估和研究 AI 模型在软件工程领域的实际应用能力和经济价值。通过 SWE-Lancer,他们可以更好地了解模型在解决真实世界软件工程任务中的表现,从而推动技术的改进和创新,同时也为探索 AI 在软件开发行业的经济影响提供了有力工具。"
使用场景示例:
研究人员可以使用 SWE-Lancer 来评估不同 AI 模型在解决软件工程任务中的性能差异,从而为模型的优化和改进提供依据。
开发者可以通过该基准测试了解 AI 模型在实际软件开发任务中的表现,探索如何将 AI 技术更好地融入到开发流程中。
企业可以利用 SWE-Lancer 来评估 AI 模型在软件工程任务中的经济价值,判断是否适合引入 AI 技术来提高开发效率和降低成本。
产品特色:
提供超过 1400 个真实世界的自由软件工程任务,涵盖多种难度和价值范围
包含独立工程任务和管理决策任务,全面评估模型能力
独立任务通过经验丰富的软件工程师三重验证的端到端测试进行评分
管理决策任务与原始雇佣的工程经理的选择进行对比评估
开源统一的 Docker 镜像和公共评估分割,便于未来研究
通过任务价值映射模型性能,直观呈现 AI 模型的经济潜力
支持对前沿模型在实际软件工程任务中的表现进行量化分析
为研究人员提供标准化的测试环境和数据集,促进技术发展
使用教程:
访问 SWE-Lancer 的开源仓库,获取相关的 Docker 镜像和测试数据集。
根据需要设置本地开发环境,确保 Docker 环境正常运行。
将待评估的 AI 模型接入到 SWE-Lancer 的测试框架中。
运行测试任务,模型将依次处理各个软件工程任务。
查看测试结果,包括任务完成情况、评分以及与真实世界价值的映射。
根据测试结果分析模型的优势和不足,为进一步的研究和开发提供参考。
浏览量:64
最新流量情况
月访问量
7.01m
平均访问时长
00:02:01
每次访问页数
2.18
跳出率
59.77%
流量来源
直接访问
35.34%
自然搜索
46.92%
邮件
0.05%
外链引荐
17.37%
社交媒体
0.29%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
巴西
5.94%
英国
3.74%
印度
8.56%
日本
7.08%
美国
15.98%
SWE-Lancer 是一个包含 1400 多个自由软件工程任务的基准测试,总价值 100 万美元。
SWE-Lancer 是由 OpenAI 推出的一个基准测试,旨在评估前沿语言模型在真实世界中的自由软件工程任务中的表现。该基准测试涵盖了从 50 美元的漏洞修复到 32000 美元的功能实现等多种独立工程任务,以及模型在技术实现方案之间的选择等管理任务。通过模型将性能映射到货币价值,SWE-Lancer 为研究 AI 模型开发的经济影响提供了新的视角,并推动了相关研究的发展。
开源AI软件工程师
Devika AI是一个开源的AI软件工程师,可以理解高级人类指令,将其分解为步骤,研究相关信息并生成相应代码。它使用Claude 3、GPT 4、GPT 3.5和Local LLMs via Ollama。
AI模型软件工程能力评估工具
SWE-bench Verified是OpenAI发布的一个经过人工验证的SWE-bench子集,旨在更可靠地评估AI模型解决现实世界软件问题的能力。它通过提供代码库和问题描述,挑战AI生成解决所描述问题的补丁。这个工具的开发是为了提高模型自主完成软件工程任务的能力评估的准确性,是OpenAI准备框架中中等风险级别的关键组成部分。
世界领先的AI软件工程师
Genie是一款AI软件工程模型,它在SWE-Bench行业标准基准测试中取得了30%的评估分数,远超其他同类产品。Genie能够独立或与用户协作解决bug、构建功能、重构代码,就像与同事合作一样。它通过与GitHub问题跟踪器的直接集成,简化了工作流程,确保完全理解特定任务和目标。
面向软件工程师的创建文档和架构的代码平台,支持 AI、Git、测试和监控
CRUDERRA 是一个面向软件工程师的平台,提供创建文档和架构的代码功能。它支持使用流行的 Python/PlantUML 创建交互式架构文档,让您的代码更新速度提升 5 倍。您可以与团队一起协作讨论架构,并使用 Git 来批准团队成员的更改。实时追踪架构,并生成快速的测试用例,比较实际和目标架构之间的差异。CRUDERRA 能加速团队的开发过程。
开源编码 LLM,专为软件工程任务设计。
Kimi-Dev 是一款强大的开源编码 LLM,旨在解决软件工程中的问题。它通过大规模强化学习优化,确保在真实开发环境中的正确性和稳健性。Kimi-Dev-72B 在 SWE-bench 验证中实现了 60.4% 的性能,超越其他开源模型,是目前最先进的编码 LLM 之一。该模型可在 Hugging Face 和 GitHub 上下载和部署,适合开发者和研究人员使用。
世界首款AI软件工程师,自主完成复杂工程任务
Devin是世界上第一款完全自主的AI软件工程师。具有长期推理和规划能力,可执行复杂工程任务,并与用户进行实时协作。帮助工程师专注于更有趣的问题,推动工程团队实现更宏伟的目标。
为软件工程挑战打造的先进基础AI模型
poolside是一个为软件工程挑战而构建的先进基础AI模型,它通过在用户代码上进行微调,学习项目的独特之处,以理解通用模型无法理解的复杂性。它建立在poolside基础之上,每天都能变得更好。除了先进的代码编写模型,poolside还构建了一个直观的编辑器助手,并提供了一个开发者可以构建的API。poolside由Jason Warner和Eiso Kant于2023年4月创立,他们之前在AI和软件工程领域有着丰富的经验。
使用AI改善软件工程师的职业发展
AI职业发展助手致力于利用最新的人工智能技术来帮助软件工程师建立更好的职业生涯。我们提供100%免费的AI工具,包括AI职业教练和技能挑战者。AI职业教练是一个基于ChatGPT的教练,可以充当工程经理,为开发人员提供快速、相关且具体的建议,帮助他们实现特定的职业目标。技能挑战者通过全自动生成的多项选择题来评估您的核心开发技能,快速完成挑战并与全球同行进行排名。
构建、管理、扩展和支付来自拉美的顶级远程软件工程团队
TeamStation是一款通过Framework Science独有的远程软件工程团队增员SaaS平台,快速构建拉美近海软件开发团队,集成AI和Fintech技术,提供人性化的AI和Fintech服务,2022年获得了美国专利注册。用户可以通过简单的操作,一键雇佣顶级的近海软件工程师人才。
Cognition Labs是Devin的制造商,Devin是第一个AI软件工程师
Cognition Labs是一个应用AI实验室,专注于推理能力,他们开发的代码只是开始。该公司旨在通过AI技术提升软件工程的效率,并且已经推出了Devin的AI软件工程师。
AI创建软件工程师任务,一致、可读和详细。
Cubed是一个AI创建任务的平台,通过与GitHub代码库连接,使用人工智能生成具体可操作、描述性强的卡片。设置同步后,Cubed会智能地利用代码库的上下文,改进每个新的工单,为开发人员提供更多指导、加速和专注时间。
windsurf_ai推出首个针对软件工程流程优化的模型家族 SWE-1。
SWE-1 是windsurf_ai首个为整个软件工程流程优化的模型家族,旨在加速软件开发 99%。与传统的仅能编写代码的模型相比,SWE-1 不仅能编写代码,还能处理终端操作、访问其他知识和互联网、测试产品和理解用户反馈。SWE-1 系列包括 SWE-1、SWE-1-lite 和 SWE-1-mini 三种模型,旨在满足不同用户的需求。
AI数学极限测试基准
FrontierMath是一个数学基准测试平台,旨在测试人工智能在解决复杂数学问题上的能力极限。它由超过60位数学家共同创建,覆盖了从代数几何到Zermelo-Fraenkel集合论的现代数学全谱。FrontierMath的每个问题都要求专家数学家投入数小时的工作,即使是最先进的AI系统,如GPT-4和Gemini,也仅能解决不到2%的问题。这个平台提供了一个真正的评估环境,所有问题都是新的且未发表的,消除了现有基准测试中普遍存在的数据污染问题。
自主程序改进的人工智能软件工程师
auto-code-rover是一种全自动的解决GitHub问题(Bug修复和功能添加)的方法,结合了语言模型与分析和调试功能,确定修复位置,生成补丁程序。目前可解决16%的SWE-bench问题和22%的SWE-bench lite问题,超越了现有的人工智能软件工程师的效果。它分两个阶段工作:首先通过代码搜索API获取相关上下文信息,然后基于获取的上下文信息尝试编写补丁程序。它具有两个独特的特点:一是代码搜索API具有项目结构感知能力,不是简单的字符串匹配,而是在抽象语法树中搜索相关的代码上下文;二是如果有测试套件可用,它还可以利用统计故障定位来提高修复率。
跨平台AI性能基准测试工具
Geekbench AI 是一款使用真实世界机器学习任务来评估AI工作负载性能的跨平台AI基准测试工具。它通过测量CPU、GPU和NPU的性能,帮助用户确定他们的设备是否准备好应对当今和未来的尖端机器学习应用。
开源AI芯片性能基准测试平台
FlagPerf是由智源研究院联合AI硬件厂商共建的一体化AI硬件评测引擎,旨在建立以产业实践为导向的指标体系,评测AI硬件在软件栈组合(模型+框架+编译器)下的实际能力。该平台支持多维度评测指标体系,覆盖大模型训练推理场景,并支持多训练框架及推理引擎,连接AI硬件与软件生态。
HackerPulse是一个展示软件工程师技能的ML驱动个人简历平台。
HackerPulse是一个免费的在线平台,使用机器学习算法和ChatGPT帮助软件工程师制作个性化的在线简历。它提供自定义的简历模板,使用ChatGPT自动生成个人描述,以及成功简历案例供参考。主要功能包括:简历生成器,使用ChatGPT智能编写个人描述;在线简历平台,创建个性化展示网页;求职指导,提供成功简历模板和案例。关键优势是简化简历制作流程,使用AI提高简历质量,在线可分享,方便被HR和招聘者发现。
个人电脑AI性能基准测试
MLPerf Client是由MLCommons共同开发的新基准测试,旨在评估个人电脑(从笔记本、台式机到工作站)上大型语言模型(LLMs)和其他AI工作负载的性能。该基准测试通过模拟真实世界的AI任务,提供清晰的指标,以了解系统如何处理生成性AI工作负载。MLPerf Client工作组希望这个基准测试能够推动创新和竞争,确保个人电脑能够应对AI驱动的未来挑战。
一个能理解高级人类指令、进行研究和编写代码以实现给定目标的AI软件工程师
Devika是一个先进的AI软件工程师,可以理解高级人类指令、将其分解为步骤、研究相关信息并编写代码以实现给定目标。该项目旨在提供一个能够与人类协作完成复杂编程任务的AI伙伴。
医疗领域检索式问答基准测试
Benchmark Medical RAG是一个专注于医疗领域的检索式问答(Retrieval-Augmented Generation)基准测试平台。它提供了一系列的数据集和评估工具,旨在推动医疗信息检索和生成模型的研究。
机器学习工程能力的AI代理评估基准
MLE-bench是由OpenAI推出的一个基准测试,旨在衡量AI代理在机器学习工程方面的表现。该基准测试汇集了75个来自Kaggle的机器学习工程相关竞赛,形成了一套多样化的挑战性任务,测试了训练模型、准备数据集和运行实验等现实世界中的机器学习工程技能。通过Kaggle公开的排行榜数据,为每项竞赛建立了人类基准。使用开源代理框架评估了多个前沿语言模型在该基准上的表现,发现表现最佳的设置——OpenAI的o1-preview配合AIDE框架——在16.9%的竞赛中至少达到了Kaggle铜牌的水平。此外,还研究了AI代理的各种资源扩展形式以及预训练污染的影响。MLE-bench的基准代码已经开源,以促进未来对AI代理机器学习工程能力的理解。
长视频理解基准测试
LVBench是一个专门设计用于长视频理解的基准测试,旨在推动多模态大型语言模型在理解数小时长视频方面的能力,这对于长期决策制定、深入电影评论和讨论、现场体育解说等实际应用至关重要。
对视觉生成模型进行基准测试
GenAI-Arena是一个用于在野外对视觉生成模型进行基准测试的平台。用户可以匿名参与竞技,对比目标模型的表现,并投票选出更优秀的模型。平台支持不同领域的匿名模型对决,帮助用户找到最佳的条件图像生成模型。用户可以点击“New Round”开始新的对决,并通过点击按钮投票选择更优秀的模型。
衡量Android设备AI性能和质量的基准测试工具
Procyon AI Inference Benchmark for Android是一款基于NNAPI的基准测试工具,用于衡量Android设备上的AI性能和质量。它通过一系列流行的、最先进的神经网络模型来执行常见的机器视觉任务,帮助工程团队独立、标准化地评估NNAPI实现和专用移动硬件的AI性能。该工具不仅能够测量Android设备上专用AI处理硬件的性能,还能够验证NNAPI实现的质量,对于优化硬件加速器的驱动程序、比较浮点和整数优化模型的性能具有重要意义。
专业用户的性能测试基准套件
Procyon是由UL Solutions开发的一套性能测试基准工具,专为工业、企业、政府、零售和媒体的专业用户设计。Procyon套件中的每个基准测试都提供了一致且熟悉的体验,并共享一套共同的设计和功能。灵活的许可模式意味着用户可以根据自己的需求选择适合的单个基准测试。Procyon基准测试套件很快将提供一系列针对专业用户的基准测试和性能测试,每个基准测试都针对特定用例设计,并尽可能使用真实应用。UL Solutions与行业合作伙伴紧密合作,确保每个Procyon基准测试准确、相关且公正。
用于衡量设备 AI 加速器推理性能的基准测试工具。
Procyon AI Image Generation Benchmark 是一款由 UL Solutions 开发的基准测试工具,旨在为专业用户提供一个一致、准确且易于理解的工作负载,用以测量设备上 AI 加速器的推理性能。该基准测试与多个关键行业成员合作开发,确保在所有支持的硬件上产生公平且可比较的结果。它包括三个测试,可测量从低功耗 NPU 到高端独立显卡的性能。用户可以通过 Procyon 应用程序或命令行进行配置和运行,支持 NVIDIA® TensorRT™、Intel® OpenVINO™ 和 ONNX with DirectML 等多种推理引擎。产品主要面向工程团队,适用于评估推理引擎实现和专用硬件的通用 AI 性能。价格方面,提供免费试用,正式版为年度场地许可,需付费获取报价。
大语言模型的提示工程指南
提示工程指南是一份全面介绍提示工程的指南,包括基本概念、设计提示的通用技巧、提示技术、提示应用等内容。它帮助用户更好地了解大型语言模型的能力和局限性,并掌握与大语言模型交互和研发的各种技能和技术。
高性能语言模型基准测试数据集
DCLM-baseline是一个用于语言模型基准测试的预训练数据集,包含4T个token和3B个文档。它通过精心策划的数据清洗、过滤和去重步骤,从Common Crawl数据集中提取,旨在展示数据策划在训练高效语言模型中的重要性。该数据集仅供研究使用,不适用于生产环境或特定领域的模型训练,如代码和数学。
用于评估Windows PC或Apple Mac上AI推理引擎性能的基准测试工具。
Procyon AI Computer Vision Benchmark是由UL Solutions开发的一款专业基准测试工具,旨在帮助用户评估不同AI推理引擎在Windows PC或Apple Mac上的性能表现。该工具通过执行一系列基于常见机器视觉任务的测试,利用多种先进的神经网络模型,为工程团队提供独立、标准化的评估手段,以便他们了解AI推理引擎的实施质量和专用硬件的性能。产品支持多种主流的AI推理引擎,如NVIDIA® TensorRT™、Intel® OpenVINO™等,并可比较浮点和整数优化模型的性能。其主要优点包括易于安装和运行、无需复杂配置、可导出详细结果文件等。产品定位为专业用户,如硬件制造商、软件开发者和科研人员,以助力他们在AI领域的研发和优化工作。
© 2025 AIbase 备案号:闽ICP备08105208号-14