需求人群:
"FlagPerf的目标受众为AI硬件厂商、研究人员和开发者,他们需要一个公正、全面的平台来评估和比较不同AI硬件的性能。该平台提供的多维度评测和开源特性,使其成为AI领域技术评估的重要工具。"
使用场景示例:
NVIDIA使用FlagPerf测试其A100芯片的性能。
百度PaddlePaddle团队利用FlagPerf集成Llama模型进行性能评估。
华为昇思MindSpore团队通过FlagPerf测试框架性能。
产品特色:
构建多维度评测指标体系,包含性能指标、资源使用指标及生态适配能力指标。
支持多样例场景及任务,覆盖计算机视觉、自然语言处理等领域的30余个经典模型。
支持多训练框架及推理引擎,如PyTorch、TensorFlow,并与PaddlePaddle、MindSpore等国产框架合作。
支持多测试环境,综合考察单卡、单机、多机性能。
严格审核参评代码,确保测试过程公正、结果公平。
开源所有测试代码,确保测试过程、数据可复现。
使用教程:
1. 安装docker和python环境。
2. 确保硬件驱动、网络、硬件虚拟化等服务器基础配置齐全。
3. 下载FlagPerf项目代码并部署到服务器。
4. 修改机器配置文件,包括硬件配置和测试环境设置。
5. 启动测试,根据需要选择基础规格评测、算子评测、训练评测或推理评测。
6. 查看测试结果和日志,分析AI硬件的性能表现。
浏览量:89
最新流量情况
月访问量
4.92m
平均访问时长
00:06:33
每次访问页数
6.11
跳出率
36.20%
流量来源
直接访问
51.61%
自然搜索
33.46%
邮件
0.04%
外链引荐
12.58%
社交媒体
2.19%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
12.55%
德国
3.84%
印度
9.38%
俄罗斯
4.61%
美国
18.64%
开源AI芯片性能基准测试平台
FlagPerf是由智源研究院联合AI硬件厂商共建的一体化AI硬件评测引擎,旨在建立以产业实践为导向的指标体系,评测AI硬件在软件栈组合(模型+框架+编译器)下的实际能力。该平台支持多维度评测指标体系,覆盖大模型训练推理场景,并支持多训练框架及推理引擎,连接AI硬件与软件生态。
跨平台AI性能基准测试工具
Geekbench AI 是一款使用真实世界机器学习任务来评估AI工作负载性能的跨平台AI基准测试工具。它通过测量CPU、GPU和NPU的性能,帮助用户确定他们的设备是否准备好应对当今和未来的尖端机器学习应用。
FlagCX是一个跨芯片通信库。
FlagCX是由北京人工智能研究院(BAAI)支持开发的可扩展和自适应的跨芯片通信库。它是FlagAI-Open开源计划的一部分,旨在促进AI技术的开源生态系统。FlagCX利用原生集体通信库,全面支持不同平台上的单芯片通信。支持的通信后端包括NCCL、IXCCL和CNCL。
AI测试平台
Webo.Ai是一个易于使用、功能强大的测试平台,可以帮助您节省时间和资源。通过Webo.Ai,您可以自动化测试,减少测试时间,降低生产缺陷,并提高代码覆盖率。我们提供快速设置、AI生成测试用例、自动化准备等功能。试用期内,您将获得快速设置、AI生成测试用例、自动化准备等功能,并享受免费的回归测试和自愈功能。价格优势,将帮助您降低QA成本。
AI文本生成性能测试工具
Procyon AI Text Generation Benchmark 是一款专门用于测试和评估AI本地大型语言模型(LLM)性能的基准测试工具。它通过与AI软硬件领域的领导者紧密合作,确保测试能够充分利用系统中的本地AI加速硬件。该工具简化了PC性能比较和成本合理化,验证和标准化PC性能,并简化IT团队的PC生命周期管理,允许快速做出决策,以提供PC性能,降低硬件成本,节省测试时间。
AI驱动的API性能测试,提供高性能API,优化用户体验
PerfAI是一个AI驱动的API性能测试平台,通过自学习和无代码的方式,帮助企业交付高性能的API,提升用户体验,减少流失率。它可以自动生成性能测试计划,消除测试编写的繁琐过程。PerfAI的功能包括自动化性能测试、性能监控、负载测试和压力测试。它可以帮助企业发现和解决API性能问题,提供可靠的API服务。PerfAI的定价根据企业的具体需求而定,可以提供个性化的解决方案。它适用于各种使用场景,包括Web应用程序、移动应用程序和云服务等。通过提供高性能的API,PerfAI帮助企业提升用户体验,降低用户流失率,增加业务价值。
个人电脑AI性能基准测试
MLPerf Client是由MLCommons共同开发的新基准测试,旨在评估个人电脑(从笔记本、台式机到工作站)上大型语言模型(LLMs)和其他AI工作负载的性能。该基准测试通过模拟真实世界的AI任务,提供清晰的指标,以了解系统如何处理生成性AI工作负载。MLPerf Client工作组希望这个基准测试能够推动创新和竞争,确保个人电脑能够应对AI驱动的未来挑战。
专业用户的性能测试基准套件
Procyon是由UL Solutions开发的一套性能测试基准工具,专为工业、企业、政府、零售和媒体的专业用户设计。Procyon套件中的每个基准测试都提供了一致且熟悉的体验,并共享一套共同的设计和功能。灵活的许可模式意味着用户可以根据自己的需求选择适合的单个基准测试。Procyon基准测试套件很快将提供一系列针对专业用户的基准测试和性能测试,每个基准测试都针对特定用例设计,并尽可能使用真实应用。UL Solutions与行业合作伙伴紧密合作,确保每个Procyon基准测试准确、相关且公正。
AMD开源平台,提升AI、ML和HPC工作负载性能
AMD ROCm™ 6.3是AMD开源平台的一个重要里程碑,引入了先进的工具和优化,以提升在AMD Instinct GPU加速器上的AI、机器学习(ML)和高性能计算(HPC)工作负载。ROCm 6.3旨在增强从创新AI初创企业到HPC驱动行业的广泛客户的开发人员生产力。
衡量Android设备AI性能和质量的基准测试工具
Procyon AI Inference Benchmark for Android是一款基于NNAPI的基准测试工具,用于衡量Android设备上的AI性能和质量。它通过一系列流行的、最先进的神经网络模型来执行常见的机器视觉任务,帮助工程团队独立、标准化地评估NNAPI实现和专用移动硬件的AI性能。该工具不仅能够测量Android设备上专用AI处理硬件的性能,还能够验证NNAPI实现的质量,对于优化硬件加速器的驱动程序、比较浮点和整数优化模型的性能具有重要意义。
自动化AI语音代理测试与性能分析平台,提供真实场景模拟与评估。
TestAI是一个专注于AI语音代理的自动化测试与性能分析平台。它通过真实世界的场景模拟和详细的性能评估,帮助企业确保其语音和聊天代理的可靠性和流畅性。该平台提供快速设置、可靠洞察以及自定义指标等功能,能够有效提升AI代理的性能和用户体验。TestAI主要面向需要快速部署和优化AI语音代理的企业,帮助他们节省时间和成本,同时提高AI代理的可信度和安全性。
谷歌最新的高性能量子芯片
Willow量子芯片是谷歌量子人工智能团队研发的最新一代量子芯片,它在量子错误校正和性能上取得了重大突破。这款芯片能够显著降低随着量子比特数增加而产生的错误,实现了量子计算领域近30年来追求的关键挑战。此外,Willow在不到五分钟的时间内完成了一项标准基准计算,而这项计算对于当今最快的超级计算机来说需要10^25年,即远远超过宇宙的年龄。这一成就标志着我们向构建具有商业意义的大型量子计算机迈出了重要一步,量子计算机有潜力彻底改变医药、能源和人工智能等领域。
释放超级推理能力,提升AIME & MATH基准测试性能。
DeepSeek-R1-Lite-Preview是一款专注于提升推理能力的AI模型,它在AIME和MATH基准测试中展现了出色的性能。该模型具备实时透明的思考过程,并且计划推出开源模型和API。DeepSeek-R1-Lite-Preview的推理能力随着思考长度的增加而稳步提升,显示出更好的性能。产品背景信息显示,DeepSeek-R1-Lite-Preview是DeepSeek公司推出的最新产品,旨在通过人工智能技术提升用户的工作效率和问题解决能力。目前,产品提供免费试用,具体的定价和定位信息尚未公布。
本地测试API性能和真实性的工具
API CHECKER是一个用于本地测试API性能和真实性的工具,支持多种API中转格式,如oneapi/newapi等。它允许用户输入API URL和APIKey,选择或输入测试模型,进行本地测试,并提供详细报告。此外,它还具备官转验证功能,帮助用户确认API的真实性。
用于衡量设备 AI 加速器推理性能的基准测试工具。
Procyon AI Image Generation Benchmark 是一款由 UL Solutions 开发的基准测试工具,旨在为专业用户提供一个一致、准确且易于理解的工作负载,用以测量设备上 AI 加速器的推理性能。该基准测试与多个关键行业成员合作开发,确保在所有支持的硬件上产生公平且可比较的结果。它包括三个测试,可测量从低功耗 NPU 到高端独立显卡的性能。用户可以通过 Procyon 应用程序或命令行进行配置和运行,支持 NVIDIA® TensorRT™、Intel® OpenVINO™ 和 ONNX with DirectML 等多种推理引擎。产品主要面向工程团队,适用于评估推理引擎实现和专用硬件的通用 AI 性能。价格方面,提供免费试用,正式版为年度场地许可,需付费获取报价。
下一代开源AI模型,性能卓越。
Gemma 2是谷歌DeepMind推出的下一代开源AI模型,提供9亿和27亿参数版本,具有卓越的性能和推理效率,支持在不同硬件上以全精度高效运行,大幅降低部署成本。Gemma 2在27亿参数版本中,提供了两倍于其大小模型的竞争力,并且可以在单个NVIDIA H100 Tensor Core GPU或TPU主机上实现,显著降低部署成本。
快速AI推理,为开源模型提供即时智能。
Groq是一家提供高性能AI芯片和云服务的公司,专注于为AI模型提供超低延迟的推理服务。其产品GroqCloud™自2024年2月推出以来,已经有超过467,000名开发者使用。Groq的AI芯片技术由Meta的首席AI科学家Yann LeCun提供技术支持,并且获得了BlackRock领投的6.4亿美元融资,公司估值达到28亿美元。Groq的技术优势在于其能够无缝地从其他提供商迁移到Groq,仅需更改三行代码,并且与OpenAI的端点兼容。Groq的AI芯片旨在挑战Nvidia在AI芯片市场的领导地位,为开发者和企业提供更快、更高效的AI推理解决方案。
生成大规模A/B测试的开源基础设施
使用Rompt.ai的开源基础设施,通过生成和评估不同的提示变体,发现高效的提示。创建和组织提示,声明变量以模拟动态项目,运行具有不同格式、模型和变量的提示变体,生成大量输出数据集,通过评分生成结果来找到性能最佳的提示。
开源监控工具,提升LLM应用性能。
Langtrace是一个开源的可观测性工具,用于收集和分析追踪和指标,帮助提升大型语言模型(LLM)应用的性能。它支持OpenTelemetry标准追踪,可自我托管,避免供应商锁定。Langtrace提供端到端的可观测性,帮助用户全面了解整个机器学习流程,包括RAG或微调模型。此外,Langtrace还支持建立反馈循环,通过追踪的LLM交互创建黄金数据集,不断测试和增强AI应用。
世界上最快的AI芯片,拥有惊人的4万亿晶体管
Cerebras Systems宣布推出其第三代5纳米晶圆级引擎(WSE-3),这是一款专为训练业界最大AI模型而设计的芯片。WSE-3的性能是前代产品WSE-2的两倍,同时保持相同的功耗和价格。该芯片基于5纳米工艺,拥有4万亿晶体管,通过900,000个为AI优化的计算核心,提供125 petaflops的峰值AI性能。
AI语音代理测试与监控平台
Vocera是一个由Y Combinator支持的AI语音代理测试与监控平台,它允许用户通过模拟各种场景和使用真实音频来测试和评估AI语音代理的性能。该平台的主要优点在于能够快速启动测试,减少将AI代理投入生产环境的时间,同时提供实时监控和性能分析,确保AI代理在各种对话场景中都能提供无缝的用户体验。Vocera适用于需要快速创建和测试AI语音代理的企业和开发者,特别是在合规性要求较高的行业中,如医疗、法律等。
用于评估Windows PC或Apple Mac上AI推理引擎性能的基准测试工具。
Procyon AI Computer Vision Benchmark是由UL Solutions开发的一款专业基准测试工具,旨在帮助用户评估不同AI推理引擎在Windows PC或Apple Mac上的性能表现。该工具通过执行一系列基于常见机器视觉任务的测试,利用多种先进的神经网络模型,为工程团队提供独立、标准化的评估手段,以便他们了解AI推理引擎的实施质量和专用硬件的性能。产品支持多种主流的AI推理引擎,如NVIDIA® TensorRT™、Intel® OpenVINO™等,并可比较浮点和整数优化模型的性能。其主要优点包括易于安装和运行、无需复杂配置、可导出详细结果文件等。产品定位为专业用户,如硬件制造商、软件开发者和科研人员,以助力他们在AI领域的研发和优化工作。
昆仑万维开源的高性能数学代码推理模型,性能卓越
Skywork-OR1是由昆仑万维天工团队开发的高性能数学代码推理模型。该模型系列在同等参数规模下实现了业界领先的推理性能,突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。Skywork-OR1系列包括Skywork-OR1-Math-7B、Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview三款模型,分别聚焦数学推理、通用推理和高性能推理任务。此次开源不仅涵盖模型权重,还全面开放了训练数据集和完整训练代码,所有资源均已上传至GitHub和Huggingface平台,为AI社区提供了完全可复现的实践参考。这种全方位的开源策略有助于推动整个AI社区在推理能力研究上的共同进步。
苹果芯片高效灵活机器学习
MLX是一种类似NumPy的数组框架,专为在苹果芯片上进行高效灵活的机器学习而设计,由苹果机器学习研究团队提供。Python API与NumPy紧密相似,但也有一些例外。MLX还具有完整的C++ API,紧密遵循Python API。MLX与NumPy的主要区别包括:可组合的函数转换、惰性计算和多设备支持。MLX的设计灵感来自PyTorch、Jax和ArrayFire等框架。与这些框架不同的是,MLX采用统一内存模型。MLX中的数组位于共享内存中,可以在任何受支持的设备类型(CPU、GPU等)上执行操作,而无需执行数据复制。
AI语音代理测试与可观测性平台
fixa是一个专注于AI语音代理测试与可观测性的平台,旨在帮助开发者和企业快速发现并修复语音代理中的问题。通过自动化测试、生产监控和错误检测等功能,确保语音代理的稳定性和可靠性。该平台由Y Combinator资助,提供简单透明的定价策略,适合不同规模的企业使用。
开源的高性能语言模型,支持多端应用。
Qwen2.5系列语言模型是一系列开源的decoder-only稠密模型,参数规模从0.5B到72B不等,旨在满足不同产品对模型规模的需求。这些模型在自然语言理解、代码生成、数学推理等多个领域表现出色,特别适合需要高性能语言处理能力的应用场景。Qwen2.5系列模型的发布,标志着在大型语言模型领域的一次重要进步,为开发者和研究者提供了强大的工具。
国内专业的 AI 创作平台
Vega 是一款强大的在线创作工具,操作流程更加简化,能够更好更快地创作内容;几分钟内构思,快速生成高质量的画面;支持在线快速训练,自由定制;率先开放视频生成大模型,体验视频生成的功能;采用了全新的交互模式,是可以提高生产效率的新一代创作平台。
AI驱动的测试自动化平台
Applitools是一款AI驱动的视觉测试和监控平台。Applitools Visual AI易于设置,并与所有现代测试框架集成。通过使用Applitools,您可以减少创建、执行和维护自动化测试所需的时间,并测试应用程序的大量部分。Applitools提供UI验证、测试基础设施、跨浏览器测试和自动化测试维护等功能。它还支持测试Web、移动和桌面应用程序,以及PDF和文档等其他形式的媒体。
© 2025 AIbase 备案号:闽ICP备08105208号-14