简介:

多语言多任务基准测试,用于评估大型语言模型(LLMs)

功能:

支持多达10种语言,包括英语、中文、阿拉伯语、西班牙语、法语、日语、韩语、葡萄牙语、泰语和越南语。

提供平行样本,支持跨语言能力评估和比较分析。

覆盖基础和能力专业化的数据集,适用于全面评估多语言能力。

支持闭源和开源模型的性能比较。

提供数据预览、数据集文件下载和快速使用指南。

支持使用OpenCompass进行LLMs评估。

提供vllm加速评估(需要vllm安装)。

需求人群:

"目标受众为研究人员、开发者和教育机构,他们需要评估和比较不同语言模型在多语言环境下的表现和能力。P-MMEval提供了一个标准化的测试平台,使得跨语言和跨模型的比较成为可能。"

浏览量:3

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图