hallucination-leaderboard

简介:

一个用于比较大型语言模型在总结短文档时产生幻觉的排行榜。

功能:

提供基于HHEM-2.1模型的LLM幻觉评估

支持多种LLM的比较和排名

使用CNN/Daily Mail语料库进行文档总结测试

通过API调用各种LLM模型进行评估

提供幻觉率、事实一致性率和回答率等关键指标

支持多语言模型的评估(目前主要支持英文)

定期更新以反映模型性能的变化

需求人群:

"该产品主要面向自然语言处理领域的研究人员、开发者以及对LLM性能评估感兴趣的用户。它可以帮助他们了解不同LLM在生成内容时的准确性和可靠性,从而选择更适合特定任务的模型。"

浏览量:8

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2025     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图