RULER

RULER 是一种新的合成基准,为长文本语言模型提供了更全面的评估。它扩展了普通检索测试,涵盖了不同类型和数量的信息点。此外,RULER 引入了新的任务类别,如多跳跟踪和聚合,以测试超出检索从上下文中的行为。在 RULER 上评估了 10 个长文本语言模型,并在 13 个代表性任务中获得了表现。尽管这些模型在普通检索测试中取得了几乎完美的准确性,但在上下文长度增加时,它们表现得非常差。只有四个模型(GPT-4、Command-R、Yi-34B 和 Mixtral)在长度为 32K 时表现得相当不错。我们公开源 RULER,以促进对长文本语言模型的全面评估。

需求人群:

"教育、科研"

使用场景示例:

在长文本中查找信息

多跳跟踪信息

在长文本中进行聚合

产品特色:

长文本语言模型测试

多跳跟踪

聚合

浏览量:123

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
网站流量情况

最新流量情况

月访问量

29742.94k

平均访问时长

00:04:44

每次访问页数

5.85

跳出率

44.20%

流量来源

直接访问

50.45%

自然搜索

33.93%

邮件

0.03%

外链引荐

12.90%

社交媒体

2.67%

展示广告

0

截止目前所有流量趋势图

地理流量分布情况

中国

21.55%

印度

7.98%

日本

2.93%

俄罗斯

5.29%

美国

16.06%

类似产品

© 2025     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图