RULER

RULER 是一种新的合成基准,为长文本语言模型提供了更全面的评估。它扩展了普通检索测试,涵盖了不同类型和数量的信息点。此外,RULER 引入了新的任务类别,如多跳跟踪和聚合,以测试超出检索从上下文中的行为。在 RULER 上评估了 10 个长文本语言模型,并在 13 个代表性任务中获得了表现。尽管这些模型在普通检索测试中取得了几乎完美的准确性,但在上下文长度增加时,它们表现得非常差。只有四个模型(GPT-4、Command-R、Yi-34B 和 Mixtral)在长度为 32K 时表现得相当不错。我们公开源 RULER,以促进对长文本语言模型的全面评估。

需求人群:

"教育、科研"

使用场景示例:

在长文本中查找信息

多跳跟踪信息

在长文本中进行聚合

产品特色:

长文本语言模型测试

多跳跟踪

聚合

浏览量:46

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
网站流量情况

最新流量情况

月访问量

19075.32k

平均访问时长

00:05:32

每次访问页数

5.52

跳出率

45.07%

流量来源

直接访问

48.31%

自然搜索

36.36%

邮件

0.03%

外链引荐

12.17%

社交媒体

3.11%

展示广告

0

截止目前所有流量趋势图

地理流量分布情况

中国

13.13%

印度

7.59%

日本

3.67%

俄罗斯

6.13%

美国

18.18%

类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图