RULER

RULER 是一种新的合成基准,为长文本语言模型提供了更全面的评估。它扩展了普通检索测试,涵盖了不同类型和数量的信息点。此外,RULER 引入了新的任务类别,如多跳跟踪和聚合,以测试超出检索从上下文中的行为。在 RULER 上评估了 10 个长文本语言模型,并在 13 个代表性任务中获得了表现。尽管这些模型在普通检索测试中取得了几乎完美的准确性,但在上下文长度增加时,它们表现得非常差。只有四个模型(GPT-4、Command-R、Yi-34B 和 Mixtral)在长度为 32K 时表现得相当不错。我们公开源 RULER,以促进对长文本语言模型的全面评估。

需求人群:

"教育、科研"

使用场景示例:

在长文本中查找信息

多跳跟踪信息

在长文本中进行聚合

产品特色:

长文本语言模型测试

多跳跟踪

聚合

浏览量:8

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
网站流量情况

最新流量情况

月访问量

22216.76k

平均访问时长

00:04:50

每次访问页数

5.52

跳出率

47.80%

流量来源

直接访问

46.24%

自然搜索

30.97%

邮件

0.78%

外链引荐

13.53%

社交媒体

8.45%

展示广告

0

截止目前所有流量趋势图

地理流量分布情况

中国

15.26%

美国

13.36%

印度

6.45%

俄罗斯

3.91%

法国

3.77%

类似产品

© 2024     AIbase    备案号:闽ICP备2023012347号-1

隐私政策

用户协议

意见反馈 网站地图