EasyContext

EasyContext是一个开源项目,旨在通过结合多种技术手段,实现使用普通硬件训练语言模型的上下文长度达到100万词元。主要采用的技术包括序列并行、Deepspeed zero3离载、Flash注意力以及激活checkpoint等。该项目不提出新的创新点,而是展示如何组合现有的技术手段来实现这一目标。已成功训练出Llama-2-7B和Llama-2-13B两个模型,分别在8块A100和16块A100上实现了700K和1M词元的上下文长度。

需求人群:

"用于训练具有超长上下文的语言模型"

使用场景示例:

使用EasyContext在8块A100上训练Llama-2-7B模型,实现了700K词元的上下文长度

使用EasyContext在16块A100上训练Llama-2-13B模型,实现了1M词元的上下文长度

通过组合现有技术手段,EasyContext大幅提升了语言模型的上下文长度,为视频生成等应用奠定了基础

产品特色:

序列并行

Deepspeed zero3离载

Flash注意力和融合交叉熵核心

激活checkpoint

浏览量:22

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
网站流量情况

最新流量情况

月访问量

5.16m

平均访问时长

00:06:42

每次访问页数

5.81

跳出率

37.20%

流量来源

直接访问

52.27%

自然搜索

32.92%

邮件

0.05%

外链引荐

12.52%

社交媒体

2.15%

展示广告

0

截止目前所有流量趋势图

地理流量分布情况

中国

11.99%

德国

3.63%

印度

9.20%

俄罗斯

5.25%

美国

19.02%

类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图