EasyContext

EasyContext是一个开源项目,旨在通过结合多种技术手段,实现使用普通硬件训练语言模型的上下文长度达到100万词元。主要采用的技术包括序列并行、Deepspeed zero3离载、Flash注意力以及激活checkpoint等。该项目不提出新的创新点,而是展示如何组合现有的技术手段来实现这一目标。已成功训练出Llama-2-7B和Llama-2-13B两个模型,分别在8块A100和16块A100上实现了700K和1M词元的上下文长度。

需求人群:

"用于训练具有超长上下文的语言模型"

使用场景示例:

使用EasyContext在8块A100上训练Llama-2-7B模型,实现了700K词元的上下文长度

使用EasyContext在16块A100上训练Llama-2-13B模型,实现了1M词元的上下文长度

通过组合现有技术手段,EasyContext大幅提升了语言模型的上下文长度,为视频生成等应用奠定了基础

产品特色:

序列并行

Deepspeed zero3离载

Flash注意力和融合交叉熵核心

激活checkpoint

浏览量:14

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
网站流量情况

最新流量情况

月访问量

467127.54k

平均访问时长

00:07:27

每次访问页数

6.62

跳出率

37.89%

流量来源

直接访问

51.41%

自然搜索

29.45%

邮件

0.92%

外链引荐

11.72%

社交媒体

6.47%

展示广告

0

截止目前所有流量趋势图

地理流量分布情况

美国

16.52%

中国

14.70%

印度

9.14%

日本

3.64%

德国

3.30%

类似产品

© 2024     AIbase    备案号:闽ICP备2023012347号-1

隐私政策

用户协议

意见反馈 网站地图