简介:

1T开源多语言大型语言模型

功能:

基于增长技术,分为52B、102B和1TB三个训练阶段

使用标准GPT风格的解码器仅Transformer架构,包含若干调整

Rotary Positional Embedding (RoPE)、RMSNorm和SwiGLU激活函数

与Llama架构兼容,代码调整最小化

在112个A800 SXM4 GPU服务器集群上训练,每个服务器有8个NVLink A800 GPU和2TB RAM

采用3D并行训练,结合数据并行、张量并行和流水线并行

提供模型权重和训练细节,促进社区使用和研究

需求人群:

"目标受众为需要使用大型语言模型进行文本生成、机器翻译、问答系统等自然语言处理任务的研究人员和开发者。"

浏览量:9

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图