Tele-FLM-1T

Tele-FLM-1T是一个开源的1T多语言大型语言模型,基于解码器仅Transformer架构,经过约2T tokens的训练。该模型在规模上展现出卓越的性能,有时甚至超越了更大的模型。除了分享模型权重外,还提供了核心设计、工程实践和训练细节,期待对学术和工业社区都有所裨益。

需求人群:

"目标受众为需要使用大型语言模型进行文本生成、机器翻译、问答系统等自然语言处理任务的研究人员和开发者。"

使用场景示例:

用于生成高质量的多语言文本内容

作为多语言机器翻译系统的核心模型

在问答系统中提供准确的信息检索和回答

产品特色:

基于增长技术,分为52B、102B和1TB三个训练阶段

使用标准GPT风格的解码器仅Transformer架构,包含若干调整

Rotary Positional Embedding (RoPE)、RMSNorm和SwiGLU激活函数

与Llama架构兼容,代码调整最小化

在112个A800 SXM4 GPU服务器集群上训练,每个服务器有8个NVLink A800 GPU和2TB RAM

采用3D并行训练,结合数据并行、张量并行和流水线并行

提供模型权重和训练细节,促进社区使用和研究

使用教程:

1. 访问Hugging Face模型库并找到Tele-FLM-1T模型

2. 阅读模型卡片,了解模型的详细信息和使用限制

3. 下载模型权重和相关代码

4. 根据提供的工程实践和训练细节调整模型以适应特定任务

5. 在本地或云环境中部署模型进行训练或推理

6. 使用模型进行文本生成或其他NLP任务

7. 分享使用经验和反馈,促进社区发展

浏览量:30

打开站点

网站流量情况

最新流量情况

月访问量

25296.55k

平均访问时长

00:04:45

每次访问页数

5.83

跳出率

43.31%

流量来源

直接访问

48.39%

自然搜索

35.85%

邮件

0.03%

外链引荐

12.76%

社交媒体

2.96%

展示广告

0

截止目前所有流量趋势图

地理流量分布情况

中国

17.08%

印度

8.40%

日本

3.42%

俄罗斯

4.58%

美国

17.94%

类似产品

© 2025     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图