Tencent-Hunyuan-Large

简介:

业界领先的开源大型混合专家模型

功能:

高质量合成数据:通过合成数据增强训练,学习到更丰富的表示,处理长上下文输入,并更好地泛化到未见数据。

KV缓存压缩:采用分组查询注意力(GQA)和跨层注意力(CLA)策略,显著减少了KV缓存的内存占用和计算开销,提高了推理吞吐。

专家特定学习率缩放:为不同专家设置不同的学习率,确保每个子模型都能有效地从数据中学习,并为整体性能做出贡献。

长上下文处理能力:预训练模型支持高达256K的文本序列,Instruct模型支持128K的文本序列,显著提升了长上下文任务的处理能力。

广泛的基准测试:在多种语言和任务上进行广泛实验,验证了Hunyuan-Large的实际应用效果和安全性。

推理框架:提供配套Hunyuan-Large模型的vLLM-backend推理框架,支持超长文本场景和FP8量化优化,节省显存并提升吞吐。

训练框架:支持huggingface格式,支持用户采用hf-deepspeed框架进行模型精调,并利用flash-attn进行训练加速。

需求人群:

"目标受众为AI领域的研究者、开发者和企业,特别是那些需要处理大规模语言模型训练和推理的专业人士。混元大模型的高性能和开源特性,使其成为探索和优化未来AI模型的理想选择。"

浏览量:39

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图