RWKV家族中最大的模型,采用MoE技术提升效率。
Flock of Finches 37B-A11B v0.1是RWKV家族的最新成员,这是一个实验性模型,拥有11亿个活跃参数,尽管仅训练了1090亿个token,但在常见基准测试中的得分与最近发布的Finch 14B模型大致相当。该模型采用了高效的稀疏混合专家(MoE)方法,在任何给定token上仅激活一部分参数,从而在训练和推理过程中节省时间和减少计算资源的使用。尽管这种架构选择以更高的VRAM使用为代价,但从我们的角度看,能够低成本训练和运行具有更大能力模型是非常值得的。
多语言大型语言模型,支持多领域文本生成。
XVERSE-MoE-A36B是由深圳元象科技自主研发的多语言大型语言模型,采用混合专家模型(MoE)架构,具有2554亿的总参数规模和360亿的激活参数量。该模型支持包括中、英、俄、西等40多种语言,特别在中英双语上表现优异。模型使用8K长度的训练样本,并通过精细化的数据采样比例和动态数据切换策略,保证了模型的高质量和多样性。此外,模型还针对MoE架构进行了定制优化,提升了计算效率和整体吞吐量。
146亿参数的高性能MoE模型
Skywork-MoE是一个具有146亿参数的高性能混合专家(MoE)模型,拥有16个专家和22亿激活参数。该模型从Skywork-13B模型的密集型检查点初始化而来。引入了两种创新技术:门控逻辑归一化,增强专家多样化;自适应辅助损失系数,允许层特定的辅助损失系数调整。Skywork-MoE在各种流行基准测试中,如C-Eval、MMLU、CMMLU、GSM8K、MATH和HumanEval,展现出与参数更多或激活参数更多的模型相当的或更优越的性能。
146亿参数的高性能MoE模型
Skywork-MoE是一个具有146亿参数的高性能混合专家(MoE)模型,包含16个专家和22亿激活参数。该模型从Skywork-13B模型的密集型检查点初始化而来,并引入了两种创新技术:门控逻辑归一化增强专家多样化,以及自适应辅助损失系数允许层特定的辅助损失系数调整。Skywork-MoE在性能上与参数更多或激活参数更多的模型如Grok-1、DBRX、Mistral 8*22和Deepseek-V2相当或更优。
© 2025 AIbase 备案号:闽ICP备08105208号-14