需求人群:
"目标受众为需要在设备上快速部署和运行语言模型的开发者和企业,特别是在需要角色扮演、检索增强问答和功能调用的应用场景中。"
使用场景示例:
在视频游戏中集成模型,以提供角色扮演对话
用于商业用途,如客户服务聊天机器人
在需要快速响应和设备部署的场景中使用
产品特色:
角色扮演响应生成
检索增强生成
功能调用
优化以提高速度和设备部署
支持 4096 个令牌的上下文长度
通过蒸馏、剪枝和量化技术优化
使用教程:
1. 从 Hugging Face 导入 AutoTokenizer 和 AutoModelForCausalLM。
2. 使用 'nvidia/Nemotron-Mini-4B-Instruct' 预训练模型加载 tokenizer 和 model。
3. 使用推荐的 prompt 模板进行消息格式化。
4. 调用 model.generate 函数生成响应。
5. 使用 tokenizer.decode 函数将生成的令牌转换为文本。
6. (可选)使用 pipeline 进行文本生成,但需要手动分配 tokenizer 对象。
浏览量:64
最新流量情况
月访问量
29742.94k
平均访问时长
00:04:44
每次访问页数
5.85
跳出率
44.20%
流量来源
直接访问
50.45%
自然搜索
33.93%
邮件
0.03%
外链引荐
12.90%
社交媒体
2.67%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
21.55%
印度
7.98%
日本
2.93%
俄罗斯
5.29%
美国
16.06%
用于角色扮演、检索增强生成和功能调用的小型语言模型
Nemotron-Mini-4B-Instruct 是 NVIDIA 开发的一款小型语言模型,通过蒸馏、剪枝和量化优化,以提高速度和便于在设备上部署。它是从 Nemotron-4 15B 通过 NVIDIA 的大型语言模型压缩技术剪枝和蒸馏得到的 nvidia/Minitron-4B-Base 的微调版本。此指令模型针对角色扮演、检索增强问答(RAG QA)和功能调用进行了优化,支持 4096 个令牌的上下文长度,已准备好用于商业用途。
一个简单的检索增强生成框架,使小型模型通过异构图索引和轻量级拓扑增强检索实现良好的RAG性能。
MiniRAG是一个针对小型语言模型设计的检索增强生成系统,旨在简化RAG流程并提高效率。它通过语义感知的异构图索引机制和轻量级的拓扑增强检索方法,解决了小型模型在传统RAG框架中性能受限的问题。该模型在资源受限的场景下具有显著优势,如在移动设备或边缘计算环境中。MiniRAG的开源特性也使其易于被开发者社区接受和改进。
开源框架,加速大型视频扩散模型
FastVideo是一个开源框架,旨在加速大型视频扩散模型。它提供了FastHunyuan和FastMochi两种一致性蒸馏视频扩散模型,实现了8倍推理速度提升。FastVideo基于PCM(Phased-Consistency-Model)提供了首个开放的视频DiT蒸馏配方,支持对最先进的开放视频DiT模型进行蒸馏、微调和推理,包括Mochi和Hunyuan。此外,FastVideo还支持使用FSDP、序列并行和选择性激活检查点进行可扩展训练,以及使用LoRA、预计算潜在和预计算文本嵌入进行内存高效微调。FastVideo的开发正在进行中,技术高度实验性,未来计划包括增加更多蒸馏方法、支持更多模型以及代码更新。
小型语言模型调研、测量与洞察
SLM_Survey是一个专注于小型语言模型(SLMs)的研究项目,旨在通过调研和测量,提供对这些模型的深入了解和技术评估。该项目涵盖了基于Transformer的、仅解码器的语言模型,参数范围在100M至5B之间。通过对59个最先进的开源SLMs进行调研,分析了它们的技术创新,并在多个领域评估了它们的能力,包括常识推理、上下文学习、数学和编程。此外,还对它们的运行时成本进行了基准测试,包括推理延迟和内存占用。这些研究对于推动SLMs领域的研究具有重要价值。
© 2025 AIbase 备案号:闽ICP备08105208号-14