需求人群:
"目标受众为需要在设备上快速部署和运行语言模型的开发者和企业,特别是在需要角色扮演、检索增强问答和功能调用的应用场景中。"
使用场景示例:
在视频游戏中集成模型,以提供角色扮演对话
用于商业用途,如客户服务聊天机器人
在需要快速响应和设备部署的场景中使用
产品特色:
角色扮演响应生成
检索增强生成
功能调用
优化以提高速度和设备部署
支持 4096 个令牌的上下文长度
通过蒸馏、剪枝和量化技术优化
使用教程:
1. 从 Hugging Face 导入 AutoTokenizer 和 AutoModelForCausalLM。
2. 使用 'nvidia/Nemotron-Mini-4B-Instruct' 预训练模型加载 tokenizer 和 model。
3. 使用推荐的 prompt 模板进行消息格式化。
4. 调用 model.generate 函数生成响应。
5. 使用 tokenizer.decode 函数将生成的令牌转换为文本。
6. (可选)使用 pipeline 进行文本生成,但需要手动分配 tokenizer 对象。
浏览量:73
最新流量情况
月访问量
25296.55k
平均访问时长
00:04:45
每次访问页数
5.83
跳出率
43.31%
流量来源
直接访问
48.39%
自然搜索
35.85%
邮件
0.03%
外链引荐
12.76%
社交媒体
2.96%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
13.77%
印度
8.48%
日本
3.85%
俄罗斯
4.86%
美国
17.58%
用于角色扮演、检索增强生成和功能调用的小型语言模型
Nemotron-Mini-4B-Instruct 是 NVIDIA 开发的一款小型语言模型,通过蒸馏、剪枝和量化优化,以提高速度和便于在设备上部署。它是从 Nemotron-4 15B 通过 NVIDIA 的大型语言模型压缩技术剪枝和蒸馏得到的 nvidia/Minitron-4B-Base 的微调版本。此指令模型针对角色扮演、检索增强问答(RAG QA)和功能调用进行了优化,支持 4096 个令牌的上下文长度,已准备好用于商业用途。
高效小型语言模型
SmolLM是一系列最新的小型语言模型,包含135M、360M和1.7B参数的版本。这些模型在精心策划的高质量训练语料库上进行训练,能够实现在本地设备上运行,显著降低推理成本并提高用户隐私。SmolLM模型在多种基准测试中表现优异,测试了常识推理和世界知识。
为边缘设备定制的小型语言模型
MobiLlama是一个为资源受限设备设计的小型语言模型(SLM),它旨在提供准确且轻量级的解决方案,以满足设备上的处理需求、能效、低内存占用和响应效率。MobiLlama从更大的模型出发,通过精心设计的参数共享方案来降低预训练和部署成本。
小型语言模型调研、测量与洞察
SLM_Survey是一个专注于小型语言模型(SLMs)的研究项目,旨在通过调研和测量,提供对这些模型的深入了解和技术评估。该项目涵盖了基于Transformer的、仅解码器的语言模型,参数范围在100M至5B之间。通过对59个最先进的开源SLMs进行调研,分析了它们的技术创新,并在多个领域评估了它们的能力,包括常识推理、上下文学习、数学和编程。此外,还对它们的运行时成本进行了基准测试,包括推理延迟和内存占用。这些研究对于推动SLMs领域的研究具有重要价值。
小型语言模型结合增强视觉词汇
Vary-toy是一个小型Vary模型,基于Qwen-1.8B作为基础“大”语言模型。Vary-toy引入了改进的视觉词汇,使模型不仅具备Vary的所有特性,还具有更广泛的泛化能力。具体来说,在生成视觉词汇的过程中,我们用目标检测驱动的正样本数据替换自然图像的负样本,更充分地利用了词汇网络的容量,使其能够高效地编码与自然物体对应的视觉信息。在实验中,Vary-toy在DocVQA上实现了65.6%的ANLS,在ChartQA上实现了59.1%的准确率,在RefCOCO上实现了88.1%的准确率,在MMVet上实现了29%的准确率。定价:免费试用,付费版本定价待定。定位:为研究人员提供在资源有限的情况下在普通GPU上训练和部署LVLMs的解决方案。
开源的去蒸馏FLUX模型
LibreFLUX是一个基于Apache 2.0许可的开源版本,提供了完整的T5上下文长度,使用注意力掩码,恢复了分类器自由引导,并去除了大部分FLUX美学微调/DPO。这意味着它比基础FLUX更不美观,但有潜力更容易地微调到任何新的分布。LibreFLUX的开发秉承开源软件的核心原则,即使用困难,比专有解决方案更慢、更笨拙,并且审美停留在21世纪初。
高效能小型语言模型
Zamba2-7B是由Zyphra团队开发的一款小型语言模型,它在7B规模上超越了当前领先的模型,如Mistral、Google的Gemma和Meta的Llama3系列,无论是在质量还是性能上。该模型专为在设备上和消费级GPU上运行以及需要强大但紧凑高效模型的众多企业应用而设计。Zamba2-7B的发布,展示了即使在7B规模上,前沿技术仍然可以被小团队和适度预算所触及和超越。
高效低成本的小型语言模型
Phi-3是微软Azure推出的一系列小型语言模型(SLMs),具有突破性的性能,同时成本和延迟都很低。这些模型专为生成式AI解决方案设计,体积更小,计算需求更低。Phi-3模型遵循微软AI原则开发,包括责任、透明度、公平性、可靠性和安全性、隐私和安全性以及包容性,确保了安全性。此外,Phi-3还提供了本地部署、准确相关回答、低延迟场景部署、成本受限任务处理和定制化精度等功能。
高效准确的AI语言模型
Llama-3.1-Nemotron-51B是由NVIDIA基于Meta的Llama-3.1-70B开发的新型语言模型,通过神经架构搜索(NAS)技术优化,实现了高准确率和高效率。该模型能够在单个NVIDIA H100 GPU上运行,显著降低了内存占用,减少了内存带宽和计算量,同时保持了优秀的准确性。它代表了AI语言模型在准确性和效率之间取得的新平衡,为开发者和企业提供了成本可控的高性能AI解决方案。
汇总和比较全球主要AI模型提供商的价格信息
AIGCRank大语言模型API价格对比是一个专门汇总和比较全球主要AI模型提供商的价格信息的工具。它为用户提供最新的大语言模型(LLM)的价格数据,包括一些免费的AI大模型API。通过这个平台,用户可以轻松查找和比较OpenAI、Claude、Mixtral、Kimi、星火大模型、通义千问、文心一语、Llama 3、GPT-4、AWS和Google等国内外主要API提供商的最新价格,确保找到最适合自己项目的模型定价。
高效紧凑的7B参数语言模型
Arcee Spark是一个7B参数的语言模型,它在紧凑的包体中提供高性能,证明小型模型也能与大型模型相媲美。它是7B-15B范围内得分最高的模型,并且在MT-Bench基准测试中超越了GPT 3.5和Claude 2.1等更大模型。它适用于实时应用、边缘计算场景、成本效益高的AI实施、快速原型设计和增强数据隐私的本地部署。
最前沿的开源AI模型,支持多语言和高级功能。
Llama 3.1是Meta AI推出的最新一代大型语言模型,具有128K的上下文长度扩展、支持八种语言,并首次开源了405B参数级别的前沿AI模型。该模型在通用知识、可控性、数学、工具使用和多语言翻译方面具有最先进的能力,能够与最好的闭源模型相媲美。Llama 3.1的发布,将为开发者提供解锁新工作流程的工具,例如合成数据生成和模型蒸馏。
先进的小型语言模型,专为设备端应用设计。
Zamba2-mini是由Zyphra Technologies Inc.发布的小型语言模型,专为设备端应用设计。它在保持极小的内存占用(<700MB)的同时,实现了与更大模型相媲美的评估分数和性能。该模型采用了4bit量化技术,具有7倍参数下降的同时保持相同性能的特点。Zamba2-mini在推理效率上表现出色,与Phi3-3.8B等更大模型相比,具有更快的首令牌生成时间、更低的内存开销和更低的生成延迟。此外,该模型的权重已开源发布(Apache 2.0),允许研究人员、开发者和公司利用其能力,推动高效基础模型的边界。
高性能图像生成模型的蒸馏加速版本
HunyuanDiT Distillation Acceleration 是腾讯 Hunyuan 团队基于 HunyuanDiT 模型开发的蒸馏加速版本。通过渐进式蒸馏方法,在不降低性能的情况下,实现了推理速度的两倍提升。该模型支持多种GPU和推理模式,能够显著减少时间消耗,提高图像生成效率。
一款小型评分器,提升大型多任务语言模型性能
Cappy是一种新型方法,旨在提高大型多任务语言模型的性能和效率。它是一个轻量级的预训练评分器,基于RoBERTa,仅有3.6亿个参数。Cappy可独立解决分类任务,或作为辅助组件提升语言模型性能。在下游任务中微调Cappy,可有效整合监督信息,提高模型表现,且不需要反向传播到语言模型参数,降低了内存需求。Cappy适用于开源和封闭源代码的语言模型,是一种高效的模型微调方法。
vivo自主研发的智能语言理解模型
蓝心大模型是vivo自主研发的智能语言理解模型,具有70亿模型参数量,可以处理32K上下文长度。它基于260TB的多语言训练语料,拥有强大的语言理解能力,可以广泛应用于内容创作、知识问答、逻辑推理、代码生成等场景,持续为用户提供安全可靠的人机交互体验。该模型已通过严格的安全合规检测,输出结果安全合规。
微软最新的小型语言模型,专注于复杂推理
Phi-4是微软Phi系列小型语言模型的最新成员,拥有14B参数,擅长数学等复杂推理领域。Phi-4通过使用高质量的合成数据集、精选有机数据和后训练创新,在大小与质量之间取得了平衡。Phi-4体现了微软在小型语言模型(SLM)领域的技术进步,推动了AI技术的边界。Phi-4目前已在Azure AI Foundry上提供,并将在未来几周登陆Hugging Face平台。
一款强大的小型视觉语言模型,无处不在
moondream是一个使用SigLIP、Phi-1.5和LLaVA训练数据集构建的16亿参数模型。由于使用了LLaVA数据集,权重受CC-BY-SA许可证保护。您可以在Huggingface Spaces上尝试使用它。该模型在VQAv2、GQA、VizWiz和TextVQA基准测试中表现如下:LLaVA-1.5(13.3B参数):80.0、63.3、53.6、61.3;LLaVA-1.5(7.3B参数):78.5、62.0、50.0、58.2;MC-LLaVA-3B(3B参数):64.2、49.6、24.9、38.6;LLaVA-Phi(3B参数):71.4、-、35.9、48.6;moondream1(1.6B参数):74.3、56.3、30.3、39.8。
优化的小型语言模型,适用于移动设备
MobileLLM是一种针对移动设备优化的小型语言模型,专注于设计少于十亿参数的高质量LLMs,以适应移动部署的实用性。与传统观念不同,该研究强调了模型架构在小型LLMs中的重要性。通过深度和薄型架构,结合嵌入共享和分组查询注意力机制,MobileLLM在准确性上取得了显著提升,并提出了一种不增加模型大小且延迟开销小的块级权重共享方法。此外,MobileLLM模型家族在聊天基准测试中显示出与之前小型模型相比的显著改进,并在API调用任务中接近LLaMA-v2 7B的正确性,突出了小型模型在普通设备用例中的能力。
多模态语音大型语言模型
fixie-ai/ultravox-v0_4_1-llama-3_1-70b是一个基于预训练的Llama3.1-70B-Instruct和whisper-large-v3-turbo的大型语言模型,能够处理语音和文本输入,生成文本输出。该模型通过特殊伪标记<|audio|>将输入音频转换为嵌入,并与文本提示合并后生成输出文本。Ultravox的开发旨在扩展语音识别和文本生成的应用场景,如语音代理、语音到语音翻译和口语音频分析等。该模型遵循MIT许可,由Fixie.ai开发。
小型语言模型用于推理和理解任务
Orca 2 是一个用于研究目的的助手,通过提供单轮响应来帮助推理和理解任务,如数据推理、阅读理解、数学问题解决和文本摘要。该模型特别擅长推理。我们公开发布 Orca 2,以促进在开发、评估和对齐更小的语言模型方面的进一步研究。
开源小型语言模型,适用于企业级应用
H2O-Danube2-1.8B是H2O.ai最新发布的开源小型语言模型,专为离线应用和企业级应用设计,具有经济高效的接口和训练成本,易于嵌入到移动电话、无人机等边缘设备中。该模型在Hugging Face Open LLM Leaderboard的<2B范围内排名第一,提供高达200倍的查询成本节省,同时在文档处理上提供更好的准确性,成本降低高达100%。H2O.ai平台还提供了成本控制和灵活性,支持超过30种大型语言模型(Large Language Models, LLMs)的混合使用,包括专有和开源的LLMs。
通过自博弈相互推理,提升小型语言模型的解决问题能力。
rStar是一个自我博弈相互推理方法,它通过将推理过程分解为解决方案生成和相互验证,显著提升了小型语言模型(SLMs)的推理能力,无需微调或使用更高级的模型。rStar通过蒙特卡洛树搜索(MCTS)和人类推理动作的结合,构建更高质量的推理轨迹,并通过另一个类似能力的SLM作为鉴别器来验证这些轨迹的正确性。这种方法在多个SLMs上进行了广泛的实验,证明了其在解决多样化推理问题方面的有效性。
高效优化的小型语言模型,专为设备端应用设计。
MobileLLM-125M是由Meta开发的自动回归语言模型,它利用优化的变换器架构,专为资源受限的设备端应用而设计。该模型集成了包括SwiGLU激活函数、深度薄架构、嵌入共享和分组查询注意力等多项关键技术。MobileLLM-125M/350M在零样本常识推理任务上相较于前代125M/350M SoTA模型分别取得了2.7%和4.3%的准确率提升。该模型的设计理念可有效扩展到更大模型,MobileLLM-600M/1B/1.5B均取得了SoTA结果。
面向生成场景的可控大语言模型
孟子生成式大模型(孟子 GPT)是一个面向生成场景的可控大语言模型,能够通过多轮的方式帮助用户完成特定场景中的多种工作任务。它支持知识问答、多语言翻译、通用写作和金融场景任务等功能,具有更可控、更灵活、更个性、更专业的优势。具体定价和使用方式请咨询官方网站。
一个简单的检索增强生成框架,使小型模型通过异构图索引和轻量级拓扑增强检索实现良好的RAG性能。
MiniRAG是一个针对小型语言模型设计的检索增强生成系统,旨在简化RAG流程并提高效率。它通过语义感知的异构图索引机制和轻量级的拓扑增强检索方法,解决了小型模型在传统RAG框架中性能受限的问题。该模型在资源受限的场景下具有显著优势,如在移动设备或边缘计算环境中。MiniRAG的开源特性也使其易于被开发者社区接受和改进。
WeLM Playground是一款开源的大型中文语言模型聊天工具
WeLM Playground是基于开源中文语言模型WeLM的在线聊天 Demo,用户可以通过网页与 AI 对话、获取写作帮助。它提供稳定流畅的语言生成,支持自由聊天、话题控制、长篇闲聊、文本续写等功能。作为 Anthropic 公司开源的大模型之一,WeLM Playground 完全免费,代码开源,用户无需注册即可使用。它旨在让普通用户也能安全便捷地体验 LLM 对话带来的便利。
© 2025 AIbase 备案号:闽ICP备08105208号-14