需求人群:
"目标受众为自然语言处理领域的研究人员、开发者以及对高效语言模型有需求的企业。YuLan-Mini因其轻量级和高效率,特别适合资源受限但需要高性能模型的场景,如小型企业和学术研究。"
使用场景示例:
案例一:研究人员使用YuLan-Mini进行数学问题的自动解答和验证
案例二:开发者利用YuLan-Mini生成高质量的代码片段,提高开发效率
案例三:教育机构采用YuLan-Mini辅助教学,提供个性化的学习材料和答疑
产品特色:
• 2.4亿参数的轻量级语言模型,性能卓越
• 预训练仅使用1.08T数据,数据使用效率高
• 擅长数学和编程领域的语言理解与生成任务
• 开源预训练资源,包括代码和数据,增强研究透明度和可复现性
• 模型支持长上下文(28K),适用于复杂任务
• 提供模型权重和中间优化器状态,方便研究和进一步训练
• 支持多种使用场景,包括预训练、微调和学习率退火
使用教程:
1. 访问YuLan-Mini的GitHub页面,了解项目详情和文档
2. 根据页面提供的指南,下载并安装必要的预训练模型和代码
3. 利用Huggingface平台提供的接口,加载模型和分词器进行推理测试
4. 根据需要调整模型参数,进行微调或进一步训练以适应特定任务
5. 使用模型进行实际应用,如文本生成、问答系统等
6. 参与社区讨论,反馈使用中的问题和改进建议
浏览量:38
最新流量情况
月访问量
4.75m
平均访问时长
00:06:34
每次访问页数
6.10
跳出率
36.20%
流量来源
直接访问
52.19%
自然搜索
32.64%
邮件
0.04%
外链引荐
12.93%
社交媒体
2.02%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
14.32%
德国
3.68%
印度
9.04%
俄罗斯
3.92%
美国
19.25%
一款高效率的2.4亿参数轻量级语言模型
YuLan-Mini是由中国人民大学AI Box团队开发的一款轻量级语言模型,具有2.4亿参数,尽管仅使用1.08T的预训练数据,但其性能可与使用更多数据训练的行业领先模型相媲美。该模型特别擅长数学和代码领域,为了促进可复现性,团队将开源相关的预训练资源。
Instella 是由 AMD 开发的高性能开源语言模型,专为加速开源语言模型的发展而设计。
Instella 是由 AMD GenAI 团队开发的一系列高性能开源语言模型,基于 AMD Instinct™ MI300X GPU 训练而成。该模型在性能上显著优于同尺寸的其他开源语言模型,并且在功能上与 Llama-3.2-3B 和 Qwen2.5-3B 等模型相媲美。Instella 提供模型权重、训练代码和训练数据,旨在推动开源语言模型的发展。其主要优点包括高性能、开源开放以及对 AMD 硬件的优化支持。
Moonlight-16B-A3B 是一个基于 Muon 优化器训练的 16B 参数的混合专家模型,用于高效的语言生成。
Moonlight-16B-A3B 是由 Moonshot AI 开发的一种大规模语言模型,采用先进的 Muon 优化器进行训练。该模型通过优化训练效率和性能,显著提升了语言生成的能力。其主要优点包括高效的优化器设计、较少的训练 FLOPs 和卓越的性能表现。该模型适用于需要高效语言生成的场景,如自然语言处理、代码生成和多语言对话等。其开源的实现和预训练模型为研究人员和开发者提供了强大的工具。
Xwen-Chat是专注中文对话的大语言模型集合,提供多版本模型及语言生成服务
Xwen-Chat由xwen-team开发,为满足高质量中文对话模型需求而生,填补领域空白。其有多个版本,具备强大语言理解与生成能力,可处理复杂语言任务,生成自然对话内容,适用于智能客服等场景,在Hugging Face平台免费提供。
强大的语言模型,拥有4560亿总参数,可处理长达400万token的上下文。
MiniMax-01是一个具有4560亿总参数的强大语言模型,其中每个token激活459亿参数。它采用混合架构,结合了闪电注意力、softmax注意力和专家混合(MoE),通过先进的并行策略和创新的计算-通信重叠方法,如线性注意力序列并行主义加(LASP+)、varlen环形注意力、专家张量并行(ETP)等,将训练上下文长度扩展到100万tokens,在推理时可处理长达400万tokens的上下文。在多个学术基准测试中,MiniMax-01展现了顶级模型的性能。
将Common Crawl转化为精细的长期预训练数据集
Nemotron-CC是一个基于Common Crawl的6.3万亿token的数据集。它通过分类器集成、合成数据改写和减少启发式过滤器的依赖,将英文Common Crawl转化为一个6.3万亿token的长期预训练数据集,包含4.4万亿全球去重的原始token和1.9万亿合成生成的token。该数据集在准确性和数据量之间取得了更好的平衡,对于训练大型语言模型具有重要意义。
一种无需实时检索的语言模型增强方法,通过预加载知识缓存来提高生成效率。
CAG(Cache-Augmented Generation)是一种创新的语言模型增强技术,旨在解决传统RAG(Retrieval-Augmented Generation)方法中存在的检索延迟、检索错误和系统复杂性等问题。通过在模型上下文中预加载所有相关资源并缓存其运行时参数,CAG能够在推理过程中直接生成响应,无需进行实时检索。这种方法不仅显著降低了延迟,提高了可靠性,还简化了系统设计,使其成为一种实用且可扩展的替代方案。随着大型语言模型(LLMs)上下文窗口的不断扩展,CAG有望在更复杂的应用场景中发挥作用。
高性能英文语言模型,适用于多样化任务
OLMo-2-1124-13B-DPO是经过监督微调和DPO训练的13B参数大型语言模型,主要针对英文,旨在提供在聊天、数学、GSM8K和IFEval等多种任务上的卓越性能。该模型是OLMo系列的一部分,旨在推动语言模型的科学研究。模型训练基于Dolma数据集,并公开代码、检查点、日志和训练细节。
科学文献合成的检索增强型语言模型
OpenScholar是一个检索增强型语言模型(LM),旨在通过首先搜索文献中的相关论文,然后基于这些来源生成回答,来帮助科学家有效地导航和综合科学文献。该模型对于处理每年发表的数百万篇科学论文,以及帮助科学家找到他们需要的信息或跟上单一子领域最新发现具有重要意义。
高性能的英文学术基准语言模型
OLMo 2 13B是由Allen Institute for AI (Ai2)开发的一款基于Transformer的自回归语言模型,专注于英文学术基准测试。该模型在训练过程中使用了高达5万亿个token,展现出与同等规模的全开放模型相媲美或更优的性能,并在英语学术基准上与Meta和Mistral的开放权重模型竞争。OLMo 2 13B的发布包括所有代码、检查点、日志和相关的训练细节,旨在推动语言模型的科学研究。
最先进的全开放语言模型
OLMo 2是由Ai2推出的最新全开放语言模型,包括7B和13B两种规模的模型,训练数据高达5T tokens。这些模型在性能上与同等规模的全开放模型相当或更优,并且在英语学术基准测试中与开放权重模型如Llama 3.1竞争。OLMo 2的开发注重模型训练的稳定性、阶段性训练干预、最先进的后训练方法和可操作的评估框架。这些技术的应用使得OLMo 2在多个任务上表现出色,特别是在知识回忆、常识、一般和数学推理方面。
Meta 开发的子十亿参数语言模型,适用于设备端应用。
Meta 开发的自回归语言模型,采用优化架构,适合资源受限设备。优点多,如集成多种技术,支持零样本推理等,价格免费,面向自然语言处理研究人员和开发者。
高效优化的子十亿参数语言模型,专为设备端应用设计
MobileLLM-350M是由Meta开发的自回归语言模型,采用优化的Transformer架构,专为设备端应用设计,以满足资源受限的环境。该模型整合了SwiGLU激活函数、深层薄架构、嵌入共享和分组查询注意力等关键技术,实现了在零样本常识推理任务上的显著准确率提升。MobileLLM-350M在保持较小模型尺寸的同时,提供了与更大模型相媲美的性能,是设备端自然语言处理应用的理想选择。
高效能小型语言模型
Zamba2-7B是由Zyphra团队开发的一款小型语言模型,它在7B规模上超越了当前领先的模型,如Mistral、Google的Gemma和Meta的Llama3系列,无论是在质量还是性能上。该模型专为在设备上和消费级GPU上运行以及需要强大但紧凑高效模型的众多企业应用而设计。Zamba2-7B的发布,展示了即使在7B规模上,前沿技术仍然可以被小团队和适度预算所触及和超越。
基于熵的采样技术,优化模型输出的多样性和准确性
Entropy-based sampling 是一种基于熵理论的采样技术,用于提升语言模型在生成文本时的多样性和准确性。该技术通过计算概率分布的熵和方差熵来评估模型的不确定性,从而在模型可能陷入局部最优或过度自信时调整采样策略。这种方法有助于避免模型输出的单调重复,同时在模型不确定性较高时增加输出的多样性。
与文档进行自然语言对话的Python应用
Chat With Your Docs 是一个Python应用程序,允许用户与多种文档格式(如PDF、网页和YouTube视频)进行对话。用户可以使用自然语言提问,应用程序将基于文档内容提供相关回答。该应用利用语言模型生成准确答案。请注意,应用仅回应与加载的文档相关的问题。
通过自博弈相互推理,提升小型语言模型的解决问题能力。
rStar是一个自我博弈相互推理方法,它通过将推理过程分解为解决方案生成和相互验证,显著提升了小型语言模型(SLMs)的推理能力,无需微调或使用更高级的模型。rStar通过蒙特卡洛树搜索(MCTS)和人类推理动作的结合,构建更高质量的推理轨迹,并通过另一个类似能力的SLM作为鉴别器来验证这些轨迹的正确性。这种方法在多个SLMs上进行了广泛的实验,证明了其在解决多样化推理问题方面的有效性。
大型多语言预训练语言模型
Meta Llama 3.1-405B 是由 Meta 开发的一系列大型多语言预训练语言模型,包含8B、70B和405B三种规模的模型。这些模型经过优化的变压器架构,使用监督式微调(SFT)和强化学习与人类反馈(RLHF)进行调优,以符合人类对帮助性和安全性的偏好。Llama 3.1 模型支持多种语言,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。该模型在多种自然语言生成任务中表现出色,并在行业基准测试中超越了许多现有的开源和封闭聊天模型。
高性能语言模型基准测试数据集
DCLM-baseline是一个用于语言模型基准测试的预训练数据集,包含4T个token和3B个文档。它通过精心策划的数据清洗、过滤和去重步骤,从Common Crawl数据集中提取,旨在展示数据策划在训练高效语言模型中的重要性。该数据集仅供研究使用,不适用于生产环境或特定领域的模型训练,如代码和数学。
高效紧凑的7B参数语言模型
Arcee Spark是一个7B参数的语言模型,它在紧凑的包体中提供高性能,证明小型模型也能与大型模型相媲美。它是7B-15B范围内得分最高的模型,并且在MT-Bench基准测试中超越了GPT 3.5和Claude 2.1等更大模型。它适用于实时应用、边缘计算场景、成本效益高的AI实施、快速原型设计和增强数据隐私的本地部署。
多令牌预测模型,提升语言模型的效率与性能
multi-token prediction模型是Facebook基于大型语言模型研究开发的技术,旨在通过预测多个未来令牌来提高模型的效率和性能。该技术允许模型在单次前向传播中生成多个令牌,从而加快生成速度并可能提高模型的准确性。该模型在非商业研究用途下免费提供,但使用时需遵守Meta的隐私政策和相关法律法规。
一种高效的遮蔽扩散语言模型。
Masked Diffusion Language Models (MDLM) 是一种新型的语言模型,它通过遮蔽和扩散机制来生成高质量的文本数据。MDLM 通过改进的训练方法和简化的目标函数,提高了遮蔽扩散模型的性能,使其在语言建模基准测试中达到了新的最佳状态,并接近自回归模型的困惑度。MDLM 的主要优点包括高效的采样器、支持生成任意长度的文本,以及在长程依赖和可控生成方面的优势。
高效无限上下文语言模型的官方实现
Samba是一个简单而强大的混合模型,具有无限的上下文长度。它的架构非常简单:Samba = Mamba + MLP + 滑动窗口注意力 + 层级MLP堆叠。Samba-3.8B模型在Phi3数据集上训练了3.2万亿个token,主要基准测试(例如MMLU、GSM8K和HumanEval)上的表现大大超过了Phi3-mini。Samba还可以通过最少的指令调整实现完美的长上下文检索能力,同时保持与序列长度的线性复杂度。这使得Samba-3.8B-instruct在下游任务(如长上下文摘要)上表现出色。
基于人类长期记忆的新型RAG框架
HippoRAG是一个启发自人类长期记忆的新型检索增强生成(RAG)框架,它使得大型语言模型(LLMs)能够持续地整合跨外部文档的知识。该框架通过实验表明,HippoRAG能够以更低的计算成本提供通常需要昂贵且高延迟迭代LLM流水线的RAG系统能力。
一个完全开源的大型语言模型,提供先进的自然语言处理能力。
MAP-NEO是一个完全开源的大型语言模型,它包括预训练数据、数据处理管道(Matrix)、预训练脚本和对齐代码。该模型从零开始训练,使用了4.5T的英文和中文token,展现出与LLaMA2 7B相当的性能。MAP-NEO在推理、数学和编码等具有挑战性的任务中表现出色,超越了同等规模的模型。为了研究目的,我们致力于实现LLM训练过程的完全透明度,因此我们全面发布了MAP-NEO,包括最终和中间检查点、自训练的分词器、预训练语料库以及高效稳定的优化预训练代码库。
在浏览器中尝试Cleanlab的可信任语言模型(TLM)
TLM Playground是Cleanlab的一个工具,用于在浏览器中使用可信任语言模型(TLM)。它提供了一个交互式界面,用户可以输入文本并获得模型生成的响应。TLM是一种基于深度学习的语言模型,它可以用于生成自然语言文本,例如回答问题、翻译、文本摘要等。
扩展LLaVA模型,集成Phi-3和LLaMA-3,提升视觉与语言模型的交互能力。
LLaVA++是一个开源项目,旨在通过集成Phi-3和LLaMA-3模型来扩展LLaVA模型的视觉能力。该项目由Mohamed bin Zayed University of AI (MBZUAI)的研究人员开发,通过结合最新的大型语言模型,增强了模型在遵循指令和学术任务导向数据集上的表现。
OpenELM是一套高效的语言模型家族,具备开源训练和推理框架。
OpenELM是由苹果公司开发的语言模型家族,旨在为开源研究社区提供先进的语言模型。这些模型基于公开可用的数据集训练,不提供任何安全保证,可能产生不准确、有害、有偏见或令人反感的输出。因此,用户和开发者需要进行彻底的安全测试,并实施适当的过滤机制。
高质量英文网页数据集
FineWeb数据集包含超过15万亿个经过清洗和去重的英文网页数据,来源于CommonCrawl。该数据集专为大型语言模型预训练设计,旨在推动开源模型的发展。数据集经过精心处理和筛选,以确保高质量,适用于各种自然语言处理任务。
首个中文大语言模型,专注中文理解和生成
Chinese Tiny LLM(CT-LLM)是针对中文设计的首个大语言模型,拥有20亿参数,并在12000亿中文语料库上进行预训练。CT-LLM专注于提高对中文语言的理解和生成能力,利用大规模的中文数据预训练,实现对中文文本的高效处理。虽然重点优化了中文处理,CT-LLM也展示了对英文和编程代码的良好处理能力,体现了模型的多语言适应性。在中文语言任务的基准测试CHC-Bench上,CT-LLM展现了出色的性能,证明了其在理解和应用中文方面的高效能力。CT-LLM从零开始训练,主要使用中文数据进行预训练,开放了整个数据过滤过程、训练动态、训练和评估数据,以及模型的中间检查点等所有相关信息。该开放资源的做法使得其他研究者、开发者能够访问这些资源,利用这些资料进行自己的研究或进一步改进模型。
© 2025 AIbase 备案号:闽ICP备08105208号-14