需求人群:
"适用于处理要求对长序列数据进行高效建模和推理的NLP任务。"
使用场景示例:
长文本生成:利用Infini-attention技术生成长篇文章。
密钥检索:在处理长序列密钥上下文块检索任务中应用。
文本摘要:处理长篇文本生成精炼的文本摘要。
产品特色:
压缩记忆机制
局部与长期注意力结合
流式处理能力
支持快速流式推理
模型扩展性
浏览量:55
最新流量情况
月访问量
20415.62k
平均访问时长
00:04:06
每次访问页数
3.14
跳出率
44.33%
流量来源
直接访问
35.80%
自然搜索
48.45%
邮件
0.07%
外链引荐
14.27%
社交媒体
1.39%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
18.59%
英国
4.22%
印度
5.04%
韩国
4.54%
美国
28.25%
扩展Transformer模型处理无限长输入
Google开发的“Infini-attention”技术旨在扩展基于Transformer的大语言模型以处理无限长的输入,通过压缩记忆机制实现无限长输入处理,并在多个长序列任务上取得优异表现。技术方法包括压缩记忆机制、局部与长期注意力的结合和流式处理能力等。实验结果显示在长上下文语言建模、密钥上下文块检索和书籍摘要任务上的性能优势。
MoBA 是一种用于长文本上下文的混合块注意力机制,旨在提升大语言模型的效率。
MoBA(Mixture of Block Attention)是一种创新的注意力机制,专为长文本上下文的大语言模型设计。它通过将上下文划分为块,并让每个查询令牌学习关注最相关的块,从而实现高效的长序列处理。MoBA 的主要优点是能够在全注意力和稀疏注意力之间无缝切换,既保证了性能,又提高了计算效率。该技术适用于需要处理长文本的任务,如文档分析、代码生成等,能够显著降低计算成本,同时保持模型的高性能表现。MoBA 的开源实现为研究人员和开发者提供了强大的工具,推动了大语言模型在长文本处理领域的应用。
轻松构建自己的大模型,专属智慧,尽在本地。
Xark-Argo是一款桌面客户端产品,旨在帮助用户轻松构建和使用自己的大语言模型。它支持多种操作系统,包括MacOS和Windows,提供了强大的本地化模型部署能力。通过集成ollama技术,用户可以一键下载开源模型,并支持大模型API,如ChatGPT、Claude、Siliconflow等,大大降低了使用门槛。该产品适用于需要高效处理文本和知识管理的个人和企业用户,具有高度的灵活性和扩展性。目前暂无明确价格信息,但其功能定位表明它可能面向中高端用户群体。
NotaGen 是一个用于符号音乐生成的模型,采用大语言模型训练范式,专注于生成高质量古典乐谱。
NotaGen 是一款创新的符号音乐生成模型,通过预训练、微调和强化学习三个阶段提升音乐生成质量。它利用大语言模型技术,能够生成高质量的古典乐谱,为音乐创作带来新的可能性。该模型的主要优点包括高效生成、风格多样和高质量输出。它适用于音乐创作、教育和研究等领域,具有广泛的应用前景。
Atom of Thoughts (AoT) 是一种用于提升大语言模型推理性能的框架。
Atom of Thoughts (AoT) 是一种新型推理框架,通过将解决方案表示为原子问题的组合,将推理过程转化为马尔可夫过程。该框架通过分解和收缩机制,显著提升了大语言模型在推理任务上的性能,同时减少了计算资源的浪费。AoT 不仅可以作为独立的推理方法,还可以作为现有测试时扩展方法的插件,灵活结合不同方法的优势。该框架开源且基于 Python 实现,适合研究人员和开发者在自然语言处理和大语言模型领域进行实验和应用。
Spark-TTS 是一种基于大语言模型的高效单流解耦语音合成模型。
Spark-TTS 是一种基于大语言模型的高效文本到语音合成模型,具有单流解耦语音令牌的特性。它利用大语言模型的强大能力,直接从代码预测的音频进行重建,省略了额外的声学特征生成模型,从而提高了效率并降低了复杂性。该模型支持零样本文本到语音合成,能够跨语言和代码切换场景,非常适合需要高自然度和准确性的语音合成应用。它还支持虚拟语音创建,用户可以通过调整参数(如性别、音高和语速)来生成不同的语音。该模型的背景是为了解决传统语音合成系统中效率低下和复杂性高的问题,旨在为研究和生产提供高效、灵活且强大的解决方案。目前,该模型主要面向学术研究和合法应用,如个性化语音合成、辅助技术和语言研究等。
QwQ-32B 是一款强大的推理模型,专为复杂问题解决和文本生成设计,性能卓越。
QwQ-32B 是 Qwen 系列的推理模型,专注于复杂问题的思考和推理能力。它在下游任务中表现出色,尤其是在解决难题方面。该模型基于 Qwen2.5 架构,经过预训练和强化学习优化,具有 325 亿参数,支持 131072 个完整上下文长度的处理能力。其主要优点包括强大的推理能力、高效的长文本处理能力和灵活的部署选项。该模型适用于需要深度思考和复杂推理的场景,如学术研究、编程辅助和创意写作等。
一种用于可变多层透明图像生成的匿名区域变换器技术。
ART 是一种基于深度学习的图像生成技术,专注于生成可变多层透明图像。它通过匿名区域布局和 Transformer 架构,实现了高效的多层图像生成。该技术的主要优点包括高效性、灵活性以及对多层图像生成的支持。它适用于需要精确控制图像层的场景,如图形设计、视觉特效等领域。目前未明确提及价格和具体定位,但其技术特性表明它可能面向专业用户和企业级应用。
Level-Navi Agent是一个无需训练即可使用的框架,利用大语言模型进行深度查询理解和精准搜索。
Level-Navi Agent是一个开源的通用网络搜索代理框架,能够将复杂问题分解并逐步搜索互联网上的信息,直至回答用户问题。它通过提供Web24数据集,覆盖金融、游戏、体育、电影和事件等五大领域,为评估模型在搜索任务上的表现提供了基准。该框架支持零样本和少样本学习,为大语言模型在中文网络搜索代理领域的应用提供了重要参考。
用于多模态上下文中的检索增强生成的基准测试代码库。
M2RAG是一个用于多模态上下文中的检索增强生成的基准测试代码库。它通过多模态检索文档来回答问题,评估多模态大语言模型(MLLMs)在利用多模态上下文知识方面的能力。该模型在图像描述、多模态问答、事实验证和图像重排等任务上进行了评估,旨在提升模型在多模态上下文学习中的有效性。M2RAG为研究人员提供了一个标准化的测试平台,有助于推动多模态语言模型的发展。
TableGPT2-7B 是一款专注于表格数据处理的大语言模型,适用于数据分析和商业智能任务。
TableGPT2-7B 是由浙江大学开发的大规模解码器模型,专门用于处理数据密集型任务,尤其是表格数据的解读和分析。该模型基于 Qwen2.5 架构,通过持续预训练(CPT)和监督微调(SFT)优化,能够处理复杂的表格查询和商业智能(BI)应用。它支持中文查询,适合需要高效处理结构化数据的企业和研究机构。模型目前免费开源,未来可能会推出更专业的版本。
一款支持多模态功能的全功能大语言模型安卓应用。
MNN 大模型 Android App 是阿里巴巴开发的一款基于大语言模型(LLM)的安卓应用。它支持多种模态输入和输出,包括文本生成、图像识别、音频转录等。该应用通过优化推理性能,确保在移动设备上高效运行,同时保护用户数据隐私,所有处理均在本地完成。它支持多种领先的模型提供商,如 Qwen、Gemma、Llama 等,适用于多种场景。
Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。
Janus-Pro-1B 是一个创新的多模态模型,专注于统一多模态理解和生成。它通过分离视觉编码路径,解决了传统方法在理解和生成任务中的冲突问题,同时保持了单个统一的 Transformer 架构。这种设计不仅提高了模型的灵活性,还使其在多模态任务中表现出色,甚至超越了特定任务的模型。该模型基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建,使用 SigLIP-L 作为视觉编码器,支持 384x384 的图像输入,并采用特定的图像生成 tokenizer。其开源性和灵活性使其成为下一代多模态模型的有力候选。
百川智能开发的专为医疗场景优化的开源大语言模型,具备卓越的通用能力和医疗领域性能。
Baichuan-M1-14B 是由百川智能开发的开源大语言模型,专为医疗场景优化。它基于20万亿token的高质量医疗与通用数据训练,覆盖20多个医疗科室,具备强大的上下文理解和长序列任务表现能力。该模型在医疗领域表现出色,同时在通用任务中也达到了同尺寸模型的效果。其创新的模型结构和训练方法使其在医疗推理、病症判断等复杂任务中表现出色,为医疗领域的人工智能应用提供了强大的支持。
Doubao-1.5-pro 是一个高性能的稀疏 MoE 大语言模型,专注于推理性能与模型能力的极致平衡。
Doubao-1.5-pro 是由豆包团队开发的高性能稀疏 MoE(Mixture of Experts)大语言模型。该模型通过训练-推理一体化设计,实现了模型性能与推理性能的极致平衡。它在多个公开评测基准上表现出色,尤其在推理效率和多模态能力方面具有显著优势。该模型适用于需要高效推理和多模态交互的场景,如自然语言处理、图像识别和语音交互等。其技术背景基于稀疏激活的 MoE 架构,通过优化激活参数比例和训练算法,实现了比传统稠密模型更高的性能杠杆。此外,该模型还支持动态调整参数,以适应不同的应用场景和成本需求。
PaSa 是一个由大语言模型驱动的先进学术论文搜索代理,能够自主决策并获取准确结果。
PaSa 是由字节跳动开发的一种先进学术论文搜索代理,基于大语言模型(LLM)技术,能够自主调用搜索工具、阅读论文并筛选相关参考文献,以获取复杂学术查询的全面准确结果。该技术通过强化学习优化,使用合成数据集 AutoScholarQuery 进行训练,并在真实世界查询数据集 RealScholarQuery 上表现出色,显著优于传统搜索引擎和基于 GPT 的方法。PaSa 的主要优势在于其高召回率和精准率,能够为研究人员提供更高效的学术搜索体验。
基于Transformer实现的ViTPose模型集合
ViTPose是一系列基于Transformer架构的人体姿态估计模型。它利用Transformer的强大特征提取能力,为人体姿态估计任务提供了简单而有效的基线。ViTPose模型在多个数据集上表现出色,具有较高的准确性和效率。该模型由悉尼大学社区维护和更新,提供了多种不同规模的版本,以满足不同应用场景的需求。在Hugging Face平台上,ViTPose模型以开源的形式供用户使用,用户可以方便地下载和部署这些模型,进行人体姿态估计相关的研究和应用开发。
VITA-1.5: 实时视觉和语音交互的GPT-4o级多模态大语言模型
VITA-1.5 是一款开源的多模态大语言模型,旨在实现接近实时的视觉和语音交互。它通过显著降低交互延迟和提升多模态性能,为用户提供更流畅的交互体验。该模型支持英语和中文,适用于多种应用场景,如图像识别、语音识别和自然语言处理等。其主要优点包括高效的语音处理能力和强大的多模态理解能力。
高性能的双向编码器Transformer模型
ModernBERT-large是一个现代化的双向编码器Transformer模型(BERT风格),在2万亿个英文和代码数据上预训练,具有长达8192个token的原生上下文长度。该模型采用了最新的架构改进,如旋转位置嵌入(RoPE)以支持长上下文,局部-全局交替注意力以提高长输入的效率,以及无填充和Flash Attention以提高推理效率。ModernBERT-long适合处理需要处理长文档的任务,如检索、分类和大型语料库中的语义搜索。模型训练数据主要是英文和代码,因此可能在其他语言上的表现会较低。
ModernBERT是新一代的编码器模型,性能卓越。
ModernBERT是由Answer.AI和LightOn共同发布的新一代编码器模型,它是BERT模型的全面升级版,提供了更长的序列长度、更好的下游性能和更快的处理速度。ModernBERT采用了最新的Transformer架构改进,特别关注效率,并使用了现代数据规模和来源进行训练。作为编码器模型,ModernBERT在各种自然语言处理任务中表现出色,尤其是在代码搜索和理解方面。它提供了基础版(139M参数)和大型版(395M参数)两种模型尺寸,适合各种规模的应用需求。
多模态大语言模型,提升多模态推理能力
InternVL2-8B-MPO是一个多模态大语言模型(MLLM),通过引入混合偏好优化(MPO)过程,增强了模型的多模态推理能力。该模型在数据方面设计了自动化的偏好数据构建管线,并构建了MMPR这一大规模多模态推理偏好数据集。在模型方面,InternVL2-8B-MPO基于InternVL2-8B初始化,并使用MMPR数据集进行微调,展现出更强的多模态推理能力,且幻觉现象更少。该模型在MathVista上取得了67.0%的准确率,超越InternVL2-8B 8.7个点,且表现接近于大10倍的InternVL2-76B。
模型评测平台
FlagEval是一个模型评测平台,专注于大语言模型和多模态模型的评测。它提供了一个公正、透明的环境,让不同的模型在同一标准下进行比较,帮助研究者和开发者了解模型性能,推动人工智能技术的发展。该平台涵盖了对话模型、视觉语言模型等多种模型类型,支持开源和闭源模型的评测,并提供专项评测如K12学科测验和金融量化交易评测。
多功能AI智能助手平台
ChatHi是一个多功能AI智能助手平台,提供包括文案创作、知识问答、代码编程、逻辑推演、数理推算等服务。平台依托于先进的大语言模型技术,如天工大模型、Claude系列模型以及G-3.5、G-4.0等,旨在提升用户工作效率和信息处理能力。产品背景信息显示,ChatHi由中国公司昆仑万维自研,对标国际先进的ChatGPT技术,具有强大的本土化优势和价格竞争力。
70亿参数的多语言大型语言模型
Llama-3.3-70B-Instruct是由Meta开发的一个70亿参数的大型语言模型,专门针对多语言对话场景进行了优化。该模型使用优化的Transformer架构,并通过监督式微调(SFT)和基于人类反馈的强化学习(RLHF)来提高其有用性和安全性。它支持多种语言,并能够处理文本生成任务,是自然语言处理领域的一项重要技术。
高性能的英文学术基准语言模型
OLMo 2 13B是由Allen Institute for AI (Ai2)开发的一款基于Transformer的自回归语言模型,专注于英文学术基准测试。该模型在训练过程中使用了高达5万亿个token,展现出与同等规模的全开放模型相媲美或更优的性能,并在英语学术基准上与Meta和Mistral的开放权重模型竞争。OLMo 2 13B的发布包括所有代码、检查点、日志和相关的训练细节,旨在推动语言模型的科学研究。
高效长序列大型语言模型推理技术
Star-Attention是NVIDIA提出的一种新型块稀疏注意力机制,旨在提高基于Transformer的大型语言模型(LLM)在长序列上的推理效率。该技术通过两个阶段的操作显著提高了推理速度,同时保持了95-100%的准确率。它与大多数基于Transformer的LLM兼容,无需额外训练或微调即可直接使用,并且可以与其他优化方法如Flash Attention和KV缓存压缩技术结合使用,进一步提升性能。
基于LLM的智能字幕助手,一键生成高质量视频字幕
卡卡字幕助手(VideoCaptioner)是一款功能强大的视频字幕配制软件,利用大语言模型进行字幕智能断句、校正、优化、翻译,实现字幕视频全流程一键处理。产品无需高配置,操作简单,内置基础LLM模型,保证开箱即用,且消耗模型Token少,适合视频制作者和内容创作者。
Meta 开发的子十亿参数语言模型,适用于设备端应用。
Meta 开发的自回归语言模型,采用优化架构,适合资源受限设备。优点多,如集成多种技术,支持零样本推理等,价格免费,面向自然语言处理研究人员和开发者。
© 2025 AIbase 备案号:闽ICP备08105208号-14