7亿参数的语言模型,展示数据整理技术的有效性。
DCLM-Baseline-7B是一个7亿参数的语言模型,由DataComp for Language Models (DCLM)团队开发,主要使用英语。该模型旨在通过系统化的数据整理技术来提高语言模型的性能。模型训练使用了PyTorch与OpenLM框架,优化器为AdamW,学习率为2e-3,权重衰减为0.05,批次大小为2048序列,序列长度为2048个token,总训练token数达到了2.5T。模型训练硬件使用了H100 GPU。
高性能的开源代码模型
Mamba-Codestral-7B-v0.1 是 Mistral AI Team 开发的基于 Mamba2 架构的开源代码模型,性能与最先进的基于 Transformer 的代码模型相当。它在多个行业标准基准测试中表现出色,提供高效的代码生成和理解能力,适用于编程和软件开发领域。
快速且内存高效的精确注意力机制
FlashAttention是一个开源的注意力机制库,专为深度学习中的Transformer模型设计,以提高计算效率和内存使用效率。它通过IO感知的方法优化了注意力计算,减少了内存占用,同时保持了精确的计算结果。FlashAttention-2进一步改进了并行性和工作分配,而FlashAttention-3针对Hopper GPU进行了优化,支持FP16和BF16数据类型。
大型视频语言模型,用于视觉问答和视频字幕生成。
VideoLLaMA2-7B-16F-Base是由DAMO-NLP-SG团队开发的大型视频语言模型,专注于视频问答(Visual Question Answering)和视频字幕生成。该模型结合了先进的空间-时间建模和音频理解能力,为多模态视频内容分析提供了强大的支持。它在视觉问答和视频字幕生成任务上展现出卓越的性能,能够处理复杂的视频内容并生成准确的描述和答案。
生成高分辨率和长视频的端到端解决方案
EasyAnimate 是一个基于 transformer 架构的流水线,可以用于生成 AI 照片和视频,训练基线模型和 Lora 模型以用于 Diffusion Transformer。支持直接从预训练的 EasyAnimate 模型进行预测,生成不同分辨率、约 6 秒(24fps)的视频。用户还可以训练自己的基线模型和 Lora 模型以执行特定风格转换。
低代码生成AI应用程序的生成性AI RAG工具包。
create-tsi是一个生成性AI RAG(Retrieval-Augmented Generation)工具包,用于低代码生成AI应用程序。它利用LlamaIndex和T-Systems在Open Telekom Cloud上托管的大型语言模型(LLMs),简化了AI应用程序的创建过程,使其变得快捷、灵活。用户可以使用create-tsi生成聊天机器人、编写代理并针对特定用例进行定制。
SpaceByte是一种新的字节级解码架构,避免了Tokenization的缺陷。
SpaceByte是一种全新的字节级解码架构,旨在解决大型语言模型中广泛使用的Tokenization技术所带来的一些弊端。Tokenization虽能显著提升模型性能,但也存在诸多缺陷,如引入性能偏差、增加对抗攻击脆弱性、降低字符级建模效果及增加建模复杂度等。SpaceByte在保留Tokenizer的优势基础上,有效解决了上述缺陷。它使用字节级Transformer作为基础,并在模型层次中间插入更大的Transformer块,尤其是在遇到空格等通常表示单词边界的字节时。该架构在相同的训练和推理计算资源预算下,不但超越了其他字节级模型,甚至可以与Tokenization的Transformer模型取得相当的性能。
分析Transformer语言模型的内部工作机制
LLM Transparency Tool(LLM-TT)是一个开源的交互式工具包,用于分析基于Transformer的语言模型的内部工作机制。它允许用户选择模型、添加提示并运行推理,通过可视化的方式展示模型的注意力流动和信息传递路径。该工具旨在提高模型的透明度,帮助研究人员和开发者更好地理解和改进语言模型。
扩展Transformer模型处理无限长输入
Google开发的“Infini-attention”技术旨在扩展基于Transformer的大语言模型以处理无限长的输入,通过压缩记忆机制实现无限长输入处理,并在多个长序列任务上取得优异表现。技术方法包括压缩记忆机制、局部与长期注意力的结合和流式处理能力等。实验结果显示在长上下文语言建模、密钥上下文块检索和书籍摘要任务上的性能优势。
基于 Transformer 的预训练语言模型系列
Qwen1.5 是基于 Transformer 架构的解码器语言模型系列,包括不同规模的模型。具有 SwiGLU 激活、注意力 QKV 偏置、组查询注意力等特性。支持多种自然语言和代码。推荐进行后续训练,如 SFT、RLHF 等。定价免费。
大规模代码生成预训练模型
StarCoder2是一个1500亿参数的Transformer模型,在包括GitHub在内的600多种编程语言数据集上进行了预训练,使用了Grouped Query Attention等技术。该模型可用于代码生成任务,支持多种编程语言。
视频理解基础模型
VideoPrism是一个通用的视频编码模型,能够在各种视频理解任务上取得领先的性能,包括分类、定位、检索、字幕生成和问答等。其创新点在于预训练的数据集非常大且多样,包含3600万高质量的视频-文本对,以及5.82亿带有嘈杂文本的视频剪辑。预训练采用两阶段策略,先利用对比学习匹配视频和文本,然后预测遮蔽的视频块,充分利用不同的监督信号。一个固定的VideoPrism模型可以直接适配到下游任务,并在30个视频理解基准上刷新状态最优成绩。
Snap视频:用于文本到视频合成的可扩展空间时间转换器
Snap视频是一个视频优先的模型,通过延伸EDM框架系统地解决视频生成域中的运动保真度、视觉质量和可扩展性等挑战。该模型利用帧间的冗余信息,提出了一个可伸缩的transformer架构,将空间和时间维度作为一个高度压缩的1D潜在向量,从而有效地进行空间时间联合建模,合成时间连贯性强、运动复杂的视频。这种架构使模型可以高效训练,达到数十亿参数规模,在多项基准测试中取得最优效果。
谷歌推出的开源预训练语言模型
Gemma-2b是谷歌推出的开源预训练语言模型系列,提供了多个不同规模的变体。它可以生成高质量的文本,广泛应用于问答、摘要、推理等领域。相比其他同类模型,它模型规模较小,可以部署在不同的硬件环境中。Gemma系列追求安全、高效的人工智能技术,使更多研究者和开发者可以接触前沿的语言模型技术。
Karpathy推出的用于BPE算法的简洁代码项目
minbpe项目旨在为LLM中常用的BPE算法创建干净、教育性的代码实现。该项目提供了两种Tokenizer,实现了BPE算法的训练、编码、解码等主要功能,代码简洁易读,为用户提供便捷高效的使用体验。该项目展现出巨大的关注度和吸引力,相信其会对LLM和自然语言处理技术的发展起到重要作用。
通用型视觉语言模型
Qwen-VL 是阿里云推出的通用型视觉语言模型,具有强大的视觉理解和多模态推理能力。它支持零样本图像描述、视觉问答、文本理解、图像地标定位等任务,在多个视觉基准测试中达到或超过当前最优水平。该模型采用 Transformer 结构,以 7B 参数规模进行预训练,支持 448x448 分辨率,可以端到端处理图像与文本的多模态输入与输出。Qwen-VL 的优势包括通用性强、支持多语种、细粒度理解等。它可以广泛应用于图像理解、视觉问答、图像标注、图文生成等任务。
Lepton是一个开源的语言模型搜索平台
Lepton是一个开源的自然语言处理平台,提供语言理解、生成和推理能力。它采用Transformer模型架构,能够进行多轮对话、问答、文本生成等任务。Lepton具有高效、可扩展的特点,可以在多个领域部署使用。
解释视频Transformer决策过程的概念发现
这篇论文研究了视频Transformer表示的概念解释问题。具体而言,我们试图解释基于高级时空概念的视频Transformer的决策过程,这些概念是自动发现的。以往关于基于概念的可解释性的研究仅集中在图像级任务上。相比之下,视频模型处理了额外的时间维度,增加了复杂性,并在识别随时间变化的动态概念方面提出了挑战。在这项工作中,我们通过引入第一个视频Transformer概念发现(VTCD)算法系统地解决了这些挑战。为此,我们提出了一种有效的无监督视频Transformer表示单元(概念)识别方法,并对它们在模型输出中的重要性进行排名。所得的概念具有很高的可解释性,揭示了非结构化视频模型中的时空推理机制和以对象为中心的表示。通过在多样的监督和自监督表示上联合进行这种分析,我们发现其中一些机制在视频Transformer中是普遍的。最后,我们证明VTCD可以用于改善精细任务的模型性能。
© 2024 AIbase 备案号:闽ICP备08105208号-14