多模态大型语言模型的优化与分析
MM1.5是一系列多模态大型语言模型(MLLMs),旨在增强文本丰富的图像理解、视觉指代表明和接地以及多图像推理的能力。该模型基于MM1架构,采用以数据为中心的模型训练方法,系统地探索了整个模型训练生命周期中不同数据混合的影响。MM1.5模型从1B到30B参数不等,包括密集型和混合专家(MoE)变体,并通过广泛的实证研究和消融研究,提供了详细的训练过程和决策见解,为未来MLLM开发研究提供了宝贵的指导。
一种用于文本到图像扩散模型的概念擦除技术
RECE是一种文本到图像扩散模型的概念擦除技术,它通过在模型训练过程中引入正则化项来实现对特定概念的可靠和高效擦除。这项技术对于提高图像生成模型的安全性和控制性具有重要意义,特别是在需要避免生成不适当内容的场景中。RECE技术的主要优点包括高效率、高可靠性和易于集成到现有模型中。
简洁的FLUX LoRA训练UI,支持低VRAM配置。
Flux Gym是一个为FLUX LoRA模型训练设计的简洁Web UI,特别适合只有12GB、16GB或20GB VRAM的设备使用。它结合了AI-Toolkit项目的易用性和Kohya Scripts的灵活性,使得用户无需复杂的终端操作即可进行模型训练。Flux Gym支持用户通过简单的界面上传图片和添加描述,然后启动训练过程。
本地部署的AI语音工具箱,支持语音识别、转录和转换。
Easy Voice Toolkit是一个基于开源语音项目的AI语音工具箱,提供包括语音模型训练在内的多种自动化音频工具。该工具箱能够无缝集成,形成完整的工作流程,用户可以根据需要选择性使用这些工具,或按顺序使用,逐步将原始音频文件转换为理想的语音模型。
AI艺术创作与模型分享平台
Civita Green是一个面向AI爱好者、艺术家和开发者的社区平台,提供AI模型训练、图像和视频创作、以及艺术作品分享。平台支持用户创建、分享和使用各种AI模型,推动AI艺术创作的发展。
AI脚本集合,主要用于Stable Diffusion模型。
ai-toolkit是一个研究性质的GitHub仓库,由Ostris创建,主要用于Stable Diffusion模型的实验和训练。它包含了各种AI脚本,支持模型训练、图像生成、LoRA提取器等。该工具包仍在开发中,可能存在不稳定性,但提供了丰富的功能和高度的自定义性。
深度学习模型训练脚本集
x-flux是由XLabs AI团队发布的深度学习模型训练脚本集,包括LoRA和ControlNet模型。这些模型使用DeepSpeed进行训练,支持512x512和1024x1024图片尺寸,并且提供了相应的训练配置文件和示例。x-flux模型训练旨在提高图像生成的质量和效率,对于AI图像生成领域具有重要意义。
AI数学奥林匹克解决方案
这个GitHub仓库包含了训练和推理代码,用于复制我们在AI数学奥林匹克(AIMO)进展奖1中的获胜解决方案。我们的解决方案由四个主要部分组成:一个用于微调DeepSeekMath-Base 7B以使用工具集成推理(TIR)解决数学问题的配方;两个约100万个数学问题和解决方案的高质量训练数据集;一个自洽解码算法,用于生成具有代码执行反馈的解决方案候选项(SC-TIR);四个来自AMC、AIME和MATH的精心选择的验证集,以指导模型选择并避免对公共排行榜的过拟合。
构建和训练大型语言模型的综合框架
DataComp-LM (DCLM) 是一个为构建和训练大型语言模型(LLMs)而设计的综合性框架,提供了标准化的语料库、基于open_lm框架的高效预训练配方,以及超过50种评估方法。DCLM 支持研究人员在不同的计算规模上实验不同的数据集构建策略,从411M到7B参数模型。DCLM 通过优化的数据集设计显著提高了模型性能,并且已经促成了多个高质量数据集的创建,这些数据集在不同规模上表现优异,超越了所有开放数据集。
AI开发规模化的民主化平台
Prime Intellect是一个致力于AI开发规模化民主化的平台,提供全球计算资源的发现、模型训练以及共同拥有智能创新的能力。它通过分布式训练跨集群,使得用户能够训练最前沿的模型,并且共同拥有由此产生的开放AI创新成果,包括语言模型和科学突破。
全切片基础模型,用于从真实世界数据中进行数字病理学分析。
Prov-GigaPath是一个用于数字病理学研究的全切片基础模型,它通过真实世界数据进行训练,旨在支持AI研究人员在病理学基础模型和数字病理幻灯片数据编码方面的研究。该模型由多位作者共同开发,并在Nature期刊上发表。它不适用于临床护理或任何临床决策制定目的,仅限于研究使用。
CoreNet 是一个用于训练深度神经网络的库。
CoreNet 是一个深度神经网络工具包,使研究人员和工程师能够训练标准和新颖的小型和大型规模模型,用于各种任务,包括基础模型(例如 CLIP 和 LLM)、对象分类、对象检测和语义分割。
精准控制文本生成视频的相机姿态
CameraCtrl 致力于为文本生成视频模型提供精准相机姿态控制,通过训练相机编码器实现参数化相机轨迹,从而实现视频生成过程中的相机控制。产品通过综合研究各种数据集的效果,证明视频具有多样的相机分布和相似外观可以增强可控性和泛化能力。实验证明 CameraCtrl 在实现精确、领域自适应的相机控制方面非常有效,是从文本和相机姿态输入实现动态、定制视频叙事的重要进展。
生成合成数据,训练和对齐模型的工具
DataDreamer是一个强大的开源Python库,用于提示、生成合成数据和训练工作流。它旨在简单易用,极其高效,且具有研究级质量。DataDreamer支持创建提示工作流、生成合成数据集、对齐模型、微调模型、指令调优模型和模型蒸馏。它具有简单、研究级、高效、可复现的特点,并简化了数据集和模型的共享。
先进机器智能的下一步
Meta 发布了 Video Joint Embedding Predictive Architecture (V-JEPA) 模型,这是推进机器智能的关键一步,带来对世界更具实地认识。
StemGen: 一款聆听音乐生成模型
StemGen是一款端到端音乐生成模型,训练成能够聆听音乐背景并做出适当回应的模型。它建立在非自回归语言模型类型的架构上,类似于SoundStorm和VampNet。更多细节请参阅论文。该页面展示了该架构模型的多个示例输出。
统一的深度学习训练框架
AXLearn是Apple基于JAX和XLA构建的深度学习库,采用面向对象的方式解决软件工程在大规模深度学习模型开发中的挑战。它的配置系统允许用户从可重用的构建块中组合模型,并与其他库(如Flax和Hugging Face transformers)集成。AXLearn旨在扩展训练规模,支持数百亿参数的模型在数千个加速器上高效训练,适合在公有云上部署。它还采用全局计算范式,允许用户描述全局虚拟计算机上的计算,而不是单个加速器。AXLearn支持广泛的应用,包括自然语言处理、计算机视觉和语音识别,并包含用于训练最先进模型的基线配置。
© 2024 AIbase 备案号:闽ICP备08105208号-14