大规模参数扩散变换器模型
DiT-MoE是一个使用PyTorch实现的扩散变换器模型,能够扩展到160亿参数,与密集网络竞争的同时展现出高度优化的推理能力。它代表了深度学习领域在处理大规模数据集时的前沿技术,具有重要的研究和应用价值。
快速神经风格迁移的ComfyUI节点
ComfyUI-Fast-Style-Transfer是一个基于PyTorch框架开发的快速神经风格迁移插件,它允许用户通过简单的操作实现图像的风格转换。该插件基于fast-neural-style-pytorch项目,目前只移植了基础的推理功能。用户可以自定义风格,通过训练自己的模型来实现独特的风格迁移效果。
多语言可控文本到语音合成工具包
ToucanTTS是由德国斯图加特大学自然语言处理研究所开发的多语言且可控的文本到语音合成工具包。它使用纯Python和PyTorch构建,以保持简单、易于上手,同时尽可能强大。该工具包支持教学、训练和使用最前沿的语音合成模型,具有高度的灵活性和可定制性,适用于教育和研究领域。
高效的文本到音频生成模型,具有潜在一致性。
AudioLCM是一个基于PyTorch实现的文本到音频生成模型,它通过潜在一致性模型来生成高质量且高效的音频。该模型由Huadai Liu等人开发,提供了开源的实现和预训练模型。它能够将文本描述转化为接近真实的音频,具有重要的应用价值,尤其是在语音合成、音频制作等领域。
用于微调Meta Llama模型的库和示例脚本集合
llama-recipes是Meta Llama模型的配套仓库,旨在提供一个可扩展的库,用于微调Meta Llama模型,并提供一些示例脚本和笔记本,以便快速开始使用模型在各种用例中,包括领域适应的微调和构建基于LLM的应用程序。
使用Kolmogorov-Arnold网络实现的预训练生成式变换器(GPTs)的语言模型
kan-gpt是一个基于PyTorch的Generative Pre-trained Transformers (GPTs) 实现,它利用Kolmogorov-Arnold Networks (KANs) 进行语言建模。该模型在文本生成任务中展现出了潜力,特别是在处理长距离依赖关系时。它的重要性在于为自然语言处理领域提供了一种新的模型架构,有助于提升语言模型的性能。
为真实世界机器人提供最先进的机器学习模型、数据集和工具。
LeRobot 是一个旨在降低进入机器人领域的门槛,让每个人都能贡献并从共享数据集和预训练模型中受益的开源项目。它包含了在真实世界中经过验证的最先进的方法,特别关注模仿学习和强化学习。LeRobot 提供了一组预训练模型、带有人类收集演示的数据集和模拟环境,以便用户无需组装机器人即可开始。未来几周内,计划增加对最实惠和最有能力的真实世界机器人的支持。
Pytorch框架下的对比学习工具包
contrastors是一个对比学习工具包,使研究人员和工程师能够高效地训练和评估对比模型。它建立在Flash Attention之上,支持多GPU训练,具有GradCache支持,可以在受限内存环境下进行大批量训练。它还支持Huggingface,可以轻松加载常见模型。同时支持遮蔽语言建模预训练和Matryoshka表示学习。
基于PyTorch的生成式音频模型库
stable-audio-tools是一个开源的PyTorch库,提供了用于条件音频生成的生成模型的训练和推理代码。包括自动编码器、隐式扩散模型、MusicGen等。支持多GPU训练,可以生成高质量的音频。
BRIA AI开源的用于图像背景去除的Pytorch模型
RMBG-1.4是一个用于图像背景去除的Pytorch模型,由BRIA AI开发,经过专业级数据集的训练,能够高效准确地分割前景和背景。该模型的精度、效率和通用性目前可与领先的开源模型媲美,适用于支持企业大规模内容创作的商业使用案例。由于使用了合法许可的训练数据集并有效减轻了模型偏差,RMBG-1.4在保证内容安全方面尤为突出。
多模态语言模型预测网络
Honeybee是一个适用于多模态语言模型的局部性增强预测器。它能够提高多模态语言模型在不同下游任务上的性能,如自然语言推理、视觉问答等。Honeybee的优势在于引入了局部性感知机制,可以更好地建模输入样本之间的依赖关系,从而增强多模态语言模型的推理和问答能力。
一种利用侧视图像重建3D服装虚拟人物的方法
SIFU是一个利用侧视图像重建高质量3D服装虚拟人物模型的方法。它的核心创新点是提出了一种新的基于侧视图像的隐式函数,可以增强特征提取和提高几何精度。此外,SIFU还引入了一种3D一致的纹理优化过程,可大大提升纹理质量,借助文本到图像的diffusion模型实现纹理编辑。SIFU擅长处理复杂姿势和宽松衣物,是实际应用中理想的解决方案。
苹果芯片高效灵活机器学习
MLX是一种类似NumPy的数组框架,专为在苹果芯片上进行高效灵活的机器学习而设计,由苹果机器学习研究团队提供。Python API与NumPy紧密相似,但也有一些例外。MLX还具有完整的C++ API,紧密遵循Python API。MLX与NumPy的主要区别包括:可组合的函数转换、惰性计算和多设备支持。MLX的设计灵感来自PyTorch、Jax和ArrayFire等框架。与这些框架不同的是,MLX采用统一内存模型。MLX中的数组位于共享内存中,可以在任何受支持的设备类型(CPU、GPU等)上执行操作,而无需执行数据复制。
一款用于训练PyTorch计算机视觉模型的开源库。
YOLO-NAS Pose是一款免费的、开源的库,用于训练基于PyTorch的计算机视觉模型。它提供了训练脚本和快速简单复制模型结果的示例。内置SOTA模型,可以轻松加载和微调生产就绪的预训练模型,包括最佳实践和验证的超参数,以实现最佳的准确性。可以缩短训练生命周期,消除不确定性。提供分类、检测、分割等不同任务的模型,可以轻松集成到代码库中。
© 2024 AIbase 备案号:闽ICP备08105208号-14