根据人类指令修复和编辑照片的框架
PromptFix是一个综合框架,能够使扩散模型遵循人类指令执行各种图像处理任务。该框架通过构建大规模的指令遵循数据集,提出了高频引导采样方法来控制去噪过程,并设计了辅助提示适配器,利用视觉语言模型增强文本提示,提高模型的任务泛化能力。PromptFix在多种图像处理任务中表现优于先前的方法,并在盲恢复和组合任务中展现出优越的零样本能力。
掌握开放世界交互的视觉-时间上下文提示模型
ROCKET-1是一个视觉-语言模型(VLMs),专门针对开放世界环境中的具身决策制定而设计。该模型通过视觉-时间上下文提示协议,将VLMs与策略模型之间的通信连接起来,利用来自过去和当前观察的对象分割来指导策略-环境交互。ROCKET-1通过这种方式,能够解锁VLMs的视觉-语言推理能力,使其能够解决复杂的创造性任务,尤其是在空间理解方面。ROCKET-1在Minecraft中的实验表明,该方法使代理能够完成以前无法实现的任务,突出了视觉-时间上下文提示在具身决策制定中的有效性。
无需对齐信息的零样本文本到语音转换模型
MaskGCT是一个创新的零样本文本到语音转换(TTS)模型,它通过消除显式对齐信息和音素级持续时间预测的需求,解决了自回归和非自回归系统中存在的问题。MaskGCT采用两阶段模型:第一阶段使用文本预测从语音自监督学习(SSL)模型中提取的语义标记;第二阶段,模型根据这些语义标记预测声学标记。MaskGCT遵循掩码和预测的学习范式,在训练期间学习预测基于给定条件和提示的掩码语义或声学标记。在推理期间,模型以并行方式生成指定长度的标记。实验表明,MaskGCT在质量、相似性和可理解性方面超越了当前最先进的零样本TTS系统。
高效自动语音识别模型
Whisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。它在超过500万小时的标记数据上进行训练,能够在零样本设置中泛化到许多数据集和领域。该模型是Whisper large-v3的微调版本,解码层从32减少到4,以提高速度,但可能会略微降低质量。
零样本风格化情侣肖像创作
Omni-Zero-Couples是一个使用diffusers管道的零样本风格化情侣肖像创作模型。它利用深度学习技术,无需预先定义的风格样本,即可生成具有特定艺术风格的情侣肖像。这种技术在艺术创作、个性化礼物制作和数字娱乐领域具有广泛的应用前景。
音乐生成系统,支持多语言声乐生成和音乐编辑。
Seed-Music 是一个音乐生成系统,它通过统一的框架支持生成具有表现力的多语言声乐音乐,允许精确到音符级别的调整,并提供将用户自己的声音融入音乐创作的能力。该系统采用先进的语言模型和扩散模型,为音乐家提供多样化的创作工具,满足不同音乐制作需求。
零样本声音转换技术,实现音质与音色的高保真转换。
seed-vc 是一个基于 SEED-TTS 架构的声音转换模型,能够实现零样本的声音转换,即无需特定人的声音样本即可转换声音。该技术在音频质量和音色相似性方面表现出色,具有很高的研究和应用价值。
零样本图像编辑,一键模仿参考图像风格
MimicBrush是一种创新的图像编辑模型,它允许用户通过指定源图像中的编辑区域和提供一张野外参考图像来实现零样本图像编辑。该模型能够自动捕捉两者之间的语义对应关系,并一次性完成编辑。MimicBrush的开发基于扩散先验,通过自监督学习捕捉不同图像间的语义关系,实验证明其在多种测试案例下的有效性及优越性。
基于文本的视频编辑技术,使用时空切片。
Slicedit是一种零样本视频编辑技术,它利用文本到图像的扩散模型,并结合时空切片来增强视频编辑中的时序一致性。该技术能够保留原始视频的结构和运动,同时符合目标文本描述。通过广泛的实验,证明了Slicedit在编辑真实世界视频方面具有明显优势。
开源的实时语音克隆技术
OpenVoice是一个开源的语音克隆技术,可以准确地克隆参考音色,生成多种语言和口音的语音。它可以灵活地控制语音风格,如情感、口音等参数,以及节奏、停顿和语调等。它实现了零样本跨语言语音克隆,即生成语音和参考语音的语言都不需要出现在训练数据中。
大型语言模型是视觉推理协调器
Cola是一种使用语言模型(LM)来聚合2个或更多视觉-语言模型(VLM)输出的方法。我们的模型组装方法被称为Cola(COordinative LAnguage model or visual reasoning)。Cola在LM微调(称为Cola-FT)时效果最好。Cola在零样本或少样本上下文学习(称为Cola-Zero)时也很有效。除了性能提升外,Cola还对VLM的错误更具鲁棒性。我们展示了Cola可以应用于各种VLM(包括大型多模态模型如InstructBLIP)和7个数据集(VQA v2、OK-VQA、A-OKVQA、e-SNLI-VE、VSR、CLEVR、GQA),并且它始终提高了性能。
© 2024 AIbase 备案号:闽ICP备08105208号-14