需求人群:
"用于文本到视频编辑的光流引导注意力插件"
使用场景示例:
通过FLATTEN插件编辑视频
将FLATTEN插件与其他文本到视频编辑方法进行比较
使用FLATTEN插件进行Plug-and-Play编辑
产品特色:
通过引入光流来提高文本到视频编辑的视觉一致性
无需训练,可以无缝集成到其他文本到视频编辑方法中
在现有的文本到视频编辑基准上取得了最新的性能
浏览量:35
一致的文本到视频编辑的光流引导注意力
FLATTEN是一种用于文本到视频编辑的光流引导注意力插件。它通过在扩散模型的U-Net中引入光流来解决文本到视频编辑中的一致性问题。FLATTEN通过强制在不同帧上的相同光流路径上的补丁在注意模块中相互关注,从而提高了编辑视频的视觉一致性。此外,FLATTEN是无需训练的,可以无缝集成到任何基于扩散的文本到视频编辑方法中,并提高其视觉一致性。实验结果表明,我们提出的方法在现有的文本到视频编辑基准上取得了最新的性能。特别是,我们的方法在保持编辑视频的视觉一致性方面表现出色。
光流引导视频合成
FlowVid 是一个光流引导的视频合成模型,通过利用光流的空间和时间信息,实现视频帧之间的时序一致性。它可以与现有的图像合成模型无缝配合,实现多种修改操作,包括风格化、对象交换和局部编辑等。FlowVid 生成速度快,4 秒、30FPS、512×512 分辨率的视频只需 1.5 分钟,比 CoDeF、Rerender 和 TokenFlow 分别快 3.1 倍、7.2 倍和 10.5 倍。用户评估中,FlowVid 的质量得分为 45.7%,明显优于 CoDeF(3.5%)、Rerender(10.2%)和 TokenFlow(40.4%)。
训练无监督一致性文本到图像生成
ConsiStory是一个无需训练就能实现在预训练的文本到图像模型中生成一致性主体的方法。它不需要微调或个性化,因此比先前最优方法快20倍。我们通过引入以主体为驱动的共享注意力模块和基于对应关系的特征注入来增强模型,以促进图像之间的主体一致性。另外,我们开发了在保持主体一致性的同时鼓励布局多样性的策略。ConsiStory可以自然地扩展到多主体场景,甚至可以实现对常见对象的无需训练的个性化。
提高文本到图像合成质量的一致性蒸馏技术
TCD是一种用于文本到图像合成的一致性蒸馏技术,它通过轨迹一致性函数(TCF)和策略性随机采样(SSS)来减少合成过程中的错误。TCD在低NFE(噪声自由能量)时显著提高图像质量,并在高NFE时保持比教师模型更详细的结果。TCD不需要额外的判别器或LPIPS监督,即可在低NFE和高NFE时均保持优越的生成质量。
提高文本到图像模型中空间一致性的解决方案
SPRIGHT是一个专注于空间关系的大规模视觉语言数据集和模型。它通过重新描述600万张图像构建了SPRIGHT数据集,显著增加了描述中的空间短语。该模型在444张包含大量物体的图像上进行微调训练,从而优化生成具有空间关系的图像。SPRIGHT在多个基准测试中实现了空间一致性的最新水平,同时提高了图像质量评分。
3D一致性的视频生成框架
CamCo是一个创新的图像到视频生成框架,它能够生成具有3D一致性的高质量视频。该框架通过Plücker坐标引入相机信息,并提出了一种符合几何一致性的双线约束注意力模块。此外,CamCo在通过运动结构算法估计相机姿态的真实世界视频上进行了微调,以更好地合成物体运动。
稳定扩散VAE的一致性解码器
Consistency Decoder是一种用于稳定扩散VAE的改进解码器,提供更稳定的图像生成。它具有2.49GB的模型大小,支持从原始图像进行编码和使用GAN解码以及一致性解码。该产品定位于为图像生成提供更好的解码效果。
使用扩散模型实现时间一致性的人像动画
TCAN是一种基于扩散模型的新型人像动画框架,它能够保持时间一致性并很好地泛化到未见过的领域。该框架通过特有的模块,如外观-姿态自适应层(APPA层)、时间控制网络和姿态驱动的温度图,来确保生成的视频既保持源图像的外观,又遵循驱动视频的姿态,同时保持背景的一致性。
为扩散模型提供一致性分辨率适配
ResAdapter是一个为扩散模型(如Stable Diffusion)设计的分辨率适配器,它能够在保持风格域一致性的同时,生成任意分辨率和宽高比的图像。与处理静态分辨率图像的多分辨率生成方法不同,ResAdapter直接生成动态分辨率的图像,提高了推理效率并减少了额外的推理时间。
利用LLM提高T2I图像生成一致性
OPT2I是一个T2I优化框架,利用大型语言模型(LLM)提高提示-图像一致性。通过迭代生成修订后的提示,优化生成过程。能显著提高一致性得分,同时保持FID并增加生成数据与真实数据召回率。
快速可控的图像生成与潜在一致性模型
PIXART LCM是一个文本到图像合成框架,将潜在一致性模型(LCM)和ControlNet集成到先进的PIXART-α模型中。PIXART LCM以其能够通过高效的训练过程生成1024px分辨率的高质量图像而闻名。在PIXART-δ中集成LCM显著加快了推理速度,使得仅需2-4步即可生成高质量图像。特别值得注意的是,PIXART-δ实现了在0.5秒内生成1024x1024像素图像的突破,比PIXART-α改进了7倍。此外,PIXART-δ经过精心设计,可在单日内在32GB V100GPU上进行高效训练。具有8位推理能力的PIXART-δ可以在8GB GPU内存约束下合成1024px图像,极大地增强了其可用性和可访问性。此外,引入类似于ControlNet的模块可以对文本到图像扩散模型进行精细控制。我们引入了一种新颖的ControlNet-Transformer架构,专门为Transformers量身定制,实现了显式可控性和高质量图像生成。作为一种最先进的开源图像生成模型,PIXART-δ为稳定扩散模型家族提供了一个有前途的选择,为文本到图像合成做出了重大贡献。
下一代 AI 模型,实现一致性和可控的媒体生成。
Runway Gen-4 是一款先进的 AI 模型,专注于媒体生成和世界一致性。它能够在多个场景中精准生成一致的角色、地点和物体,为创作者提供前所未有的创作自由,适合电影制作、广告及产品摄影等多种应用场景。该产品不需要进行细致的调优或额外训练,简化了创作流程,提升了视频制作的质量和效率。
StreamingT2V: 一致、动态、可扩展的长视频文本生成
StreamingT2V 是一种先进的自回归技术,可以创建具有丰富动态运动的长视频,没有任何停滞。它确保视频中的时间一致性,与描述性文本紧密对齐,并保持高帧级图像质量。
AI角色一致性工具,为艺术家、设计师和内容创作者提供免费生成工具。
Ideogram Character是一个AI角色一致性工具,可以从单个参考图像中创建一致的AI角色,适用于艺术家、设计师和内容创作者。该工具利用先进的AI技术,帮助用户快速生成具有视觉连贯性的角色形象。提供免费生成,定位于为创意项目提供一致的视觉解决方案。
生成具有身份一致性和表情丰富性的3D人头模型
ID-to-3D是一种创新的方法,它能够从一张随意拍摄的野外图片中生成具有身份和文本引导的3D人头模型,具有分离的表情。该方法基于组合性,使用特定任务的2D扩散模型作为优化的先验。通过扩展基础模型并添加轻量级的表情感知和身份感知架构,创建了2D先验,用于几何和纹理生成,并通过微调仅0.2%的可用训练参数。结合强大的面部身份嵌入和神经表示,该方法不仅能够准确重建面部特征,还能重建配饰和头发,并可提供适用于游戏和远程呈现的渲染就绪资产。
深入研究大型语言模型的内部一致性和自我反馈
ICSFSurvey是一个关于大型语言模型内部一致性和自我反馈的调查研究。它提供了对LLMs自我评估和自我更新机制的统一视角,包括理论框架、系统分类、评估方法、未来研究方向等。
一种无需训练的单提示文本到图像生成方法,用于一致的图像生成。
1Prompt1Story是一种创新的文本到图像生成技术,能够在无需额外训练的情况下,通过单个提示生成一致的图像序列。该技术利用语言模型的上下文一致性,通过单个提示串联所有描述,生成具有身份一致性的图像。它支持多角色生成、空间控制生成以及真实图像个性化等功能,具有广泛的应用前景。该模型主要面向需要高效、一致图像生成的创作者和开发者,可用于故事创作、动画制作等领域。
StoryDiffusion 能够通过生成一致的图像和视频来创造魔法故事。
StoryDiffusion 是一个开源的图像和视频生成模型,它通过一致自注意力机制和运动预测器,能够生成连贯的长序列图像和视频。这个模型的主要优点在于它能够生成具有角色一致性的图像,并且可以扩展到视频生成,为用户提供了一个创造长视频的新方法。该模型对AI驱动的图像和视频生成领域有积极的影响,并且鼓励用户负责任地使用该工具。
基于文本的视频编辑技术,使用时空切片。
Slicedit是一种零样本视频编辑技术,它利用文本到图像的扩散模型,并结合时空切片来增强视频编辑中的时序一致性。该技术能够保留原始视频的结构和运动,同时符合目标文本描述。通过广泛的实验,证明了Slicedit在编辑真实世界视频方面具有明显优势。
Veo 3.1将文本转化为1080p电影视频,有一致角色、现实动作和同步音频。
Veo 3.1是谷歌推出的先进AI视频生成模型,代表了谷歌最先进的视频生成技术。它能从简单文本描述生成1080p视频,具有现实物理模拟、角色一致性和音频同步等特点。其重要性在于简化专业视频制作过程,无需昂贵设备、专业编辑技能和大量时间投入。产品优点包括保持角色一致性、支持多种图像类型、有电影预设、原生1080p分辨率、减少试错、提高运动质量等。价格方面,有不同订阅计划,如Starter Monthly每月43.31 - 99美元,Advanced Yearly每年490 - 310美元,Professional Monthly每月70 - 59.99美元。产品定位是为内容创作者、营销人员、电影制作者、教育者和企业等提供高效、高质量的视频制作解决方案。
内容一致的多场景视频生成
VideoDrafter 是一个内容一致的多场景视频生成框架。它利用大型语言模型(LLM)将输入提示转换为包含多场景脚本的综合脚本,脚本包括描述事件、前景 / 背景实体以及相机运动的提示。VideoDrafter 识别脚本中的共同实体,并要求 LLM 对每个实体进行详细描述。然后,将每个实体的描述输入到文本到图像模型中,以生成每个实体的参考图像。最后,通过考虑参考图像、事件描述和相机运动,通过扩散过程生成多场景视频,扩散模型将参考图像作为条件和对齐进行处理,以增强多场景视频的内容一致性。
高效的文本到音频生成模型,具有潜在一致性。
AudioLCM是一个基于PyTorch实现的文本到音频生成模型,它通过潜在一致性模型来生成高质量且高效的音频。该模型由Huadai Liu等人开发,提供了开源的实现和预训练模型。它能够将文本描述转化为接近真实的音频,具有重要的应用价值,尤其是在语音合成、音频制作等领域。
基于预训练的文本到图像模型生成高质量、多视角一致的3D物体图像。
ViewDiff 是一种利用预训练的文本到图像模型作为先验知识,从真实世界数据中学习生成多视角一致的图像的方法。它在U-Net网络中加入了3D体积渲染和跨帧注意力层,能够在单个去噪过程中生成3D一致的图像。与现有方法相比,ViewDiff生成的结果具有更好的视觉质量和3D一致性。
革命性的AI模型,排名第一的人工智能分析工具。
Red Panda AI,也称为Recraft V3,是一个在人工智能分析领域排名第一的革命性AI模型。它超越了FLUX1.1、Midjourney和OpenAI等其他模型,在设计理解和视觉输出质量方面表现出色。Red Panda AI以其设计为中心的架构,提供了无与伦比的设计原则理解、视觉层次和构图能力。它能够智能地适应不同平台和用例,保持一致的品牌身份。产品的主要优点包括设计语言理解、风格一致性控制、上下文感知、专业设计质量、快速迭代和多格式掌握。
高效生成一致性人物视频动画的模型
UniAnimate是一个用于人物图像动画的统一视频扩散模型框架。它通过将参考图像、姿势指导和噪声视频映射到一个共同的特征空间,以减少优化难度并确保时间上的连贯性。UniAnimate能够处理长序列,支持随机噪声输入和首帧条件输入,显著提高了生成长期视频的能力。此外,它还探索了基于状态空间模型的替代时间建模架构,以替代原始的计算密集型时间Transformer。UniAnimate在定量和定性评估中都取得了优于现有最先进技术的合成结果,并且能够通过迭代使用首帧条件策略生成高度一致的一分钟视频。
DiffPortrait3D可以从野外单张人像照片中合成逼真的3D一致新视角。
DiffPortrait3D是一个条件化难度模型,即使只有野外单张人像照片,也能合成逼真的3D一致新视角。具体来说,给定单张RGB输入图像,我们目标是合成从新相机视角渲染的似是而非的面部细节,同时保留身份和面部表达。我们的零试验方法可以很好地推广到任意面部人像,具有非姿态相机视角,极端面部表情和多种艺术描绘。在其核心,我们利用在大规模图像数据集上预训练的2D难度模型的生成先验作为我们的呈现主干,同时通过解耦外观和相机姿势的定向注意控制来指导去噪。为此,我们首先从参考图像将外观上下文注入冻结的UNet的自我注意力层。然后通过一种新颖的条件控制模块来操纵呈现视图,该模块通过观看来自同一视图的交叉主体的条件图像来解释相机姿势。 此外,我们插入了一个可训练的跨视图注意力模块来增强视图一致性,后者通过在推理期间采用一种新的3D感知噪声生成过程进一步加强。我们在具有挑战性的野外和多视图基准测试中定性和定量地证明了最先进的结果。
一句话AI图片编辑器,用简单语言描述编辑需求。
Nano Banana AI是一款革命性的AI图片编辑工具,通过自然语言描述编辑需求,无需设计技能,快速生成专业级编辑效果。主打一致性编辑和多图片融合功能,提供无限创意可能。
AI 视频编辑器,团队协作
Capsule 是一个 AI 视频编辑器,专为内容和营销团队设计。通过 Capsule,您可以更快速地创建令人惊叹的视频,无缝协作,并保持品牌一致。Capsule 利用 AI 技术,使视频编辑和添加动态图形变得 10 倍更快、更容易。您可以轻松创建符合品牌要求的精美图形,不需要专业设计师。无需任何经验,只需要使用浏览器和故事即可创建专业级的视频。Capsule 还引入了 AI 助手,可以自动进行编辑,包括剪辑无声部分、删除填充词以及简化后期制作。通过 Capsule,您可以像编辑文本一样编辑视频,上传、转录、修正,然后进行剪辑和格式设置,所有操作都在一个工作区内完成。您可以使用时尚的图形创建令人惊叹的视频,添加高质量的标题、下三分之一和动画效果。利用 AI 的帮助,您可以在几秒钟内生成漂亮的字幕,并轻松调整位置、大小和样式。使用 AI 助手,您还可以添加引人注目的标题,并获得可以微调、设计和动画化的文案建议。Capsule 还可以根据文本生成原创的、与品牌一致的 B-roll 镜头,告别过度使用的现成素材。无论是内容团队、营销团队还是其他团队,Capsule 都是一个令人愉快的视频编辑器。
© 2025 AIbase 备案号:闽ICP备08105208号-14