2D肖像视频转4D高斯场编辑工具
PortraitGen是一个基于多模态生成先验的2D肖像视频编辑工具,能够将2D肖像视频提升到4D高斯场,实现多模态肖像编辑。该技术通过追踪SMPL-X系数和使用神经高斯纹理机制,可以快速生成3D肖像并进行编辑。它还提出了一种迭代数据集更新策略和多模态人脸感知编辑模块,以提高表情质量和保持个性化面部结构。
使用AI技术将文本描述转换为高质量图像。
Flux Image Generator是一个利用先进AI模型技术,将用户的想法迅速转化为高质量图像的工具。它提供三种不同的模型变体,包括快速的本地开发和个人使用模型FLUX.1 [schnell],非商业应用的指导蒸馏模型FLUX.1 [dev],以及提供最先进性能图像生成的FLUX.1 [pro]。该工具不仅适用于个人项目,也适用于商业用途,能够满足不同用户的需求。
内容风格合成在文本到图像生成中的应用
CSGO是一个基于内容风格合成的文本到图像生成模型,它通过一个数据构建管道生成并自动清洗风格化数据三元组,构建了首个大规模的风格迁移数据集IMAGStyle,包含210k图像三元组。CSGO模型采用端到端训练,明确解耦内容和风格特征,通过独立特征注入实现。它实现了图像驱动的风格迁移、文本驱动的风格合成以及文本编辑驱动的风格合成,具有无需微调即可推理、保持原始文本到图像模型的生成能力、统一风格迁移和风格合成等优点。
无需训练的扩散模型个性化定制
RB-Modulation是谷歌发布的一种基于随机最优控制的新型训练免费个性化扩散模型解决方案。它通过终端成本编码所需属性,实现风格和内容的精确提取与控制,无需额外训练,即可生成与参考图像风格一致且遵循给定文本提示的图像。该技术在无需训练的情况下,通过新颖的注意力特征聚合(AFA)模块,保持对参考图像的高保真度,并遵循给定的提示,具有重要的研究和应用价值。
使用频域分解进行高保真、可迁移的NeRF编辑
Freditor是一种基于频域分解的NeRF编辑方法。它可以实现高保真的NeRF场景编辑,并且可迁移到其他场景。该方法将NeRF场景划分为高频和低频两部分,对低频部分进行风格迁移,并将高频细节重新集成,从而生成高保真的编辑结果。Freditor还支持在推理过程中对编辑强度进行控制。实验表明,该方法在保真度和可迁移性方面都优于现有的NeRF编辑方法。
实现在任意场景视频中插入照片实物的视频生成框架
Anything in Any Scene是一个用于在现有动态视频中无缝插入任何物体的通用框架,强调物理真实性。该框架包含三个关键过程:1) 将真实物体与给定场景视频相结合,确保几何真实性;2) 估计天空和环境光照分布,模拟逼真阴影,增强光照真实性;3) 采用风格迁移网络,提高最终视频输出的逼真度。该框架能生成具有高度几何真实性、光照真实性和逼真度的模拟视频。
上传房间照片,AI生成理想房间效果
roomGPT是一个可以上传房间照片,使用AI技术生成理想房间效果的在线服务。用户只需上传现有房间的照片,系统就可以生成不同风格的房间设计效果,供用户选择喜欢的风格。该服务使用了控制网(ControlNet)机器学习模型,可以生成房间的不同变体。roomGPT免费开源版本可以本地部署使用,也提供了付费的SaaS服务。
© 2024 AIbase 备案号:闽ICP备08105208号-14