多视图一致性图像生成的便捷解决方案
MV-Adapter是一种基于适配器的多视图图像生成解决方案,它能够在不改变原有网络结构或特征空间的前提下,增强预训练的文本到图像(T2I)模型及其衍生模型。通过更新更少的参数,MV-Adapter实现了高效的训练并保留了预训练模型中嵌入的先验知识,降低了过拟合风险。该技术通过创新的设计,如复制的自注意力层和并行注意力架构,使得适配器能够继承预训练模型的强大先验,以建模新的3D知识。此外,MV-Adapter还提供了统一的条件编码器,无缝整合相机参数和几何信息,支持基于文本和图像的3D生成以及纹理映射等应用。MV-Adapter在Stable Diffusion XL(SDXL)上实现了768分辨率的多视图生成,并展示了其适应性和多功能性,能够扩展到任意视图生成,开启更广泛的应用可能性。
AlphaGeometry: AI解决几何问题的突破
AlphaGeometry是一个超越了现有技术水平的几何问题AI系统,它通过结合神经语言模型的预测能力和规则驱动的推理引擎,能够解决复杂的几何问题。该系统采用神经符号学方法,由神经语言模型和符号推理引擎组成,共同寻找复杂几何定理的证明。通过生成10亿个随机几何对象图形,并从中推导出所有的关系,最终得到了1亿个独特的训练样本,其中900万个包含了额外的构造。AlphaGeometry的语言模型能够在面对国际数学奥林匹克竞赛的几何问题时做出良好的建议。该系统已经成为世界上第一个能够达到国际数学奥林匹克竞赛铜牌水平的AI模型。
高保真几何渲染
这款产品是一种3D GAN技术,通过学习基于神经体积渲染的方法,能够以前所未有的细节解析细粒度的3D几何。产品采用学习型采样器,加速3D GAN训练,使用更少的深度采样,实现在训练和推断过程中直接渲染完整分辨率图像的每个像素,同时学习高质量的表面几何,合成高分辨率3D几何和严格视角一致的图像。产品在FFHQ和AFHQ上展示了最先进的3D几何质量,为3D GAN中的无监督学习建立了新的标准。
ReconFusion: 3D重建与扩散先验
ReconFusion是一种3D重建方法,利用扩散先验在只有少量照片的情况下重建真实世界场景。它结合Neural Radiance Fields(NeRFs)和扩散先验,能够在新的摄像机位置超出输入图像集合的情况下,合成逼真的几何和纹理。该方法通过在少量视图和多视图数据集上训练扩散先验,能够在不受约束的区域合成逼真的几何和纹理,同时保留观察区域的外观。ReconFusion在各种真实世界数据集上进行了广泛评估,包括前向和360度场景,展示出明显的性能改进。
使用解码器-仅变压器生成三角网格
MeshGPT通过自回归地从经过训练以生成来自学习几何词汇的标记的变压器模型中采样来创建三角网格。这些标记然后可以被解码成三角网格的面。我们的方法生成干净、连贯和紧凑的网格,具有清晰的边缘和高保真度。MeshGPT在形状覆盖率上表现比现有的网格生成方法有显著改进,各种类别的FID得分提高了30个点。
在线图像集合的神经渲染
NeROIC是一种从在线图像集合中获取物体表示的新方法,可以捕捉具有不同相机、光照和背景的照片中任意物体的高质量几何和材质属性。它可以用于新视角合成、重新照明和和谐背景合成等物体中心渲染应用。通过扩展神经辐射场的多阶段方法,我们首先推断表面几何并改进粗略估计的初始相机参数,同时利用粗略的前景物体掩码来提高训练效率和几何质量。我们还引入了一种稳健的法线估计技术,可以消除几何噪声的影响,同时保留关键细节。最后,我们提取表面材质属性和环境光照,用球谐函数表示,并处理瞬态元素,如锐利阴影。这些组件的结合形成了一个高度模块化和高效的物体获取框架。广泛的评估和比较证明了我们的方法在捕捉用于渲染应用的高质量几何和外观属性方面的优势。
© 2025 AIbase 备案号:闽ICP备08105208号-14