需求人群:
"目标受众包括但不限于:计算机视觉研究人员、人工智能开发者、数字媒体艺术家、电影和游戏制作人员。Stable Video Portraits技术因其逼真的动态人脸生成能力,特别适合需要创建虚拟角色或进行面部动画的专业人士。"
使用场景示例:
电影制作中,用于生成逼真的虚拟角色。
游戏开发中,用于创建具有高度真实感的NPC面部动画。
数字艺术领域,艺术家利用该技术创作独特的艺术作品。
产品特色:
使用现成的3D面部重建方法、面部解析映射(FPM)模型和Mediapipe处理输入视频,提取每帧的3D面部重建(3DMM)、FPM和虹膜位置。
并行训练两个ControlNets,分别生成时间稳定的轮廓(第一阶段)和内部细节(第二阶段),生成逼真的个人化身。
个人化身可以通过文本进一步变形为名人,无需额外微调。
使用前一帧的预测,修改DDIM步骤t=τ的推理,以考虑前一帧,从而实现时间平滑输出。
面部变形功能,可以将个人化身变形为特定名人,如Scarlet Johansson或Emma Watson,并保持头部姿态一致性。
与当前单目头部化身方法的比较,展示其优越性。
通过消融研究,分析变形因子、输入控制和去噪过程变量对结果的影响。
使用教程:
1. 访问Stable Video Portraits的官方网站。
2. 阅读有关该技术的研究论文和方法概述。
3. 下载并安装所需的软件和库。
4. 准备输入视频,确保视频质量满足3D面部重建的要求。
5. 使用3D面部重建方法、FPM模型和Mediapipe提取视频中的3DMM、FPM和虹膜位置。
6. 训练ControlNets以生成轮廓和内部细节。
7. 利用时间去噪过程生成时间平滑的视频输出。
8. 如有需要,通过文本输入调整个人化身的面部特征,以匹配特定名人的形象。
浏览量:60
腾讯推出的3D生成框架,支持文本和图像到3D的生成。
Hunyuan3D-1是腾讯推出的一个统一框架,用于文本到3D和图像到3D的生成。该框架采用两阶段方法,第一阶段使用多视图扩散模型快速生成多视图RGB图像,第二阶段通过前馈重建模型快速重建3D资产。Hunyuan3D-1.0在速度和质量之间取得了令人印象深刻的平衡,显著减少了生成时间,同时保持了生成资产的质量和多样性。
SAM 3D:AI驱动,秒速将2D图像转化为专业级3D模型
SAM 3D是一款由人工智能驱动的3D重建平台,它基于先进的SAM(Segment Anything Model)技术,实现了将单张2D照片转化为精确、全纹理3D模型的突破。该平台打破了传统3D建模的壁垒,无需昂贵设备和专业技术知识,为全球开发者、设计师、研究人员和内容创作者提供了企业级的3D重建能力。其重要性在于降低了3D建模的门槛,使更多人能够轻松获得高质量的3D模型。价格方面,提供免费使用,无需信用卡信息。产品定位是为各行业提供便捷、高效的3D重建解决方案。
一种通过3D感知递归扩散生成3D模型的框架
Ouroboros3D是一个统一的3D生成框架,它将基于扩散的多视图图像生成和3D重建集成到一个递归扩散过程中。该框架通过自条件机制联合训练这两个模块,使它们能够相互适应,以实现鲁棒的推理。在多视图去噪过程中,多视图扩散模型使用由重建模块在前一时间步渲染的3D感知图作为附加条件。递归扩散框架与3D感知反馈相结合,提高了整个过程的几何一致性。实验表明,Ouroboros3D框架在性能上优于将这两个阶段分开训练的方法,以及在推理阶段将它们结合起来的现有方法。
Meta的单图像3D重建模型,融合SAM 3分割与几何纹理布局预测生成3D资产
sam3d是Meta推出的研究级单图像3D重建模型,它将SAM 3的开放词汇分割与几何、纹理和布局预测相融合,能直接从单张RGB图像生成3D资产。该模型具有开源的检查点、推理代码和基准数据集,方便进行可重复的研究和生产试点。其重要性在于降低了3D重建的硬件和设置复杂度,提高了重建效率。主要优点包括单图像输入、开放词汇分割、开放生态系统、适用于XR、高效输入和有明确的评估套件等。产品免费开源,定位于创意工具、电商AR购物、机器人感知和科学可视化等领域。
快速从单张图片生成3D模型。
Stable Fast 3D (SF3D) 是一个基于TripoSR的大型重建模型,能够从单张物体图片生成带有纹理的UV展开3D网格资产。该模型训练有素,能在不到一秒的时间内创建3D模型,具有较低的多边形计数,并且进行了UV展开和纹理处理,使得模型在下游应用如游戏引擎或渲染工作中更易于使用。此外,模型还能预测每个物体的材料参数(粗糙度、金属感),在渲染过程中增强反射行为。SF3D适用于需要快速3D建模的领域,如游戏开发、电影特效制作等。
Hunyuan 3D AI将文本和图像转化为含PBR纹理的高质量3D模型,无需建模经验。
Hunyuan 3D是腾讯的革命性Hunyuan3D v3平台,采用先进3D AI技术,能快速将文本和图像转化为专业3D模型。其重要性在于降低了3D建模门槛,让非专业人士也能参与创作。主要优点是速度快、精度高、纹理质量好,使用100亿参数模型。产品定位为面向广泛用户的3D建模平台。价格方面,有免费的基础计划和每月24.99美元的Plus计划。
文字转3D
Luma AI是一款基于人工智能技术的文字转3D工具,通过使用Luma AI,用户可以将文字快速转换成3D模型,并进行编辑和渲染,实现独特的视觉效果。Luma AI具有高效、易用和灵活的特点,适用于各种创意设计、广告制作和数字媒体项目。定价详细请参考官方网站。
基于多视图生成重建先验的拖拽式3D编辑工具
MVDrag3D是一个创新的3D编辑框架,它通过利用多视图生成和重建先验来实现灵活且具有创造性的拖拽式3D编辑。该技术的核心是使用多视图扩散模型作为强大的生成先验,以在多个渲染视图中执行一致的拖拽编辑,随后通过重建模型重建编辑对象的3D高斯。MVDrag3D通过视图特定的变形网络调整高斯的位置以实现良好的视图对齐,并提出多视图评分函数以从多个视图中提取生成先验,进一步增强视图一致性和视觉质量。这项技术对于3D建模和设计领域具有重要意义,因为它支持更多样化的编辑效果,并适用于多种对象类别和3D表示。
基于Meta的SAM 3D模型,可秒将单张图像转换成高质量3D模型。
SAM 3D是一款在线工具,基于Meta的SAM 3D研究模型,可将单张图像快速转换为高质量的3D模型。其重要性在于打破了传统摄影测量和仅使用合成数据训练的限制,为3D重建带来了语义理解。主要优点包括在复杂真实场景下的高鲁棒性、快速推理、支持标准3D格式导出等。产品背景是Meta在计算机视觉领域的研究成果,页面未提及价格信息,定位是为用户提供便捷的3D重建服务。
AI 生成定制 3D 模型
3D AI Studio 是一款基于人工智能技术的在线工具,可以轻松生成定制的 3D 模型。适用于设计师、开发者和创意人士,提供高质量的数字资产。用户可以通过AI生成器快速创建3D模型,并以FBX、GLB或USDZ格式导出。3D AI Studio具有高性能、用户友好的界面、自动生成真实纹理等特点,可大幅缩短建模时间和降低成本。
手机上创造惊艳的3D设计
Glyf是一款手机应用,让你可以在几分钟内创建令人惊叹的3D设计。通过Glyf,你可以将文字、图片等转换成精美的3D艺术品,并且利用强大的人工智能功能,通过几句话创造出令人惊艳的AI艺术。Glyf将很快上线于Google Play Store和Apple App Store。
快速将 2D 图像转换为专业 3D 模型的 AI 工具。
Modelfy 3D 是一个先进的 AI 图像转 3D 模型生成器,允许用户在几秒钟内将 2D 图像转换为 3D 模型,支持高达 30 万多边形的精度,非常适合 3D 打印、游戏开发和专业项目。该平台采用自研的 AI 算法和企业级基础设施,提供高效、可靠的 3D 模型生成服务,用户可以按需选择不同的质量级别进行下载,满足多种需求。价格体系灵活,支持免费试用和付费订阅,适合从个人创作者到企业用户的广泛使用。
即时生成3D模型的AI平台
Instant 3D AI是一个利用人工智能技术,能够将2D图像快速转换成3D模型的在线平台。该技术的重要性在于它极大地简化了3D模型的创建过程,使得非专业人士也能轻松创建高质量的3D模型。产品背景信息显示,Instant 3D AI已经获得了1400多位创作者的信任,并获得了4.8/5的优秀评分。产品的主要优点包括快速生成3D模型、用户友好的操作界面以及高用户满意度。价格方面,Instant 3D AI提供免费试用,让用户可以先体验产品再决定是否付费。
从单张图片或文本提示生成高质量3D资产
Flex3D是一个两阶段流程,能够从单张图片或文本提示生成高质量的3D资产。该技术代表了3D重建领域的最新进展,可以显著提高3D内容的生成效率和质量。Flex3D的开发得到了Meta的支持,并且团队成员在3D重建和计算机视觉领域有着深厚的背景。
使用AI生成任何3D模型
3D Mesh Generation是Anything World推出的一款在线3D模型生成工具,它利用人工智能技术,允许用户通过简单的文字描述或上传图片来快速生成3D模型。这项技术的重要性在于它极大地简化了3D模型的创建过程,使得没有专业3D建模技能的用户也能轻松创建出高质量的3D内容。产品背景信息显示,Anything World致力于通过其平台提供创新的3D内容创建解决方案,而3D Mesh Generation是其产品线中的重要组成部分。关于价格,用户可以在注册后查看具体的定价方案。
腾讯混元3D驱动的图片转3D与STL转换器,快速生成高精度3D模型
Image3D AI是一款由腾讯混元3D(Hunyuan 3D)强力驱动的图片转3D与STL转换器。其核心技术基于腾讯尖端的混元3D AI大模型,能够理解复杂空间关系、纹理细节和几何结构。该产品的主要优点包括:多模态输入,可处理单张图或多视图;能生成高精细度的PBR材质;保证高精细度的模型输出;生成速度快,平均30 - 60秒完成。价格方面,暂未提及收费信息,推测有免费使用部分。产品定位是为不同行业提供图片转3D模型的解决方案,赋能工作流。
Hunyuan3D 2.0 是腾讯推出的高分辨率 3D 资产生成系统,基于大规模扩散模型。
Hunyuan3D 2.0 是腾讯推出的一种先进大规模 3D 合成系统,专注于生成高分辨率纹理化的 3D 资产。该系统包括两个基础组件:大规模形状生成模型 Hunyuan3D-DiT 和大规模纹理合成模型 Hunyuan3D-Paint。它通过解耦形状和纹理生成的难题,为用户提供了灵活的 3D 资产创作平台。该系统在几何细节、条件对齐、纹理质量等方面超越了现有的开源和闭源模型,具有极高的实用性和创新性。目前,该模型的推理代码和预训练模型已开源,用户可以通过官网或 Hugging Face 空间快速体验。
先进AI技术,可将文字和图像瞬间转化为3D模型,无需3D建模经验。
To 3D AI是一款先进的AI 3D模型生成器,利用先进的机器学习算法,可将文字描述和图像转化为详细的3D模型。其重要性在于极大地简化了3D模型的创建过程,无需专业的3D建模经验。主要优点包括生成速度快,相比传统3D建模工作流程快10 - 100倍;支持多种格式导出,与主流3D软件和3D打印工作流程兼容;生成的模型质量高,具有优化的拓扑结构和PBR纹理。产品背景信息暂未提及价格相关内容,其定位是为开发者、设计师、艺术家等专业人士提供高效的3D模型创建解决方案。
轻松创建和利用3D内容
3D Creation是一个提供给用户轻松创建和利用3D内容的网站。它提供了多种功能,包括AI纹理、我的模型、API等。用户可以使用AI纹理功能将图片转换为纹理,也可以使用文本转3D功能将文字描述转换为3D模型。此外,用户还可以使用Sketch to 3D功能将手绘草图转换为3D模型。3D Creation适用于各种场景,如设计、图像处理、视频制作等。该产品定位于提供简单易用的3D内容创作工具,并提供合理的定价策略。
将图片轻松转换为3D资产的专业工具
TRELLIS 3D AI是一款利用人工智能技术将图片转换成3D资产的专业工具。它通过结合先进的神经网络和结构化潜在技术(Structured LATents, SLAT),能够保持输入图片的结构完整性和视觉细节,生成高质量的3D资产。产品背景信息显示,TRELLIS 3D AI被全球专业人士信赖,用于可靠的图像到3D资产的转换。与传统的3D建模工具不同,TRELLIS 3D AI提供了一个无需复杂操作的图像到3D资产的转换过程。产品价格为免费,适合需要快速、高效生成3D资产的用户。
首个同时支持文生和图生的3D开源模型
腾讯混元3D是一个开源的3D生成模型,旨在解决现有3D生成模型在生成速度和泛化能力上的不足。该模型采用两阶段生成方法,第一阶段使用多视角扩散模型快速生成多视角图像,第二阶段通过前馈重建模型快速重建3D资产。混元3D-1.0模型能够帮助3D创作者和艺术家自动化生产3D资产,支持快速单图生3D,10秒内完成端到端生成,包括mesh和texture提取。
ReconFusion: 3D重建与扩散先验
ReconFusion是一种3D重建方法,利用扩散先验在只有少量照片的情况下重建真实世界场景。它结合Neural Radiance Fields(NeRFs)和扩散先验,能够在新的摄像机位置超出输入图像集合的情况下,合成逼真的几何和纹理。该方法通过在少量视图和多视图数据集上训练扩散先验,能够在不受约束的区域合成逼真的几何和纹理,同时保留观察区域的外观。ReconFusion在各种真实世界数据集上进行了广泛评估,包括前向和360度场景,展示出明显的性能改进。
无需相机校准信息的密集立体3D重建
DUSt3R是一种新颖的密集和无约束立体3D重建方法,适用于任意图像集合。它不需要事先了解相机校准或视点姿态信息,通过将成对重建问题视为点图的回归,放宽了传统投影相机模型的严格约束。DUSt3R提供了一种统一的单目和双目重建方法,并在多图像情况下提出了一种简单有效的全局对齐策略。基于标准的Transformer编码器和解码器构建网络架构,利用强大的预训练模型。DUSt3R直接提供场景的3D模型和深度信息,并且可以从中恢复像素匹配、相对和绝对相机信息。
ComfyUI节点插件,支持3D处理
ComfyUI-3D-Pack是一个强大的3D处理节点插件包,它为ComfyUI提供了处理3D输入(网格、UV纹理等)的能力,使用了最前沿的算法,如3D高斯采样、神经辐射场等。这个项目可以让用户只用单张图片就可以快速生成3D高斯模型,并可以将高斯模型转换成网格,实现3D重建。它还支持多视图图像作为输入,允许在给定的3D网格上映射多视图渲染的纹理贴图。该插件包处于开发中,尚未正式发布到ComfyUI插件库,但已经支持诸如大型多视图高斯模型、三平面高斯变换器、3D高斯采样、深度网格三角剖分、3D文件加载保存等功能。它的目标是成为ComfyUI处理3D内容的强大工具。
快速高质量从单张图像生成3D内容
Repaint123可以在2分钟内从一张图片生成高质量、多视角一致的3D内容。它结合2D散射模型强大的图像生成能力和渐进重绘策略的纹理对齐能力,生成高质量、视角一致的多视角图像,并通过可视性感知的自适应重绘强度提升重绘过程中的图像质量。生成的高质量、多视角一致图像使得简单的均方误差损失函数就能实现快速的3D内容生成。
2D视频转3D模型
Neuralangelo是NVIDIA研究推出的一款利用神经网络进行3D重建的人工智能模型,可以将2D视频片段转换为详细的3D结构,生成逼真的虚拟建筑、雕塑等物体。它能够准确地提取复杂材料的纹理,包括屋顶瓦片、玻璃窗格和光滑的大理石。创意专业人员可以将这些3D对象导入设计应用程序,进一步进行编辑,用于艺术、视频游戏开发、机器人技术和工业数字双胞胎等领域。Neuralangelo的3D重建能力将对创作者产生巨大的帮助,帮助他们在数字世界中重新创建真实世界。该工具最终将使开发人员能够将详细的对象(无论是小雕塑还是巨大的建筑物)导入到虚拟环境中,用于视频游戏或工业数字双胞胎等应用。
© 2026 AIbase 备案号:闽ICP备08105208号-14