需求人群:
["虚拟现实","视觉内容生成","数字人体建模"]
使用场景示例:
从单视图视频中重建舞者的3D动画
从自拍视频生成数字化自我
用于虚拟现实场景中的实时人体互动
产品特色:
从单视图视频快速重建高保真3D人体
训练时间仅需100秒
渲染速度可达每秒60帧
无需存储每帧的高斯属性
提供端到端的实现代码
浏览量:217
最新流量情况
月访问量
5.16m
平均访问时长
00:06:42
每次访问页数
5.81
跳出率
37.20%
流量来源
直接访问
52.27%
自然搜索
32.92%
邮件
0.05%
外链引荐
12.52%
社交媒体
2.15%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
11.99%
德国
3.63%
印度
9.20%
俄罗斯
5.25%
美国
19.02%
快速从单视图训练高保真的人体3D高斯模型
Human101是一个快速从单视图重建人体的框架。它能够在100秒内训练3D高斯模型,并以60FPS以上渲染1024分辨率的图像,而无需预先存储每帧的高斯属性。Human101管道如下:首先,从单视图视频中提取2D人体姿态。然后,利用姿态驱动3D模拟器生成匹配的3D骨架动画。最后,基于动画构建时间相关的3D高斯模型,进行实时渲染。
高效3D高斯重建模型,实现大场景快速重建
Long-LRM是一个用于3D高斯重建的模型,能够从一系列输入图像中重建出大场景。该模型能在1.3秒内处理32张960x540分辨率的源图像,并且仅在单个A100 80G GPU上运行。它结合了最新的Mamba2模块和传统的transformer模块,通过高效的token合并和高斯修剪步骤,在保证质量的同时提高了效率。与传统的前馈模型相比,Long-LRM能够一次性重建整个场景,而不是仅重建场景的一小部分。在大规模场景数据集上,如DL3DV-140和Tanks and Temples,Long-LRM的性能可与基于优化的方法相媲美,同时效率提高了两个数量级。
从单张图片或文本提示生成高质量3D资产
Flex3D是一个两阶段流程,能够从单张图片或文本提示生成高质量的3D资产。该技术代表了3D重建领域的最新进展,可以显著提高3D内容的生成效率和质量。Flex3D的开发得到了Meta的支持,并且团队成员在3D重建和计算机视觉领域有着深厚的背景。
无需相机校准信息的密集立体3D重建
DUSt3R是一种新颖的密集和无约束立体3D重建方法,适用于任意图像集合。它不需要事先了解相机校准或视点姿态信息,通过将成对重建问题视为点图的回归,放宽了传统投影相机模型的严格约束。DUSt3R提供了一种统一的单目和双目重建方法,并在多图像情况下提出了一种简单有效的全局对齐策略。基于标准的Transformer编码器和解码器构建网络架构,利用强大的预训练模型。DUSt3R直接提供场景的3D模型和深度信息,并且可以从中恢复像素匹配、相对和绝对相机信息。
基于视频的3D场景重建
VisFusion是一个利用视频数据进行在线3D场景重建的技术,它能够实时地从视频中提取和重建出三维环境。这项技术结合了计算机视觉和深度学习,为用户提供了一个强大的工具,用于创建精确的三维模型。
ComfyUI 3D处理插件包
ComfyUI-3D-Pack是一个强大的3D处理插件集合,它为ComfyUI提供了处理3D模型(网格、纹理等)的能力,集成了各种前沿3D重建和渲染算法,如3D高斯采样、NeRF不同iable渲染等,可以实现单视角图像快速重建3D高斯模型,并可转换为三角网格模型,同时还提供了交互式3D可视化界面。
一种利用侧视图像重建3D服装虚拟人物的方法
SIFU是一个利用侧视图像重建高质量3D服装虚拟人物模型的方法。它的核心创新点是提出了一种新的基于侧视图像的隐式函数,可以增强特征提取和提高几何精度。此外,SIFU还引入了一种3D一致的纹理优化过程,可大大提升纹理质量,借助文本到图像的diffusion模型实现纹理编辑。SIFU擅长处理复杂姿势和宽松衣物,是实际应用中理想的解决方案。
快速高质量从单张图像生成3D内容
Repaint123可以在2分钟内从一张图片生成高质量、多视角一致的3D内容。它结合2D散射模型强大的图像生成能力和渐进重绘策略的纹理对齐能力,生成高质量、视角一致的多视角图像,并通过可视性感知的自适应重绘强度提升重绘过程中的图像质量。生成的高质量、多视角一致图像使得简单的均方误差损失函数就能实现快速的3D内容生成。
基于Segment-Anything-2和Segment-Anything-1的自动全视频分割工具
AutoSeg-SAM2是一个基于Segment-Anything-2(SAM2)和Segment-Anything-1(SAM1)的自动全视频分割工具,它能够对视频中的每个对象进行追踪,并检测可能的新对象。该工具的重要性在于它能够提供静态分割结果,并利用SAM2对这些结果进行追踪,这对于视频内容分析、对象识别和视频编辑等领域具有重要意义。产品背景信息显示,它是由zrporz开发的,并且是基于Facebook Research的SAM2和zrporz自己的SAM1。价格方面,由于这是一个开源项目,因此它是免费的。
一站式OCR代理,快速从图像中生成洞见。
TurboLens是一个集OCR、计算机视觉和生成式AI于一体的全功能平台,它能够自动化地从非结构化图像中快速生成洞见,简化工作流程。产品背景信息显示,TurboLens旨在通过其创新的OCR技术和AI驱动的翻译及分析套件,从印刷和手写文档中提取定制化的洞见。此外,TurboLens还提供了数学公式和表格识别功能,将图像转换为可操作的数据,并将数学公式翻译成LaTeX格式,表格转换为Excel格式。产品价格方面,TurboLens提供免费和付费两种计划,满足不同用户的需求。
3D网格生成与语言模型的统一
LLaMA-Mesh是一项将大型语言模型(LLMs)预训练在文本上扩展到生成3D网格的能力的技术。这项技术利用了LLMs中已经嵌入的空间知识,并实现了对话式3D生成和网格理解。LLaMA-Mesh的主要优势在于它能够将3D网格的顶点坐标和面定义表示为纯文本,允许与LLMs直接集成而无需扩展词汇表。该技术的主要优点包括能够从文本提示生成3D网格、按需产生交错的文本和3D网格输出,以及理解和解释3D网格。LLaMA-Mesh在保持强大的文本生成性能的同时,实现了与从头开始训练的模型相当的网格生成质量。
使用先进计算机视觉算法进行自动、准确计数的应用。
CountAnything是一个前沿应用,利用先进的计算机视觉算法实现自动、准确的物体计数。它适用于多种场景,包括工业、养殖业、建筑、医药和零售等。该产品的主要优点在于其高精度和高效率,能够显著提升计数工作的准确性和速度。产品背景信息显示,CountAnything目前已开放给非中国大陆地区用户使用,并且提供免费试用。
3D高斯生成技术,实现任意未摆姿势图像的3D重建
LucidFusion是一个灵活的端到端前馈框架,用于从未摆姿势、稀疏和任意数量的多视图图像中生成高分辨率3D高斯。该技术利用相对坐标图(RCM)来对齐不同视图间的几何特征,使其在3D生成方面具有高度适应性。LucidFusion能够与原始单图像到3D的流程无缝集成,生成512x512分辨率的详细3D高斯,适合广泛的应用场景。
利用NVIDIA AI构建视频搜索和摘要代理
NVIDIA AI Blueprint for Video Search and Summarization是一个基于NVIDIA NIM微服务和生成式AI模型的参考工作流程,用于构建能够理解自然语言提示并执行视觉问题回答的视觉AI代理。这些代理可以部署在工厂、仓库、零售店、机场、交通路口等多种场景中,帮助运营团队从自然交互中生成的丰富洞察中做出更好的决策。
使用手机扫描创建逼真可重新照明的头像模型
URAvatar是一种新型的头像生成技术,它能够通过手机扫描在未知光照条件下创建出逼真的、可重新照明的头部头像。与传统的通过逆向渲染估计参数反射率参数的方法不同,URAvatar直接模拟学习辐射传递,将全局光照传输有效地整合到实时渲染中。这项技术的重要性在于它能够从单一环境的手机扫描中重建出在多种环境中看起来都逼真的头部模型,并且能够实时驱动和重新照明。
生成任何3D和4D场景的先进框架
GenXD是一个专注于3D和4D场景生成的框架,它利用日常生活中常见的相机和物体运动来联合研究一般的3D和4D生成。由于社区缺乏大规模的4D数据,GenXD首先提出了一个数据策划流程,从视频中获取相机姿态和物体运动强度。基于此流程,GenXD引入了一个大规模的现实世界4D场景数据集:CamVid-30K。通过利用所有3D和4D数据,GenXD框架能够生成任何3D或4D场景。它提出了多视图-时间模块,这些模块分离相机和物体运动,无缝地从3D和4D数据中学习。此外,GenXD还采用了掩码潜在条件,以支持多种条件视图。GenXD能够生成遵循相机轨迹的视频以及可以提升到3D表示的一致3D视图。它在各种现实世界和合成数据集上进行了广泛的评估,展示了GenXD在3D和4D生成方面与以前方法相比的有效性和多功能性。
业界领先的开源大型混合专家模型
Tencent-Hunyuan-Large(混元大模型)是由腾讯推出的业界领先的开源大型混合专家(MoE)模型,拥有3890亿总参数和520亿激活参数。该模型在自然语言处理、计算机视觉和科学任务等领域取得了显著进展,特别是在处理长上下文输入和提升长上下文任务处理能力方面表现出色。混元大模型的开源,旨在激发更多研究者的创新灵感,共同推动AI技术的进步和应用。
3D头像重建与实时动画生成技术
GAGAvatar是一种基于高斯模型的3D头像重建与动画生成技术,它能够在单张图片的基础上快速生成3D头像,并实现实时的面部表情动画。这项技术的主要优点包括高保真度的3D模型生成、快速的渲染速度以及对未见身份的泛化能力。GAGAvatar通过创新的双提升方法捕捉身份和面部细节,利用全局图像特征和3D可变形模型来控制表情,为数字头像的研究和应用提供了新的基准。
文本驱动的3D头像生成与全身动画表达
DreamWaltz-G是一个创新的框架,用于从文本驱动生成3D头像和表达性的全身动画。它的核心是骨架引导的评分蒸馏和混合3D高斯头像表示。该框架通过整合3D人类模板的骨架控制到2D扩散模型中,提高了视角和人体姿势的一致性,从而生成高质量的头像,解决了多重面孔、额外肢体和模糊等问题。此外,混合3D高斯头像表示通过结合神经隐式场和参数化3D网格,实现了实时渲染、稳定的SDS优化和富有表现力的动画。DreamWaltz-G在生成和动画3D头像方面非常有效,无论是视觉质量还是动画表现力都超越了现有方法。此外,该框架还支持多种应用,包括人类视频重演和多主题场景组合。
3D虚拟试衣技术
GS-VTON是一种3D虚拟试衣技术,它通过使用高斯散射(3DGS)作为3D表示,实现了从2D虚拟试衣模型到3D空间的知识转移,同时提高了跨视图的一致性。该技术通过个性化的扩散模型,利用低秩适应(LoRA)微调,将个性化信息整合到预训练的2D虚拟试衣模型中。此外,它还提出了一个人物意识的3DGS编辑框架,以确保在编辑过程中保持一致的跨视图外观和高质量的3D几何结构。GS-VTON通过广泛的实验和与现有方法的比较分析,展示了其在3D虚拟试衣中的高保真度和先进的编辑能力,证明了其在3D虚拟试衣中的有效性。
快速生成高质量的3D人头模型
GGHead是一种基于3D高斯散射表示的3D生成对抗网络(GAN),用于从2D图像集合中学习3D头部先验。该技术通过利用模板头部网格的UV空间的规则性,预测一组3D高斯属性,从而简化了预测过程。GGHead的主要优点包括高效率、高分辨率生成、全3D一致性,并且能够实现实时渲染。它通过一种新颖的总变差损失来提高生成的3D头部的几何保真度,确保邻近渲染像素来自UV空间中相近的高斯。
去除镜面反射,揭示隐藏纹理
StableDelight是一个先进的模型,专注于从纹理表面去除镜面反射。它基于StableNormal的成功,后者专注于提高单目法线估计的稳定性。StableDelight通过应用这一概念来解决去除反射的挑战性任务。训练数据包括Hypersim、Lumos以及来自TSHRNet的各种镜面高光去除数据集。此外,我们在扩散训练过程中整合了多尺度SSIM损失和随机条件尺度技术,以提高一步扩散预测的清晰度。
一种在野外环境中分解图像为反射率和照明效果的技术。
Colorful Diffuse Intrinsic Image Decomposition 是一种图像处理技术,它能够将野外拍摄的照片分解为反照率、漫反射阴影和非漫反射残留部分。这项技术通过逐步移除单色照明和Lambertian世界假设,实现了对图像中多彩漫反射阴影的估计,包括多个照明和场景中的二次反射,同时模型了镜面反射和可见光源。这项技术对于图像编辑应用,如去除镜面反射和像素级白平衡,具有重要意义。
一种用于沉浸式以人为中心的体积视频的鲁棒双高斯表示方法
Robust Dual Gaussian Splatting (DualGS) 是一种新型的基于高斯的体积视频表示方法,它通过优化关节高斯和皮肤高斯来捕捉复杂的人体表演,并实现鲁棒的跟踪和高保真渲染。该技术在SIGGRAPH Asia 2024上展示,能够实现在低端移动设备和VR头显上的实时渲染,提供用户友好和互动的体验。DualGS通过混合压缩策略,实现了高达120倍的压缩比,使得体积视频的存储和传输更加高效。
图像条件扩散模型的微调工具
diffusion-e2e-ft是一个开源的图像条件扩散模型微调工具,它通过微调预训练的扩散模型来提高特定任务的性能。该工具支持多种模型和任务,如深度估计和法线估计,并提供了详细的使用说明和模型检查点。它在图像处理和计算机视觉领域具有重要应用,能够显著提升模型在特定任务上的准确性和效率。
OpenCV的额外模块库,用于开发和测试新的图像处理功能。
opencv_contrib是OpenCV的额外模块库,用于开发和测试新的图像处理功能。这些模块通常在API稳定、经过充分测试并被广泛接受后,才会被整合到OpenCV的核心库中。该库允许开发者使用最新的图像处理技术,推动计算机视觉领域的创新。
开源计算机视觉库
OpenCV是一个跨平台的开源计算机视觉和机器学习软件库,它提供了一系列编程功能,包括但不限于图像处理、视频分析、特征检测、机器学习等。该库广泛应用于学术研究和商业项目中,因其强大的功能和灵活性而受到开发者的青睐。
© 2024 AIbase 备案号:闽ICP备08105208号-14