高保真视频编码,适用于大运动场景的视频自编码器。
这是一个视频变分自编码器(VAE),旨在减少视频冗余并促进高效视频生成。该模型通过观察发现,将图像VAE直接扩展到3D VAE会引入运动模糊和细节失真,因此提出了时间感知的空间压缩以更好地编码和解码空间信息。此外,该模型还集成了一个轻量级的运动压缩模型以实现进一步的时间压缩。通过利用文本到视频数据集中固有的文本信息,并在模型中加入文本指导,显著提高了重建质量,特别是在细节保留和时间稳定性方面。该模型还通过在图像和视频上进行联合训练来提高其通用性,不仅提高了重建质量,还使模型能够执行图像和视频的自编码。广泛的评估表明,该方法的性能优于最近的强基线。
AI驱动的绘画与照片编辑应用
Graphix AI是一款集成了多种AI功能的智能绘画软件,它能够实现文生图、图生图、变脸变装、局部改图重绘等功能。该应用以其高性能GPU支持快速出图,丰富的模型库满足用户创作需求,广泛应用于社交媒体图像创作,帮助用户实现摄影师梦想。
基于羊驼模型的大型语音生成模型
LlamaVoice是一个基于羊驼模型的大型语音生成模型,它通过直接预测连续特征,提供了一种与传统依赖于离散语音码预测的向量量化模型相比更为流畅和高效的处理过程。该模型具有连续特征预测、变分自编码器(VAE)潜在特征预测、联合训练、先进采样策略和基于流的增强等关键特点。
在线VR看房与虚拟家装的技术提供者
123看房是国内主流看房技术方案的定义者,通过全景照片进行3D建模技术的始创者。提供在线VR看房与虚拟家装的技术,可以通过全景图生成3D模型。其技术创造了低成本、高效率、易操作的全景看房和虚拟家装方案。该产品适用于房地产行业,可以实现远程看房、720全景、商业空间等多种功能。
一种基于表面的4D运动建模算法,用于动态人体渲染
SurMo是一种新的动态人体渲染范式,通过联合建模时间运动动力学和人体外观,在一个统一的框架中实现高保真的人体渲染。该方法采用基于表面的三平面表示法高效编码人体运动,并设计了物理运动解码模块和4D外观解码模块,能够合成时变的人体外观效果,如衣服皱褶、运动阴影等。相比于现有方法,SurMo在定量和定性渲染指标上都有显著提升。
W.A.L.T是一个基于变分扩散模型的实景视频生成方法
W.A.L.T是一个基于transformer的实景视频生成方法,通过联合压缩图像和视频到一个统一的潜在空间,实现跨模态的训练和生成。它使用了窗注意力机制来提高内存和训练效率。该方法在多个视频和图像生成基准测试上取得了最先进的性能。
© 2025 AIbase 备案号:闽ICP备08105208号-14