简介:

腾讯开源的大型视频生成模型训练框架

功能:

统一的图像和视频生成架构:引入Transformer设计,使用全注意力机制进行图像和视频生成。

MLLM文本编码器:使用预训练的多模态大型语言模型作为文本编码器,提高图像-文本对齐和复杂推理能力。

3D VAE压缩:通过Causal 3D VAE压缩像素级视频和图像到紧凑的潜在空间,减少后续扩散变换模型的令牌数量。

提示重写模型:针对用户提供的提示的变异性,微调Hunyuan-Large模型以适应模型偏好的提示。

高效的视频生成:支持多种分辨率和帧率的视频生成,满足不同场景的需求。

开源代码和模型权重:便于社区成员进行实验和创新。

需求人群:

"目标受众为视频生成领域的研究人员、开发者和内容创作者。HunyuanVideo的高性能和灵活性使其成为探索视频生成技术的理想选择,尤其适合需要生成高质量、多样化视频内容的场景。"

浏览量:22

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图