简介:

先进的文本到视频生成模型

功能:

生成高质量的6秒视频,每秒15帧,分辨率为720p。

支持从文本提示生成各种电影主题的视频,包括人物特写、动物动作场景等。

模型参数为175M的VideoVAE和2.8B的VideoDiT,支持多种精度,高效利用GPU内存。

开源模型权重和代码,遵循Apache 2.0许可。

通过VideoVAE将原始视频压缩成视觉令牌,保留关键细节,提高视频生成效率。

使用扩展的视频扩散变换器架构,结合3D RoPE位置嵌入和3D全注意力机制,有效捕捉视频数据中的空间和时间关系。

与传统扩散模型相比,Transformer结构更易于模型扩展,通过3D注意力机制处理视频帧的空间维度和时间演变,实现更细致的运动和上下文理解。

需求人群:

"Allegro的目标受众是希望利用AI技术进行视频创作的个人和团队,包括视频内容创作者、动画师、游戏开发者、广告制作人和研究人员。这些用户可以利用Allegro将创意文本描述转换成视频,从而节省传统视频制作的时间成本和技能门槛。"

浏览量:12

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图