简介:

一个统一的文本到任意模态生成框架

功能:

支持文本到图像、视频、3D和语音的生成

采用基于流的大型扩散变换器(Flag-DiT)技术

能够处理高达7亿参数的模型

支持128,000个标记的序列长度

生成任意分辨率、宽高比和时长的输出

引入[nextline]和[nextframe]标记以支持分辨率外推

在训练资源上表现出较低的计算需求

需求人群:

"Lumina-T2X适合于需要将文本内容转换为多媒体形式的专业人士和爱好者,如图像设计师、视频编辑、3D建模师和语音合成师。它的强大功能和灵活性使其成为创意产业和多媒体内容创作的理想工具。"

浏览量:62

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图