DaVinci MagiHuman

DaVinci MagiHuman

daVinci MagiHuman是由Sand ai与上海交通大学GAIR Lab发布的150亿参数开源模型。采用Apache 2.0许可,可检查权重、本地推理,并在许可范围内商用。其核心优势在于统一的音视频生成,接收面部照片与文本或音频,输出口型同步且带匹配音频的说话视频。在速度方面,在单张NVIDIA H100上约两秒可生成约两秒、256p的短片。在公开评测中,相对Ovi 1.1、LTX 2.3等模型表现突出,词错误率更低、人工偏好更高。该模型免费,权重与代码遵循Apache 2.0许可,托管演示可能有额外条款,自托管须遵守许可。定位是为用户提供便捷、高效的口型同步说话视频生成解决方案。

需求人群:

["内容创作者:对于需要制作口型同步说话视频的内容创作者来说,daVinci MagiHuman提供了一种高效、便捷的解决方案。他们可以使用单张照片和脚本或音频快速生成视频,节省了时间和精力,提高了创作效率。", "科研人员:作为开源模型,daVinci MagiHuman为科研人员提供了研究和实验的基础。他们可以对模型进行深入研究和改进,推动相关领域的技术发展。", "企业营销人员:在企业营销中,口型同步的说话视频可以用于产品介绍、宣传推广等方面。daVinci MagiHuman可以帮助企业营销人员快速制作高质量的视频,吸引客户的注意力,提高营销效果。"]

使用场景示例:

内容创作者用于制作虚拟主播的口播视频,通过单张照片和脚本快速生成生动的说话视频。

企业营销人员制作产品宣传视频,利用该模型生成口型同步的产品介绍视频,提升宣传效果。

教育工作者制作教学视频,使用单张照片和教学脚本生成口型同步的教学视频,增强教学的趣味性和吸引力。

产品特色:

音视频联合生成:daVinci MagiHuman能够在一次前向过程中联合生成音视频两种模态,无需单独进行文本转语音(TTS)再拼接视频,大大简化了视频生成的流程,提高了工作效率。

单张参考肖像:仅需要一张肖像照片作为说话头部的视觉锚点,用户无需提供多张照片或复杂的素材,降低了使用门槛,方便快捷地生成说话视频。

多语言口型支持:支持多语言口型同步,具体取决于训练数据与版本说明。这使得该模型能够满足不同语言背景用户的需求,扩大了其应用范围。

开源特性:采用Apache 2.0许可,模型权重可在许可下免费使用与二次开发。用户可以根据自己的需求对模型进行定制和扩展,促进了模型的广泛应用和技术创新。

快速推理速度:在H100级GPU上约2秒可生成约2秒、256p的视频片段(视设置而定)。这种快速的推理速度使得用户能够在短时间内获得生成的视频,提高了创作效率。

优异表现:在公开评测中,相对Ovi 1.1、LTX 2.3等模型表现突出,词错误率更低、人工偏好更高。这表明该模型生成的视频质量更高,更符合用户的需求。

使用教程:

1. 准备肖像与脚本:上传正脸、清晰的肖像照,输入脚本或上传音频文件,模型会对齐口型与语音。

2. 选择分辨率:选择输出分辨率,如256p、720p或1080p,具体取决于推理栈与显存。

3. 生成视频:提交任务后等待模型生成说话视频。

4. 下载视频:任务完成后,下载生成的说话视频。

5. 自托管(可选):若需要本地或服务器部署,可从Hugging Face Hub拉取daVinci MagiHuman权重,并按上游README配置CLI。

浏览量:2

打开站点

类似产品

© 2026     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图