需求人群:
"用于生成动态视频或动画,可以实现人脸说话、唱歌等效果。"
使用场景示例:
用AniPortrait生成一个会说话的动态视频
AniPortrait帮助我生成一个逼真的人脸唱歌的动画
通过AniPortrait实现面部再现的效果
产品特色:
音频驱动的动画合成
面部再现
头部姿势控制
自驱动和音频驱动的视频生成
高质量动画生成
灵活的模型和权重配置
浏览量:2496
最新流量情况
月访问量
4.75m
平均访问时长
00:06:34
每次访问页数
6.10
跳出率
36.20%
流量来源
直接访问
52.19%
自然搜索
32.64%
邮件
0.04%
外链引荐
12.93%
社交媒体
2.02%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
14.32%
德国
3.68%
印度
9.04%
俄罗斯
3.92%
美国
19.25%
生成会说话、唱歌的动态视频
AniPortrait是一个根据音频和图像输入生成会说话、唱歌的动态视频的项目。它能够根据音频和静态人脸图片生成逼真的人脸动画,口型保持一致。支持多种语言和面部重绘、头部姿势控制。功能包括音频驱动的动画合成、面部再现、头部姿势控制、支持自驱动和音频驱动的视频生成、高质量动画生成以及灵活的模型和权重配置。
JoyGen 是一种音频驱动的 3D 深度感知的说话人脸视频编辑技术。
JoyGen 是一种创新的音频驱动 3D 深度感知说话人脸视频生成技术。它通过音频驱动唇部动作生成和视觉外观合成,解决了传统技术中唇部与音频不同步和视觉质量差的问题。该技术在多语言环境下表现出色,尤其针对中文语境进行了优化。其主要优点包括高精度的唇音同步、高质量的视觉效果以及对多语言的支持。该技术适用于视频编辑、虚拟主播、动画制作等领域,具有广泛的应用前景。
一个基于音频驱动的实时2D聊天头像生成模型,可在仅使用CPU的设备上实现30fps的实时推理。
LiteAvatar是一个音频驱动的实时2D头像生成模型,主要用于实时聊天场景。该模型通过高效的语音识别和嘴型参数预测技术,结合轻量级的2D人脸生成模型,能够在仅使用CPU的设备上实现30fps的实时推理。其主要优点包括高效的音频特征提取、轻量级的模型设计以及对移动设备的友好支持。该技术适用于需要实时交互的虚拟头像生成场景,如在线会议、虚拟直播等,背景基于对实时交互和低硬件要求的需求而开发,目前开源免费,定位为高效、低资源消耗的实时头像生成解决方案。
SyncAnimation 是一种基于 NeRF 的音频驱动实时生成说话头像和上半身动作的技术框架。
SyncAnimation 是一种创新的音频驱动技术,能够实时生成高度逼真的说话头像和上半身动作。它通过结合音频与姿态、表情的同步技术,解决了传统方法在实时性和细节表现上的不足。该技术主要面向需要高质量实时动画生成的应用场景,如虚拟主播、在线教育、远程会议等,具有重要的应用价值。目前尚未明确其价格和具体市场定位。
一种基于扩散变换器网络的高动态、逼真肖像图像动画技术。
Hallo3是一种用于肖像图像动画的技术,它利用预训练的基于变换器的视频生成模型,能够生成高度动态和逼真的视频,有效解决了非正面视角、动态对象渲染和沉浸式背景生成等挑战。该技术由复旦大学和百度公司的研究人员共同开发,具有强大的泛化能力,为肖像动画领域带来了新的突破。
音频驱动的交互式头部生成框架,用于双人对话。
INFP是一个音频驱动的交互式头部生成框架,专为双人对话设计。它可以根据双人对话中的双轨音频和一个任意代理的单人肖像图像动态合成具有逼真面部表情和节奏性头部姿态动作的言语、非言语和交互式代理视频。该框架轻量而强大,适用于视频会议等即时通讯场景。INFP代表交互式(Interactive)、自然(Natural)、快速(Flash)和通用(Person-generic)。
音频驱动的表情丰富的视频生成模型
MEMO是一个先进的开放权重模型,用于音频驱动的说话视频生成。该模型通过记忆引导的时间模块和情感感知的音频模块,增强了长期身份一致性和运动平滑性,同时通过检测音频中的情感来细化面部表情,生成身份一致且富有表情的说话视频。MEMO的主要优点包括更真实的视频生成、更好的音频-唇形同步、身份一致性和表情情感对齐。该技术背景信息显示,MEMO在多种图像和音频类型中生成更真实的说话视频,超越了现有的最先进方法。
基于流匹配的音频驱动说话人像视频生成方法
FLOAT是一种音频驱动的人像视频生成方法,它基于流匹配生成模型,将生成建模从基于像素的潜在空间转移到学习到的运动潜在空间,实现了时间上一致的运动设计。该技术引入了基于变换器的向量场预测器,并具有简单而有效的逐帧条件机制。此外,FLOAT支持语音驱动的情感增强,能够自然地融入富有表现力的运动。广泛的实验表明,FLOAT在视觉质量、运动保真度和效率方面均优于现有的音频驱动说话人像方法。
EchoMimicV2:实现逼真、简化、半身人体动画的技术。
EchoMimicV2是由支付宝蚂蚁集团终端技术部研发的半身人体动画技术,它通过参考图像、音频剪辑和一系列手势来生成高质量的动画视频,确保音频内容与半身动作的连贯性。这项技术简化了以往复杂的动画制作流程,通过Audio-Pose动态协调策略,包括姿态采样和音频扩散,增强了半身细节、面部和手势的表现力,同时减少了条件冗余。此外,它还利用头部部分注意力机制将头像数据无缝整合到训练框架中,这一机制在推理过程中可以省略,为动画制作提供了便利。EchoMimicV2还设计了特定阶段的去噪损失,以指导动画在特定阶段的运动、细节和低级质量。该技术在定量和定性评估中均超越了现有方法,展现了其在半身人体动画领域的领先地位。
基于扩散模型的音频驱动人像和动物图像动画技术
JoyVASA是一种基于扩散模型的音频驱动人像动画技术,它通过分离动态面部表情和静态3D面部表示来生成面部动态和头部运动。这项技术不仅能够提高视频质量和唇形同步的准确性,还能扩展到动物面部动画,支持多语言,并在训练和推理效率上有所提升。JoyVASA的主要优点包括更长视频生成能力、独立于角色身份的运动序列生成以及高质量的动画渲染。
高分辨率、长时音频驱动的人像图像动画技术
Hallo2是一种基于潜在扩散生成模型的人像图像动画技术,通过音频驱动生成高分辨率、长时的视频。它通过引入多项设计改进,扩展了Hallo的功能,包括生成长时视频、4K分辨率视频,并增加了通过文本提示增强表情控制的能力。Hallo2的主要优点包括高分辨率输出、长时间的稳定性以及通过文本提示增强的控制性,这使得它在生成丰富多样的肖像动画内容方面具有显著优势。
Loopy,仅凭音频驱动肖像头像,实现逼真动态。
Loopy是一个端到端的音频驱动视频扩散模型,专门设计了跨剪辑和内部剪辑的时间模块以及音频到潜在表示模块,使模型能够利用数据中的长期运动信息来学习自然运动模式,并提高音频与肖像运动的相关性。这种方法消除了现有方法中手动指定的空间运动模板的需求,实现了在各种场景下更逼真、高质量的结果。
端到端音频驱动的人体动画框架
CyberHost是一个端到端音频驱动的人体动画框架,通过区域码本注意力机制,实现了手部完整性、身份一致性和自然运动的生成。该模型利用双U-Net架构作为基础结构,并通过运动帧策略进行时间延续,为音频驱动的人体动画建立了基线。CyberHost通过一系列以人为先导的训练策略,包括身体运动图、手部清晰度评分、姿势对齐的参考特征和局部增强监督,提高了合成结果的质量。CyberHost是首个能够在人体范围内实现零样本视频生成的音频驱动人体扩散模型。
生成逼真动态人像视频的先进技术
EchoMimic是一个先进的人像图像动画模型,能够通过音频和选定的面部特征点单独或组合驱动生成逼真的肖像视频。它通过新颖的训练策略,解决了传统方法在音频驱动时可能的不稳定性以及面部关键点驱动可能导致的不自然结果。EchoMimic在多个公共数据集和自收集数据集上进行了全面比较,并在定量和定性评估中展现出了卓越的性能。
生成逼真、唇同步的说唱视频
VividTalk是一种一次性音频驱动的头像生成技术,基于3D混合先验。它能够生成具有表情丰富、自然头部姿态和唇同步的逼真说唱视频。该技术采用了两阶段通用框架,支持生成具有上述所有特性的高视觉质量的说唱视频。具体来说,在第一阶段,通过学习两种运动(非刚性表情运动和刚性头部运动),将音频映射到网格。对于表情运动,采用混合形状和顶点作为中间表示,以最大化模型的表征能力。对于自然头部运动,提出了一种新颖的可学习头部姿势码本,并采用两阶段训练机制。在第二阶段,提出了一个双分支运动VAE和一个生成器,将网格转换为密集运动,并逐帧合成高质量视频。大量实验证明,VividTalk能够生成具有唇同步和逼真增强的高视觉质量说唱视频,且在客观和主观比较中优于以往的最先进作品。该技术的代码将在发表后公开发布。
音频驱动的视频编辑,实现高质量唇形同步
VideoReTalking是一个新的系统,可以根据输入的音频编辑真实世界的说话头部视频的面部,产生高质量的唇形同步输出视频,即使情感不同。该系统将此目标分解为三个连续的任务:(1)使用表情编辑网络生成带有规范表情的面部视频;(2)音频驱动的唇形同步;(3)用于提高照片逼真度的面部增强。给定一个说话头部视频,我们首先使用表情编辑网络根据相同的表情模板修改每个帧的表情,从而得到具有规范表情的视频。然后将该视频与给定的音频一起输入到唇形同步网络中,生成唇形同步视频。最后,我们通过一个身份感知的面部增强网络和后处理来提高合成面部的照片逼真度。我们对所有三个步骤使用基于学习的方法,所有模块都可以在顺序管道中处理,无需任何用户干预。
© 2025 AIbase 备案号:闽ICP备08105208号-14