Wan 2.2是一款由Wan AI提供的领先AI视频生成模型。
Wan 2.2是一款强大的视频生成模型,支持文本转图像、图像编辑、文本转视频和图像转视频,由Wan AI提供技术支持。它具有出色的视频生成能力和用户友好的界面,为用户提供丰富的创作功能。
AI视频生成器,快速生成具有声音的专业视频。
Plexigen AI是一款AI视频生成器,能将文本和图像转化为具有AI生成音频的专业视频。其主要优点包括高质量视频生成、多种格式输出、快速渲染等,定位于提供高效、优质的视频生成解决方案。
Qwen Image AI是阿里巴巴Qwen团队推出的开源图像生成和编辑基础模型,用于准确的图像文本渲染和高级编辑。
Qwen Image AI是一款革命性的20B MMDiT多模态扩散变换器模型,彻底改变了文本到图像生成,具有出色的文本渲染能力。它是第一个成功处理复杂多行文本布局和段落级内容的模型,无论是英文还是中文。建立在先进的扩散技术上,Qwen Image AI在多个基准测试中表现卓越,特别擅长于文本渲染准确性,在这方面其他模型难以匹敌。
Qwen Image是阿里巴巴的免费开源AI图像生成器,擅长在图像中进行文本渲染。
Qwen Image是阿里巴巴推出的免费AI图像生成器,专注于在图像中准确渲染文本,适用于营销人员和内容创作者。它通过生成营销素材、社交媒体内容和多语言视觉图像,准确放置文本,为用户提供高效的营销工具。
基于Runway Aleph的AI视频编辑平台,提供对象编辑、场景角度变化和风格及灯光调整,为多样化视频创作带来便利。
Aleph AI是建立在Runway Aleph上的AI视频编辑平台,通过直观的自然语言命令,实现对象编辑、场景角度变化和风格及灯光调整,为用户提供前所未有的创意控制力。价格方面,允许商业使用并提供即时处理,消除了创意愿景与最终输出之间的障碍。
Scraps是一个创意灵感笔记本,帮助用户记录并实现他们的创意抱负。
Scraps是一个在线创意工具,旨在帮助用户捕捉、组织和发展他们的创意想法。通过提供页面过渡效果、触觉反馈模拟等功能,Scraps为用户提供了灵感的无限可能。
全球音频感知技术的革命性AI唇同步技术。
LIP Sync AI是一项革命性的AI技术,利用全球音频感知引擎将静态照片转换为栩栩如生的会话视频。其主要优点在于高效、现实的生成效果,使得照片具有完美唇部同步。该产品定位于为用户提供高质量的唇同步视频生成服务。
提高文字转化率,吸引更多客户。
New Copy是一款能够帮助用户写出更具吸引力和转化率的文案的人工智能工具。其主要优点在于能够大幅提升营销效果和转化率,节省时间和精力。该产品的背景信息为创立团队拥有丰富的营销经验,定位于为中小型企业提供效果显著的营销工具。
AI 3D宝丽来卡通风格生成器,轻松将照片转换为独特的3D宝丽来卡通效果。
PolaToons是一款AI 3D宝丽来卡通生成器,通过独特的算法和效果,将照片转化为具有复古风格的3D卡通图像,带来令人惊艳的效果。其主要优点包括独特的卡通风格、经典的宝丽来相框、即时生成等特点。价格灵活,适用于个人用户和商业用途。
Revyme是一款强大的网站构建工具,旨在为那些希望在不编写代码的情况下打造视觉令人惊叹、富有动画的网站的创作者提供支持。
Revyme是一个让创作者能够轻松创建视觉效果丰富的动画网站的工具。其灵活性和丰富的元素库使用户能够在不需要编写代码的情况下定制网站。Revyme的主要优点包括丰富的动画效果、响应式设计、定制化程度高。
实时生成逼真的全身虚拟人头像。
TaoAvatar 是一种高保真、轻量级的 3D 高斯喷溅技术(3DGS)全身虚拟人头像,能够生成个性化的全身动态头像,广泛应用于增强现实等场景。它的主要优点是能够在各种移动设备上以 90 FPS 的高帧率实时渲染,适配 Apple Vision Pro 等高分辨率设备,为用户提供沉浸式体验。
一个高效的无边界3D城市生成框架,使用3D高斯绘制技术实现快速生成。
GaussianCity是一个专注于高效生成无边界3D城市的框架,基于3D高斯绘制技术。该技术通过紧凑的3D场景表示和空间感知的高斯属性解码器,解决了传统方法在生成大规模城市场景时面临的内存和计算瓶颈。其主要优点是能够在单次前向传递中快速生成大规模3D城市,显著优于现有技术。该产品由南洋理工大学S-Lab团队开发,相关论文发表于CVPR 2025,代码和模型已开源,适用于需要高效生成3D城市环境的研究人员和开发者。
专为中小团队设计的AI聊天应用,支持多种AI模型,如Deepseek、Open AI、Claude和Gemini。
HiveChat是一款面向中小团队的AI聊天应用,支持多种主流AI模型,如Deepseek、Open AI、Claude和Gemini等。其核心功能是为团队提供高效、灵活的AI交互体验,支持LaTeX和Markdown渲染、图像理解、AI智能体等功能。该产品通过管理员配置,可实现全团队轻松使用,适用于公司、学校、组织等小型团队。其技术栈包括Next.js、Tailwindcss、Auth.js、PostgreSQL等,支持本地部署、Docker部署和Vercel部署,具有较高的灵活性和可扩展性。
VideoJAM 是一种用于增强视频生成模型运动连贯性的框架。
VideoJAM 是一种创新的视频生成框架,旨在通过联合外观 - 运动表示来提升视频生成模型的运动连贯性和视觉质量。该技术通过引入内指导机制(Inner-Guidance),利用模型自身预测的运动信号动态引导视频生成,从而在生成复杂运动类型时表现出色。VideoJAM 的主要优点是能够显著提高视频生成的连贯性,同时保持高质量的视觉效果,且无需对训练数据或模型架构进行大规模修改,即可应用于任何视频生成模型。该技术在视频生成领域具有重要的应用前景,尤其是在需要高度运动连贯性的场景中。
将图像转换为3D模型,可用于渲染、动画或3D打印。
Shapen是一款创新的在线工具,它利用先进的图像处理和3D建模技术,将2D图像转化为详细的3D模型。这一技术对于设计师、艺术家和创意工作者来说是一个巨大的突破,因为它极大地简化了3D模型的创建过程,降低了3D建模的门槛。用户无需深厚的3D建模知识,只需上传图片,即可快速生成可用于渲染、动画制作或3D打印的模型。Shapen的出现,为创意表达和产品设计带来了全新的可能性,其定价策略和市场定位也使其成为个人创作者和小型工作室的理想选择。
TransPixar: 推进带有透明度的文本到视频生成技术
TransPixar 是一种先进的文本到视频生成模型,能够生成包含透明度通道的 RGBA 视频。该技术通过结合扩散变换器(DiT)架构和 LoRA 基于微调的方法,实现了 RGB 和 Alpha 通道的高一致性生成。TransPixar 在视觉效果(VFX)和互动内容创作领域具有重要应用价值,能够为娱乐、广告和教育等行业提供多样化的内容生成解决方案。其主要优点包括高效的模型扩展性、强大的生成能力和对有限训练数据的优化处理能力。
为GIF添加声音,让动态图片更有趣
GIF with Sound是一个利用人工智能技术为GIF图片添加声音效果的在线工具,它通过分析GIF内容和动作自动匹配合适的音效,将静态的GIF转化为具有沉浸式音频的视频,增强了社交媒体分享的吸引力。该产品支持将GIF转换为MP4视频格式,并允许用户在多个社交平台上分享。
用于文本到图像扩散模型的照明绘图工具
LuminaBrush是一个交互式工具,旨在绘制图像上的照明效果。该工具采用两阶段方法:一阶段将图像转换为“均匀照明”的外观,另一阶段根据用户涂鸦生成照明效果。这种分解方法简化了学习过程,避免了单一阶段可能需要考虑的外部约束(如光传输一致性等)。LuminaBrush利用从高质量野外图像中提取的“均匀照明”外观来构建训练最终交互式照明绘图模型的配对数据。此外,该工具还可以独立使用“均匀照明阶段”来“去照明”图像。
创建可动的4D人像化身模型
CAP4D是一种利用可变形多视图扩散模型(Morphable Multi-View Diffusion Models)来创建4D人像化身的技术。它能够从任意数量的参考图像生成不同视角和表情的图像,并将其适配到一个4D化身上,该化身可以通过3DMM控制并实时渲染。这项技术的主要优点包括高度逼真的图像生成、多视角的适应性以及实时渲染的能力。CAP4D的技术背景是基于深度学习和图像生成领域的最新进展,尤其是在扩散模型和3D面部建模方面。由于其高质量的图像生成和实时渲染能力,CAP4D在娱乐、游戏开发、虚拟现实等领域具有广泛的应用前景。目前,该技术是免费提供代码的,但具体的商业化应用可能需要进一步的授权和定价。
© 2025 AIbase 备案号:闽ICP备08105208号-14