一张图生成多视角扩散基础模型
Zero123++是一个单图生成多视角一致性扩散基础模型。它可以从单个输入图像生成多视角图像,具有稳定的扩散VAE。您可以使用它来生成具有灰色背景的不透明图像。您还可以使用它来运行深度ControlNet。模型和源代码均可在官方网站上获得。
多种图像类型和视频效果生成
MiracleVision奇想智能是一款图像和视频效果生成工具,可用于动物摄影、平面商插、数字渲染、Q版卡通、数字3D等多种场景。同时可助力广告行业、电商行业、游戏行业等各行业工作流提效,支持训练视觉模型,让创作风格更统一。产品提供开放API服务,包括文生成图和图生成图,可智能生成创作图。用户可根据文字或图像智能生成多种风格丰富的创作图。
专为创意过程而构建的图像生成器
Visual Electric 是一个专为创意过程而构建的图像生成器。它提供了令人惊叹的图像库和制作提示,帮助用户获得灵感。用户可以通过迭代来发展想法,尝试不同的心情和颜色,并磨练提示。Visual Electric 还提供润色和变化功能,让用户轻松调整图像。用户可以使用 Visual Electric 在各种创意场景中生成图像,例如设计、广告、艺术等。
通过AI赋能学习和创造力
The Visualizer是一个通过AI提升理解和创造力的工具。它可以将复杂概念转化为清晰的可视化图像,为学习体验带来转变性的影响。用户可以使用该工具将ChatGPT生成的文本转化为易于理解的思维导图,提高对复杂主题的理解和记忆。该工具适用于学生、科研人员、项目管理者、创意思考者等各种场景。价格分为免费试用版和付费版本,付费版本根据使用时间和功能的不同进行定价。
利用 DALL-E 3 和 GPT-4 Vision 生成一系列图像
Image Recursor是一个基于 DALL-E 3 和 GPT-4 Vision 的图像生成工具。它通过输入一个起始图像和一些参数,可以生成一系列经过修改的图像。用户可以自定义生成的图像风格,例如恐怖、随机、神秘、强烈、有趣等。图像递归生成器可以用于创造艺术作品、设计概念图、玩具设计等多种场景。
多阶段高美感视频生成
MagicVideo-V2是一个集成了文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块的端到端视频生成管道。其架构设计使得MagicVideo-V2能够生成外观美观、高分辨率的视频,具有出色的保真度和平滑性。通过大规模用户评估,它展现出比Runway、Pika 1.0、Morph、Moon Valley和Stable Video Diffusion等领先的文本到视频系统更优越的性能。
使用Visme创建引人入胜的内容
Visme是一款全能的内容创作和设计工具,提供多种类型的模板和设计元素,包括演示文稿、文档、视频、信息图表、社交媒体图形、模型等。Visme还提供AI图像生成器,可以根据用户的提示生成独特的图像和图形。Visme适用于各种场景,包括市场营销、销售、人力资源、培训和发展、非营利组织、教育和企业等。Visme的定价分为个人、商业和教育三个版本,用户可以根据自己的需求选择不同的版本。
AI内容生成器,快速创建社交媒体内容
Generator XYZ是一款基于人工智能的内容生成器平台,能够帮助内容创作者快速创建引人注目的社交媒体内容。它能够帮助用户节省75%以上的时间,创建类似的社交媒体内容。通过Generator XYZ,您可以在几秒钟内创建出精彩的社交媒体帖子,并触达更多的人群。快来试试吧,看看我们能为您带来的差异!
单文本/图像生成可导航3D场景
LucidDreamer是一种无域3D场景生成技术,通过充分利用现有大规模扩散生成模型的能力,可以从单个文本提示或单个图像生成可导航的3D场景。该方法具有梦境和对齐两个交替步骤,首先根据输入生成多视角一致的图像,然后将新生成的3D场景部分和谐地整合在一起。LucidDreamer生成的高度详细的高斯斑点与以往的3D场景生成方法相比没有目标场景域的限制。
GLM-4和CogView3,智能大模型与图像生成AI
智谱AI在首届技术开放日上发布了GLM-4和CogView3。GLM-4性能全面提升近60%,支持更长的上下文、更强的多模态支持和更快速的推理。CogView3逼近DALL·E 3的多模态生成能力。产品定位为下一代基座大模型和图像生成AI。
DiffPortrait3D可以从野外单张人像照片中合成逼真的3D一致新视角。
DiffPortrait3D是一个条件化难度模型,即使只有野外单张人像照片,也能合成逼真的3D一致新视角。具体来说,给定单张RGB输入图像,我们目标是合成从新相机视角渲染的似是而非的面部细节,同时保留身份和面部表达。我们的零试验方法可以很好地推广到任意面部人像,具有非姿态相机视角,极端面部表情和多种艺术描绘。在其核心,我们利用在大规模图像数据集上预训练的2D难度模型的生成先验作为我们的呈现主干,同时通过解耦外观和相机姿势的定向注意控制来指导去噪。为此,我们首先从参考图像将外观上下文注入冻结的UNet的自我注意力层。然后通过一种新颖的条件控制模块来操纵呈现视图,该模块通过观看来自同一视图的交叉主体的条件图像来解释相机姿势。 此外,我们插入了一个可训练的跨视图注意力模块来增强视图一致性,后者通过在推理期间采用一种新的3D感知噪声生成过程进一步加强。我们在具有挑战性的野外和多视图基准测试中定性和定量地证明了最先进的结果。
快速高质量从单张图像生成3D内容
Repaint123可以在2分钟内从一张图片生成高质量、多视角一致的3D内容。它结合2D散射模型强大的图像生成能力和渐进重绘策略的纹理对齐能力,生成高质量、视角一致的多视角图像,并通过可视性感知的自适应重绘强度提升重绘过程中的图像质量。生成的高质量、多视角一致图像使得简单的均方误差损失函数就能实现快速的3D内容生成。
文本引导的高保真3D场景合成
SceneWiz3D是一种新颖的方法,可以从文本中合成高保真的3D场景。它采用混合的3D表示,对对象采用显式表示,对场景采用隐式表示。用户可以通过传统的文本到3D方法或自行提供对象来生成对象。为了配置场景布局并自动放置对象,我们在优化过程中应用了粒子群优化技术。此外,在文本到场景的情况下,对于场景的某些部分(例如角落、遮挡),很难获得多视角监督,导致几何形状劣质。为了缓解这种监督缺失,我们引入了RGBD全景扩散模型作为额外先验,从而实现了高质量的几何形状。广泛的评估支持我们的方法实现了比以前的方法更高的质量,可以生成详细且视角一致的3D场景。
多视角草图引导的文本到 3D 生成
Sketch2NeRF 是一种多视角草图引导的文本到 3D 生成框架。它通过预训练的 2D 扩散模型(如 Stable Diffusion 和 ControlNet)来优化由神经辐射场(NeRF)表示的 3D 场景。该方法还提出了一种新颖的同步生成和重建方法,以有效优化 NeRF。通过收集的两种多视角草图数据集进行实验评估,证明了我们的方法能够在高保真度的文本提示下合成具有精细草图控制的一致的 3D 内容。广泛的结果表明,我们的方法在草图相似性和文本对齐方面实现了最先进的性能。
创意图像生成工具
幻境是一个创意图像生成工具,可以根据用户的想象力生成各种图像。通过登录并点击顶部的生成按钮,或访问模板部分,您可以快速生成漂亮的主题图像。此外,幻境还提供定价选项,包括免费套餐。幻境的主要功能包括图像生成、模板选择、定价计划、用户登录等。它适用于任何需要创意图像的场景,如设计、广告、艺术等领域。
高分辨率3D内容生成的多视图高斯模型
LGM是一个用于从文本提示或单视图图像生成高分辨率3D模型的新框架。它的关键见解是:(1) 3D表示:我们提出了多视图高斯特征作为一个高效 yet 强大的表示,然后可以将其融合在一起进行不同iable 渲染。(2) 3D主干:我们呈现了一个不对称U-Net作为一个高通量的主干操作多视图图像,这可以通过利用多视图扩散模型从文本或单视图图像输入中产生。大量的实验表明了我们方法的高保真度和效率。值得注意的是,我们在将训练分辨率提高到512的同时保持生成3D对象的快速速度,从而实现了高分辨率的3D内容生成。
一键生成3D模型
Farm3D是一款能够从单张图片生成可控的3D模型的软件。它通过使用图像生成器Stable Diffusion来产生训练数据,从而学习一个单目重建网络。该网络可以从单张输入图片中生成具有细节的3D模型,包括形状、外观、视角和光照方向等。Farm3D适用于设计师、艺术家和模型制作人员,能够快速生成高质量的3D模型。
© 2025 AIbase 备案号:闽ICP备08105208号-14