浏览量:115
最新流量情况
月访问量
3682
平均访问时长
00:00:00
每次访问页数
0.06
跳出率
59.03%
流量来源
直接访问
100.00%
自然搜索
0
邮件
0
外链引荐
0
社交媒体
0
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
美国
25.81%
越南
21.80%
秘鲁
18.46%
德国
12.21%
澳大利亚
11.38%
用于评估文本到视觉生成的创新性指标和基准测试
Evaluating Text-to-Visual Generation with Image-to-Text Generation提出了一种新的评估指标VQAScore,能够更好地评估复杂的文本到视觉生成效果,并引入了GenAI-Bench基准测试集。VQAScore基于CLIP-FlanT5模型,能够在文本到图像/视频/3D生成评估中取得最佳性能,是一种强大的替代CLIPScore的方案。GenAI-Bench则提供了包含丰富组合语义的实际场景测试文本,可用于全面评估生成模型的性能。
AI社区共建未来,开源开放科学推进AI民主化
Hugging Face是一个AI社区平台,致力于通过开源和开放科学的方式来推进人工智能的发展和民主化。它为机器学习社区提供了协作模型、数据集和应用程序的环境。主要优势包括:1)协作平台,可无限托管和共享模型、数据集和应用程序。2)开源堆栈,加速ML开发流程。3)支持多模态(文本、图像、视频、音频、3D等)。4)建立ML作品集,在全球分享你的作品。5)付费计算和企业解决方案,提供优化的推理端点、GPU支持等。
用于视觉合成的统一3D Transformer流水线
NUWA是由微软开发的一系列研究项目,包括NUWA、NUWA-Infinity、NUWA-LIP、Learning 3D Photography Videos和NUWA-XL。这些项目涉及视觉合成的预训练模型,能够生成或操纵视觉数据,如图像和视频,以执行多种视觉合成任务。
快速从单视图训练高保真的人体3D高斯模型
Human101是一个快速从单视图重建人体的框架。它能够在100秒内训练3D高斯模型,并以60FPS以上渲染1024分辨率的图像,而无需预先存储每帧的高斯属性。Human101管道如下:首先,从单视图视频中提取2D人体姿态。然后,利用姿态驱动3D模拟器生成匹配的3D骨架动画。最后,基于动画构建时间相关的3D高斯模型,进行实时渲染。
多种图像类型和视频效果生成
MiracleVision奇想智能是一款图像和视频效果生成工具,可用于动物摄影、平面商插、数字渲染、Q版卡通、数字3D等多种场景。同时可助力广告行业、电商行业、游戏行业等各行业工作流提效,支持训练视觉模型,让创作风格更统一。产品提供开放API服务,包括文生成图和图生成图,可智能生成创作图。用户可根据文字或图像智能生成多种风格丰富的创作图。
高保真文本到4D生成
4D-fy是一种文本到4D生成方法,通过混合分数蒸馏采样技术,结合了多种预训练扩散模型的监督信号,实现了高保真的文本到4D场景生成。其方法通过神经表示参数化4D辐射场,使用静态和动态多尺度哈希表特征,并利用体积渲染从表示中渲染图像和视频。通过混合分数蒸馏采样,首先使用3D感知文本到图像模型(3D-T2I)的梯度来优化表示,然后结合文本到图像模型(T2I)的梯度来改善外观,最后结合文本到视频模型(T2V)的梯度来增加场景的运动。4D-fy可以生成具有引人入胜外观、3D结构和运动的4D场景。
革命性视频生成,将静态图像或文本转化为视频
Stable Video Diffusion是一种AI视频生成技术,可以从静态图像或文本创建动态视频,代表了视频生成技术的新进展。它通过图像预训练、视频预训练、高质量视频微调和多视角3D先验等步骤,提供高质量的视频生成。主要功能包括将图像转化为视频、将文本转化为视频等。Stable Video Diffusion可以革新内容创作,从而自动生成创意广告、电影预告片、教育视频、游戏场景和独特的社交媒体内容。产品定位为提高视频内容创作的可访问性、效率和创造力。
360度全场景生成
ZeroNVS 是一款用于从单张真实图像进行零样本 360 度全景合成的工具。它提供了 3D SDS 蒸馏代码、评估代码和训练好的模型。用户可以使用该工具进行自己的 NeRF 模型蒸馏和评估,并且可以在各种不同的数据集上进行实验。ZeroNVS 具有高质量的合成效果,并且支持自定义的图像数据。该工具主要用于虚拟现实、增强现实和全景视频制作等领域。
轻松创建和利用3D内容
3D Creation是一个提供给用户轻松创建和利用3D内容的网站。它提供了多种功能,包括AI纹理、我的模型、API等。用户可以使用AI纹理功能将图片转换为纹理,也可以使用文本转3D功能将文字描述转换为3D模型。此外,用户还可以使用Sketch to 3D功能将手绘草图转换为3D模型。3D Creation适用于各种场景,如设计、图像处理、视频制作等。该产品定位于提供简单易用的3D内容创作工具,并提供合理的定价策略。
创建可重用和可扩展的内容
Magpai是一个基于节点的协作Web平台,提供一种新的创建内容的方式。它能够让您以规程工作流程来提高生产力和内容输出。Magpai具有生成AI、编辑、实用工具和发布工具,可立即用于创建图像、视频、PDF、3D模型等各种类型的内容。它还支持自动化重复任务,与Figma、Canva、Zapier等工具集成。
一键优化AI生成艺术创意
Prompter是一个Chrome浏览器插件,能够一键优化用户的文本提示,生成更加精美、细节丰富的AI艺术图像。关键功能包括:一键优化提示文本,实时预览创作效果,提示笔记本随时记录灵感等。适用于Midjourney、Stable Diffusion等主流生成平台,支持图像、视频、3D等创作,是创意工作者的最佳助手。
一分钟内构建无代码AI应用
Imagica是一种新的思维和创造方式,使计算机成为我们思维的延伸,让我们能够以思考的速度与计算机进行协作创作。从想法到产品,以思维的速度实现。无需编写任何代码,构建功能性应用程序。实时数据,通过URL或拖放添加真实数据源以获得准确结果。多模态,使用文本、图像、视频和3D模型等任何输入或输出。具有400万个函数,实现在真实世界中运行的应用程序。一键将应用转化为商业模式,立即产生收入。将您的应用提交给Natural OS,开始为数百万用户提供服务请求。将应用转化为漂亮的变形界面,让用户主动寻找您的应用。
AI动作捕捉工具
Movmi 是一款 AI 驱动的动作捕捉工具,通过 2D 媒体数据(图像、视频)捕捉人类身体动作,为开发人员提供高质量的人体动作捕捉解决方案。整个捕捉过程在云端完成,用户无需使用高端设备。Movmi 支持从各种摄像设备捕捉镜头,包括智能手机和专业摄像机,适用于各种生活场景,甚至支持多个人物的场景。Movmi 还提供一个全文本贴图角色库,用于各种动画项目。Movmi 的会员计划分为 Bronze、Silver 和 Gold,提供不同级别的功能和体验。用户可以在任何 3D 环境中使用输出的 FBX 文件。
将真实数据或想象转化为3D世界模型
CSM AI是一个多模态的3D生成平台,可以从视频、图像或文本生成高分辨率的几何体、纹理和神经辐射场。它可以快速准确地创建环境和游戏,为开发者提供了全新的体验。CSM AI还提供API,方便开发者将其集成到自己的应用或平台中。适用于创建沉浸式的模拟器和游戏。
AI 角色生成器,助您打造独特形象和视频故事。
Artflow AI 是一款 AI 角色生成器,可帮助用户创建一致的角色形象,并制作图像和视频故事。用户可以设计角色外观,创建各种场景图像,以及为角色添加动画,让角色栩栩如生。产品定位于为用户提供创意设计和视频制作的工具。
StoryDiffusion 能够通过生成一致的图像和视频来创造魔法故事。
StoryDiffusion 是一个开源的图像和视频生成模型,它通过一致自注意力机制和运动预测器,能够生成连贯的长序列图像和视频。这个模型的主要优点在于它能够生成具有角色一致性的图像,并且可以扩展到视频生成,为用户提供了一个创造长视频的新方法。该模型对AI驱动的图像和视频生成领域有积极的影响,并且鼓励用户负责任地使用该工具。
AI角色生成器,帮助您创建一致、可识别的AI角色,并将它们放置在任何场景中,仅需几次点击。
Boords是一个AI角色生成器,通过帮助用户创建一致、可识别的AI角色,并将它们放置在任何场景中,简化角色设计的过程。它提供了强大的角色编辑功能,用户可以轻松自定义角色的外貌和特征。Boords还支持快速生成具有不同服装和表情的角色变体,以满足各种场景需求。用户可以使用简单的图像序列创建有趣的故事板,并轻松构建引人注目的角色驱动故事。Boords已被世界顶级视频团队的65万名专业人士信赖,大大简化了他们的前期制作流程。
一种用于逆渲染的先进学习扩散先验方法,能够从任意图像中恢复物体材质并实现单视图图像重照明。
IntrinsicAnything 是一种先进的图像逆渲染技术,它通过学习扩散模型来优化材质恢复过程,解决了在未知静态光照条件下捕获的图像中物体材质恢复的问题。该技术通过生成模型学习材质先验,将渲染方程分解为漫反射和镜面反射项,利用现有丰富的3D物体数据进行训练,有效地解决了逆渲染过程中的歧义问题。此外,该技术还开发了一种从粗到细的训练策略,利用估计的材质引导扩散模型产生多视图一致性约束,从而获得更稳定和准确的结果。
一种优化扩散模型采样时间表的方法,以提高生成模型的输出质量。
Align Your Steps 是一种用于优化扩散模型(Diffusion Models, DMs)采样时间表的方法。这种方法利用随机微积分的方法,为不同的求解器、训练有素的DMs和数据集找到特定的最优采样时间表。它通过最小化KLUB项来优化时间离散化,即采样调度,从而在相同的计算预算下提高输出质量。该方法在图像、视频以及2D玩具数据合成基准测试中表现出色,优化的采样时间表在几乎所有实验中都优于之前手工制定的时间表。
零样本身份保持人类视频生成技术
ID-Animator是一种零样本人类视频生成方法,能够在不需要进一步训练的情况下,根据单个参考面部图像进行个性化视频生成。该技术继承了现有的基于扩散的视频生成框架,并加入了面部适配器以编码与身份相关的嵌入。通过这种方法,ID-Animator能够在视频生成过程中保持人物身份的细节,同时提高训练效率。
视频超分辨率模型,细节丰富
VideoGigaGAN是一款基于大规模图像上采样器GigaGAN的视频超分辨率(VSR)模型。它能够生成具有高频细节和时间一致性的视频。该模型通过添加时间注意力层和特征传播模块,显著提高了视频的时间一致性,并使用反锯齿块减少锯齿效应。VideoGigaGAN在公共数据集上与最先进的VSR模型进行了比较,并展示了8倍超分辨率的视频结果。
智能工具,激发创意无限
DeepAI是一个提供多种人工智能工具的网站,包括AI视频生成器、AI图像生成器、AI图像编辑器和AI角色聊天等。用户可以利用这些工具将静态图片和文本提示转换成简短的视频动画,或者通过输入提示来生成图像。DeepAI的AI图像编辑器允许用户快速编辑图片,而AI角色聊天则可以与各种角色进行互动。此外,还有去除背景和给黑白照片上色的功能。DeepAI提供PRO会员服务,享受无广告体验、私有图片存储和API访问等特权。
AI学习平台
Generative AI Courses是一家提供AI学习课程的在线平台。通过课程学习,用户可以掌握GenAI、AI、机器学习、深度学习、chatGPT、DALLE、图像生成、视频生成、文本生成等技术,并了解2024年AI领域的最新发展。
快速生成三维模型的AI工具
AI 3D Generation是Spline推出的一款3D设计工具,它支持文本到3D生成和图像到3D生成,允许用户通过简单的文本提示或2D图像自动创建出详细且精确的3D模型。该工具具有生成变体与混合、直观且适合初学者、创建独特的3D库、平台集成与实时协作、易于集成和发布等功能。
视频生成的精细控制工具
Ctrl-Adapter是一个专门为视频生成设计的Controlnet,提供图像和视频的精细控制功能,优化视频时间对齐,适配多种基础模型,具备视频编辑能力,显著提升视频生成效率和质量。
强大的多模态LLM,商业解决方案
Reka Core是一个GPT-4级别的多模态大型语言模型(LLM),具备图像、视频和音频的强大上下文理解能力。它是目前市场上仅有的两个商用综合多模态解决方案之一。Core在多模态理解、推理能力、编码和Agent工作流程、多语言支持以及部署灵活性方面表现出色。
© 2024 AIbase 备案号:闽ICP备2023012347号-1