需求人群:
"WHAM 主要面向游戏开发者和研究人员,帮助他们探索生成式AI在游戏设计中的应用,快速迭代游戏场景和玩家行为的创意。"
使用场景示例:
使用WHAM生成《Bleeding Edge》游戏中的角色动作和场景。
基于WHAM的模型推理,为游戏设计提供创意迭代支持。
通过WHAM演示工具,实时展示生成的游戏视觉和控制器动作。
产品特色:
生成游戏视觉和控制器动作
支持世界建模、行为策略和完整生成三种模式
捕捉游戏环境的3D结构和玩家行为的时间序列
提供两种模型规模(200M参数和1.6B参数)以适应不同需求
支持通过初始视觉或控制器动作作为提示生成游戏序列
提供本地模型推理和演示工具
评估模型的一致性、多样性和持久性
支持学术研究和游戏开发的多种应用场景
使用教程:
1. 克隆WHAM的GitHub仓库并设置虚拟环境。
2. 下载模型权重文件(200M或1.6B参数模型)。
3. 准备样本数据或使用提供的样本数据。
4. 运行本地模型推理脚本,生成游戏序列。
5. 使用WHAM演示工具连接模型服务器,实时展示生成结果。
6. 根据需求调整模型参数或提示输入,探索不同的生成效果。
浏览量:26
最新流量情况
月访问量
26103.68k
平均访问时长
00:04:43
每次访问页数
5.49
跳出率
43.69%
流量来源
直接访问
48.80%
自然搜索
35.36%
邮件
0.03%
外链引荐
12.91%
社交媒体
2.88%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
16.85%
印度
7.96%
日本
3.46%
俄罗斯
5.47%
美国
16.98%
WHAM 是微软开发的一种生成式游戏模型,用于生成游戏视觉和控制器动作。
WHAM(World and Human Action Model)是由微软研究院开发的一种生成式模型,专门用于生成游戏场景和玩家行为。该模型基于Ninja Theory的《Bleeding Edge》游戏数据训练,能够生成连贯、多样化的游戏视觉和控制器动作。WHAM 的主要优点在于其能够捕捉游戏环境的3D结构和玩家行为的时间序列,为游戏设计和创意探索提供了强大的工具。该模型主要面向学术研究和游戏开发领域,帮助开发者快速迭代游戏设计。
FLUX Pro Finetuning API 是一款用于定制化生成式图像模型的高级工具。
FLUX Pro Finetuning API 是由 Black Forest Labs 推出的生成式文本到图像模型的定制化工具。它允许用户通过少量示例图像(1-5张)对 FLUX Pro 模型进行微调,从而生成符合特定品牌、风格或视觉需求的高质量图像内容。该技术的主要优点在于其高度的定制化能力、对品牌一致性的保持以及与 FLUX 工具套件的无缝集成。它适用于专业创意人员、设计师和品牌方,帮助他们在营销、品牌建设和故事叙述中实现个性化内容创作。目前尚无明确价格信息,但其定位为高端创意工具,适合对生成内容质量有较高要求的用户。
从文本描述生成高质量的3D室内场景。
SceneTeller是一个创新的3D场景生成平台,它利用最新的生成式人工智能技术,允许用户通过自然语言描述来设计室内3D场景。这项技术大大降低了3D设计的技术门槛,使得非专业用户也能轻松创建个性化的3D空间。产品的主要优点包括易用性、高效率和创意自由度。
ProJourney AI是一个生成式AI工具,为设计师和创作者提供了无需通过Discord的Midjourney生成器的访问权限,轻松通过文本提示生成高质量图像。
ProJourney AI是一个生成式AI工具,为设计师和创作者提供了访问Midjourney生成器的能力。它可以通过简单的文本提示生成高质量的图像,并且不需要将这些图像公开共享在Discord上。该工具的主要优点是提供了私密的图像生成功能,并且用户可以自由控制生成图像的质量和风格。ProJourney AI适用于各种设计任务,包括平面设计、插画、用户界面设计等。
基于AI的图像生成工具
Pocket Paint是一个基于DALL•E 3的图像生成应用程序。它使没有AI经验的用户也可以轻松地开始使用生成式AI进行创作。用户只需输入几个关键词,Pocket Paint就可以为您生成高质量的图片。与其他类似工具不同,Pocket Paint非常注重用户体验,确保普通用户也能快速上手。
人工智能角色生成
角色AI是一款通过人工智能技术生成虚拟角色的工具。它能够根据用户提供的要求和设定,自动生成各种个性化的角色形象,包括外貌、性格、背景等。角色AI的优势在于提供快速、便捷且高质量的角色生成服务,为游戏开发、动画制作、虚拟形象创作等领域提供了强大的支持。定价方案灵活多样,可根据用户需求进行定制化。
Muse 是微软推出的首个用于游戏创意构思的生成式 AI 模型,能够生成游戏视觉效果和操作动作。
Muse 是微软研究团队与 Xbox Games Studios 合作开发的生成式 AI 模型,旨在支持游戏创意构思。它基于大规模人类游戏数据训练,能够生成连贯的游戏视觉和操作序列。该技术展示了 AI 在游戏设计中的潜力,为未来的游戏开发提供了新的创作方式和体验。
企业级AI代理和助手平台,用于构建和部署关键任务中的生成式AI应用。
Vectara是一个面向企业的AI平台,专注于帮助企业快速部署和管理生成式AI应用。它通过提供先进的检索增强生成(RAG)技术,确保AI应用的准确性和安全性。该平台支持多语言数据处理,具备高性能和可扩展性,适用于金融、教育、法律等多个垂直行业。其主要优势在于强大的数据安全性和隐私保护,符合SOC 2、HIPAA和GDPR等合规标准。产品定位为中高端企业市场,虽然具体价格未公开,但提供免费试用选项。
爱涂鸭是一个提供创意绘画和创作分享的在线平台。
爱涂鸭是一个以创意绘画为核心的在线平台,用户可以通过简单的操作进行绘画创作,并分享到社区。它结合了绘画工具和社交功能,旨在激发用户的创造力和艺术兴趣。产品主要面向喜欢绘画和创意表达的用户,提供了一个自由创作和交流的空间。
Pippo 是一个从单张照片生成高分辨率多人视角视频的生成模型。
Pippo 是由 Meta Reality Labs 和多所高校合作开发的生成模型,能够从单张普通照片生成高分辨率的多人视角视频。该技术的核心优势在于无需额外输入(如参数化模型或相机参数),即可生成高质量的 1K 分辨率视频。它基于多视角扩散变换器架构,具有广泛的应用前景,如虚拟现实、影视制作等。Pippo 的代码已开源,但不包含预训练权重,用户需要自行训练模型。
Krea Chat 是一个由 DeepSeek 提供支持的 AI 聊天工具,将 Krea 的所有功能集成到聊天界面中。
Krea Chat 是一款基于 AI 的设计工具,通过聊天界面提供强大的设计功能。它结合了 DeepSeek 的 AI 技术和 Krea 的设计工具套件,用户可以通过自然语言交互生成图像、视频等设计内容。这种创新的交互方式极大地简化了设计流程,降低了设计门槛,使用户能够快速实现创意。Krea Chat 的主要优点包括易于使用、高效生成设计内容以及强大的 AI 驱动功能。它适合需要快速生成设计素材的创作者、设计师和市场营销人员,能够帮助他们节省时间并提升工作效率。
将PDF转换为音频内容,打造个性化的AI有声读物。
NVIDIA的PDF to Podcast Blueprint是一种基于生成式AI的应用程序,能够将PDF文档(如培训资料、技术研究或文档)转换为个性化的音频内容。该技术利用大型语言模型(LLMs)、文本到语音(TTS)技术以及NVIDIA NIM微服务,将PDF数据转换为引人入胜的音频内容,帮助用户在移动中学习,同时解决信息过载的问题。该解决方案完全基于NVIDIA的云基础设施运行,无需本地GPU硬件,确保隐私合规性,并可根据用户需求定制品牌、分析、实时翻译或数字人界面等功能。
Janus Pro 是一款先进的 AI 图像生成与理解平台,提供高质量的视觉智能服务。
Janus Pro 是由 DeepSeek 技术驱动的先进 AI 图像生成与理解平台。它采用革命性的统一变换器架构,能够高效处理复杂的多模态操作,实现图像生成和理解的卓越性能。该平台训练了超过 9000 万个样本,其中包括 7200 万个合成美学数据点,确保生成的图像在视觉上具有吸引力且上下文准确。Janus Pro 为开发者和研究人员提供强大的视觉 AI 能力,帮助他们实现从创意到视觉叙事的转变。平台提供免费试用,适合需要高质量图像生成和分析的用户。
一个基于语音交互的故事创作聊天机器人,提供沉浸式的“选择你自己的冒险”体验。
该产品利用 Gemini 2.0 语言模型和 Google Imagen 图像生成技术,结合语音识别和语音合成,为用户提供一个互动式的故事创作体验。用户可以通过语音输入选择故事走向,系统会实时生成故事内容和相关图像。该产品的主要优点是创新的交互方式和强大的内容生成能力,适合用于教育、娱乐和创意启发。目前该产品处于开源阶段,未明确具体定价,主要面向开发者和教育机构。
SliderSpace 是一种用于分解扩散模型视觉能力的技术,通过直观的滑块实现对模型的可控性和可解释性。
SliderSpace 是一项创新技术,旨在提高扩散模型的可控性和可解释性。它通过自动发现模型内部的视觉知识,将其分解为直观的滑块,用户可以通过这些滑块轻松调整图像生成的方向。该技术不仅能够揭示模型对不同概念的理解,还能显著提高图像生成的多样性。SliderSpace 的主要优点包括自动化发现方向、语义正交性和分布一致性,使其成为探索和利用扩散模型视觉能力的强大工具。该技术目前处于研究阶段,尚未明确具体的价格和商业定位。
GenSFX 是一个免费的在线 AI 音效生成器,可将文本描述转换为高质量音效。
GenSFX 是一款基于先进 AI 技术的音效生成工具,通过将文本描述转化为专业音效,为用户提供高效、便捷的音效创作方案。其主要优点包括:无需专业音效制作知识,用户只需输入文字描述,即可快速生成所需音效;生成的音效质量高,能满足不同场景需求;操作简单,无需复杂设置。该产品主要面向内容创作者、游戏开发者等需要定制音效的用户群体,帮助他们节省时间和成本,提升创作效率。目前 GenSFX 为用户免费提供服务,降低了音效创作的门槛,使更多人能够轻松获取高质量音效。
Google Imagen 3通过Gemini API开放使用,每张图像成本0.03美元,可生成多种风格图像。
Google Imagen 3是Google推出的图像生成模型,通过Gemini API向开发者开放。它能够根据用户输入的文本提示生成高质量图像,支持多种艺术风格,如超现实主义、印象派、抽象艺术等。该模型在图像细节和色彩处理上表现出色,适用于艺术创作、广告设计、游戏开发等创意工作。其主要优点包括高效的提示跟踪能力、丰富的自定义选项以及成本效益。此外,为防止误用,所有生成图像均带有不可见水印。定价为每张图像0.03美元,适合需要批量生成图像的开发者和企业。
Animagine XL 4.0 是一款专注于动漫风格的Stable Diffusion XL模型,专为生成高质量动漫图像而设计。
Animagine XL 4.0 是一款基于Stable Diffusion XL 1.0微调的动漫主题生成模型。它使用了840万张多样化的动漫风格图像进行训练,训练时长达到2650小时。该模型专注于通过文本提示生成和修改动漫主题图像,支持多种特殊标签,可控制图像生成的不同方面。其主要优点包括高质量的图像生成、丰富的动漫风格细节以及对特定角色和风格的精准还原。该模型由Cagliostro Research Lab开发,采用CreativeML Open RAIL++-M许可证,允许商业使用和修改。
Janus-Pro-7B 是一个新型的自回归框架,统一多模态理解和生成。
Janus-Pro-7B 是一个强大的多模态模型,能够同时处理文本和图像数据。它通过分离视觉编码路径,解决了传统模型在理解和生成任务中的冲突,提高了模型的灵活性和性能。该模型基于 DeepSeek-LLM 架构,使用 SigLIP-L 作为视觉编码器,支持 384x384 的图像输入,并在多模态任务中表现出色。其主要优点包括高效性、灵活性和强大的多模态处理能力。该模型适用于需要多模态交互的场景,例如图像生成和文本理解。
Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。
Janus-Pro-1B 是一个创新的多模态模型,专注于统一多模态理解和生成。它通过分离视觉编码路径,解决了传统方法在理解和生成任务中的冲突问题,同时保持了单个统一的 Transformer 架构。这种设计不仅提高了模型的灵活性,还使其在多模态任务中表现出色,甚至超越了特定任务的模型。该模型基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建,使用 SigLIP-L 作为视觉编码器,支持 384x384 的图像输入,并采用特定的图像生成 tokenizer。其开源性和灵活性使其成为下一代多模态模型的有力候选。
基于Diffusion的文本到图像生成模型,专注于时尚模特摄影风格图像生成
Fashion-Hut-Modeling-LoRA是一个基于Diffusion技术的文本到图像生成模型,主要用于生成时尚模特的高质量图像。该模型通过特定的训练参数和数据集,能够根据文本提示生成具有特定风格和细节的时尚摄影图像。它在时尚设计、广告制作等领域具有重要应用价值,能够帮助设计师和广告商快速生成创意概念图。模型目前仍在训练阶段,可能存在一些生成效果不佳的情况,但已经展示了强大的潜力。该模型的训练数据集包含14张高分辨率图像,使用了AdamW优化器和constant学习率调度器等参数,训练过程注重图像的细节和质量。
TokenVerse 是一种基于预训练文本到图像扩散模型的多概念个性化方法。
TokenVerse 是一种创新的多概念个性化方法,它利用预训练的文本到图像扩散模型,能够从单张图像中解耦复杂的视觉元素和属性,并实现无缝的概念组合生成。这种方法突破了现有技术在概念类型或广度上的限制,支持多种概念,包括物体、配饰、材质、姿势和光照等。TokenVerse 的重要性在于其能够为图像生成领域带来更灵活、更个性化的解决方案,满足用户在不同场景下的多样化需求。目前,TokenVerse 的代码尚未公开,但其在个性化图像生成方面的潜力已经引起了广泛关注。
GameFactory 是一个基于预训练视频扩散模型的通用世界模型,可创建开放领域的游戏。
GameFactory 是一个创新的通用世界模型,专注于从少量的《我的世界》游戏视频数据中学习,并利用预训练视频扩散模型的先验知识来生成新的游戏内容。该技术的核心优势在于其开放领域的生成能力,能够根据用户输入的文本提示和操作指令生成多样化的游戏场景和互动体验。它不仅展示了强大的场景生成能力,还通过多阶段训练策略和可插拔的动作控制模块,实现了高质量的交互式视频生成。该技术在游戏开发、虚拟现实和创意内容生成等领域具有广阔的应用前景,目前尚未明确其价格和商业化定位。
一个在线工具,帮助用户创建类似Charli XCX专辑封面风格的图像。
Brat Generator是一个以Charli XCX的专辑封面风格为灵感的在线图像生成工具。它允许用户通过输入文本和选择背景颜色,快速生成具有个性化的专辑封面风格图像。该工具的主要优点是操作简单、快速生成图像,并且可以自定义字体风格和颜色。它适合那些希望在社交媒体上分享个性化图像的用户,尤其是音乐爱好者和创意内容创作者。目前该工具是免费的,旨在为用户提供一种轻松创建独特图像的方式。
PaSa 是一个由大语言模型驱动的先进学术论文搜索代理,能够自主决策并获取准确结果。
PaSa 是由字节跳动开发的一种先进学术论文搜索代理,基于大语言模型(LLM)技术,能够自主调用搜索工具、阅读论文并筛选相关参考文献,以获取复杂学术查询的全面准确结果。该技术通过强化学习优化,使用合成数据集 AutoScholarQuery 进行训练,并在真实世界查询数据集 RealScholarQuery 上表现出色,显著优于传统搜索引擎和基于 GPT 的方法。PaSa 的主要优势在于其高召回率和精准率,能够为研究人员提供更高效的学术搜索体验。
AI ContentCraft 是一个多功能内容创作工具,集成了文本生成、语音合成和图像生成能力。
AI ContentCraft 是一个强大的内容创作平台,旨在帮助创作者快速生成故事、播客脚本和多媒体内容。它通过集成文本生成、语音合成和图像生成技术,为创作者提供一站式的解决方案。该工具支持中英文内容转换,适合需要高效创作的用户。其技术栈包括 DeepSeek AI、Kokoro TTS 和 Replicate API,确保高质量的内容生成。产品目前开源免费,适合个人和团队使用。
一个基于文本生成图像的预训练模型,具有80亿参数和Apache 2.0开源许可。
Flex.1-alpha 是一个强大的文本到图像生成模型,基于80亿参数的修正流变换器架构。它继承了FLUX.1-schnell的特性,并通过训练指导嵌入器,使其无需CFG即可生成图像。该模型支持微调,并且具有开放源代码许可(Apache 2.0),适合在多种推理引擎中使用,如Diffusers和ComfyUI。其主要优点包括高效生成高质量图像、灵活的微调能力和开源社区支持。开发背景是为了解决图像生成模型的压缩和优化问题,并通过持续训练提升模型性能。
Frames 是 Runway 推出的高级图像生成基础模型,提供前所未有的风格控制和视觉保真度。
Frames 是 Runway 的核心产品之一,专注于图像生成领域。它通过深度学习技术,为用户提供高度风格化的图像生成能力。该模型允许用户定义独特的艺术视角,生成具有高度视觉保真度的图像。其主要优点包括强大的风格控制能力、高质量的图像输出以及灵活的创作空间。Frames 面向创意专业人士、艺术家和设计师,旨在帮助他们快速实现创意构思,提升创作效率。Runway 提供了多种使用场景和工具支持,用户可以根据需求选择不同的功能模块。价格方面,Runway 提供了付费和免费试用的选项,以满足不同用户的需求。
MatterGen是一个利用生成式AI进行材料设计的工具。
MatterGen是微软研究院推出的一种生成式AI工具,用于材料设计。它能够根据应用的设计要求直接生成具有特定化学、机械、电子或磁性属性的新型材料,为材料探索提供了新的范式。该工具的出现有望加速新型材料的研发进程,降低研发成本,并在电池、太阳能电池、CO2吸附剂等领域发挥重要作用。目前,MatterGen的源代码已在GitHub上开源,供公众使用和进一步开发。
用于衡量设备 AI 加速器推理性能的基准测试工具。
Procyon AI Image Generation Benchmark 是一款由 UL Solutions 开发的基准测试工具,旨在为专业用户提供一个一致、准确且易于理解的工作负载,用以测量设备上 AI 加速器的推理性能。该基准测试与多个关键行业成员合作开发,确保在所有支持的硬件上产生公平且可比较的结果。它包括三个测试,可测量从低功耗 NPU 到高端独立显卡的性能。用户可以通过 Procyon 应用程序或命令行进行配置和运行,支持 NVIDIA® TensorRT™、Intel® OpenVINO™ 和 ONNX with DirectML 等多种推理引擎。产品主要面向工程团队,适用于评估推理引擎实现和专用硬件的通用 AI 性能。价格方面,提供免费试用,正式版为年度场地许可,需付费获取报价。
© 2025 AIbase 备案号:闽ICP备08105208号-14