需求人群:
"WHAM 主要面向游戏开发者和研究人员,帮助他们探索生成式AI在游戏设计中的应用,快速迭代游戏场景和玩家行为的创意。"
使用场景示例:
使用WHAM生成《Bleeding Edge》游戏中的角色动作和场景。
基于WHAM的模型推理,为游戏设计提供创意迭代支持。
通过WHAM演示工具,实时展示生成的游戏视觉和控制器动作。
产品特色:
生成游戏视觉和控制器动作
支持世界建模、行为策略和完整生成三种模式
捕捉游戏环境的3D结构和玩家行为的时间序列
提供两种模型规模(200M参数和1.6B参数)以适应不同需求
支持通过初始视觉或控制器动作作为提示生成游戏序列
提供本地模型推理和演示工具
评估模型的一致性、多样性和持久性
支持学术研究和游戏开发的多种应用场景
使用教程:
1. 克隆WHAM的GitHub仓库并设置虚拟环境。
2. 下载模型权重文件(200M或1.6B参数模型)。
3. 准备样本数据或使用提供的样本数据。
4. 运行本地模型推理脚本,生成游戏序列。
5. 使用WHAM演示工具连接模型服务器,实时展示生成结果。
6. 根据需求调整模型参数或提示输入,探索不同的生成效果。
浏览量:157
最新流量情况
月访问量
27175.38k
平均访问时长
00:04:57
每次访问页数
5.82
跳出率
44.30%
流量来源
直接访问
49.33%
自然搜索
34.96%
邮件
0.03%
外链引荐
12.77%
社交媒体
2.89%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
18.60%
印度
8.26%
日本
3.19%
俄罗斯
5.17%
美国
17.44%
WHAM 是微软开发的一种生成式游戏模型,用于生成游戏视觉和控制器动作。
WHAM(World and Human Action Model)是由微软研究院开发的一种生成式模型,专门用于生成游戏场景和玩家行为。该模型基于Ninja Theory的《Bleeding Edge》游戏数据训练,能够生成连贯、多样化的游戏视觉和控制器动作。WHAM 的主要优点在于其能够捕捉游戏环境的3D结构和玩家行为的时间序列,为游戏设计和创意探索提供了强大的工具。该模型主要面向学术研究和游戏开发领域,帮助开发者快速迭代游戏设计。
从文本描述生成高质量的3D室内场景。
SceneTeller是一个创新的3D场景生成平台,它利用最新的生成式人工智能技术,允许用户通过自然语言描述来设计室内3D场景。这项技术大大降低了3D设计的技术门槛,使得非专业用户也能轻松创建个性化的3D空间。产品的主要优点包括易用性、高效率和创意自由度。
MoCha 致力于生成电影级别的对话角色合成。
MoCha 是一种创新的技术,旨在合成高质量的对话角色,使其在影视制作、游戏和动画中应用广泛。该技术的主要优点是能生成更自然、流畅的角色对话,增强了观众的沉浸感。MoCha 的市场定位为专业的影视制作公司和独立开发者,致力于提升角色交互的真实感。产品采用基于深度学习的模型,价格策略为付费,提供不同层级的服务包。
通过草图快速生成精美的 3D 资产。
Vibe Draw 是一款强大的 AI 驱动平台,能够快速将粗略草图转化为专业质量的 3D 模型。它的直观工具使得无论是设计师还是开发者都能轻松使用,特别适合希望将创意快速实现的用户。该产品可以优化设计工作流程,适用于游戏、3D 打印及 AR/VR 等领域。Vibe Draw 适合各类创作者,提供了一种简便、高效的 3D 设计方式。
Macro 是一款 AI PDF 编辑器,可将学术、法律和金融 PDF 转化为智能文档。
Macro 是一款基于人工智能技术的 PDF 编辑和阅读工具,旨在通过智能化功能提升用户处理 PDF 文档的效率。它利用 AI 技术为用户提供即时语言解释、智能定义链接、文档编辑等功能,帮助用户更好地理解和操作复杂的 PDF 文件。该产品主要面向专业人士,如学术研究人员、法律从业者和金融分析师,帮助他们快速提取关键信息、分析文档内容,并进行高效协作。其价格和具体定位尚未明确,但通过官网的注册页面可以推测可能采用订阅制或付费模式。
一个AI驱动的研究系统,可使用多个搜索引擎和LLMs进行综合迭代研究。
Shandu是一个基于AI的研究系统,能够通过多源信息合成和深度迭代探索生成全面的研究报告。它利用先进的语言模型和智能网络爬虫技术,自动完成从问题澄清到内容分析的全过程。其主要优点包括高效的信息整合能力、灵活的多源数据处理以及强大的知识合成能力。该产品适用于需要快速生成高质量研究报告的场景,如学术研究、市场情报分析和技术探索。目前该产品为开源项目,用户可以根据需求进行定制和扩展。
Muse 是微软推出的首个用于游戏创意构思的生成式 AI 模型,能够生成游戏视觉效果和操作动作。
Muse 是微软研究团队与 Xbox Games Studios 合作开发的生成式 AI 模型,旨在支持游戏创意构思。它基于大规模人类游戏数据训练,能够生成连贯的游戏视觉和操作序列。该技术展示了 AI 在游戏设计中的潜力,为未来的游戏开发提供了新的创作方式和体验。
企业级AI代理和助手平台,用于构建和部署关键任务中的生成式AI应用。
Vectara是一个面向企业的AI平台,专注于帮助企业快速部署和管理生成式AI应用。它通过提供先进的检索增强生成(RAG)技术,确保AI应用的准确性和安全性。该平台支持多语言数据处理,具备高性能和可扩展性,适用于金融、教育、法律等多个垂直行业。其主要优势在于强大的数据安全性和隐私保护,符合SOC 2、HIPAA和GDPR等合规标准。产品定位为中高端企业市场,虽然具体价格未公开,但提供免费试用选项。
将PDF转换为音频内容,打造个性化的AI有声读物。
NVIDIA的PDF to Podcast Blueprint是一种基于生成式AI的应用程序,能够将PDF文档(如培训资料、技术研究或文档)转换为个性化的音频内容。该技术利用大型语言模型(LLMs)、文本到语音(TTS)技术以及NVIDIA NIM微服务,将PDF数据转换为引人入胜的音频内容,帮助用户在移动中学习,同时解决信息过载的问题。该解决方案完全基于NVIDIA的云基础设施运行,无需本地GPU硬件,确保隐私合规性,并可根据用户需求定制品牌、分析、实时翻译或数字人界面等功能。
GenSFX 是一个免费的在线 AI 音效生成器,可将文本描述转换为高质量音效。
GenSFX 是一款基于先进 AI 技术的音效生成工具,通过将文本描述转化为专业音效,为用户提供高效、便捷的音效创作方案。其主要优点包括:无需专业音效制作知识,用户只需输入文字描述,即可快速生成所需音效;生成的音效质量高,能满足不同场景需求;操作简单,无需复杂设置。该产品主要面向内容创作者、游戏开发者等需要定制音效的用户群体,帮助他们节省时间和成本,提升创作效率。目前 GenSFX 为用户免费提供服务,降低了音效创作的门槛,使更多人能够轻松获取高质量音效。
GameFactory 是一个基于预训练视频扩散模型的通用世界模型,可创建开放领域的游戏。
GameFactory 是一个创新的通用世界模型,专注于从少量的《我的世界》游戏视频数据中学习,并利用预训练视频扩散模型的先验知识来生成新的游戏内容。该技术的核心优势在于其开放领域的生成能力,能够根据用户输入的文本提示和操作指令生成多样化的游戏场景和互动体验。它不仅展示了强大的场景生成能力,还通过多阶段训练策略和可插拔的动作控制模块,实现了高质量的交互式视频生成。该技术在游戏开发、虚拟现实和创意内容生成等领域具有广阔的应用前景,目前尚未明确其价格和商业化定位。
PaSa 是一个由大语言模型驱动的先进学术论文搜索代理,能够自主决策并获取准确结果。
PaSa 是由字节跳动开发的一种先进学术论文搜索代理,基于大语言模型(LLM)技术,能够自主调用搜索工具、阅读论文并筛选相关参考文献,以获取复杂学术查询的全面准确结果。该技术通过强化学习优化,使用合成数据集 AutoScholarQuery 进行训练,并在真实世界查询数据集 RealScholarQuery 上表现出色,显著优于传统搜索引擎和基于 GPT 的方法。PaSa 的主要优势在于其高召回率和精准率,能够为研究人员提供更高效的学术搜索体验。
FLUX Pro Finetuning API 是一款用于定制化生成式图像模型的高级工具。
FLUX Pro Finetuning API 是由 Black Forest Labs 推出的生成式文本到图像模型的定制化工具。它允许用户通过少量示例图像(1-5张)对 FLUX Pro 模型进行微调,从而生成符合特定品牌、风格或视觉需求的高质量图像内容。该技术的主要优点在于其高度的定制化能力、对品牌一致性的保持以及与 FLUX 工具套件的无缝集成。它适用于专业创意人员、设计师和品牌方,帮助他们在营销、品牌建设和故事叙述中实现个性化内容创作。目前尚无明确价格信息,但其定位为高端创意工具,适合对生成内容质量有较高要求的用户。
MatterGen是一个利用生成式AI进行材料设计的工具。
MatterGen是微软研究院推出的一种生成式AI工具,用于材料设计。它能够根据应用的设计要求直接生成具有特定化学、机械、电子或磁性属性的新型材料,为材料探索提供了新的范式。该工具的出现有望加速新型材料的研发进程,降低研发成本,并在电池、太阳能电池、CO2吸附剂等领域发挥重要作用。目前,MatterGen的源代码已在GitHub上开源,供公众使用和进一步开发。
Lumina 是一款专为研究而设计的人工智能搜索引擎。
Lumina 作为一款人工智能搜索引擎,专注于为研究人员提供更精准、高效的信息检索服务。它利用先进的 AI 技术,能够深入理解用户的查询意图,并从海量的学术数据库中快速筛选出最相关的内容。与传统搜索引擎相比,Lumina 在学术研究领域的相关性高出 5 倍,极大地提高了研究人员的工作效率。该产品由 Y Combinator 孵化,拥有专业的开发团队和强大的技术支持,致力于为用户提供优质的搜索体验。目前,Lumina 提供免费试用,用户可以通过其官网进行注册使用。
无需代码,快速创建游戏网站,支持从Steam导入内容。
Crtrdg是一款专为独立游戏开发者设计的网站创建工具。它允许用户无需编写代码,就能快速创建一个针对自己游戏的网站。该产品的主要优点是操作简便、支持从Steam导入游戏信息,并且提供定制化选项。目前,Crtrdg提供免费的基础域名服务,并计划推出付费的自定义域名支持。它旨在帮助游戏开发者更高效地展示和推广自己的游戏。
Narrative BI 是一个自动化的商业智能平台,将数据转化为有意义的叙述。
Narrative BI 是一个利用生成式人工智能技术的自动化商业智能平台,旨在帮助企业和团队从销售、营销和广告等多方面的数据中自动提取有价值的见解。该平台通过自然语言生成技术,将复杂的数据分析结果转化为易于理解的叙述,从而让用户能够快速把握数据背后的含义。Narrative BI 的主要优点在于其自动化程度高,用户无需编写代码即可连接多个数据源,并实时监控关键指标。此外,它还提供了异常检测功能,能够及时发现数据中的异常波动,帮助用户做出更准确的决策。Narrative BI 的目标是为各种规模的企业提供一个简单易用、功能强大的数据分析工具,以支持其业务增长和优化。
AI音乐生成器,快速创作专业音乐
EasyMusic AI Music Generator是一个利用人工智能技术,将创意快速转化为专业音乐曲目的平台。它无需音乐专业知识,即可为内容创作者提供最先进的AI音乐生成服务。产品通过训练数百万首歌曲的模型,分析用户输入,创造出独特的音乐。它以快速、易用和高度创造性的特点,改变了音乐创作的方式,让创作音乐变得更加便捷和经济。
亚马逊推出的基于生成式AI的卖家助理工具
Project Amelia是亚马逊推出的一个基于生成式人工智能技术的个人助理项目,旨在为卖家提供个性化的商业建议,以提高生产力和推动卖家增长。该项目利用亚马逊Bedrock技术,提供可扩展的最新基础模型和AI工具,帮助卖家简化在亚马逊商店的销售流程,同时提供更强大的增长途径。Project Amelia通过回答卖家的问题,提供准确的信息和指导,使卖家能够更轻松高效地管理业务。它还能够学习卖家的独特业务,提供个性化的见解和支持,并可从卖家中心的任何页面随时访问。
生成式世界模型,为电影、游戏及更多领域带来革新。
Explorer是由Odyssey推出的生成式世界模型,旨在通过人工智能技术加速电影和游戏世界的创造过程,并开启全新的娱乐形式。该技术由皮克斯联合创始人Ed Catmull支持,代表了电影、游戏以及更广泛娱乐领域中的下一个重大技术突破。Explorer能够将任何图像转化为详细的3D世界,具有生成逼真世界的能力,并且支持手动编辑,以适应不同的创作需求。
古籍在线阅读平台,提供丰富的古籍资源。
识典古籍是一个专注于古籍文献的在线阅读平台,它通过数字化的方式,使得用户能够方便地访问和阅读中国古代的各类经典文献。通过OCR(光学字符识别)、句读、实体识别、知识图谱构建等方面的多种技术,实现古籍的智能化整理,让古籍能够以文本的形态加以检索、关联阅读和深度挖掘与利用。这个平台不仅包含了儒家经典、佛学经典、道家经典和文学经典等丰富的内容,还提供了高级检索功能,方便用户快速找到所需的古籍。识典古籍的背景信息显示,它由北京大学-字节跳动数字人文开放实验室共建,显示了其学术性和权威性。平台对公众免费开放,旨在推广和传承中国传统文化。
基于Qwen-Agent的Chrome浏览器插件,提供网页和文档讨论、记录及自动化写作功能。
BrowserQwen是一个Chrome浏览器插件,基于Qwen-Agent开发,主要功能包括与Qwen进行当前网页或PDF文档的讨论、记录浏览的网页和PDF/Word/PPT材料以帮助用户理解和总结浏览内容、以及自动化写作任务。此外,它还集成了包括代码解释器在内的插件,用于解决数学问题和数据可视化。BrowserQwen通过提供这些功能,增强了用户对信息的处理能力和创作效率,尤其在学术研究和内容创作领域具有重要价值。产品背景基于提升用户在数字时代的信息处理和创作能力,价格方面,BrowserQwen作为一个开源项目,对用户是免费的。
科学文献综合评估平台
ScholarQABench是一个用于测试大型语言模型(LLMs)在协助研究人员进行科学文献综合方面能力的综合评估平台。它来源于OpenScholar项目,提供了一个全面的评估框架,包括多个数据集和评估脚本,以衡量模型在不同科学领域的表现。该平台的重要性在于它能够帮助研究人员和开发者理解并提升语言模型在科学文献研究中的实用性和准确性。
统一接口访问多个生成式AI服务
aisuite是一个提供简单、统一接口以访问多个生成式AI服务的产品。它允许开发者通过标准化的接口使用多个大型语言模型(LLM),并比较结果。作为一个轻量级的Python客户端库包装器,aisuite使得创作者可以在不改变代码的情况下,无缝切换并测试来自不同LLM提供商的响应。目前,该库主要关注聊天完成功能,并计划在未来扩展更多用例。
利用生成式AI技术,快速将文本转化为动画。
text2motion.ai是一个利用生成式人工智能技术,将文本内容快速转化为动画的平台。它通过简化动画制作过程,降低了对专业技能和昂贵设备的需求,使得从独立开发者到专业动画师都能在短时间内将角色赋予生命。该平台提供REST APIs和多种集成方式,支持用户在自己喜欢的工具和工作流程中使用。
一站式OCR代理,快速从图像中生成洞见。
TurboLens是一个集OCR、计算机视觉和生成式AI于一体的全功能平台,它能够自动化地从非结构化图像中快速生成洞见,简化工作流程。产品背景信息显示,TurboLens旨在通过其创新的OCR技术和AI驱动的翻译及分析套件,从印刷和手写文档中提取定制化的洞见。此外,TurboLens还提供了数学公式和表格识别功能,将图像转换为可操作的数据,并将数学公式翻译成LaTeX格式,表格转换为Excel格式。产品价格方面,TurboLens提供免费和付费两种计划,满足不同用户的需求。
2024年AI信息热点汇聚平台
Hot AI Informations是一个专注于提供2024年AI领域最新信息的平台,包括AI模型比较、AI论文列表、AI新闻列表和AI工具列表。该平台通过聚合和展示AI领域的最新研究成果、行业动态和工具资源,为研究人员、开发者和对AI感兴趣的用户提供了一个宝贵的信息来源。平台的主要优点在于其信息的时效性和全面性,能够帮助用户快速把握AI领域的最新发展。
PDF 科学论文翻译与双语对比工具
基于 Python 开发,遵循 AGPL-3.0 开源许可证。可对 PDF 科学论文全文双语翻译,保留公式图表和目录结构,支持多种翻译服务。它支持多种翻译服务,如Google、DeepL、Ollama和OpenAI,使用户能够根据需要选择合适的翻译服务。该工具的主要优点在于它能够在翻译过程中完整保留PDF的排版,这对于学术研究和文档翻译尤为重要。
© 2025 AIbase 备案号:闽ICP备08105208号-14