需求人群:
"评测文本到3D生成模型效果"
使用场景示例:
使用GPTEval3D评测自己训练的3D生成模型
组织多种3D生成模型,使用GPTEval3D进行对比实验
根据研究需要,构建自定义评测集,获得生成模型在该集上的排名
产品特色:
计算生成模型的ELO分数
与现有模型进行对比排名
支持自定义评测数据集
浏览量:128
最新流量情况
月访问量
4.75m
平均访问时长
00:06:34
每次访问页数
6.10
跳出率
36.20%
流量来源
直接访问
52.19%
自然搜索
32.64%
邮件
0.04%
外链引荐
12.93%
社交媒体
2.02%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
14.32%
德国
3.68%
印度
9.04%
俄罗斯
3.92%
美国
19.25%
开源的3D生成模型评价工具
GPTEval3D是一个开源的3D生成模型评价工具,基于GPT-4V实现了对文本到3D生成模型的自动评测。它可以计算生成模型的ELO分数,并与现有模型进行对比排名。该工具简单易用,支持用户自定义评测数据集,可以充分发挥GPT-4V的评测效果,是研究3D生成任务的有力工具。
一个高效的无边界3D城市生成框架,使用3D高斯绘制技术实现快速生成。
GaussianCity是一个专注于高效生成无边界3D城市的框架,基于3D高斯绘制技术。该技术通过紧凑的3D场景表示和空间感知的高斯属性解码器,解决了传统方法在生成大规模城市场景时面临的内存和计算瓶颈。其主要优点是能够在单次前向传递中快速生成大规模3D城市,显著优于现有技术。该产品由南洋理工大学S-Lab团队开发,相关论文发表于CVPR 2025,代码和模型已开源,适用于需要高效生成3D城市环境的研究人员和开发者。
Thoughtflow 是一款基于树状结构的聊天助手,帮助用户以更自然的方式与AI进行互动。
Thoughtflow 是一款创新的AI聊天工具,采用树状结构对话格式,使复杂话题的管理和探索变得直观和有条理。它支持与多种GPT模型的灵活集成,无论是本地运行的Ollama还是通过API连接的OpenAI模型,都能轻松适配。其主要优点在于能够保留上下文的分支探索功能,让用户在不丢失主线的情况下深入探讨细节。Thoughtflow 主要面向学生、思考者、创作者和创新者,旨在通过结构化的对话系统提升创造力和解决问题的能力。目前,该产品通过App Store提供下载,具体价格未明确提及。
一个用于可视化和探索微软GraphRAG工具的网络工具。
GraphRAG Visualizer是一个基于网络的工具,旨在可视化和探索微软GraphRAG工具产生的数据。GraphRAG是微软开发的一种用于生成图结构数据的技术,GraphRAG Visualizer通过让用户上传parquet文件,无需额外软件或脚本即可轻松查看和分析数据。该工具的主要优点包括图形可视化、数据表格展示、搜索功能以及本地处理数据,确保数据安全和隐私。
3D生成模型,实现高质量多样化的3D资产创建
TRELLIS是一个基于统一结构化潜在表示和修正流变换器的原生3D生成模型,能够实现多样化和高质量的3D资产创建。该模型通过整合稀疏的3D网格和从强大的视觉基础模型提取的密集多视图视觉特征,全面捕获结构(几何)和纹理(外观)信息,同时在解码过程中保持灵活性。TRELLIS模型能够处理高达20亿参数,并在包含50万个多样化对象的大型3D资产数据集上进行训练。该模型在文本或图像条件下生成高质量结果,显著超越现有方法,包括规模相似的最近方法。TRELLIS还展示了灵活的输出格式选择和局部3D编辑能力,这些是以前模型所没有提供的。代码、模型和数据将被发布。
AI系统从单张图片生成3D世界
这是一个能够从单张图片生成3D世界的AI系统,它允许用户进入任何图片并进行3D探索。这项技术改善了控制和一致性,将改变我们制作电影、游戏、模拟器以及其他数字表现形式的方式。它代表了空间智能的第一步,通过在浏览器中实时渲染生成的世界,用户可以体验不同的相机效果、3D效果,并深入探索经典画作。
生成任何3D和4D场景的先进框架
GenXD是一个专注于3D和4D场景生成的框架,它利用日常生活中常见的相机和物体运动来联合研究一般的3D和4D生成。由于社区缺乏大规模的4D数据,GenXD首先提出了一个数据策划流程,从视频中获取相机姿态和物体运动强度。基于此流程,GenXD引入了一个大规模的现实世界4D场景数据集:CamVid-30K。通过利用所有3D和4D数据,GenXD框架能够生成任何3D或4D场景。它提出了多视图-时间模块,这些模块分离相机和物体运动,无缝地从3D和4D数据中学习。此外,GenXD还采用了掩码潜在条件,以支持多种条件视图。GenXD能够生成遵循相机轨迹的视频以及可以提升到3D表示的一致3D视图。它在各种现实世界和合成数据集上进行了广泛的评估,展示了GenXD在3D和4D生成方面与以前方法相比的有效性和多功能性。
腾讯推出的3D生成框架,支持文本和图像到3D的生成。
Hunyuan3D-1是腾讯推出的一个统一框架,用于文本到3D和图像到3D的生成。该框架采用两阶段方法,第一阶段使用多视图扩散模型快速生成多视图RGB图像,第二阶段通过前馈重建模型快速重建3D资产。Hunyuan3D-1.0在速度和质量之间取得了令人印象深刻的平衡,显著减少了生成时间,同时保持了生成资产的质量和多样性。
首个同时支持文生和图生的3D开源模型
腾讯混元3D是一个开源的3D生成模型,旨在解决现有3D生成模型在生成速度和泛化能力上的不足。该模型采用两阶段生成方法,第一阶段使用多视角扩散模型快速生成多视角图像,第二阶段通过前馈重建模型快速重建3D资产。混元3D-1.0模型能够帮助3D创作者和艺术家自动化生产3D资产,支持快速单图生3D,10秒内完成端到端生成,包括mesh和texture提取。
从单目视频生成高质量4D对象的新型框架
DreamMesh4D是一个结合了网格表示与稀疏控制变形技术的新型框架,能够从单目视频中生成高质量的4D对象。该技术通过结合隐式神经辐射场(NeRF)或显式的高斯绘制作为底层表示,解决了传统方法在空间-时间一致性和表面纹理质量方面的挑战。DreamMesh4D利用现代3D动画流程的灵感,将高斯绘制绑定到三角网格表面,实现了纹理和网格顶点的可微优化。该框架开始于由单图像3D生成方法提供的粗糙网格,通过均匀采样稀疏点来构建变形图,以提高计算效率并提供额外的约束。通过两阶段学习,结合参考视图光度损失、得分蒸馏损失以及其他正则化损失,实现了静态表面高斯和网格顶点以及动态变形网络的学习。DreamMesh4D在渲染质量和空间-时间一致性方面优于以往的视频到4D生成方法,并且其基于网格的表示与现代几何流程兼容,展示了其在3D游戏和电影行业的潜力。
利用扩散变换器生成高质量的3D资产。
3DTopia-XL 是一个基于扩散变换器(DiT)构建的高质量3D资产生成技术,使用一种新颖的3D表示方法 PrimX。该技术能够将3D形状、纹理和材质编码到一个紧凑的N x D张量中,每个标记是一个体积原语,锚定在形状表面上,用体素化载荷编码符号距离场(SDF)、RGB和材质。这一过程仅需5秒即可从文本/图像输入生成3D PBR资产,适用于图形管道。
基于参考增强扩散的3D内容生成模型
Phidias是一个创新的生成模型,它利用扩散技术进行参考增强的3D生成。该模型通过图像、文本或3D条件生成高质素的3D资产,并且能够在几秒钟内完成。它通过整合三个关键组件:动态调节条件强度的Meta-ControlNet、动态参考路由以及自参考增强,显著提高了生成质量、泛化能力和可控性。Phidias为使用文本、图像和3D条件进行3D生成提供了统一框架,并具有多种应用场景。
一站式AI工具导航平台,探索人工智能的无限可能。
AI问我是一个集合了多种人工智能工具的导航平台,它为用户展示了从AI写作、设计、编程到娱乐和教育等多个领域的AI工具。该平台通过提供丰富的AI工具列表,帮助用户快速找到适合自己需求的AI解决方案,无论是提高工作效率、创造艺术作品还是进行学术研究,都能在这里找到合适的工具。AI问我的背景信息显示,它旨在为用户提供一个安全、便捷、内容广泛的AI工具搜索和使用环境。
使GPT开发者在OpenAI商店中获得更好的排名和收益
GPT Builder Tools是一个为GPT开发者提供的工具平台,旨在帮助他们通过分析、支付和营销工具来提升其GPT在OpenAI商店中的排名和吸引更多用户。该平台支持开发者追踪GPT的性能,吸引更多用户,并在OpenAI商店中实现GPT的货币化。此外,它还提供了一个分析仪表板,让开发者更好地理解他们的用户群体,从而优化GPT的用户体验和市场表现。
人工智能工具和服务的精选目录。
AllThingsAI是一个精心策划的AI工具和服务目录,致力于帮助用户在AI领域的复杂世界中导航。该平台通过专家团队的测试、审查和推荐,为用户提供最优质的AI驱动工具。它强调了人类主导的AI工具测试方法,使其成为该领域中最受信赖的评测网站。
AI工具目录平台,发现和探索AI工具。
ToolPilot AI是一个AI工具目录平台,它为用户提供了一个集中的中心,用于发现和探索各种AI驱动的工具和资源。该平台的特色是拥有多样化的工具集合,这些工具利用人工智能来提高生产力、自动化流程,并在各个行业中推动创新。
一站式数据处理系统,为大型语言模型提供高质量数据。
Data-Juicer 是一个一站式的多模态数据处理系统,旨在为大型语言模型(LLMs)提供更高质量、更丰富、更易消化的数据。它提供了一个系统化和可复用的数据处理库,支持数据与模型的协同开发,通过沙盒实验室实现快速迭代,并提供基于数据和模型的反馈循环、可视化和多维度自动评估等功能,帮助用户更好地理解和改进他们的数据和模型。Data-Juicer 正在积极更新和维护,定期增强和添加更多功能、数据配方和数据集。
3D生成模型的创新突破
VFusion3D是一种基于预训练的视频扩散模型构建的可扩展3D生成模型。它解决了3D数据获取困难和数量有限的问题,通过微调视频扩散模型生成大规模合成多视角数据集,训练出能够从单张图像快速生成3D资产的前馈3D生成模型。该模型在用户研究中表现出色,用户超过90%的时间更倾向于选择VFusion3D生成的结果。
开源AI搜索引擎框架,性能媲美Perplexity.ai Pro。
MindSearch是一个基于大型语言模型(LLM)的多智能体网络搜索引擎框架,具有与Perplexity.ai Pro相似的性能。用户可以轻松部署自己的搜索引擎,支持闭源大型语言模型(如GPT、Claude)或开源大型语言模型(如InternLM2.5-7b-chat)。它具备以下特点:能够解决生活中的任何问题,利用网络知识提供深入和广泛的知识库答案;展示详细的解决方案路径,提高最终响应的可信度和可用性;提供优化的UI体验,包括React、Gradio、Streamlit和Terminal等多种接口;动态构建图谱,将用户查询分解为图谱中的原子子问题,并根据WebSearcher的搜索结果逐步扩展图谱。
通过GPT等大型语言模型与你的文档对话
IncarnaMind是一个开源项目,旨在通过大型语言模型(LLMs)如GPT、Claude和本地开源LLMs,实现与个人文档(PDF、TXT)的交互对话。该项目利用滑动窗口分块机制和集成检索器,提高查询效率,增强LLMs的准确性。它支持多文档对话问答,突破了单文档限制,并兼容多种文件格式和LLM模型。
Windows/macOS GPT 客户端
Cherry Studio 是一款适用于 Windows 和 macOS 的 GPT 客户端软件,支持 Intel 和 Apple Silicon 架构。它通过提供高效的 GPT 交互体验,帮助用户在多种场景下提升工作效率。
提供多个GPT账号,方便用户访问和使用。
这是一个提供GPT账号共享服务的网站,用户可以通过点击页面上的账号ID直接访问GPT服务。每个账号都有使用次数限制,并且可以通过设置密码来隔离对话,确保对话的私密性。该服务特别适合需要频繁使用GPT进行对话的用户,尤其是那些希望保护对话内容不被他人查看的用户。
AI原生数据应用开发框架
DB-GPT是一个开源的AI原生数据应用开发框架,利用AWEL(Agentic Workflow Expression Language)和代理(agent)技术,简化了大型模型应用与数据的结合。它通过多模型管理、Text2SQL效果优化、RAG框架优化、多代理框架协作等技术能力,使企业和开发者能够以更少的代码构建定制化应用。DB-GPT在数据3.0时代,基于模型和数据库,为构建企业级报告分析和业务洞察提供了基础数据智能技术。
一个开放平台,用于日常使用的语言代理。
OpenAgents是一个开放平台,旨在使用户和开发者能够在日常生活中使用和托管语言代理。该平台已经实现了三种代理:数据分析的Data Agent、集成200+日常工具的Plugins Agent和自动网页浏览的Web Agent。OpenAgents通过优化的Web UI使普通用户能够与代理功能进行交互,同时为开发者和研究人员提供在本地设置上的无缝部署体验,为创新语言代理的构建和现实世界评估提供了基础。
基于ChatTTS模型的文本到语音转换项目
ChatTTS-Forge是一个围绕TTS生成模型ChatTTS开发的项目,实现了API服务器和基于Gradio的WebUI,能够提供全面的API服务,支持生成1000字以上的长文本,保持一致性,并通过内置32种不同风格进行风格管理。
一种通过3D感知递归扩散生成3D模型的框架
Ouroboros3D是一个统一的3D生成框架,它将基于扩散的多视图图像生成和3D重建集成到一个递归扩散过程中。该框架通过自条件机制联合训练这两个模块,使它们能够相互适应,以实现鲁棒的推理。在多视图去噪过程中,多视图扩散模型使用由重建模块在前一时间步渲染的3D感知图作为附加条件。递归扩散框架与3D感知反馈相结合,提高了整个过程的几何一致性。实验表明,Ouroboros3D框架在性能上优于将这两个阶段分开训练的方法,以及在推理阶段将它们结合起来的现有方法。
为Windows、macOS和Ubuntu提供GPT计算机助手
gpt-computer-assistant是一个为Windows、macOS和Ubuntu操作系统设计的应用程序,旨在提供一个替代的ChatGPT应用。它允许用户通过Python库轻松安装,并计划提供原生安装脚本(.exe)。该产品由Upsonic Tiger支持,是一个为大型语言模型(LLM)代理提供功能中心的平台。产品的主要优点包括跨平台兼容性、易于安装和使用,以及未来将支持本地模型。
ChatGPT的超能力版本,具有文件夹、搜索、GPT商店、图像库、语音GPT、导出、自定义提示、提示链、隐藏模型等功能。
Superpower ChatGPT是一款功能强大的聊天插件,使用GPT技术实现智能对话。它提供了许多强大的功能,包括文件夹管理、搜索功能、GPT商店、图像库、语音GPT等。它能够帮助用户更高效地进行聊天和交流,提供智能的回答和建议。
© 2025 AIbase 备案号:闽ICP备08105208号-14