需求人群:
"用于生成三角网格,用于形状补全和3D场景的3D资产生成"
使用场景示例:
用于生成游戏场景中的地形和建筑
用于生成动画和特效中的角色模型
用于工程设计中的CAD模型生成
产品特色:
从训练好的变压器模型中生成三角网格
生成干净、连贯、紧凑的网格
具有清晰的边缘和高保真度
浏览量:42
最新流量情况
月访问量
3117
平均访问时长
00:00:09
每次访问页数
1.18
跳出率
43.82%
流量来源
直接访问
42.64%
自然搜索
42.30%
邮件
0.12%
外链引荐
8.43%
社交媒体
5.64%
展示广告
0
截止目前所有流量趋势图
使用解码器-仅变压器生成三角网格
MeshGPT通过自回归地从经过训练以生成来自学习几何词汇的标记的变压器模型中采样来创建三角网格。这些标记然后可以被解码成三角网格的面。我们的方法生成干净、连贯和紧凑的网格,具有清晰的边缘和高保真度。MeshGPT在形状覆盖率上表现比现有的网格生成方法有显著改进,各种类别的FID得分提高了30个点。
ComfyUI 3D处理插件包
ComfyUI-3D-Pack是一个强大的3D处理插件集合,它为ComfyUI提供了处理3D模型(网格、纹理等)的能力,集成了各种前沿3D重建和渲染算法,如3D高斯采样、NeRF不同iable渲染等,可以实现单视角图像快速重建3D高斯模型,并可转换为三角网格模型,同时还提供了交互式3D可视化界面。
患者、保险、牙医三角关系的AI解决方案
StrAIberry是患者、保险、牙医三角关系的AI解决方案,可以组织和解决个人口腔卫生、预约设置、牙医的第二意见、保险欺诈和风险管理等问题,节省成本、时间和纸张浪费。
小型语言模型结合增强视觉词汇
Vary-toy是一个小型Vary模型,基于Qwen-1.8B作为基础“大”语言模型。Vary-toy引入了改进的视觉词汇,使模型不仅具备Vary的所有特性,还具有更广泛的泛化能力。具体来说,在生成视觉词汇的过程中,我们用目标检测驱动的正样本数据替换自然图像的负样本,更充分地利用了词汇网络的容量,使其能够高效地编码与自然物体对应的视觉信息。在实验中,Vary-toy在DocVQA上实现了65.6%的ANLS,在ChartQA上实现了59.1%的准确率,在RefCOCO上实现了88.1%的准确率,在MMVet上实现了29%的准确率。定价:免费试用,付费版本定价待定。定位:为研究人员提供在资源有限的情况下在普通GPU上训练和部署LVLMs的解决方案。
高保真几何渲染
这款产品是一种3D GAN技术,通过学习基于神经体积渲染的方法,能够以前所未有的细节解析细粒度的3D几何。产品采用学习型采样器,加速3D GAN训练,使用更少的深度采样,实现在训练和推断过程中直接渲染完整分辨率图像的每个像素,同时学习高质量的表面几何,合成高分辨率3D几何和严格视角一致的图像。产品在FFHQ和AFHQ上展示了最先进的3D几何质量,为3D GAN中的无监督学习建立了新的标准。
AlphaGeometry: AI解决几何问题的突破
AlphaGeometry是一个超越了现有技术水平的几何问题AI系统,它通过结合神经语言模型的预测能力和规则驱动的推理引擎,能够解决复杂的几何问题。该系统采用神经符号学方法,由神经语言模型和符号推理引擎组成,共同寻找复杂几何定理的证明。通过生成10亿个随机几何对象图形,并从中推导出所有的关系,最终得到了1亿个独特的训练样本,其中900万个包含了额外的构造。AlphaGeometry的语言模型能够在面对国际数学奥林匹克竞赛的几何问题时做出良好的建议。该系统已经成为世界上第一个能够达到国际数学奥林匹克竞赛铜牌水平的AI模型。
智能词汇搜索工具
Word Genie是一款智能词汇搜索工具,能够快速准确地帮助用户找到他们想要的词汇及相关信息。该产品具有强大的搜索功能,用户可以轻松地查找同义词、反义词、词根、词源等词汇信息。Word Genie定位于提升用户写作效率,提供高效的词汇查询服务。产品定价灵活多样,适合个人用户及企业用户。
让几何形状与艺术相结合的创意工具
GEOMETRIK是一个让用户可以通过几何形状与艺术相结合的创意工具。它提供了丰富的几何图形、色彩和效果选项,帮助用户快速创建独特的艺术作品。GEOMETRIK具有直观的界面和强大的编辑功能,使用户能够自由发挥创意,并实现自己的设计想法。无论是专业设计师还是艺术爱好者,都可以通过GEOMETRIK轻松地创造出令人惊叹的艺术品。该产品定价为每月20美元,适合个人和小型设计团队使用。
城市级NeRF实景三维大模型,沉浸式体验。
书生·天际LandMark是一个基于NeRF技术的实景三维大模型,它实现了100平方公里的4K高清训练,具备实时渲染和自由编辑的能力。这项技术代表了城市级三维建模和渲染的新高度,具有极高的训练和渲染效率,为城市规划、建筑设计和虚拟现实等领域提供了强大的工具。
多目标3D网格变形技术
MeshUp是一种先进的3D网格变形技术,它能够将源网格变形为多个目标概念,并且可以直观地控制每个概念表达的区域。这项技术允许用户通过文本查询或图像来定义概念,并且可以选择网格上的任意数量的顶点来选择局部区域。MeshUp通过一种新颖的得分蒸馏方法——混合得分蒸馏(Blended Score Distillation, BSD)来有效地控制概念的影响并将它们混合在一起。BSD在去噪U-Net的每个注意力层上操作,提取并注入每个目标的激活,从而计算出变形梯度。此外,MeshUp还创建了一个概率性的兴趣区域(Region of Interest, ROI),将其转化为3D一致的掩码,以控制这些激活的表达。MeshUp在多个方面超越了现有的文本到3D生成模型,提供了更好的三角剖分和几何细节,并且是首个支持局部变形能力的方法。
AI 文本摘要器 HIX Summarizer 可即时总结文章。
HIX 总结器是一个 AI 文本摘要器,能够将冗长复杂的内容转变为简短摘要,节省时间,提高效率。其主要优点在于快速、精准地总结文章、文档和 YouTube 视频,适用于快速获取信息的生产力工具。
通过词汇AI联想测试探索潜意识
Jung Words是一个基于瑞士著名心理学家卡尔·荣格理论的词汇联想测试产品。它可以帮助用户深入探索潜意识,进行自我发现之旅。用户只需输入第一个蹦入脑海的词语,就可以解锁潜意识,洞悉内心思想。该产品具有简单易用、轻松有趣的互动方式,让用户在玩乐中完成自我ANALYSIS。它适用于各种年龄段的用户,可以用来放松心情,也可以作为了解自我的工具。
提供全新角度的汉语词汇解释
汉语新解是一个专注于对汉语词汇进行创新性解释的平台,它通过幽默、讽刺的方式,为传统的汉语词汇赋予了新的含义和生命力。这个平台不仅能够增加语言学习的趣味性,还能帮助用户从不同角度理解汉语词汇,拓宽思维。
提升英语词汇量,实现渐进式和可持续的词汇增长
混阅是一个利用先进的LLM技术,将中文网页文章转换为中英混合文章的阅读工具。它强调在真实语境中理解和运用单词,帮助用户在阅读中文的同时,提升英语词汇量,实现渐进式和可持续的词汇增长。混阅的设计灵感来源于大语言模型的工作原理,保留了充足的中文上下文,使用户能够在阅读时轻松预测和理解英文单词的含义。
控制视频生成模型
传统的3D内容创作工具赋予用户直接控制场景的几何形状、外观、动作和摄像机路径,从而将他们的想象变为现实。然而,创建计算机生成的视频是一个繁琐的手动过程,可以通过新兴的文本到视频扩散模型实现自动化。尽管前景广阔,视频扩散模型难以控制,限制了用户应用自己的创造力,而不是放大它。为了解决这一挑战,我们提出了一种新颖的方法,将动态3D网格的可控性与新兴扩散模型的表现力和可编辑性相结合。为此,我们的方法以动画化的低保真度渲染网格作为输入,并将从动态网格获得的地面真实对应信息注入预训练的文本到图像生成模型的各个阶段,以输出高质量和时间一致的帧。我们在各种示例上演示了我们的方法,其中动作可以通过对绑定资产进行动画化或改变摄像机路径来获得。
实时开放词汇物体检测
YOLO-World是一款先进的实时开放词汇物体检测器,基于You Only Look Once (YOLO)系列检测器,并通过视觉-语言建模和大规模数据集的预训练,增强了开放词汇检测能力。其采用新的可重新参数化的视觉-语言路径聚合网络(RepVL-PAN)和区域-文本对比损失,促进了视觉和语言信息之间的交互。YOLO-World在零-shot方式下高效地检测各种对象,具有高效率。在具有挑战性的LVIS数据集上,YOLO-World在V100上实现了35.4 AP和52.0 FPS,在准确性和速度方面均优于许多最新方法。此外,经过微调的YOLO-World在多项下游任务上表现出色,包括物体检测和开放词汇实例分割。
浏览器AI助手,提升工作学习效率
豆包浏览器插件旨在通过AI技术提升用户的工作效率和学习效率。它具备快速视频与一键从网页、PDF和视频中总结并生成亮点的功能,同时支持在网页任意地方划词进行全方位AI搜索。此外,它还提供全文对照翻译功能,帮助用户在阅读外文资料时更轻松地理解内容。豆包插件的设计理念是将AI技术与日常使用场景相结合,让用户在进行网页浏览、文档阅读和视频观看时能够更加便捷地获取信息和知识。
智能双语翻译,助力词汇记忆
Relingo是一款专注于提升用户英语词汇记忆能力的教育类APP。它通过在用户阅读和观看视频时自动高亮生词并提供翻译,帮助用户在感兴趣的内容中轻松积累单词。产品支持多种语言,包括中文、英文、日文等,覆盖了全文翻译、视频双语字幕、PDF阅读等多种场景,使用户在沉浸式翻译中提升语言能力。
通过故事了解古兰经并学习古兰经中的新词汇!
Quran Stories是一个通过故事了解古兰经的学习平台。它利用人工智能生成图像来辅助记忆,通过故事来帮助学习者理解古兰经中的词汇。通过分解复杂的故事为可管理的课程,学习者可以按照自己的节奏进行学习。该平台提供了许多古兰经故事,以及听故事的朗诵,使学习过程更加身临其境。通过提供有趣的学习活动,如测验、单词游戏和重复技巧,使学习过程更有趣并加强记忆。
时序预测的解码器基础模型
TimesFM是一款基于大型时序数据集预训练的解码器基础模型,具有200亿参数。相较于大型语言模型,虽然规模较小,但在不同领域和时间粒度的多个未见数据集上,其零-shot性能接近最先进的监督方法。TimesFM无需额外训练即可提供出色的未见时间序列预测。
在浏览网页时提高英语词汇量
Elia是一款适用于忙碌日程的高级英语学习者的工具。它可以帮助您以更高级的方式表达相同的意思,避免尴尬的错误,并增加您的词汇量。Elia会标记适合您水平的有用单词,您可以查找新单词并通过练习来学习它们。Elia将您喜爱的网页转变为学习机会,让您能够在上下文中学习新单词,提高记忆和回忆能力。
一款智能词汇联想游戏,通过词汇之间的关联来连接起点词和目标词。
WordPath 是一款基于词汇联想的智能游戏,旨在通过有趣的词汇连接挑战锻炼玩家的思维能力和语言知识。它利用先进的语言模型技术,为玩家提供丰富多样的词汇联想路径选择,帮助玩家拓展词汇量、提升思维灵活性。该产品以趣味的游戏形式,将语言学习与智力挑战相结合,适合不同年龄段的用户在休闲娱乐中提升语言能力。目前,产品以网站形式提供服务,用户无需下载安装,即可随时随地通过浏览器访问体验。其主要面向对语言学习感兴趣、喜欢智力挑战的用户群体,具有较高的趣味性和教育意义。
深度学习驱动的三维重建技术
VGGSfM是一种基于深度学习的三维重建技术,旨在从一组不受限制的2D图像中重建场景的相机姿态和3D结构。该技术通过完全可微分的深度学习框架,实现端到端的训练。它利用深度2D点跟踪技术提取可靠的像素级轨迹,同时基于图像和轨迹特征恢复所有相机,并通过可微分的捆绑调整层优化相机和三角化3D点。VGGSfM在CO3D、IMC Phototourism和ETH3D三个流行数据集上取得了最先进的性能。
CRM是一个高保真的单图像到3D纹理网格的卷积重建模型
CRM是一个高保真的单图像到3D纹理网格的生成模型,它通过整合几何先验到网络设计中,能够从单个输入图像生成六个正交视图图像,然后利用卷积U-Net创建高分辨率的三平面(triplane)。CRM进一步使用Flexicubes作为几何表示,便于在纹理网格上进行直接的端到端优化。整个模型能够在10秒内从图像生成高保真的纹理网格,无需测试时优化。
高效处理长文本的双向编码器模型
ModernBERT-base是一个现代化的双向编码器Transformer模型,预训练于2万亿英文和代码数据,原生支持长达8192个token的上下文。该模型采用了Rotary Positional Embeddings (RoPE)、Local-Global Alternating Attention和Unpadding等最新架构改进,使其在长文本处理任务中表现出色。ModernBERT-base适用于需要处理长文档的任务,如检索、分类和大型语料库中的语义搜索。模型训练数据主要为英文和代码,因此可能在其他语言上的表现会有所降低。
高性能浏览器内语言模型推理引擎
WebLLM是一个高性能的浏览器内语言模型推理引擎,利用WebGPU进行硬件加速,使得强大的语言模型操作可以直接在网页浏览器内执行,无需服务器端处理。这个项目旨在将大型语言模型(LLM)直接集成到客户端,从而实现成本降低、个性化增强和隐私保护。它支持多种模型,并与OpenAI API兼容,易于集成到项目中,支持实时交互和流式处理,是构建个性化AI助手的理想选择。
© 2025 AIbase 备案号:闽ICP备08105208号-14