DiffSplat 是一个从文本提示和单视图图像生成 3D 高斯点云的生成框架。
DiffSplat 是一种创新的 3D 生成技术,能够从文本提示和单视图图像快速生成 3D 高斯点云。该技术通过利用大规模预训练的文本到图像扩散模型,实现了高效的 3D 内容生成。它解决了传统 3D 生成方法中数据集有限和无法有效利用 2D 预训练模型的问题,同时保持了 3D 一致性。DiffSplat 的主要优点包括高效的生成速度(1~2 秒内完成)、高质量的 3D 输出以及对多种输入条件的支持。该模型在学术研究和工业应用中具有广泛前景,尤其是在需要快速生成高质量 3D 模型的场景中。
网易有道开发的轻量级推理模型,可在单个GPU上部署,具备类似o1的推理能力。
Confucius-o1-14B是由网易有道团队开发的推理模型,基于Qwen2.5-14B-Instruct优化而成。它采用两阶段学习策略,能够自动生成推理链,并总结出逐步的问题解决过程。该模型主要面向教育领域,尤其适合K12数学问题的解答,能够帮助用户快速获取正确解题思路和答案。模型具备轻量化的特点,无需量化即可在单个GPU上部署,降低了使用门槛。其推理能力在内部评估中表现出色,为教育领域的AI应用提供了强大的技术支持。
从日常动态视频中快速、准确地估计相机和密集结构
MegaSaM是一个系统,它允许从动态场景的单目视频中准确、快速、稳健地估计相机参数和深度图。该系统突破了传统结构从运动和单目SLAM技术的局限,这些技术通常假设输入视频主要包含静态场景和大量视差。MegaSaM通过深度视觉SLAM框架的精心修改,能够扩展到真实世界中复杂动态场景的视频,包括具有未知视场和不受限制相机路径的视频。该技术在合成和真实视频上的广泛实验表明,与先前和并行工作相比,MegaSaM在相机姿态和深度估计方面更为准确和稳健,运行时间更快或相当。
从单张图片创建全身动态说话头像
One Shot, One Talk 是一种基于深度学习的图像生成技术,它能够从单张图片中重建出具有个性化细节的全身动态说话头像,并支持逼真的动画效果,包括生动的身体动作和自然的表情变化。这项技术的重要性在于它极大地降低了创建逼真、可动的虚拟形象的门槛,使得用户可以仅通过一张图片就能生成具有高度个性化和表现力的虚拟形象。产品背景信息显示,该技术由来自中国科学技术大学和香港理工大学的研究团队开发,结合了最新的图像到视频扩散模型和3DGS-mesh混合头像表示,通过关键的正则化技术来减少由不完美标签引起的不一致性。
将Slack对话瞬间转化为JIRA任务
Skipper AI是一个生产力工具,它通过无缝连接Slack和Jira,改变了团队创建工单的方式。只需@Skipper,即可创建工单,无需切换上下文。它使用对话来添加详细的问题信息,自动分配史诗、被分配人和故事类型,并能分析图像、PDF等。Skipper AI支持加密PII,确保数据安全。
从单目视频重建时间一致的4D人体模型
DressRecon是一个用于从单目视频重建时间一致的4D人体模型的方法,专注于处理非常宽松的服装或手持物体交互。该技术结合了通用的人体先验知识(从大规模训练数据中学习得到)和针对单个视频的特定“骨骼袋”变形(通过测试时优化进行拟合)。DressRecon通过学习一个神经隐式模型来分离身体与服装变形,作为单独的运动模型层。为了捕捉服装的微妙几何形状,它利用基于图像的先验知识,如人体姿势、表面法线和光流,在优化过程中进行调整。生成的神经场可以提取成时间一致的网格,或者进一步优化为显式的3D高斯,以提高渲染质量和实现交互式可视化。DressRecon在包含高度挑战性服装变形和物体交互的数据集上,提供了比以往技术更高的3D重建保真度。
高效单遍统一生成和检索框架,适用于大型语言模型。
OneGen是一个为大型语言模型(LLMs)设计的高效单遍生成和检索框架,用于微调生成、检索或混合任务。它的核心思想是将生成和检索任务整合到同一上下文中,通过将检索任务分配给以自回归方式生成的检索令牌,使得LLM能够在单次前向传递中执行两种任务。这种方法不仅降低了部署成本,还显著减少了推理成本,因为它避免了对查询进行两次前向传递计算的需求。
先进的单目深度估计模型
Depth Anything V2 是一个经过改进的单目深度估计模型,它通过使用合成图像和大量未标记的真实图像进行训练,提供了比前一版本更精细、更鲁棒的深度预测。该模型在效率和准确性方面都有显著提升,速度比基于Stable Diffusion的最新模型快10倍以上。
AI客户成功系统
Venixs是一款商业导向的AI客户成功系统,通过无缝集成AI实现卓越的效率和以客户为中心的成功。它重新定义了成功作为持续发展的演变。Venixs提供无缝的支持体验,通过自然直观的交互方式,简化问题解决流程,提供智能的工作流程管理和协作,为团队带来卓越的效率,同时提供定制化的AI响应,满足特定业务需求。定价灵活透明,适应不同规模的团队需求。
动态视角合成的扩散先验模型
本论文提出了一种基于扩散先验的动态视角合成方法,用于从单目视频中生成动态场景的新视角。该方法通过对视频帧进行微调和知识蒸馏,实现了几何一致性和场景一致性。论文通过定性和定量实验评估了方法的有效性和鲁棒性,证明了该方法在复杂场景下的优势。
快速从单视图训练高保真的人体3D高斯模型
Human101是一个快速从单视图重建人体的框架。它能够在100秒内训练3D高斯模型,并以60FPS以上渲染1024分辨率的图像,而无需预先存储每帧的高斯属性。Human101管道如下:首先,从单视图视频中提取2D人体姿态。然后,利用姿态驱动3D模拟器生成匹配的3D骨架动画。最后,基于动画构建时间相关的3D高斯模型,进行实时渲染。
高保真稠密SLAM
Gaussian SLAM能够从RGBD数据流重建可渲染的3D场景。它是第一个能够以照片级真实感重建现实世界场景的神经RGBD SLAM方法。通过利用3D高斯作为场景表示的主要单元,我们克服了以往方法的局限性。我们观察到传统的3D高斯在单目设置下很难使用:它们无法编码准确的几何信息,并且很难通过单视图顺序监督进行优化。通过扩展传统的3D高斯来编码几何信息,并设计一种新颖的场景表示以及增长和优化它的方法,我们提出了一种能够重建和渲染现实世界数据集的SLAM系统,而且不会牺牲速度和效率。高斯SLAM能够重建和以照片级真实感渲染现实世界场景。我们在常见的合成和真实世界数据集上对我们的方法进行了评估,并将其与其他最先进的SLAM方法进行了比较。最后,我们证明了我们得到的最终3D场景表示可以通过高效的高斯飞溅渲染实时渲染。
AI工人,自动化您的浏览器任务
Induced AI是一款AI工人平台,通过在云端运行具有类人推理能力的代理,自动完成浏览器上的手动任务。它可以根据您的工作流程或任务进行描述,上传屏幕录像视频或以文字形式描述任务。您可以安全地授权访问所需的工具,启动工作流程并实时观看远程执行的任务。在任务完成后,您将收到电子邮件通知和请求的数据输出(JSON,CSV,文本等)。Induced AI具有多个功能点,包括按需启动工作人员来委派重复和耗时的工作,内置反机器人检测功能,可运行多个并行的数据采集、自动化操作等工作流程,以及处理CAPTCHA和指纹识别的能力。它还可以自动编写电子邮件、候选人筛选、快速记账、内容抓取、质量保证与测试、自动入职、创建Jira工单、简历筛选、电子邮件摘要等。Induced AI还提供个性化的入职呼叫、定制集成、建立和支持工作流程等服务。该产品由Sam Altman、Nat Friedman、Daniel Gross和Balaji Srinvasan等投资者支持。
Meet your AI Scrum Master
Spinach是专为敏捷开发团队设计的工具。它可以在Slack、Notion或Confluence中提供会议摘要和行动项。根据讨论内容,它还可以为您推荐工单,以保持您的看板最新。它可以与您现有的工具配合使用。
AI助手简化Jira项目的工单创建
TicketGenius是一个AI助手,可简化Jira项目的工单创建。它根据简要描述生成格式完美的用户故事,并可以将现有故事拆分为可管理的部分。此外,它还将现有故事附加到相关的史诗故事中。我们的团队不断添加功能,以实现出色的用户故事。
© 2025 AIbase 备案号:闽ICP备08105208号-14