浏览量:76
最新流量情况
月访问量
69.73k
平均访问时长
00:06:25
每次访问页数
2.90
跳出率
46.67%
流量来源
直接访问
32.21%
自然搜索
54.98%
邮件
1.01%
外链引荐
6.60%
社交媒体
5.20%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
美国
33.35%
意大利
9.36%
丹麦
7.87%
中国
7.87%
Tavus构建了先进的AI模型,包括数字复制、唇同步、配音、文本转视频,通过API为开发者提供访问
Tavus提供了一系列的AI模型,特别是在生成高度逼真的说话头部视频方面,其Phoenix模型通过神经辐射场(NeRFs)技术,能够产生自然面部动作和表情,并与输入同步。开发者可以通过Tavus的API访问这些具有高度真实感和可定制性的视频生成服务。
多视角草图引导的文本到 3D 生成
Sketch2NeRF 是一种多视角草图引导的文本到 3D 生成框架。它通过预训练的 2D 扩散模型(如 Stable Diffusion 和 ControlNet)来优化由神经辐射场(NeRF)表示的 3D 场景。该方法还提出了一种新颖的同步生成和重建方法,以有效优化 NeRF。通过收集的两种多视角草图数据集进行实验评估,证明了我们的方法能够在高保真度的文本提示下合成具有精细草图控制的一致的 3D 内容。广泛的结果表明,我们的方法在草图相似性和文本对齐方面实现了最先进的性能。
从单一视频创建实时互动游戏环境
Video2Game是一项技术,可以将单一视频转换成具有实时、互动、真实感和浏览器兼容性的高质量虚拟环境。它通过构建大规模的NeRF模型来实现高质量的表面几何形状,然后将该模型转换为带有对应刚体动力学的网格表示,以支持交互。使用UV映射的神经纹理,既能表达丰富,又与游戏引擎兼容。最终得到的是一个虚拟环境,虚拟角色可以与之互动,响应用户控制,并能从新的相机视角实时提供高分辨率渲染。
使用频域分解进行高保真、可迁移的NeRF编辑
Freditor是一种基于频域分解的NeRF编辑方法。它可以实现高保真的NeRF场景编辑,并且可迁移到其他场景。该方法将NeRF场景划分为高频和低频两部分,对低频部分进行风格迁移,并将高频细节重新集成,从而生成高保真的编辑结果。Freditor还支持在推理过程中对编辑强度进行控制。实验表明,该方法在保真度和可迁移性方面都优于现有的NeRF编辑方法。
ComfyUI 3D处理插件包
ComfyUI-3D-Pack是一个强大的3D处理插件集合,它为ComfyUI提供了处理3D模型(网格、纹理等)的能力,集成了各种前沿3D重建和渲染算法,如3D高斯采样、NeRF不同iable渲染等,可以实现单视角图像快速重建3D高斯模型,并可转换为三角网格模型,同时还提供了交互式3D可视化界面。
通过文本生成3D场景中的对象插入
InseRF是一种通过文本提示和2D边界框在NeRF重建的3D场景中生成新对象的方法。它能够从用户提供的文本描述和一个参考视点中的2D边界框中生成新的3D对象,并将其插入到场景中。该方法能够在不需要显式3D信息的情况下实现可控的、与3D一致的对象插入。通过在多个3D场景中进行试验,证明了InseRF方法相对于现有方法的有效性。
SIGNeRF - 快速、可控的NeRF场景编辑和场景集成对象生成
SIGNeRF是一种用于快速和可控的NeRF场景编辑以及场景集成对象生成的新方法。它引入了一种新的生成更新策略,确保在编辑图像时保持3D一致性,而无需进行迭代优化。SIGNeRF利用了ControlNet的深度条件图像扩散模型的优势,通过几个简单的步骤在单个前向传递中编辑现有的NeRF场景。它可以生成新的对象到现有的NeRF场景中,也可以编辑已存在的对象,从而实现对场景的精确控制。
大规模实景数据集,用于深度学习三维视觉研究
DL3DV-10K是一个包含超过10000个高质量视频的大规模实景数据集,每个视频都经过人工标注场景关键点和复杂程度,并提供相机姿态、NeRF估计深度、点云和3D网格等。该数据集可用于通用NeRF研究、场景一致性跟踪、视觉语言模型等计算机视觉研究。
高效构建3D语言场
LangSplat通过将CLIP语言嵌入映射到一组3D高斯分布来构建3D语言场,实现了对3D场景进行开放词汇量查询。它避免了NeRF中的昂贵渲染过程,大大提高了效率。学习到的语言特征精确捕捉对象边界,提供了精确的3D语言场,没有需要后处理。LangSplat相比LERF提高了199倍的速度。
ReconFusion: 3D重建与扩散先验
ReconFusion是一种3D重建方法,利用扩散先验在只有少量照片的情况下重建真实世界场景。它结合Neural Radiance Fields(NeRFs)和扩散先验,能够在新的摄像机位置超出输入图像集合的情况下,合成逼真的几何和纹理。该方法通过在少量视图和多视图数据集上训练扩散先验,能够在不受约束的区域合成逼真的几何和纹理,同时保留观察区域的外观。ReconFusion在各种真实世界数据集上进行了广泛评估,包括前向和360度场景,展示出明显的性能改进。
360度全场景生成
ZeroNVS 是一款用于从单张真实图像进行零样本 360 度全景合成的工具。它提供了 3D SDS 蒸馏代码、评估代码和训练好的模型。用户可以使用该工具进行自己的 NeRF 模型蒸馏和评估,并且可以在各种不同的数据集上进行实验。ZeroNVS 具有高质量的合成效果,并且支持自定义的图像数据。该工具主要用于虚拟现实、增强现实和全景视频制作等领域。
编辑3D场景的指令式NeRF编辑器
Instruct-NeRF2NeRF是一款用于编辑NeRF场景的指令式编辑器。它使用图像条件扩散模型(InstructPix2Pix)逐步编辑输入图像,同时优化底层场景,从而得到一个优化的3D场景,该场景符合编辑指令。我们证明了我们的方法能够编辑大规模的现实世界场景,并且能够比之前的工作实现更真实、更有针对性的编辑。
用于高效表示复杂时空信号的残差神经场
ResFields是一类专门设计用于有效表示复杂时空信号的网络。它将时变权重引入多层感知机中,利用可训练的残差参数增强了模型的表达能力。该方法可以无缝集成到现有技术中,并可显著提高各种具有挑战性的任务的结果,如2D视频逼近、动态形状建模和动态NeRF重建等。
用AI和iPhone创建专业的Flythroughs
Flythroughs是一款基于AI和3D生成技术的应用程序,可以帮助用户轻松地创建专业的3D Flythroughs。它采用了世界上最先进的3D生成NeRF技术,可以从视频中生成逼真的3D体验,无需任何培训或特殊设备。Flythroughs还集成了全新的3D相机路径AI,可以一键生成逼真的3D体验。Flythroughs适用于房地产、建筑、旅游、娱乐等领域,可以帮助用户展示空间的流动性和独特之处。
开源框架,用于构建模块化的生产级应用程序。
Cognita 是一个开源框架,用于组织 RAG(Retrieval Augmented Generation)代码库,并提供一个前端界面,以便在不同的 RAG 定制中进行实验。它提供了一种简单的方法来组织代码库,使得在本地测试变得容易,同时也能够部署到生产环境中。Cognita 使用 Langchain/Llamaindex 作为底层技术,并提供了一个组织结构,使得每个 RAG 组件都是模块化的、API 驱动的,并且易于扩展。
Clarity AI提供内置可持续性技术的全面平台,支持各种可持续性用例的数据、方法论和工具
Clarity AI是一个AI驱动的可持续性平台,提供全面的技术构建块,以满足用户在数据、方法论或工具方面的各种可持续性需求。平台具有数字原生能力和完全模块化的基础设施,用户可以根据自己的特定需求选择使用全部或部分可持续性技术。
文档理解的模块化多模态大语言模型
mPLUG-DocOwl 是一款用于文档理解的模块化多模态大语言模型,能够处理 OCR-free 文档理解任务。该模型具有出色的性能表现,支持文档视觉问答、信息问答、图表问答等多种任务。用户可以通过模型提供的在线演示来体验其强大功能。
基于人工智能生成及查询不断扩展的知识图谱的概念证明
MindGraph是一个开源、API优先的基于图形的项目原型,旨在实现自然语言交互(输入和输出)。它可作为构建和定制自己的CRM解决方案的模板,重点是易于集成和可扩展性。主要功能包括:实体管理、集成触发器、搜索功能、人工智能整备。它采用模块化架构,通过集成管理器动态注册和执行各种集成函数,使其具有无缝集成人工智能功能的能力。它支持灵活的数据库集成,包括内存数据库和云数据库NexusDB。再加上基于模式的知识图谱创建,使其能够自动从自然语言输入中生成结构化数据。
构建企业级生成式AI应用程序
Promptly是一款企业级生成式AI应用程序构建平台,无需编码即可快速构建生成式AI应用、代理和聊天机器人。您可以使用Promptly的模块化平台从原型到生产部署您的AI应用,无缝集成自己的数据和基于GPT的模型。
AI模型开发与部署
Visnet是一个全面的、无头的、多兼容的神经网络接口框架,主要用于自然语言处理和深度视觉系统。它具有模块化的前端、无服务器架构和多兼容性,并提供了REST API和Websocket接口。它包含了多个核心AI模型,如翻译、车牌识别和人脸特征匹配等。Visnet可广泛应用于监控、无人机检测、图像和视频分析等领域。
开放式基于提示的图像生成
GLIGEN是一个开放式的基于文本提示的图像生成模型,它可以基于文本描述和边界框等限定条件生成图像。该模型通过冻结预训练好的文本到图像Diffusion模型的参数,并在其中插入新的数据来实现。这种模块化设计可以高效地进行训练,并具有很强的推理灵活性。GLIGEN可以支持开放世界的有条件图像生成,对新出现的概念和布局也具有很强的泛化能力。
将大型语言模型和聊天引入到 Web 浏览器中
Web LLM 是一个模块化、可定制的 JavaScript 包,可直接将语言模型聊天引入到 Web 浏览器中。一切都在浏览器内部运行,无需服务器支持,并且通过 WebGPU 进行加速。它可以为大家构建 AI 助手提供很多有趣的机会,并在享受 GPU 加速时保护隐私。此项目是 MLC LLM 的附属项目,MLC LLM 可以在 iPhone 和其他本地环境中本地运行 LLM。
灵活、可共享、可重复使用的生成式AI数据准备和评估工具
Unitxt是一款创新的库,专为生成式语言模型量身定制,用于定制文本数据准备和评估。Unitxt与HuggingFace和LM-eval-harness等常用库进行原生集成,并将处理流程拆分为模块化组件,实现了易定制和共享。这些组件包括模型特定格式、任务提示等全面的数据集处理定义。Unitxt-Catalog集中了这些组件,促进了现代文本数据工作流中的协作和探索。除了是一款工具,Unitxt还是一个社区驱动的平台,赋予用户协作构建、分享和推进他们的数据流水线的能力。
开放式机器人整合框架,实现家居物品搬运。
OK-Robot是一个开放的模块化框架,实现了在任意家居环境下根据语言指令进行零样本物品搬运任务。该框架采用了模块化设计,使用3D VoxelMap进行开放词汇的导航,AnyGrasp和LangSam进行开放词汇的抓取,以及放置原语进行物品放置。框架不需要预先训练,可以实现语言指令的零样本泛化。
Voxos - 多功能桌面语音助手
Voxos 是一款多功能且用户友好的桌面语音助手,可将LLM集成到日常工作流程中,相比于使用Web UI访问LLM,它更加简化。它非常适合任何使用桌面计算机且希望节省时间和精力的人。此外,您还可以在Voxos的模块化设计基础上构建自己的定制功能。Voxos旨在易于扩展和定制。因此,我们鼓励您以符合当前设计模式的方式定制您的修改,并希望您通过提交MR来为Voxos的所有用户带来益处。
代码生成优化工具
AlphaCodium是一种基于测试的、多阶段、面向代码的迭代流方法,旨在提高LLMs在代码问题上的性能。它通过优化模型在代码生成任务上的表现,特别适用于竞赛性编程问题。用户可以根据配置选择相应的模型(如“gpt-4”、“gpt-3.5-turbo-16k”等),并使用AlphaCodium解决特定问题或整个数据集。该工具还提供了一系列最佳实践,如YAML结构化输出、语义推理、模块化代码生成等,可广泛适用于其他代码生成任务。
全新的故事创作方式。
Chronicle是一个全新的故事创作工具,通过精心设计的模块化Blocks,让用户可以轻松地创建具有完美设计、互动性和动态效果的故事。用户可以定制Blocks、嵌入链接、以键盘为主的工作流程,并与团队实时协作,还可以通过专家认证的模板快速启动创作。
使用模块化构建块构建高性能AI模型的工具。
Zeta是一个开源项目,提供模块化、高性能和可扩展的构建块来快速构建AI模型。它包括多种功能,如Flash Attention、SwiGLU、相对位置偏差、前馈网络、BitLinear变换、PalmE多模态模型、U-Net、视觉嵌入和其他多种高级特性。
© 2024 AIbase 备案号:闽ICP备2023012347号-1