需求人群:
"3D建模、游戏开发、工业设计、建筑设计"
使用场景示例:
游戏开发者使用TripoSR快速创建游戏内角色的3D模型。
建筑师利用TripoSR将设计草图转换成详细的3D建筑模型。
电影制作团队通过TripoSR将概念艺术转化为3D场景模型。
产品特色:
从单张图片生成3D模型
低推理预算,无需GPU
适用于娱乐、游戏、工业设计和建筑专业人士
快速响应,可视化详细3D对象
浏览量:1132
最新流量情况
月访问量
1272.31k
平均访问时长
00:01:37
每次访问页数
2.86
跳出率
46.34%
流量来源
直接访问
33.13%
自然搜索
56.03%
邮件
0.05%
外链引荐
8.47%
社交媒体
2.17%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
6.52%
印度
5.84%
日本
7.59%
俄罗斯
5.61%
美国
16.76%
从单张图片快速生成3D对象
TripoSR是由Stability AI与Tripo AI合作开发的3D对象重建模型,能够从单张图片在不到一秒钟的时间内生成高质量的3D模型。该模型在低推理预算下运行,无需GPU,适用于广泛的用户和应用场景。模型权重和源代码已在MIT许可下发布,允许商业化、个人和研究使用。
多模态AI模型,图像理解与生成兼备
Mini-Gemini是由香港中文大学终身教授贾佳亚团队开发的多模态模型,具备精准的图像理解能力和高质量的训练数据。该模型结合图像推理和生成,提供不同规模的版本,性能与GPT-4和DALLE3相媲美。Mini-Gemini采用Gemini的视觉双分支信息挖掘方法和SDXL技术,通过卷积网络编码图像并利用Attention机制挖掘信息,同时结合LLM生成文本链接两个模型。
人脸匿名化技术,保留关键细节同时有效保护隐私。
face_anon_simple是一个人脸匿名化技术,旨在通过先进的算法在保护个人隐私的同时保留原始照片中的面部表情、头部姿势、眼神方向和背景元素。这项技术对于需要发布包含人脸的图片但又希望保护个人隐私的场合非常有用,比如在新闻报道、社交媒体和安全监控等领域。产品基于开源代码,允许用户自行部署和使用,具有很高的灵活性和应用价值。
高效3D高斯重建模型,实现大场景快速重建
Long-LRM是一个用于3D高斯重建的模型,能够从一系列输入图像中重建出大场景。该模型能在1.3秒内处理32张960x540分辨率的源图像,并且仅在单个A100 80G GPU上运行。它结合了最新的Mamba2模块和传统的transformer模块,通过高效的token合并和高斯修剪步骤,在保证质量的同时提高了效率。与传统的前馈模型相比,Long-LRM能够一次性重建整个场景,而不是仅重建场景的一小部分。在大规模场景数据集上,如DL3DV-140和Tanks and Temples,Long-LRM的性能可与基于优化的方法相媲美,同时效率提高了两个数量级。
Flux图像编辑节点集合于ComfyUI
ComfyUI-Fluxtapoz是一个为Flux在ComfyUI中编辑图像而设计的节点集合。它允许用户通过一系列节点操作来对图像进行编辑和风格转换,特别适用于需要进行图像处理和创意工作的专业人士。这个项目目前是开源的,遵循GPL-3.0许可协议,意味着用户可以自由地使用、修改和分发该软件,但需要遵守开源许可的相关规定。
行业领先的面部操作平台
FaceFusion Labs 是一个专注于面部操作的领先平台,它利用先进的技术来实现面部特征的融合和操作。该平台主要优点包括高精度的面部识别和融合能力,以及对开发者友好的API接口。FaceFusion Labs 背景信息显示,它在2024年10月15日进行了初始提交,由Henry Ruhs主导开发。产品定位为开源项目,鼓励社区贡献和协作。
无审查限制的AI模型平台
FreedomGPT是一个提供多种AI模型的平台,包括无审查限制的模型,用户可以在一个熟悉的界面中轻松切换开源和专有模型。它允许用户在浏览器或直接在计算机上运行这些模型,无需注册,无需技术专长。此外,它还支持离线使用,保证了用户隐私和数据安全。FreedomGPT还提供了一个开放源代码的AI平台,鼓励社区成员共同参与构建。
首个多模态 Mistral 模型,支持图像和文本的混合任务处理。
Pixtral 12B 是 Mistral AI 团队开发的一款多模态 AI 模型,它能够理解自然图像和文档,具备出色的多模态任务处理能力,同时在文本基准测试中也保持了最先进的性能。该模型支持多种图像尺寸和宽高比,能够在长上下文窗口中处理任意数量的图像,是 Mistral Nemo 12B 的升级版,专为多模态推理而设计,不牺牲关键文本处理能力。
AI图像修复模型,用于填补图像中的缺失部分。
FLUX.1-dev-Controlnet-Inpainting-Alpha是由AlimamaCreative Team发布的AI图像修复模型,专门用于修复和填补图像中的缺失或损坏部分。该模型在768x768分辨率下表现最佳,能够实现高质量的图像修复。作为alpha版本,它展示了在图像修复领域的先进技术,并且随着进一步的训练和优化,预计将提供更加卓越的性能。
一款集成在ComfyUI中的AI模型工具。
x-flux-comfyui是一个集成在ComfyUI中的AI模型工具,它提供了多种功能,包括模型训练、模型加载、以及图像处理等。该工具支持低内存模式,可以优化VRAM的使用,适合需要在资源受限的环境中运行AI模型的用户。此外,它还提供了IP Adapter功能,可以与OpenAI的VIT CLIP模型配合使用,增强生成图像的多样性和质量。
AI抠图项目,使用开源模型实现图像抠图。
image-matting 是一个基于开源模型 briaai/RMBG-1.4 的AI抠图项目。该项目旨在通过学习AI技术、GUI开发、前端学习以及i18n国际化等技术,实现本地模型算法的图像抠图功能。它支持单张和批量抠图,用户可以通过拖拽和粘贴的方式快速进行图像处理。项目还提供了打包后的运行文件下载链接,方便用户使用。
下一代开源AI模型,性能卓越。
Gemma 2是谷歌DeepMind推出的下一代开源AI模型,提供9亿和27亿参数版本,具有卓越的性能和推理效率,支持在不同硬件上以全精度高效运行,大幅降低部署成本。Gemma 2在27亿参数版本中,提供了两倍于其大小模型的竞争力,并且可以在单个NVIDIA H100 Tensor Core GPU或TPU主机上实现,显著降低部署成本。
文本到视频生成的开源模型,性能卓越。
Open-Sora-Plan是一个由北京大学元组团队开发的文本到视频生成模型。它在2024年4月首次推出v1.0.0版本,以其简单高效的设计和显著的性能在文本到视频生成领域获得了广泛认可。v1.1.0版本在视频生成质量和持续时间上进行了显著改进,包括更优的压缩视觉表示、更高的生成质量和更长的视频生成能力。该模型采用了优化的CausalVideoVAE架构,具有更强的性能和更高的推理效率。此外,它还保持了v1.0.0版本的极简设计和数据效率,并且与Sora基础模型的性能相似,表明其版本演进与Sora展示的扩展法则一致。
多语言AI模型,支持101种语言。
Aya是由Cohere For AI领导的全球性倡议,涉及119个国家的3000多名独立研究人员。Aya是一个尖端模型和数据集,通过开放科学推进101种语言的多语言AI。Aya模型能够理解并按照101种语言的指令执行任务,是迄今为止最大的开放科学机器学习项目之一,重新定义了研究领域,通过与全球独立研究人员合作,实现了完全开源的数据集和模型。
一个多功能且强大的SDXL-ControlNet模型,适用于各种线条艺术的调节。
MistoLine是一个SDXL-ControlNet模型,能够适应任何类型的线条艺术输入,展示出高精度和出色的稳定性。它基于用户提供的线条艺术生成高质量图像,适用于手绘草图、不同ControlNet线条预处理器和模型生成的轮廓。MistoLine通过采用新颖的线条预处理算法(Anyline)和基于stabilityai/stable-diffusion-xl-base-1.0的Unet模型的重新训练,以及在大型模型训练工程中的创新,展现出在复杂场景下超越现有ControlNet模型的细节恢复、提示对齐和稳定性的优越性能。
开放发布的Grok-1模型,拥有3140亿参数
Grok-1是由xAI从头开始训练的314亿参数的专家混合模型(Mixture-of-Experts)。该模型未经针对特定应用(如对话)的微调,是Grok-1预训练阶段的原始基础模型检查点。
无需相机校准信息的密集立体3D重建
DUSt3R是一种新颖的密集和无约束立体3D重建方法,适用于任意图像集合。它不需要事先了解相机校准或视点姿态信息,通过将成对重建问题视为点图的回归,放宽了传统投影相机模型的严格约束。DUSt3R提供了一种统一的单目和双目重建方法,并在多图像情况下提出了一种简单有效的全局对齐策略。基于标准的Transformer编码器和解码器构建网络架构,利用强大的预训练模型。DUSt3R直接提供场景的3D模型和深度信息,并且可以从中恢复像素匹配、相对和绝对相机信息。
高保真稠密SLAM
Gaussian SLAM能够从RGBD数据流重建可渲染的3D场景。它是第一个能够以照片级真实感重建现实世界场景的神经RGBD SLAM方法。通过利用3D高斯作为场景表示的主要单元,我们克服了以往方法的局限性。我们观察到传统的3D高斯在单目设置下很难使用:它们无法编码准确的几何信息,并且很难通过单视图顺序监督进行优化。通过扩展传统的3D高斯来编码几何信息,并设计一种新颖的场景表示以及增长和优化它的方法,我们提出了一种能够重建和渲染现实世界数据集的SLAM系统,而且不会牺牲速度和效率。高斯SLAM能够重建和以照片级真实感渲染现实世界场景。我们在常见的合成和真实世界数据集上对我们的方法进行了评估,并将其与其他最先进的SLAM方法进行了比较。最后,我们证明了我们得到的最终3D场景表示可以通过高效的高斯飞溅渲染实时渲染。
用扩散模型生成细节丰富的3D人类网格
Chupa是一个3D人体生成流水线,它结合了扩散模型的生成能力和神经渲染技术,可创建多样化、逼真的3D人体。该流水线可以轻松地泛化到未见过的人体姿态,并呈现逼真的效果。Chupa从SMPL-X网格生成潜在空间中的多样化高质量人体网格。
统一的开放命名实体和语音识别模型
WhisperNER是一个结合了自动语音识别(ASR)和命名实体识别(NER)的统一模型,具备零样本能力。该模型旨在作为ASR带NER的下游任务的强大基础模型,并可以在特定数据集上进行微调以提高性能。WhisperNER的重要性在于其能够同时处理语音识别和实体识别任务,提高了处理效率和准确性,尤其在多语言和跨领域的场景中具有显著优势。
为数据中心打造的高效AI推理平台
d-Matrix是一家专注于AI推理技术的公司,其旗舰产品Corsair™是为数据中心设计的AI推理平台,能够提供极高的推理速度和极低的延迟。d-Matrix通过硬件软件协同设计,优化了Generative AI推理性能,推动了AI技术在数据中心的应用,使得大规模AI推理变得更加高效和可持续。
释放超级推理能力,提升AIME & MATH基准测试性能。
DeepSeek-R1-Lite-Preview是一款专注于提升推理能力的AI模型,它在AIME和MATH基准测试中展现了出色的性能。该模型具备实时透明的思考过程,并且计划推出开源模型和API。DeepSeek-R1-Lite-Preview的推理能力随着思考长度的增加而稳步提升,显示出更好的性能。产品背景信息显示,DeepSeek-R1-Lite-Preview是DeepSeek公司推出的最新产品,旨在通过人工智能技术提升用户的工作效率和问题解决能力。目前,产品提供免费试用,具体的定价和定位信息尚未公布。
基于Stable Diffusion 3.5 Large模型的IP适配器
SD3.5-Large-IP-Adapter是一个基于Stable Diffusion 3.5 Large模型的IP适配器,由InstantX Team研发。该模型能够将图像处理工作类比于文本处理,具有强大的图像生成能力,并且可以通过适配器技术进一步提升图像生成的质量和效果。该技术的重要性在于其能够推动图像生成技术的发展,特别是在创意工作和艺术创作领域。产品背景信息显示,该模型是由Hugging Face和fal.ai赞助的项目,并且遵循stabilityai-ai-community的许可协议。
下一代Python笔记本
marimo是一个开源的Python反应式笔记本,它具有可复现性、对git友好、可以作为脚本执行,并且可以作为应用程序分享。它通过自动运行受影响的单元格来响应单元格的更改,消除了管理笔记本状态的繁琐工作。marimo的UI元素如数据框架GUI和图表,使得数据处理变得快速、未来感和直观。marimo笔记本以.py文件存储,可以与git版本控制一起使用,可以作为Python脚本运行,也可以导入符号到其他笔记本或Python文件中,并使用你喜欢的工具进行lint或格式化。所有这些都在现代的 AI 支持的编辑器中进行。
Qwen2.5-Coder系列的1.5B参数指令调优模型
Qwen2.5-Coder是Qwen大型语言模型的最新系列,专为代码生成、代码推理和代码修复而设计。基于强大的Qwen2.5,通过增加训练令牌至5.5万亿,包括源代码、文本代码基础、合成数据等,Qwen2.5-Coder-32B已成为当前最先进的开源代码大型语言模型,其编码能力与GPT-4o相匹配。此模型是1.5B参数的指令调优版本,采用GGUF格式,具有因果语言模型、预训练和后训练阶段、transformers架构等特点。
Photoshop与SD/SDForge/ComfyUI之间的通信插件
sd-ppp是一个允许用户在Adobe Photoshop和各种Stable Diffusion界面(如SD/SDForge/ComfyUI)之间进行通信的插件。它支持多层操作,包括文本层和图像层,能够处理多个文档和多个Photoshop实例,并允许用户在文档的特定区域工作。该插件对于设计师和艺术家来说是一个强大的工具,因为它可以简化工作流程,提高创作效率,并允许他们利用Stable Diffusion的强大功能来增强他们的设计和艺术作品。
AI技术预览纹身去除效果,辅助决策
AI Tattoo Removal是一个利用人工智能技术展示纹身去除效果的先进工具。它提供了多种可视化选项和用户友好的界面,适用于考虑纹身去除的个人和专业纹身去除专家。该平台使用尖端的机器学习算法分析并展示纹身去除进度,用户可以查看不同的去除阶段、结果和治疗方案,以更好地理解去除过程。产品的主要优点包括即时可视化、个性化体验和免费的基础功能,同时提供高级功能订阅服务。
© 2024 AIbase 备案号:闽ICP备08105208号-14