DMind 是一个开源的 Web3 AGI 研究机构,致力于 AI 与 Web3 的交汇探索。
DMind-1 和 DMind-1-mini 是针对 Web3 任务的领域专用大型语言模型,提供比其他通用模型更高的领域准确性、指令跟随能力及专业理解。DMind-1 经过专家策划的 Web3 数据微调,并通过强化学习与人类反馈对齐,适合复杂指令和多轮对话,适用于区块链、DeFi 和智能合约等领域。DMind-1-mini 作为更轻量的版本,旨在满足实时和资源高效的应用场景,特别适合代理部署和链上工具。产品定价及具体信息需进一步确认。
AI 3D宝丽来卡通风格生成器,轻松将照片转换为独特的3D宝丽来卡通效果。
PolaToons是一款AI 3D宝丽来卡通生成器,通过独特的算法和效果,将照片转化为具有复古风格的3D卡通图像,带来令人惊艳的效果。其主要优点包括独特的卡通风格、经典的宝丽来相框、即时生成等特点。价格灵活,适用于个人用户和商业用途。
DeckSpeed是一款革命性的AI演示工具,通过对话生成专业个性化幻灯片,摆脱模板束缚,展现真正的创造力。
DeckSpeed是一款AI演示工具,通过对话生成个性化幻灯片,实现真正的创意展示。其主要优点包括实时反馈、3D模型生成、专业图表生成、即时数据可视化等功能,背景信息包括提高工作效率、满足客户需求等。
通过音频扩散模型实现源分离和合成的创新方法。
Audio-SDS 是一个将 Score Distillation Sampling(SDS)概念应用于音频扩散模型的框架。该技术能够在不需要专门数据集的情况下,利用大型预训练模型进行多种音频任务,如物理引导的冲击声合成和基于提示的源分离。其主要优点在于通过一系列迭代优化,使得复杂的音频生成任务变得更为高效。此技术具有广泛的应用前景,能够为未来的音频生成和处理研究提供坚实基础。
基于自回归变换器生成人工制作的 3D 原始装配体。
PrimitiveAnything 是一种利用自回归变换器生成 3D 模型的技术,能够自动创建细致的 3D 原始装配体。这项技术的主要优点在于其能通过深度学习快速生成复杂的 3D 形状,从而极大地提高了设计师的工作效率。该产品适用于各类设计应用,价格为免费使用,定位于 3D 建模领域。
一款 AI 驱动的互动头像引擎,适合 VTubing 和虚拟助手应用。
手工个性化引擎是一款整合了 Live2D、LLM、ASR、TTS 和 RVC 的 AI 互动头像引擎,旨在为 VTubing、直播和虚拟助手应用提供流畅的互动体验。该引擎能够通过 AI 技术赋予虚拟角色生动的个性和表现力,使其在游戏、社交和教育领域的应用成为可能。该产品适合希望创造生动、互动角色的开发者和内容创作者,具有易于使用和集成的优点,能够与现有的流媒体软件无缝连接。
Blender 与 Claude AI 的集成,助力 3D 建模与场景创建。
Blender MCP 是一款将 Blender 与 Claude AI 通过模型上下文协议 (MCP) 相连的插件,使 AI 可以直接与 Blender 交互和控制。此集成极大提升了 3D 建模的效率,适合设计师和开发者使用。
一个简单易用的语音克隆和语音模型训练工具。
EaseVoice Trainer 是一个后端项目,旨在简化和增强语音合成与转换训练过程。该项目基于 GPT-SoVITS 进行改进,注重用户体验和系统的可维护性。其设计理念不同于原始项目,旨在提供更模块化和定制化的解决方案,适用于从小规模实验到大规模生产的多种场景。该工具可以帮助开发者和研究人员更高效地进行语音合成和转换的研究与开发。
一款基于 Vue3 + ElementPlus 的聊天应用,内置多个大语言模型。
PureChat 是一款结合 AI 和前沿技术的现代聊天应用,采用 Vue3 和 ElementPlus 构建,内置 OpenAI、Ollama、DeepSeek 等大语言模型。其主要优点包括支持 Markdown 渲染和聊天记录截图功能,极大提升了用户的沟通效率与体验。PureChat 致力于为开发者提供一个快速掌握现代技术的平台。
一个高效的语音合成模型,支持中英文及语音克隆。
MegaTTS 3 是由字节跳动开发的一款基于 PyTorch 的高效语音合成模型,具有超高质量的语音克隆能力。其轻量级架构只包含 0.45B 参数,支持中英文及代码切换,能够根据输入文本生成自然流畅的语音,广泛应用于学术研究和技术开发。
AI 驱动的照片编辑与增强工具,助力电商。
PhotoG 是全球首个AI营销智能体,专为电商与品牌方设计。它仅需一张产品图与自然语言,即可生成包含营销图片、营销视频、3D模型、营销文案、电商产品详情页、优化标题、描述和 SEO,建立网站等内容,同时提供图像、视频等内容的AI编辑功能,实现了“一人即团队”的全链路AI能力。
MoCha 致力于生成电影级别的对话角色合成。
MoCha 是一种创新的技术,旨在合成高质量的对话角色,使其在影视制作、游戏和动画中应用广泛。该技术的主要优点是能生成更自然、流畅的角色对话,增强了观众的沉浸感。MoCha 的市场定位为专业的影视制作公司和独立开发者,致力于提升角色交互的真实感。产品采用基于深度学习的模型,价格策略为付费,提供不同层级的服务包。
通过草图快速生成精美的 3D 资产。
Vibe Draw 是一款强大的 AI 驱动平台,能够快速将粗略草图转化为专业质量的 3D 模型。它的直观工具使得无论是设计师还是开发者都能轻松使用,特别适合希望将创意快速实现的用户。该产品可以优化设计工作流程,适用于游戏、3D 打印及 AR/VR 等领域。Vibe Draw 适合各类创作者,提供了一种简便、高效的 3D 设计方式。
GAIA-2 是一个先进的视频生成模型,用于创建安全的自动驾驶场景。
GAIA-2 是 Wayve 开发的先进视频生成模型,旨在为自动驾驶系统提供多样化和复杂的驾驶场景,以提高安全性和可靠性。该模型通过生成合成数据来解决依赖现实世界数据收集的限制,能够创建各种驾驶情境,包括常规和边缘案例。GAIA-2 支持多种地理和环境条件的模拟,帮助开发者在没有高昂成本的情况下快速测试和验证自动驾驶算法。
将文本即时转换为令人惊叹的 3D 模型。
MeshifAI 是一个先进的文本到 3D 模型生成平台,旨在帮助开发者在应用程序、游戏和网站中快速集成高质量的 3D 生成功能。凭借其强大的 AI 技术,用户只需输入描述,便可生成逼真的 3D 模型,极大地简化了 3D 设计过程。该平台易于使用,适合各种开发需求。
加速视频扩散模型,生成速度提升 8.5 倍。
AccVideo 是一种新颖的高效蒸馏方法,通过合成数据集加速视频扩散模型的推理速度。该模型能够在生成视频时实现 8.5 倍的速度提升,同时保持相似的性能。它使用预训练的视频扩散模型生成多条有效去噪轨迹,从而优化了数据的使用和生成过程。AccVideo 特别适用于需要高效视频生成的场景,如电影制作、游戏开发等,适合研究人员和开发者使用。
Qwen2.5-Omni 是阿里云通义千问团队开发的端到端多模态模型,支持文本、音频、图像、视频输入。
Qwen2.5-Omni 是阿里云通义千问团队推出的新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。其创新的 Thinker-Talker 架构和 TMRoPE 位置编码技术,使其在多模态任务中表现出色,特别是在音频、视频和图像理解方面。该模型在多个基准测试中超越了类似规模的单模态模型,展现了强大的性能和广泛的应用潜力。目前,Qwen2.5-Omni 已在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源开放,为开发者提供了丰富的使用场景和开发支持。
© 2025 AIbase 备案号:闽ICP备08105208号-14