AI成本管理和资源优化的一站式平台,帮助用户跟踪和优化AI服务的支出。
AICosts.ai是一款完整的AI成本管理和资源优化工具,帮助用户跟踪和优化整个AI堆栈中的支出,包括LLMs、工作流工具和专业服务。通过预测资源需求、自动化提醒和优化建议,用户可以有效管理AI支出。
开源的高质量文本转语音模型,支持情感控制。
Chatterbox 是 Resemble AI 推出的第一个开源生产级文本转语音 (TTS) 模型,具有卓越的性能和稳定性。它经过与顶尖闭源系统的比较,展现出更优的效果。该模型的独特之处在于它支持情感夸张控制,适用于制作视频、游戏、AI 代理等多种场景。Chatterbox 的价格竞争力强,同时提供超低延迟,适合生产使用。
Scrapybara是一个为AI代理提供虚拟桌面的平台。
Scrapybara为开发者提供统一的API,以执行任何模型的代理,并访问浏览器、文件系统和代码沙箱等低级控制。它处理自动扩展、认证和系统环境,使任何人都能部署代理队列到生产环境,并在规模上自动化任何自由形式的计算任务。
AI驱动代谢健康管理,控制血糖、减重、更健康。
Helsa Health是一款AI驱动的代谢健康平台,帮助您跟踪、管理和改善整体代谢健康。提供个性化见解、实时监控和预防性指导,帮助您控制血糖、减重、预防代谢性疾病。
为创作者提供终极 AI 动的相机控制。
Higgsfield 是一个 AI 驱动的相机控制平台,旨在帮助创作者轻松实现各种镜头效果,提升拍摄质量。它提供多种运动控制选项,用户可以快速生成所需的镜头动作。该产品定位于视频创作者,适用于各类影片制作,尤其是需要高水平镜头控制的项目。Higgsfield 采用订阅制定价,支持免费试用,适合所有创意工作者。
基于 AI 智能学习,全面保护用户数据隐私和安全。
通付盾数信云(DCloud)是一款创新的安全体系产品,运用 AI 智能学习和风险数据分析技术,能够自主分析网络中传输的数据和流量,深入透视应用数据及安全状况,从而全面保护用户的数据隐私和安全。此产品适应数字化转型的需求,为企业提供了重要的安全保障,帮助用户在面临各种网络安全威胁时保持数据安全。该产品价格为付费,并且适用于各种规模的企业,尤其是在需要保护敏感信息的行业中具有重要的应用价值。
智能购物助手,个性化推荐购物清单和膳食计划。
SmartCartAI 是一款智能购物应用,利用先进的 AI 技术为用户提供个性化的购物体验。它根据用户的购物习惯、饮食偏好和营养目标,智能推荐膳食计划和购物清单,旨在提升购物效率,简化购物流程。SmartCartAI 以用户为中心,能够帮助用户更好地管理饮食,保持预算,适合各种人群使用。
Zonos TTS 是一款支持多语言、情感控制和零样本文本到语音克隆的高质量 AI 文本转语音技术。
Zonos TTS 是一款先进的 AI 文本转语音技术,支持多语言、情感控制和零样本语音克隆。它能够生成自然、富有表现力的语音,适用于教育、有声读物、视频游戏、语音助手等多种场景。该技术通过高质量音频输出(44kHz)和快速实时处理能力,为用户提供高效且个性化的语音生成解决方案。虽然产品本身并非完全免费,但提供了灵活的定价方案以满足不同用户的需求。
这是一个基于HunyuanVideo模型的适配器,用于基于关键帧的视频生成。
HunyuanVideo Keyframe Control Lora 是一个针对HunyuanVideo T2V模型的适配器,专注于关键帧视频生成。它通过修改输入嵌入层以有效整合关键帧信息,并应用低秩适配(LoRA)技术优化线性层和卷积输入层,从而实现高效微调。该模型允许用户通过定义关键帧精确控制生成视频的起始和结束帧,确保生成内容与指定关键帧无缝衔接,增强视频连贯性和叙事性。它在视频生成领域具有重要应用价值,尤其在需要精确控制视频内容的场景中表现出色。
为AI驱动的应用程序提供细粒度权限管理,确保安全性和合规性。
Permit.io AI Access Control 是一款专注于AI应用安全与权限管理的解决方案。它通过细粒度的权限控制,确保AI交互的每个阶段(从输入到输出)都符合安全策略,防止未经授权的输入、数据泄露和有害输出。该产品采用框架无关的技术,支持多种AI框架,并提供灵活的集成方式,可逐步扩展到任何AI技术栈中。Permit.io 的定位是为企业提供AI驱动应用的安全保障,帮助企业在享受AI带来的便利的同时,满足合规性要求。
Helix 是一款用于通用人形机器人控制的视觉-语言-行动模型。
Helix 是一款创新的视觉-语言-行动模型,专为人形机器人的通用控制而设计。它通过将视觉感知、语言理解和动作控制相结合,解决了机器人在复杂环境中的多项长期挑战。Helix 的主要优点包括强大的泛化能力、高效的数据利用以及无需任务特定微调的单一神经网络架构。该模型旨在为家庭环境中的机器人提供即时行为生成能力,使其能够处理从未见过的物品。Helix 的出现标志着机器人技术在适应日常生活场景方面迈出了重要一步。
HOMIE 是一种新型的人形机器人遥操作系统,集成人体运动捕捉与强化学习训练框架,用于实现精准的行走与操作任务。
HOMIE 是一种创新的人形机器人遥操作解决方案,旨在通过强化学习和低成本的外骨骼硬件系统,实现精准的行走与操作任务。该技术的重要性在于它解决了传统遥操作系统的低效性和不稳定性问题,通过人体运动捕捉和强化学习训练框架,使机器人能够更加自然地执行复杂的任务。其主要优点包括高效的任务完成能力、无需复杂的运动捕捉设备以及快速的训练时间。该产品主要面向机器人研究机构、制造业和物流行业,价格未明确公开,但其硬件系统成本较低,具有较高的性价比。
Step-Audio是一个开源智能语音交互框架,支持多语言对话、情感语调和语音克隆等功能。
Step-Audio是首个生产级开源智能语音交互框架,整合了语音理解与生成能力,支持多语言对话、情感语调、方言、语速和韵律风格控制。其核心技术包括130B参数多模态模型、生成式数据引擎、精细语音控制和增强智能。该框架通过开源模型和工具,推动智能语音交互技术的发展,适用于多种语音应用场景。
Zonos-v0.1-hybrid 是一款领先的开源文本转语音模型,能够提供高质量的语音合成服务。
Zonos-v0.1-hybrid 是由 Zyphra 开发的一款开源文本转语音模型,它能够根据文本提示生成高度自然的语音。该模型经过大量英语语音数据训练,采用 eSpeak 进行文本归一化和音素化,再通过变换器或混合骨干网络预测 DAC 令牌。它支持多种语言,包括英语、日语、中文、法语和德语,并且可以对生成语音的语速、音调、音频质量和情绪等进行精细控制。此外,它还具备零样本语音克隆功能,仅需 5 到 30 秒的语音样本即可实现高保真语音克隆。该模型在 RTX 4090 上的实时因子约为 2 倍,运行速度较快。它还配备了易于使用的 gradio 界面,并且可以通过 Docker 文件简单安装和部署。目前,该模型在 Hugging Face 上提供,用户可以免费使用,但需要自行部署。
VideoWorld是一个探索从无标签视频中学习知识的深度生成模型。
VideoWorld是一个专注于从纯视觉输入(无标签视频)中学习复杂知识的深度生成模型。它通过自回归视频生成技术,探索如何仅通过视觉信息学习任务规则、推理和规划能力。该模型的核心优势在于其创新的潜在动态模型(LDM),能够高效地表示多步视觉变化,从而显著提升学习效率和知识获取能力。VideoWorld在视频围棋和机器人控制任务中表现出色,展示了其强大的泛化能力和对复杂任务的学习能力。该模型的研究背景源于对生物体通过视觉而非语言学习知识的模仿,旨在为人工智能的知识获取开辟新的途径。
一种非侵入式脑机接口技术,通过脑电图或脑磁图解码大脑活动以实现文本输入。
Brain2Qwerty 是一种创新的非侵入式脑机接口技术,旨在通过解码大脑活动来实现文本输入。该技术利用深度学习架构,结合脑电图(EEG)或脑磁图(MEG)信号,能够将大脑活动转化为文本输出。这种技术的重要性在于为失去语言能力或运动能力的患者提供了一种安全、有效的沟通方式,同时缩小了侵入式和非侵入式脑机接口之间的差距。目前该技术仍处于研究阶段,但其潜在应用前景广阔,未来有望在医疗、康复等领域发挥重要作用。
一种用于控制视频扩散模型运动模式的高效方法,支持运动模式的自定义和迁移。
Go with the Flow 是一种创新的视频生成技术,通过使用扭曲噪声代替传统的高斯噪声,实现了对视频扩散模型运动模式的高效控制。该技术无需对原始模型架构进行修改,即可在不增加计算成本的情况下,实现对视频中物体和相机运动的精确控制。其主要优点包括高效性、灵活性和可扩展性,能够广泛应用于图像到视频生成、文本到视频生成等多种场景。该技术由 Netflix Eyeline Studios 等机构的研究人员开发,具有较高的学术价值和商业应用潜力,目前开源免费提供给公众使用。
© 2025 AIbase 备案号:闽ICP备08105208号-14