提供高性能GPU出租服务,包括B200、H200、RTX4090、H100等型号。即时部署,价格透明。
Sesterce是一家提供GPU出租服务的网站,客户可以租用各种型号的高性能GPU来进行计算任务。该平台提供即时部署和透明的定价策略,使用户可以灵活选择适合自己需求的GPU资源。
Snowglobe帮助AI团队在规模上测试LLM应用。在推出之前模拟真实对话,发现风险并提高模型性能。
Snowglobe是一个帮助AI团队测试LLM应用的工具,通过模拟真实对话、发现潜在风险并提升模型性能,帮助用户在推出前进行充分测试。它的主要优点在于快速模拟大量对话、提供实时风险报告、生成评判标签数据集等。
AI辅助心理评估报告撰写软件,帮助心理学家快速准确生成临床诊断报告。
Psynth是一款利用人工智能技术简化心理评估报告撰写的软件。它能将患者测试结果、数据和临床观察转化为精确、高质量的诊断报告,帮助心理学家节省时间,提高临床准确性。
专注于 GPU 算力云服务,提供高效算力解决方案。
蓝耘元生代 AIDC OS 是一款专注于 GPU 算力云服务的产品,旨在为企业和开发者提供强大的计算能力和灵活的资源配置。该产品支持多种 GPU 型号,按需计费,适用于深度学习、图形渲染等领域。其主要优点在于高性能的计算资源、可扩展的存储解决方案以及合规的云服务环境,满足不同规模企业的需求。价格为每小时 1.50 元到 1.60 元不等,依据所选 GPU 型号而定。
高性能火车票查询后端系统,支持官方实时数据服务。
12306 MCP Server 是一个基于 Model Context Protocol (MCP) 的高性能火车票查询后端系统,提供实时余票查询、车站信息和换乘方案等功能,适合与 AI / 自动化助手集成。该系统的主要优点在于其快速响应和易于集成,支持的标准化接口使其成为一个强大的数据聚合工具,适用于需要高效查询火车票的场景。该产品免费开源,适合开发者和企业使用。
Codeaid是一款革新编程测试体验的编程测试和评估平台。
Codeaid是一款针对开发人员进行全面和具有挑战性评估的开发人员测试工具,具有最精确和细分的评分算法。其主要优点是模拟开发人员日常工作流程和环境,提供准确的技能评估。
一个通用框架,用于在测试时调节大型推理模型的思维进度。
AlphaOne(α1)是一种调节大型推理模型(LRMs)在测试时思维进度的通用框架。通过引入 α 时刻和动态安排慢速思维转变,α1 实现了慢速到快速推理的灵活调节。这一方法统一并推广了现有的单调缩放方法,优化了推理能力与计算效率。该产品适用于需要处理复杂推理任务的科研人员和开发者。
代理法官,用于自动评估任务和提供奖励信号。
Agent-as-a-Judge 是一种新型的自动化评估系统,旨在通过代理系统的互相评估来提高工作效率和质量。该产品能够显著减少评估时间和成本,同时提供持续的反馈信号,促进代理系统的自我改进。它被广泛应用于 AI 开发任务中,特别是在代码生成领域。该系统具备开源特性,便于开发者进行二次开发和定制。
获取可靠、快速、安全的专用主机服务,适用于企业增长和性能优化。
RedPro Host提供可靠、快速、安全的专用主机服务,旨在为企业提供增长和性能优化。具有99.99%的可用性保证,24/7支持,价格合理。
AI驱动的技术面试平台,帮助公司找到最优秀的工程师。
Candora是一个AI领导的面试平台,涵盖编码、系统设计、行为和项目构建等面试环节。它通过评估技术深度、系统思维、解决问题能力、沟通技巧等方面,帮助公司找到最强大的工程师。
昆仑万维开源的高性能数学代码推理模型,性能卓越
Skywork-OR1是由昆仑万维天工团队开发的高性能数学代码推理模型。该模型系列在同等参数规模下实现了业界领先的推理性能,突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。Skywork-OR1系列包括Skywork-OR1-Math-7B、Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview三款模型,分别聚焦数学推理、通用推理和高性能推理任务。此次开源不仅涵盖模型权重,还全面开放了训练数据集和完整训练代码,所有资源均已上传至GitHub和Huggingface平台,为AI社区提供了完全可复现的实践参考。这种全方位的开源策略有助于推动整个AI社区在推理能力研究上的共同进步。
用于评估 AI 代理在 Pokemon Red 游戏中的表现。
PokemonGym 是一个基于服务器 - 客户端架构的平台,专为 AI 代理设计,能够在 Pokemon Red 游戏中进行评估和训练。它通过 FastAPI 提供游戏状态,支持人类与 AI 代理的互动,帮助研究人员和开发者测试和改进 AI 解决方案。
一款为 AI/ML 模型监控和管理而设计的工具。
Arthur Engine 是一个旨在监控和治理 AI/ML 工作负载的工具,利用流行的开源技术和框架。该产品的企业版提供更好的性能和额外功能,如自定义的企业级防护机制和指标,旨在最大化 AI 对组织的潜力。它能够有效评估和优化模型,确保数据安全与合规。
通过 Minecraft 评估 AI 的表现。
MC-Bench 是一个在线平台,旨在通过 Minecraft 游戏环境评估和比较不同 AI 生成的建筑。它允许用户投票并参与到 AI 评估中,促进 AI 技术的发展。该平台的主要优势在于其趣味性和互动性,为用户提供了一个简单而有趣的方式来了解 AI 的能力。
基于《Factorio》游戏的大语言模型测试与学习环境
Factorio Learning Environment(FLE)是基于《Factorio》游戏构建的新型框架,用于评估大型语言模型(LLMs)在长期规划、程序合成和资源优化方面的能力。随着LLMs逐渐饱和现有基准测试,FLE提供了新的开放式评估方式。它的重要性在于能让研究人员更全面、深入地了解LLMs的优势与不足。主要优点是提供了开放式且难度呈指数级增长的挑战,拥有结构化任务和开放式任务两种评估协议。该项目由Jack Hopkins等人开发,以开源形式发布,免费使用,定位是推动AI研究人员对复杂、开放式领域中智能体能力的研究。
AI驱动的网站监控工具,通过模拟真实用户行为检测网站问题。
Flowtest.ai 是一款基于人工智能的网站监控工具,通过模拟真实用户行为来检测网站的可用性和性能问题。它利用先进的AI技术,能够像真实用户一样浏览网站、执行操作,并实时监控网站的运行状态。与传统监控工具相比,Flowtest.ai 的AI代理能够适应网站变化,无需频繁维护脚本,同时提供即时警报和详细的故障报告,帮助用户快速定位和解决问题。该产品主要面向电商企业、SaaS产品提供商和数字营销机构,旨在帮助企业减少因网站故障导致的销售损失,提升用户体验,并优化网站性能。其定价模式灵活,提供免费试用选项,适合不同规模的企业使用。
RagaAI Catalyst 是一个用于观察、评估和调试 AI 代理的平台,助力开发者优化 AI 工作流并安全部署。
RagaAI Catalyst 是一款专注于 AI 可观察性、监控和评估的平台,旨在帮助开发者和企业优化 AI 开发流程。它提供了从可视化追踪数据到执行图的用户友好仪表板,支持深度调试和性能提升。该平台强调安全性和可靠性,通过 RagaAI Guardrails 确保上下文准确的 LLM 响应,减少幻觉风险。此外,RagaAI Catalyst 支持定制化评估逻辑,满足特定用例的全面测试需求。其开源特性也为企业提供了透明度和灵活性,适合希望在 AI 开发中实现高效、安全和可扩展的企业和开发者。
© 2025 AIbase 备案号:闽ICP备08105208号-14