需求人群:
"该产品适合 AI/ML 开发者和企业用户,能够有效提升模型的性能和安全性,帮助组织遵循合规要求。"
使用场景示例:
企业使用 Arthur Engine 监控其机器学习模型的表现,确保合规性。
开发者利用其 API 集成自定义模型,优化生成式 AI 的输出质量。
数据科学团队通过 Arthur Engine 评估多个模型的性能,选择最佳解决方案。
产品特色:
支持各种评估指标,提供模型性能的全面分析。
可实时监测和检测 PII、幻觉、提示注入等质量指标。
提供可插拔的 API,支持自定义模型和指标的集成。
支持 LLM 应用程序的实时防护机制。
可以追踪和监控模型性能,确保长期稳定性。
与流行库(如 LangChain 和 LlamaIndex)集成,扩展功能。
提供多模型比较的工具,帮助优化决策。
界面友好,提供丰富的 API 文档,便于开发者上手。
使用教程:
克隆代码库并进入 genai-engine/docker-compose 目录。
复制并修改 *.env.template 文件。
运行 docker compose up 命令。
等待 genai-engine 容器初始化。
访问 localhost:3000/docs 查看 API 文档,开始构建。
浏览量:67
最新流量情况
月访问量
4.92m
平均访问时长
00:06:33
每次访问页数
6.11
跳出率
36.20%
流量来源
直接访问
51.61%
自然搜索
33.46%
邮件
0.04%
外链引荐
12.58%
社交媒体
2.19%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
12.55%
德国
3.84%
印度
9.38%
俄罗斯
4.61%
美国
18.64%
用于评估其他语言模型的开源工具集
Prometheus-Eval 是一个用于评估大型语言模型(LLM)在生成任务中表现的开源工具集。它提供了一个简单的接口,使用 Prometheus 模型来评估指令和响应对。Prometheus 2 模型支持直接评估(绝对评分)和成对排名(相对评分),能够模拟人类判断和专有的基于语言模型的评估,解决了公平性、可控性和可负担性的问题。
无需编码,自动训练、评估和部署先进的机器学习模型。
AutoTrain是Hugging Face生态系统中的一个自动化机器学习(AutoML)工具,它允许用户通过上传数据来训练定制的机器学习模型,而无需编写代码。该工具自动寻找最适合数据的模型,并快速部署。它支持多种机器学习任务,包括文本分类、图像分类、问答、翻译等,并且支持所有Hugging Face Hub上的语言。用户的数据在服务器上保持私密,并通过加密保护数据传输。根据用户选择的硬件,按分钟计费。
机器学习模型运行和部署的工具
Replicate是一款机器学习模型运行和部署的工具,无需自行配置环境,可以快速运行和部署机器学习模型。Replicate提供了Python库和API接口,支持运行和查询模型。社区共享了成千上万个可用的机器学习模型,涵盖了文本理解、视频编辑、图像处理等多个领域。使用Replicate和相关工具,您可以快速构建自己的项目并进行部署。
基于《Factorio》游戏的大语言模型测试与学习环境
Factorio Learning Environment(FLE)是基于《Factorio》游戏构建的新型框架,用于评估大型语言模型(LLMs)在长期规划、程序合成和资源优化方面的能力。随着LLMs逐渐饱和现有基准测试,FLE提供了新的开放式评估方式。它的重要性在于能让研究人员更全面、深入地了解LLMs的优势与不足。主要优点是提供了开放式且难度呈指数级增长的挑战,拥有结构化任务和开放式任务两种评估协议。该项目由Jack Hopkins等人开发,以开源形式发布,免费使用,定位是推动AI研究人员对复杂、开放式领域中智能体能力的研究。
机器学习工程能力的AI代理评估基准
MLE-bench是由OpenAI推出的一个基准测试,旨在衡量AI代理在机器学习工程方面的表现。该基准测试汇集了75个来自Kaggle的机器学习工程相关竞赛,形成了一套多样化的挑战性任务,测试了训练模型、准备数据集和运行实验等现实世界中的机器学习工程技能。通过Kaggle公开的排行榜数据,为每项竞赛建立了人类基准。使用开源代理框架评估了多个前沿语言模型在该基准上的表现,发现表现最佳的设置——OpenAI的o1-preview配合AIDE框架——在16.9%的竞赛中至少达到了Kaggle铜牌的水平。此外,还研究了AI代理的各种资源扩展形式以及预训练污染的影响。MLE-bench的基准代码已经开源,以促进未来对AI代理机器学习工程能力的理解。
Generative AI 模型评估工具
Deepmark AI 是一款用于评估大型语言模型(LLM)的基准工具,可在自己的数据上对各种任务特定指标进行评估。它与 GPT-4、Anthropic、GPT-3.5 Turbo、Cohere、AI21 等领先的生成式 AI API 进行预集成。
为机器人提供虚拟模拟和评估的先进世界模型。
1X 世界模型是一种机器学习程序,能够模拟世界如何响应机器人的行为。它基于视频生成和自动驾驶汽车世界模型的技术进步,为机器人提供了一个虚拟模拟器,能够预测未来的场景并评估机器人策略。这个模型不仅能够处理复杂的对象交互,如刚体、掉落物体的影响、部分可观察性、可变形物体和铰接物体,还能够在不断变化的环境中进行评估,这对于机器人技术的发展至关重要。
Apple官方机器学习模型训练框架
Create ML是一个Apple官方发布的机器学习模型训练框架,可以非常方便地在Mac设备上训练Core ML模型。它提供了图像、视频、文本等多种模型类型,用户只需要准备数据集和设置参数,就可以开始模型训练。Create ML还提供了Swift API,支持在iOS等平台进行模型训练。
构建和部署AI模型的机器学习框架
Cerebrium是一个机器学习框架,通过几行代码轻松训练、部署和监控机器学习模型。我们在无服务器的CPU/GPU上运行所有内容,并仅根据使用量收费。您可以从Pytorch、Huggingface、Tensorflow等库部署模型。
AI可观测性和机器学习监控平台
Evidently AI是一个开源的Python库,用于监控机器学习模型,支持从RAGs到AI助手的LLM驱动产品的评估。它提供了数据漂移、数据质量和生产ML模型性能的监控,拥有超过2000万的下载量和5000+的GitHub星标,是机器学习领域中一个值得信赖的监控工具。
AI模型测试评估工具
Openlayer是一个评估工具,适用于您的开发和生产流程,帮助您自信地发布高质量的模型。它提供强大的测试、评估和可观察性,无需猜测您的提示是否足够好。支持LLMs、文本分类、表格分类、表格回归等功能。通过实时通知让您在AI模型失败时获得通知,让您自信地发布。
在Cloudflare全球网络运行机器学习模型
Workers AI是Cloudflare推出的一款在边缘计算环境中运行机器学习模型的产品。它允许用户在全球范围内的Cloudflare网络节点上部署和运行AI应用,这些应用可以是图像分类、文本生成、目标检测等多种类型。Workers AI的推出标志着Cloudflare在全球网络中部署了GPU资源,使得开发者能够构建和部署接近用户的雄心勃勃的AI应用。该产品的主要优点包括全球分布式部署、低延迟、高性能和可靠性,同时支持免费和付费计划。
加速模型评估和微调的智能评估工具
SFR-Judge 是 Salesforce AI Research 推出的一系列评估模型,旨在通过人工智能技术加速大型语言模型(LLMs)的评估和微调过程。这些模型能够执行多种评估任务,包括成对比较、单项评分和二元分类,同时提供解释,避免黑箱问题。SFR-Judge 在多个基准测试中表现优异,证明了其在评估模型输出和指导微调方面的有效性。
简化机器学习模型的训练和部署
Sagify是一个命令行工具,可以在几个简单步骤中训练和部署机器学习/深度学习模型在AWS SageMaker上!它消除了配置云实例进行模型训练的痛苦,简化了在云上运行超参数作业的过程,同时不再需要将模型交给软件工程师进行部署。Sagify提供了丰富的功能,包括AWS账户配置、Docker镜像构建、数据上传、模型训练、模型部署等。它适用于各种使用场景,帮助用户快速构建和部署机器学习模型。
AI模型软件工程能力评估工具
SWE-bench Verified是OpenAI发布的一个经过人工验证的SWE-bench子集,旨在更可靠地评估AI模型解决现实世界软件问题的能力。它通过提供代码库和问题描述,挑战AI生成解决所描述问题的补丁。这个工具的开发是为了提高模型自主完成软件工程任务的能力评估的准确性,是OpenAI准备框架中中等风险级别的关键组成部分。
用于评估文本、对话和RAG设置的通用评估模型
Patronus GLIDER是一个经过微调的phi-3.5-mini-instruct模型,可以作为通用评估模型,根据用户定义的标准和评分规则来评判文本、对话和RAG设置。该模型使用合成数据和领域适应数据进行训练,覆盖了183个指标和685个领域,包括金融、医学等。模型支持的最大序列长度为8192个token,但经过测试可以支持更长的文本(高达12000个token)。
上传数据,获取机器学习模型
Automated Machine Learning as a Service是一个提供自动化机器学习服务的网站。用户可以通过上传数据来获取他们的机器学习模型,该平台为用户提供了便捷的机器学习模型开发和部署流程。该平台还提供了丰富的功能和优势,包括简单易用的界面、自动化的模型训练和优化、灵活的定价策略等。用户可以根据自己的需求选择适合的定价方案,并在不同的场景中应用该机器学习模型。该产品的定位是为广大用户提供高效、便捷、灵活的机器学习解决方案。
简化机器学习云服务
Deploifai是一种管理机器学习项目云端的工具,让您可以专注于解决方案。它提供简化的云服务,帮助您管理和部署机器学习模型,包括数据集管理、模型训练、部署和监控。Deploifai的优势在于简化了复杂的基础设施设置,提供易于使用的界面和工具,以及高度可扩展的计算和存储资源。价格根据使用量和功能等级而定,适用于个人开发者和企业团队。
无代码机器学习平台
NextBrain AI是一款无代码机器学习平台,让任何人都能轻松训练机器学习模型并将数据转化为有价值的见解,指导决策。它提供简单有效的分析和宝贵的洞察力,无需编程知识。同时支持Google Sheets插件和Web应用,选择适合您的方式开始训练机器学习模型吧!
一个开源AI模型微调与变现平台,助力AI初创企业、机器学习工程师和研究人员。
Bakery是一个专注于开源AI模型的微调与变现的在线平台,为AI初创企业、机器学习工程师和研究人员提供了一个便捷的工具,使他们能够轻松地对AI模型进行微调,并在市场中进行变现。该平台的主要优点在于其简单易用的界面和强大的功能,用户可以快速创建或上传数据集,微调模型设置,并在市场中进行变现。Bakery的背景信息表明,它旨在推动开源AI技术的发展,并为开发者提供更多的商业机会。虽然具体的定价信息未在页面中明确展示,但其定位是为AI领域的专业人士提供一个高效的工具。
强大的图可视化工具,帮助理解、调试和优化机器学习模型。
Model Explorer 是 Google 开发的一个用于机器学习模型的图可视化工具,它专注于以直观的层次格式可视化大型图,同时也适用于小型模型。该工具特别有助于简化大型模型在设备端平台的部署过程,通过可视化转换、量化和优化数据。Model Explorer 结合了3D游戏和动画制作中使用的图形技术,如实例化渲染和多通道有符号距离场(MSDF),并将其适应于机器学习图渲染。它支持多种图格式,包括 JAX、PyTorch、TensorFlow 和 TensorFlow Lite 使用的格式。Model Explorer 通过层次化视图和导航复杂结构的能力,使得大型模型更易于理解。
机器学习加速 API
DirectML 是Windows上的机器学习平台API,为硬件供应商提供了一个通用的抽象层来暴露他们的机器学习加速器。它可以与任何兼容DirectX 12的设备一起使用,包括GPU和NPU。通过减少编写机器学习代码的成本,DirectML使得AI功能集成更加容易。
一键部署机器学习模型到生产环境
PoplarML 是一个能够以极低的工程成本部署可扩展的机器学习系统到生产环境的平台。它提供了一键部署的功能,可无缝地将机器学习模型部署到一组GPU上。用户可以通过REST API端点实时调用模型进行推断。PoplarML 支持各种深度学习框架,如Tensorflow、Pytorch和JAX。除此之外,PoplarML 还提供了多项优势,包括高效的实时推断、自动扩展能力以适应流量需求、灵活的部署选项等。定价方面,请访问官方网站获取详细信息。
轻松创建你自己的机器学习模型
Teachable Machine是一个基于网页的工具,使用户可以快速轻松地创建机器学习模型,无需专业知识或编码能力。用户只需收集并整理样本数据,Teachable Machine将自动训练模型,然后用户可以测试模型准确性,最后将模型导出使用。
开源跨平台的机器学习框架,能够轻松地在不同设备上构建机器学习应用
MediaPipe是一个由Google开发的开源跨平台机器学习框架,它能够帮助开发者通过简单的API轻松地在不同设备(手机、平板、浏览器、IoT设备等)上构建复杂的机器学习模型和应用。MediaPipe支持多种编程语言,内置了人脸识别、手势识别、目标追踪等多种预训练模型,开发者可以快速集成这些模型来开发智能应用。MediaPipe还支持模型压缩和量化技术,可以将模型大小缩小10倍以上,这对于在移动端部署机器学习模型非常有利。总体来说,MediaPipe是一个非常易用和高效的机器学习开发框架。
为真实世界机器人提供最先进的机器学习模型、数据集和工具。
LeRobot 是一个旨在降低进入机器人领域的门槛,让每个人都能贡献并从共享数据集和预训练模型中受益的开源项目。它包含了在真实世界中经过验证的最先进的方法,特别关注模仿学习和强化学习。LeRobot 提供了一组预训练模型、带有人类收集演示的数据集和模拟环境,以便用户无需组装机器人即可开始。未来几周内,计划增加对最实惠和最有能力的真实世界机器人的支持。
AI模型性能评估平台
Scale Leaderboard是一个专注于AI模型性能评估的平台,提供专家驱动的私有评估数据集,确保评估结果的公正性和无污染。该平台定期更新排行榜,包括新的数据集和模型,营造动态竞争环境。评估由经过严格审查的专家使用特定领域的方法进行,保证评估的高质量和可信度。
© 2025 AIbase 备案号:闽ICP备08105208号-14