需求人群:
"Evidently AI的目标受众是数据科学家、ML工程师和AI产品经理。它适合他们因为提供了从开发到生产的AI质量工具包,帮助他们系统地检查、测试和监控AI产品,确保模型的稳定性和数据的质量。"
使用场景示例:
DeepL的MLOps工程师使用Evidently日常测试数据质量和监控生产数据漂移。
Wise的高级数据科学家和AI负责人使用Evidently监控生产环境中的数据分布,并将模型性能指标直接链接到训练数据。
PlushCare的高级数据工程师使用Evidently持续监控业务关键的ML模型,并在CI/CD和模型监控DAGs中直接标记模型漂移和数据质量问题。
产品特色:
LLM可观测性:评估从RAGs到AI助手的LLM驱动产品。
ML可观测性:监控生产ML模型的数据漂移、数据质量和性能。
开源:拥有超过20万次下载的开源Python库。
自定义仪表板:在部署前后清晰地查看AI产品性能,并与团队轻松共享结果。
持续测试:评估生成的输出,确保准确性、安全性和质量。
深入调试:理解个别错误,将不良完成情况转化为测试用例以持续改进应用。
预测性ML:评估预测任务的输入和输出质量,包括分类、回归、排名和推荐。
使用教程:
1. 访问Evidently AI官网并注册账户或开始免费试用。
2. 根据需要选择评估、测试或监控功能。
3. 利用Evidently的自定义仪表板和持续测试功能,对AI产品进行深入分析和评估。
4. 设计自定义的AI质量系统,使用内置的100+指标或添加自定义指标。
5. 通过Evidently的深入调试功能,理解并改进个别错误。
6. 利用数据漂移和数据质量监控功能,确保模型输入和输出的稳定性。
7. 跟踪模型性能,确保模型在部署、重新训练和更新时符合预期。
浏览量:44
最新流量情况
月访问量
127.19k
平均访问时长
00:00:47
每次访问页数
1.61
跳出率
57.31%
流量来源
直接访问
35.53%
自然搜索
53.91%
邮件
0.09%
外链引荐
6.88%
社交媒体
3.06%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
德国
3.84%
法国
4.52%
英国
4.81%
印度
7.75%
美国
29.36%
AI可观测性和机器学习监控平台
Evidently AI是一个开源的Python库,用于监控机器学习模型,支持从RAGs到AI助手的LLM驱动产品的评估。它提供了数据漂移、数据质量和生产ML模型性能的监控,拥有超过2000万的下载量和5000+的GitHub星标,是机器学习领域中一个值得信赖的监控工具。
开源监控工具,提升LLM应用性能。
Langtrace是一个开源的可观测性工具,用于收集和分析追踪和指标,帮助提升大型语言模型(LLM)应用的性能。它支持OpenTelemetry标准追踪,可自我托管,避免供应商锁定。Langtrace提供端到端的可观测性,帮助用户全面了解整个机器学习流程,包括RAG或微调模型。此外,Langtrace还支持建立反馈循环,通过追踪的LLM交互创建黄金数据集,不断测试和增强AI应用。
端到端开源机器学习平台
TensorFlow是一个端到端开源机器学习平台。它拥有一个全面而灵活的生态系统,其中包含各种工具、库和社区资源,可助力研究人员推动先进机器学习技术的发展。在TensorFlow机器学习框架下,开发者能够轻松地构建和部署由机器学习提供支持的应用。
开发者日志监控与调试的开源平台
Helicone AI是一个为开发者设计的开源平台,专注于日志记录、监控和调试。它具备毫秒级延迟影响、100%日志覆盖率和行业领先的查询时间,是为生产级工作负载设计的。平台通过Cloudflare Workers实现低延迟和高可靠性,并支持风险无忧的实验,无需安装SDK,仅需添加头部信息即可访问所有功能。
开源的AI代理/RAG应用的监控与分析工具
Laminar是一个开源的监控和分析工具,专为AI代理和RAG应用设计,提供类似于DataDog和PostHog的功能。它基于OpenTelemetry进行自动监控,支持快速、可靠的数据收集和分析。Laminar使用Rust编写,具有高性能和可靠性,适用于大规模数据处理。它通过提供详细的追踪、事件和分析功能,帮助开发者和企业优化AI应用的性能和用户体验。
开源分布式深度学习工具
The Microsoft Cognitive Toolkit(CNTK)是一个开源的商业级分布式深度学习工具。它通过有向图描述神经网络的计算步骤,支持常见的模型类型,并实现了自动微分和并行计算。CNTK支持64位Linux和Windows操作系统,可以作为Python、C或C++程序的库使用,也可以通过其自身的模型描述语言BrainScript作为独立的机器学习工具使用。
您的完整MLOps、监控和AI质量与治理解决方案。
数据科学家助手是您的完整MLOps、监控和AI质量与治理解决方案。它自动检测准确性、数据大小、模型漂移、运行时间、调度等的变化和趋势。通过提供统一的视图和关键指标,您可以全面了解您的机器学习环境。它还可以跟踪监控模型性能和数据漂移,以便快速识别准确性下降和数据质量变化。无需设置或等待基础架构配置,通过简单的代码集成,您就可以完全控制您发送的内容。您可以配置自定义警报和通知,以及可视化项目间的趋势和相关性。成为α用户即可获得免费访问。
MotionGPT是一个由社区开发的惊人的机器学习应用
MotionGPT是一个基于Hugging Face Spaces打造的开源机器学习应用社区。用户可以在这里发现许多由社区成员开发的非常酷的机器学习项目和应用。所有项目都是开源的,用户可以查看代码、进行创造性的二次开发。MotionGPT致力于向用户提供一个高质量的机器学习应用和代码资源库,并邀请更多开发者加入这个创造性的社区。
一个开源AI模型微调与变现平台,助力AI初创企业、机器学习工程师和研究人员。
Bakery是一个专注于开源AI模型的微调与变现的在线平台,为AI初创企业、机器学习工程师和研究人员提供了一个便捷的工具,使他们能够轻松地对AI模型进行微调,并在市场中进行变现。该平台的主要优点在于其简单易用的界面和强大的功能,用户可以快速创建或上传数据集,微调模型设置,并在市场中进行变现。Bakery的背景信息表明,它旨在推动开源AI技术的发展,并为开发者提供更多的商业机会。虽然具体的定价信息未在页面中明确展示,但其定位是为AI领域的专业人士提供一个高效的工具。
基于Linux环境快速部署开源大模型的教程
该项目是一个围绕开源大模型的全流程指导教程,包括环境配置、模型部署、高效微调等,简化开源大模型的使用和应用,让更多普通学习者能够使用开源大模型。项目面向对开源大模型感兴趣且想自主上手的学习者,提供详细的环境配置、模型部署和微调方法。
开源数据标注工具,提升机器学习模型性能。
LabelU是一个开源的数据标注工具,适用于需要对图像、视频、音频等数据进行高效标注的场景,以提升机器学习模型的性能和质量。它支持多种标注类型,包括标签分类、文本描述、拉框等,满足不同场景的标注需求。
机器学习加速 API
DirectML 是Windows上的机器学习平台API,为硬件供应商提供了一个通用的抽象层来暴露他们的机器学习加速器。它可以与任何兼容DirectX 12的设备一起使用,包括GPU和NPU。通过减少编写机器学习代码的成本,DirectML使得AI功能集成更加容易。
机器学习工程能力的AI代理评估基准
MLE-bench是由OpenAI推出的一个基准测试,旨在衡量AI代理在机器学习工程方面的表现。该基准测试汇集了75个来自Kaggle的机器学习工程相关竞赛,形成了一套多样化的挑战性任务,测试了训练模型、准备数据集和运行实验等现实世界中的机器学习工程技能。通过Kaggle公开的排行榜数据,为每项竞赛建立了人类基准。使用开源代理框架评估了多个前沿语言模型在该基准上的表现,发现表现最佳的设置——OpenAI的o1-preview配合AIDE框架——在16.9%的竞赛中至少达到了Kaggle铜牌的水平。此外,还研究了AI代理的各种资源扩展形式以及预训练污染的影响。MLE-bench的基准代码已经开源,以促进未来对AI代理机器学习工程能力的理解。
开源跨平台的机器学习框架,能够轻松地在不同设备上构建机器学习应用
MediaPipe是一个由Google开发的开源跨平台机器学习框架,它能够帮助开发者通过简单的API轻松地在不同设备(手机、平板、浏览器、IoT设备等)上构建复杂的机器学习模型和应用。MediaPipe支持多种编程语言,内置了人脸识别、手势识别、目标追踪等多种预训练模型,开发者可以快速集成这些模型来开发智能应用。MediaPipe还支持模型压缩和量化技术,可以将模型大小缩小10倍以上,这对于在移动端部署机器学习模型非常有利。总体来说,MediaPipe是一个非常易用和高效的机器学习开发框架。
用于强化学习的Unitree机器人平台
Unitree RL GYM是一个基于Unitree机器人的强化学习平台,支持Unitree Go2、H1、H1_2、G1等型号。该平台提供了一个集成环境,允许研究人员和开发者训练和测试强化学习算法在真实或模拟的机器人上的表现。它的重要性在于推动机器人自主性和智能技术的发展,特别是在需要复杂决策和运动控制的应用中。Unitree RL GYM是开源的,可以免费使用,主要面向科研人员和机器人爱好者。
Python机器学习库
scikit-learn是一个简单高效的机器学习库,提供了丰富的机器学习算法和工具,可用于分类、回归、聚类、降维等任务。它基于NumPy、SciPy和matplotlib构建,具有易用性、性能优越以及可重复使用的特点。scikit-learn开源可商用,采用BSD许可证。
协作监控LLM
Llog是一个协作监控LLM应用程序的终端到终端平台,为团队提供洞察力,了解他们的LLM应用程序在生产后的情况。团队成员可以在一个协作空间中审查日志、标记重要事项并分配任务。无论团队规模多大,都可以在任何价格层级下享受无限的席位支持。通过直接观察用户交互,全面了解终端用户的行为,并永远不再担心LLM实际上在说什么。使用我们简单的格式,进行几个API请求,即可立即在我们的平台上查看结果。
玩乐机器学习,成为钢琴大师!
Piano Genie是一个基于机器学习的钢琴模拟器。使用键盘上的数字键或触摸屏上的彩色块来演奏钢琴。按下空格键控制延音踏板。你越像真正的钢琴家一样弹奏,旋律(和你自己)就会越好听。Piano Genie使用magenta.js构建。
高效监控和事故管理
Spectate是一个简单但功能强大的监控和事故管理平台,具备AI驱动的状态更新和事故解决方案。快速设置,帮助您轻松高效地进行云监控和事故管理。提供30秒检测,通知速度是传统监控的两倍;支持多种集成,包括Slack、Pushover等;提供自定义状态页面,支持全球性能监控等功能。适用于各种大小的团队和企业。
全栈开源机器人
智元灵犀X1是一款开源人形机器人,具有29个关节和2个夹爪,支持扩展头部3自由度。它提供了详细的开发指南和开源代码,使开发者能够快速搭建并进行二次开发。该产品代表了智能机器人领域的先进技术,具有高度的灵活性和可扩展性,适用于教育、研究和商业开发等多种场景。
开源的RAG应用日志工具
RAG-logger是一个为检索增强生成(Retrieval-Augmented Generation, RAG)应用设计的开源日志工具。它是一个轻量级的、针对RAG特定日志需求的开源替代方案,专注于为RAG应用提供全面的日志记录功能,包括查询跟踪、检索结果记录、LLM交互记录以及逐步性能监控。它采用基于JSON的日志格式,支持每日日志组织、自动文件管理和元数据丰富化。RAG-logger以其开源、轻量级和专注于RAG应用的特性,为开发者提供了一个有效的工具来监控和分析RAG应用的性能。
无代码机器学习平台
NextBrain AI是一款无代码机器学习平台,让任何人都能轻松训练机器学习模型并将数据转化为有价值的见解,指导决策。它提供简单有效的分析和宝贵的洞察力,无需编程知识。同时支持Google Sheets插件和Web应用,选择适合您的方式开始训练机器学习模型吧!
简化机器学习模型的训练和部署
Sagify是一个命令行工具,可以在几个简单步骤中训练和部署机器学习/深度学习模型在AWS SageMaker上!它消除了配置云实例进行模型训练的痛苦,简化了在云上运行超参数作业的过程,同时不再需要将模型交给软件工程师进行部署。Sagify提供了丰富的功能,包括AWS账户配置、Docker镜像构建、数据上传、模型训练、模型部署等。它适用于各种使用场景,帮助用户快速构建和部署机器学习模型。
苹果芯片高效灵活机器学习
MLX是一种类似NumPy的数组框架,专为在苹果芯片上进行高效灵活的机器学习而设计,由苹果机器学习研究团队提供。Python API与NumPy紧密相似,但也有一些例外。MLX还具有完整的C++ API,紧密遵循Python API。MLX与NumPy的主要区别包括:可组合的函数转换、惰性计算和多设备支持。MLX的设计灵感来自PyTorch、Jax和ArrayFire等框架。与这些框架不同的是,MLX采用统一内存模型。MLX中的数组位于共享内存中,可以在任何受支持的设备类型(CPU、GPU等)上执行操作,而无需执行数据复制。
开源的先进文本嵌入模型
Snowflake Arctic Embed是一系列基于Apache 2.0许可开源的文本嵌入模型,专为检索用例设计。这些模型在Massive Text Embedding Benchmark (MTEB)检索基准测试中提供了领先的检索性能,为组织在结合专有数据集与大型语言模型(LLMs)进行检索增强生成(RAG)或语义搜索服务时提供了新的优势。这些模型的尺寸从超小型(xs)到大型(l),具有不同的上下文窗口和参数数量,以满足不同企业的延迟、成本和检索性能需求。
基于《Factorio》游戏的大语言模型测试与学习环境
Factorio Learning Environment(FLE)是基于《Factorio》游戏构建的新型框架,用于评估大型语言模型(LLMs)在长期规划、程序合成和资源优化方面的能力。随着LLMs逐渐饱和现有基准测试,FLE提供了新的开放式评估方式。它的重要性在于能让研究人员更全面、深入地了解LLMs的优势与不足。主要优点是提供了开放式且难度呈指数级增长的挑战,拥有结构化任务和开放式任务两种评估协议。该项目由Jack Hopkins等人开发,以开源形式发布,免费使用,定位是推动AI研究人员对复杂、开放式领域中智能体能力的研究。
模块化仿人机器人,用于强化学习训练
Agibot X1是由Agibot开发的模块化仿人机器人,具有高自由度,基于Agibot开源框架AimRT作为中间件,并使用强化学习进行运动控制。该项目是Agibot X1使用的强化学习训练代码,可以与Agibot X1提供的推理软件结合用于真实机器人和模拟步行调试,或导入其他机器人模型进行训练。
开源机器人模拟平台,用于生成无限机器人数据和泛化AI。
ManiSkill是一个领先的开源平台,专注于机器人模拟、无限机器人数据生成和泛化机器人AI。由HillBot.ai领导,该平台支持通过状态和/或视觉输入快速训练机器人,与其它平台相比,ManiSkill/SAPIEN实现了10-100倍的视觉数据收集速度。它支持在GPU上并行模拟和渲染RGB-D,速度高达30,000+FPS。ManiSkill提供了40多种技能/任务和2000多个对象的预构建任务,拥有数百万帧的演示和密集的奖励函数,用户无需自己收集资产或设计任务,可以专注于算法开发。此外,它还支持在每个并行环境中同时模拟不同的对象和关节,训练泛化机器人策略/AI的时间从天缩短到分钟。ManiSkill易于使用,可以通过pip安装,并提供简单灵活的GUI以及所有功能的广泛文档。
© 2025 AIbase 备案号:闽ICP备08105208号-14