需求人群:
"Evidently AI的目标受众是数据科学家、ML工程师和AI产品经理。它适合他们因为提供了从开发到生产的AI质量工具包,帮助他们系统地检查、测试和监控AI产品,确保模型的稳定性和数据的质量。"
使用场景示例:
DeepL的MLOps工程师使用Evidently日常测试数据质量和监控生产数据漂移。
Wise的高级数据科学家和AI负责人使用Evidently监控生产环境中的数据分布,并将模型性能指标直接链接到训练数据。
PlushCare的高级数据工程师使用Evidently持续监控业务关键的ML模型,并在CI/CD和模型监控DAGs中直接标记模型漂移和数据质量问题。
产品特色:
LLM可观测性:评估从RAGs到AI助手的LLM驱动产品。
ML可观测性:监控生产ML模型的数据漂移、数据质量和性能。
开源:拥有超过20万次下载的开源Python库。
自定义仪表板:在部署前后清晰地查看AI产品性能,并与团队轻松共享结果。
持续测试:评估生成的输出,确保准确性、安全性和质量。
深入调试:理解个别错误,将不良完成情况转化为测试用例以持续改进应用。
预测性ML:评估预测任务的输入和输出质量,包括分类、回归、排名和推荐。
使用教程:
1. 访问Evidently AI官网并注册账户或开始免费试用。
2. 根据需要选择评估、测试或监控功能。
3. 利用Evidently的自定义仪表板和持续测试功能,对AI产品进行深入分析和评估。
4. 设计自定义的AI质量系统,使用内置的100+指标或添加自定义指标。
5. 通过Evidently的深入调试功能,理解并改进个别错误。
6. 利用数据漂移和数据质量监控功能,确保模型输入和输出的稳定性。
7. 跟踪模型性能,确保模型在部署、重新训练和更新时符合预期。
浏览量:18
最新流量情况
月访问量
122.30k
平均访问时长
00:01:04
每次访问页数
2.05
跳出率
53.60%
流量来源
直接访问
33.89%
自然搜索
55.87%
邮件
0.10%
外链引荐
6.94%
社交媒体
2.70%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
加拿大
5.51%
英国
4.99%
印度
7.08%
意大利
4.88%
美国
16.83%
AI可观测性和机器学习监控平台
Evidently AI是一个开源的Python库,用于监控机器学习模型,支持从RAGs到AI助手的LLM驱动产品的评估。它提供了数据漂移、数据质量和生产ML模型性能的监控,拥有超过2000万的下载量和5000+的GitHub星标,是机器学习领域中一个值得信赖的监控工具。
开源的GenAI应用网关,快速构建个性化的AI应用
Arch是一个开源的网关,专为处理提示(prompts)而设计,它利用快速的大型语言模型(LLMs)来处理提示,并与后端系统无缝集成。Arch基于Envoy构建,支持任何应用程序语言,并提供快速部署和透明升级。它提供了包括流量管理、前端/边缘网关、监控和端到端追踪在内的多种功能,帮助开发者构建快速、健壮和个性化的GenAI应用。
AI模型部署和推理优化的专家
Neural Magic是一家专注于AI模型优化和部署的公司,提供领先的企业级推理解决方案,以最大化性能和提高硬件效率。公司的产品支持在GPU和CPU基础设施上运行领先的开源大型语言模型(LLMs),帮助企业在云、私有数据中心或边缘环境中安全、高效地部署AI模型。Neural Magic的产品背景信息强调了其在机器学习模型优化方面的专业知识,以及与科研机构合作开发的创新LLM压缩技术,如GPTQ和SparseGPT。产品价格和定位方面,Neural Magic提供了免费试用和付费服务,旨在帮助企业降低成本、提高效率,并保持数据隐私和安全。
开源视频生成模型
genmoai/models 是一个开源的视频生成模型,代表了视频生成技术的最新进展。该模型名为 Mochi 1,是一个基于 Asymmetric Diffusion Transformer (AsymmDiT) 架构的10亿参数扩散模型,从零开始训练,是迄今为止公开发布的最大的视频生成模型。它具有高保真运动和强提示遵循性,显著缩小了封闭和开放视频生成系统之间的差距。该模型在 Apache 2.0 许可下发布,用户可以在 Genmo 的 playground 上免费试用此模型。
轻量级推理模型,用于生成高质量图像
Stable Diffusion 3.5是一个用于简单推理的轻量级模型,它包含了文本编码器、VAE解码器和核心MM-DiT技术。该模型旨在帮助合作伙伴组织实现SD3.5,并且可以用于生成高质量的图像。它的重要性在于其高效的推理能力和对资源的低要求,使得广泛的用户群体能够使用和享受生成图像的乐趣。该模型遵循Stability AI Community License Agreement,并且可以免费使用。
开源的去蒸馏FLUX模型
LibreFLUX是一个基于Apache 2.0许可的开源版本,提供了完整的T5上下文长度,使用注意力掩码,恢复了分类器自由引导,并去除了大部分FLUX美学微调/DPO。这意味着它比基础FLUX更不美观,但有潜力更容易地微调到任何新的分布。LibreFLUX的开发秉承开源软件的核心原则,即使用困难,比专有解决方案更慢、更笨拙,并且审美停留在21世纪初。
高效能小型语言模型
Zamba2-7B是由Zyphra团队开发的一款小型语言模型,它在7B规模上超越了当前领先的模型,如Mistral、Google的Gemma和Meta的Llama3系列,无论是在质量还是性能上。该模型专为在设备上和消费级GPU上运行以及需要强大但紧凑高效模型的众多企业应用而设计。Zamba2-7B的发布,展示了即使在7B规模上,前沿技术仍然可以被小团队和适度预算所触及和超越。
小型语言模型调研、测量与洞察
SLM_Survey是一个专注于小型语言模型(SLMs)的研究项目,旨在通过调研和测量,提供对这些模型的深入了解和技术评估。该项目涵盖了基于Transformer的、仅解码器的语言模型,参数范围在100M至5B之间。通过对59个最先进的开源SLMs进行调研,分析了它们的技术创新,并在多个领域评估了它们的能力,包括常识推理、上下文学习、数学和编程。此外,还对它们的运行时成本进行了基准测试,包括推理延迟和内存占用。这些研究对于推动SLMs领域的研究具有重要价值。
机器学习工程能力的AI代理评估基准
MLE-bench是由OpenAI推出的一个基准测试,旨在衡量AI代理在机器学习工程方面的表现。该基准测试汇集了75个来自Kaggle的机器学习工程相关竞赛,形成了一套多样化的挑战性任务,测试了训练模型、准备数据集和运行实验等现实世界中的机器学习工程技能。通过Kaggle公开的排行榜数据,为每项竞赛建立了人类基准。使用开源代理框架评估了多个前沿语言模型在该基准上的表现,发现表现最佳的设置——OpenAI的o1-preview配合AIDE框架——在16.9%的竞赛中至少达到了Kaggle铜牌的水平。此外,还研究了AI代理的各种资源扩展形式以及预训练污染的影响。MLE-bench的基准代码已经开源,以促进未来对AI代理机器学习工程能力的理解。
开源AI模型,可微调、蒸馏、部署。
Llama 3.2是一系列大型语言模型(LLMs),预训练和微调在1B和3B大小的多语言文本模型,以及11B和90B大小的文本和图像输入输出文本的模型。这些模型可以用于开发高性能和高效率的应用。Llama 3.2的模型可以在移动设备和边缘设备上运行,支持多种编程语言,并且可以通过Llama Stack构建代理应用程序。
世界顶尖的开源大型语言模型
Reflection Llama-3.1 70B 是目前世界上顶尖的开源大型语言模型(LLM),采用名为 Reflection-Tuning 的新技术进行训练,使模型能够检测其推理中的错误并进行修正。该模型在合成数据上进行了训练,这些数据由 Glaive 生成。对于正在训练模型的用户来说,Glaive 是一个非常出色的工具。该模型使用标准的 Llama 3.1 聊天格式,通过特殊的标签来区分模型的内部思考和最终答案,从而提升用户体验。
高效开源的大型语言模型
OLMoE-1B-7B 是一个具有1亿活跃参数和7亿总参数的专家混合型大型语言模型(LLM),于2024年9月发布。该模型在成本相似的模型中表现卓越,与更大的模型如Llama2-13B竞争。OLMoE完全开源,支持多种功能,包括文本生成、模型训练和部署等。
RWKV v6 Finch 14B,开源大模型,高效处理长文本。
RWKV v6 Finch 14B是RWKV架构的第六个版本,也是该系列中最大的模型。它通过引入数据依赖性到token shift和time-mixing中,提高了处理长文本时的效率。Finch 14B模型在处理提示时,能够更好地管理其长期记忆,从而提供更广泛的应用范围。该模型是开源的,由Linux Foundation认可,并且接受社区的GPU集群时间捐赠以支持训练。
AI即时推理解决方案,速度领先世界。
Cerebras Inference是Cerebras公司推出的AI推理平台,提供20倍于GPU的速度和1/5的成本。它利用Cerebras的高性能计算技术,为大规模语言模型、高性能计算等提供快速、高效的推理服务。该平台支持多种AI模型,包括医疗、能源、政府和金融服务等行业应用,具有开放源代码的特性,允许用户训练自己的基础模型或微调开源模型。
2D游戏动画生成模型
godmodeanimation是一个开源的2D游戏动画生成模型,它通过训练文本到视频和图像到视频的模型来生成2D游戏动画。开发者使用了公共游戏动画数据和3D mixamo模型渲染动画来训练动画生成模型,并开源了模型、训练数据、训练代码和数据生成代码。
开发者日志监控与调试的开源平台
Helicone AI是一个为开发者设计的开源平台,专注于日志记录、监控和调试。它具备毫秒级延迟影响、100%日志覆盖率和行业领先的查询时间,是为生产级工作负载设计的。平台通过Cloudflare Workers实现低延迟和高可靠性,并支持风险无忧的实验,无需安装SDK,仅需添加头部信息即可访问所有功能。
9天内预训练的紧凑型大型语言模型
1.5-Pints是一个开源的紧凑型大型语言模型(LLM),它在9天内使用高质量数据进行预训练,旨在成为与Apple OpenELM和Microsoft Phi相当的AI助手。该模型的代码库和架构公开,以促进模型的复制、实验和进一步的开源开发。
开源监控工具,提升LLM应用性能。
Langtrace是一个开源的可观测性工具,用于收集和分析追踪和指标,帮助提升大型语言模型(LLM)应用的性能。它支持OpenTelemetry标准追踪,可自我托管,避免供应商锁定。Langtrace提供端到端的可观测性,帮助用户全面了解整个机器学习流程,包括RAG或微调模型。此外,Langtrace还支持建立反馈循环,通过追踪的LLM交互创建黄金数据集,不断测试和增强AI应用。
一个正在训练中的开源语言模型,具备“听力”能力。
llama3-s是一个开放的、正在进行中的研究实验,旨在将基于文本的大型语言模型(LLM)扩展到具有原生“听力”能力。该项目使用Meta的Chameleon论文启发的技术,专注于令牌传递性,将声音令牌扩展到LLM的词汇表中,未来可能扩展到各种输入类型。作为一个开源科学实验,代码库和数据集都是公开的。
300行代码实现基于LLM的语音转录。
WeST是一个开源的语音识别转录模型,以300行代码的简洁形式,基于大型语言模型(LLM)实现语音到文本的转换。它由一个大型语言模型、一个语音编码器和一个投影器组成,其中仅投影器部分可训练。WeST的开发灵感来源于SLAM-ASR和LLaMA 3.1,旨在通过简化的代码实现高效的语音识别功能。
开源AI搜索引擎,提供网络搜索能力。
OpenPerPlex是一个开源AI搜索引擎,利用尖端技术提供网络搜索功能。它结合了语义分块、结果重排、谷歌搜索集成以及Groq作为推理引擎等技术,支持Llama 3 70B模型,以提高搜索的准确性和效率。
开源框架,支持数据驱动的自适应语言代理。
aiwaves-cn/agents 是一个开源框架,专注于数据驱动的自适应语言代理。它提供了一种系统化框架,通过符号学习训练语言代理,灵感来源于用于训练神经网络的连接主义学习过程。该框架实现了反向传播和基于梯度的权重更新,使用基于语言的损失、梯度和权重,支持多代理系统的优化。
高效准确的气候模拟模型
NeuralGCM是由谷歌研究团队开发的气候模型,与传统基于物理的气候模型相比,它结合了机器学习技术,提高了模拟的准确性和效率。NeuralGCM能够生成2至15天的天气预测,其准确性超过了当前的黄金标准物理模型,并且在重现过去40年的温度数据方面比传统大气模型更为准确。尽管NeuralGCM尚未构建为完整的气候模型,但它标志着开发更强大、更易用气候模型的重要一步。
探索大脑智能的AI项目
Thousand Brains Project是由Jeff Hawkins和Numenta公司发起,旨在通过理解大脑新皮层的工作原理来开发新型的人工智能系统。该项目基于Thousand Brains Theory of Intelligence,提出了与传统AI系统根本不同的大脑工作原理。项目的目标是构建一种高效且强大的智能系统,能够实现人类所具备的智能能力。Numenta公司开放了其研究资源,包括会议记录、代码开源,并建立了一个围绕其算法的大型社区。该项目得到了盖茨基金会等的资金支持,并鼓励全球研究人员参与或加入这一激动人心的项目。
提升市场搜索、推荐和原生广告的排名
Promoted是一个专注于市场搜索、推荐和原生广告排名的解决方案,通过先进的机器学习技术和大型语言模型搜索相关性AI技术,显著提升转化率和广告质量。它为市场平台提供了统一的搜索、推荐和广告服务,帮助企业实现更好的匹配和更高的收益。
开源字幕生成工具,实现内容无缝翻译。
subtitle是一个开源的字幕生成工具,利用先进的机器学习技术,为用户提供准确且自然的声音字幕。它支持多种语言,易于集成到现有的工作流程中,并允许用户在自己的服务器上自托管,增强控制权和隐私保护。
开源向量数据库,适用于开发者构建通用AI应用。
Milvus是一个为开发者设计的开源向量数据库,专门用于大规模高维向量的相似性搜索。它支持pip安装,可以与流行的AI开发工具一起使用,并且能够扩展到数十亿个向量。Milvus以其高效的向量相似性搜索能力,帮助开发者构建强大且可扩展的图像检索系统,无论是管理个人照片库还是开发商业图像搜索应用程序,Milvus都提供了一个强大的基础,帮助开发者发掘图像集合中的潜在价值。
先进的AI检索器,用于RAG。
DenserRetriever是一个开源的AI检索模型,专为RAG(Retrieval-Augmented Generation)设计,利用社区协作的力量,采用XGBoost机器学习技术有效结合异构检索器,旨在满足大型企业的需求,并且易于部署,支持docker快速启动。它在MTEB检索基准测试中达到了最先进的准确性,并且Hugging Face排行榜上也有其身影。
© 2024 AIbase 备案号:闽ICP备08105208号-14