需求人群:
["评估语言模型应用的不同方面","与CI/CD集成进行自动化测试","快速迭代改进语言模型"]
使用场景示例:
使用简单的单元测试方式针对ChatGPT回答进行相关性、一致性测试
基于语言链的应用,通过DeepEval进行自动化测试
使用合成查询功能快速发现模型的问题
产品特色:
针对答案相关性、事实一致性、有毒性、偏见的测试
查看测试、实现和比较的Web UI
通过合成查询-答案自动评估
与LangChain等常见框架集成
合成查询生成
仪表板
浏览量:486
最新流量情况
月访问量
4.92m
平均访问时长
00:06:33
每次访问页数
6.11
跳出率
36.20%
流量来源
直接访问
51.61%
自然搜索
33.46%
邮件
0.04%
外链引荐
12.58%
社交媒体
2.19%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
12.55%
德国
3.84%
印度
9.38%
俄罗斯
4.61%
美国
18.64%
先进的大型语言模型,用于编程
Code Llama 是一款先进的大型语言模型,可以通过文本提示生成代码。它是当前公开可用的语言模型中在编程任务上达到最佳性能的模型之一。Code Llama 可以帮助开发人员提高工作效率,降低编码门槛,并作为一个教育工具帮助编程学习者编写更健壮、更好文档化的软件。Code Llama 提供了多个版本,包括基础版、针对 Python 的专用版和针对自然语言指令的定制版。它支持多种流行的编程语言,如 Python、C++、Java 等。Code Llama 免费供研究和商业使用。
先进的大型语言模型,具备推理和编程能力。
Mistral-Large-Instruct-2407是一个拥有123B参数的先进大型语言模型(LLM),具备最新的推理、知识和编程能力。它支持多语言,包括中文、英语、法语等十种语言,并且在80多种编程语言上受过训练,如Python、Java等。此外,它还具备代理中心能力和先进的数学及推理能力。
大型语言模型,支持多语言和编程语言文本生成。
Nemotron-4-340B-Base是由NVIDIA开发的大型语言模型,拥有3400亿参数,支持4096个token的上下文长度,适用于生成合成数据,帮助研究人员和开发者构建自己的大型语言模型。模型经过9万亿token的预训练,涵盖50多种自然语言和40多种编程语言。NVIDIA开放模型许可允许商业使用和派生模型的创建与分发,不声明对使用模型或派生模型生成的任何输出拥有所有权。
基于大型语言模型的多智能体应用开发框架
agentUniverse 是一个基于大型语言模型的多智能体应用开发框架,提供了构建单一智能体和多智能体协作机制的所有必需组件。通过模式工厂,允许开发者构建和自定义多智能体协作模式,轻松构建多智能体应用,并分享不同技术与业务领域的模式实践。
WeLM Playground是一款开源的大型中文语言模型聊天工具
WeLM Playground是基于开源中文语言模型WeLM的在线聊天 Demo,用户可以通过网页与 AI 对话、获取写作帮助。它提供稳定流畅的语言生成,支持自由聊天、话题控制、长篇闲聊、文本续写等功能。作为 Anthropic 公司开源的大模型之一,WeLM Playground 完全免费,代码开源,用户无需注册即可使用。它旨在让普通用户也能安全便捷地体验 LLM 对话带来的便利。
处理长文本的大型语言模型
LongLLaMA 是一个大型语言模型,能够处理长篇文本。它基于 OpenLLaMA,并使用 Focused Transformer (FoT) 方法进行了微调。它能够处理长达 256k 标记甚至更多的文本。我们提供了一个较小的 3B 基础模型(未经过指令调整),并在 Hugging Face 上提供了支持更长上下文的推断代码。我们的模型权重可以作为现有实现中 LLaMA 的替代品(适用于最多 2048 个标记的短上下文)。此外,我们还提供了评估结果和与原始 OpenLLaMA 模型的比较。
开源大型语言模型工具集合
Open Source LLM Tools是一个专注于收集和展示开源大型语言模型(LLM)工具的平台。它提供了一个更新频繁的资源库,帮助开发者和研究者发现和利用最新的开源AI工具。该平台的主要优点在于其高更新频率和对活跃开源AI开发者的聚焦,使得用户能够及时获取到行业的最新动态和技术进展。
评估大型语言模型作为全栈开发者的能力
FullStack Bench是一个多语言的全栈编程基准测试,涵盖了广泛的应用领域和16种编程语言的3K测试样本,显著推动了代码语言模型在现实世界代码开发场景中的相关能力。该产品代表了编程语言模型在全栈开发领域的应用,其重要性在于能够评估和提升模型在实际编程任务中的表现,对于开发者和AI研究者来说都是一个宝贵的资源。
探索大型语言模型作为编程辅导工具的潜力,提出Trace-and-Verify工作流。
Coding-Tutor是一个基于大型语言模型(LLM)的编程辅导工具,旨在通过对话式交互帮助学习者提升编程能力。它通过Trace-and-Verify(Traver)工作流,结合知识追踪和逐轮验证,解决编程辅导中的关键挑战。该工具不仅适用于编程教育,还可扩展到其他任务辅导场景,帮助根据学习者的知识水平调整教学内容。项目开源,支持社区贡献。
高效为大型语言模型提供服务
FP6-LLM是一种用于大型语言模型的全新支持方案,通过六位量化(FP6)有效地减小了模型大小,并在各种应用中始终保持模型质量。我们提出了TC-FPx,这是第一个完整的GPU内核设计方案,统一支持各种量化位宽的浮点权重。我们将TC-FPx内核集成到现有推理系统中,为量化的LLM推理提供了全新的端到端支持(称为FP6-LLM),实现了推理成本和模型质量之间更好的权衡。实验证明,FP6-LLM使得使用单个GPU进行LLaMA-70b推理成为可能,实现的规范化推理吞吐量比FP16基准高1.69倍至2.65倍。
前沿的多模态大型语言模型
NVLM-D-72B是NVIDIA推出的一款多模态大型语言模型,专注于视觉-语言任务,并且通过多模态训练提升了文本性能。该模型在视觉-语言基准测试中取得了与业界领先模型相媲美的成绩。
双语开源数学推理大型语言模型。
InternLM-Math-Plus 是一个最新的双语(英文和中文)开源大型语言模型(LLM),专注于数学推理,具有解决、证明、验证和增强数学问题的能力。它在非正式数学推理(如思维链和代码解释)和正式数学推理(如LEAN 4翻译和证明)方面都有显著的性能提升。
医疗领域先进的大型语言模型
HuatuoGPT-o1-70B是由FreedomIntelligence开发的医疗领域大型语言模型(LLM),专为复杂的医疗推理设计。该模型在提供最终响应之前,会生成一个复杂的思考过程,反映并完善其推理。HuatuoGPT-o1-70B能够处理复杂的医疗问题,提供深思熟虑的答案,这对于提高医疗决策的质量和效率至关重要。该模型基于LLaMA-3.1-70B架构,支持英文,并且可以部署在多种工具上,如vllm或Sglang,或者直接进行推理。
构建监督式大型语言模型的无代码平台
Supervised AI是一个无代码AI开发平台,利用OpenAI的GPT引擎,构建由您自己的数据支持的监督式大型语言模型。您可以使用我们的自定义模型和数据源,在高准确率和快速开发的环境下构建强大且可扩展的AI。同时,您还可以使用Supervised API将您的AI模型集成到任何地方。
开放的大型语言模型排行榜
Open LLM Leaderboard是一个由Hugging Face提供的空间,旨在展示和比较各种大型语言模型的性能。它为开发者、研究人员和企业提供了一个平台,可以查看不同模型在特定任务上的表现,从而帮助用户选择最适合自己需求的模型。
前沿级多模态大型语言模型
NVLM 1.0是NVIDIA ADLR推出的前沿级多模态大型语言模型系列,它在视觉-语言任务上达到了业界领先水平,与顶级专有模型和开放访问模型相媲美。该模型在多模态训练后,甚至在纯文本任务上的准确性上也有所提高。NVLM 1.0的开源模型权重和Megatron-Core训练代码为社区提供了宝贵的资源。
多模态语音大型语言模型
fixie-ai/ultravox-v0_4_1-llama-3_1-8b是一个基于预训练的Llama3.1-8B-Instruct和whisper-large-v3-turbo的大型语言模型,能够处理语音和文本输入,生成文本输出。该模型通过特殊的<|audio|>伪标记将输入音频转换为嵌入,并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记,进而可以用于声码器产生语音输出。该模型在翻译评估中表现出色,且没有偏好调整,适用于语音代理、语音到语音翻译、语音分析等场景。
LG AI Research开发的多语言、高性能大型语言模型
EXAONE-3.5-32B-Instruct-GGUF是LG AI Research开发的一系列指令调优的双语(英语和韩语)生成模型,包含2.4B至32B参数的不同版本。这些模型支持长达32K令牌的长上下文处理,展现了在真实世界用例和长上下文理解中的最前沿性能,同时在与近期发布的类似规模模型相比,在通用领域保持竞争力。该模型系列通过技术报告、博客和GitHub提供了详细信息,并且包含了多种精度的指令调优32B语言模型,具有以下特点:参数数量(不含嵌入)为30.95B,层数为64,注意力头数为GQA,包含40个Q头和8个KV头,词汇量为102,400,上下文长度为32,768令牌,量化包括Q8_0、Q6_0、Q5_K_M、Q4_K_M、IQ4_XS等GGUF格式(也包括BF16权重)。
多语言大型语言模型
Llama 3.2是由Meta公司推出的多语言大型语言模型(LLMs),包含1B和3B两种规模的预训练和指令调优生成模型。这些模型在多种语言对话用例中进行了优化,包括代理检索和总结任务。Llama 3.2在许多行业基准测试中的表现优于许多现有的开源和封闭聊天模型。
Sonus-1:开启大型语言模型(LLMs)的新时代
Sonus-1是Sonus AI推出的一系列大型语言模型(LLMs),旨在推动人工智能的边界。这些模型以其高性能和多应用场景的多功能性而设计,包括Sonus-1 Mini、Sonus-1 Air、Sonus-1 Pro和Sonus-1 Pro (w/ Reasoning)等不同版本,以满足不同需求。Sonus-1 Pro (w/ Reasoning)在多个基准测试中表现突出,特别是在推理和数学问题上,展现了其超越其他专有模型的能力。Sonus AI致力于开发高性能、可负担、可靠且注重隐私的大型语言模型。
世界顶尖的开源大型语言模型
Reflection Llama-3.1 70B 是目前世界上顶尖的开源大型语言模型(LLM),采用名为 Reflection-Tuning 的新技术进行训练,使模型能够检测其推理中的错误并进行修正。该模型在合成数据上进行了训练,这些数据由 Glaive 生成。对于正在训练模型的用户来说,Glaive 是一个非常出色的工具。该模型使用标准的 Llama 3.1 聊天格式,通过特殊的标签来区分模型的内部思考和最终答案,从而提升用户体验。
大型语言模型,支持多种参数规模
Meta Llama 3 是 Meta 推出的最新大型语言模型,旨在为个人、创作者、研究人员和各类企业解锁大型语言模型的能力。该模型包含从8B到70B参数的不同规模版本,支持预训练和指令调优。模型通过 GitHub 仓库提供,用户可以通过下载模型权重和分词器进行本地推理。Meta Llama 3 的发布标志着大型语言模型技术的进一步普及和应用,具有广泛的研究和商业潜力。
先进的多模态大型语言模型
InternVL2_5-2B-MPO是一个多模态大型语言模型系列,展示了卓越的整体性能。该系列基于InternVL2.5和混合偏好优化构建。它集成了新增量预训练的InternViT与各种预训练的大型语言模型,包括InternLM 2.5和Qwen 2.5,使用随机初始化的MLP投影器。该模型在多模态任务中表现出色,能够处理包括图像和文本在内的多种数据类型,适用于需要理解和生成多模态内容的场景。
大型语言模型的详细列表和信息
Models Table 提供了一个包含300多个大型语言模型的列表,这些模型被所有主要的AI实验室使用,包括Amazon Olympus, OpenAI GPT-5, OpenAI GPT-6等。该列表展示了大型语言模型的发展趋势和多样性,对于AI研究者和开发者来说是一个宝贵的资源。
先进的医疗领域大型语言模型
HuatuoGPT-o1-8B 是一个专为高级医疗推理设计的医疗领域大型语言模型(LLM)。它在提供最终响应之前会生成一个复杂的思考过程,反映并完善其推理过程。该模型基于LLaMA-3.1-8B构建,支持英文,并且采用'thinks-before-it-answers'的方法,输出格式包括推理过程和最终响应。此模型在医疗领域具有重要意义,因为它能够处理复杂的医疗问题并提供深思熟虑的答案,这对于提高医疗决策的质量和效率至关重要。
70亿参数的多语言大型语言模型
Llama-3.3-70B-Instruct是由Meta开发的一个70亿参数的大型语言模型,专门针对多语言对话场景进行了优化。该模型使用优化的Transformer架构,并通过监督式微调(SFT)和基于人类反馈的强化学习(RLHF)来提高其有用性和安全性。它支持多种语言,并能够处理文本生成任务,是自然语言处理领域的一项重要技术。
多语言大型语言模型,优化对话场景。
Meta Llama 3.1是一系列多语言的大型预训练和指令调整的生成模型,包含8B、70B和405B大小的版本。这些模型专为多语言对话用例而优化,并在常见行业基准测试中表现优于许多开源和闭源聊天模型。模型使用优化的transformer架构,并通过监督式微调(SFT)和强化学习与人类反馈(RLHF)进行调整,以符合人类对有用性和安全性的偏好。
大型语言模型角色扮演框架
RoleLLM是一个角色扮演框架,用于构建和评估大型语言模型的角色扮演能力。它包括四个阶段:角色概要构建、基于上下文的指令生成、使用GPT进行角色提示和基于角色的指令调整。通过Context-Instruct和RoleGPT,我们创建了RoleBench,这是一个系统化和细粒度的角色级别基准数据集,包含168,093个样本。此外,RoCIT在RoleBench上产生了RoleLLaMA(英语)和RoleGLM(中文),显著提高了角色扮演能力,甚至与使用GPT-4的RoleGPT取得了可比较的结果。
© 2025 AIbase 备案号:闽ICP备08105208号-14