需求人群:
["评估语言模型应用的不同方面","与CI/CD集成进行自动化测试","快速迭代改进语言模型"]
使用场景示例:
使用简单的单元测试方式针对ChatGPT回答进行相关性、一致性测试
基于语言链的应用,通过DeepEval进行自动化测试
使用合成查询功能快速发现模型的问题
产品特色:
针对答案相关性、事实一致性、有毒性、偏见的测试
查看测试、实现和比较的Web UI
通过合成查询-答案自动评估
与LangChain等常见框架集成
合成查询生成
仪表板
浏览量:375
最新流量情况
月访问量
5.16m
平均访问时长
00:06:42
每次访问页数
5.81
跳出率
37.20%
流量来源
直接访问
52.27%
自然搜索
32.92%
邮件
0.05%
外链引荐
12.52%
社交媒体
2.15%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
11.99%
德国
3.63%
印度
9.20%
俄罗斯
5.25%
美国
19.02%
LLM的评估和单元测试框架
DeepEval提供了不同方面的度量来评估LLM对问题的回答,以确保答案是相关的、一致的、无偏见的、非有毒的。这些可以很好地与CI/CD管道集成在一起,允许机器学习工程师快速评估并检查他们改进LLM应用程序时,LLM应用程序的性能是否良好。DeepEval提供了一种Python友好的离线评估方法,确保您的管道准备好投入生产。它就像是“针对您的管道的Pytest”,使生产和评估管道的过程与通过所有测试一样简单直接。
Visual Studio Code插件,基于GPT-4,帮助编程,提高效率。
Sidekick AI是一个Visual Studio Code的插件,它利用GPT-4的能力,为开发者提供各种支持,比如快速生成代码、检索和修改代码、提出疑问并解答、查找bug等,可以极大提高编程效率。
简单快速地测试对话AI模型
Promptspot是一个开源的在线平台,可以让用户轻松地对对话AI模型进行测试。用户可以创建prompt,然后输入不同的内容看看AI的回复效果。主要功能包括:可视化地对比不同输入的结果,支持prompt版本控制,可以协同编辑prompt。Promptspot简化了prompt测试流程,方便用户迭代改进prompt。
Nous Research推出的首款无限制AI聊天机器人
Nous Chat是AI研究组织Nous Research推出的首款面向用户的聊天机器人,它提供了对大型语言模型Hermes 3-70B的访问权限。Hermes 3-70B是Meta的Llama 3.1的一个变体,经过微调后,以ChatGPT等流行AI聊天工具的形式提供服务。该聊天机器人以其复古的设计语言和早期PC终端的字体和字符为特色,提供暗色和亮色模式供用户选择。尽管Nous Chat旨在允许用户部署和控制自己的AI模型,但它实际上设置了一些防护措施,包括禁止制造非法药物。此外,该模型的知识截止日期为2023年4月,因此在获取最新事件方面可能不如其他竞争对手有用。尽管如此,Nous Chat是一个有趣的实验,随着新功能的添加,它可能成为企业聊天机器人和AI模型的一个有吸引力的替代品。
由NVIDIA定制的大型语言模型,提升查询回答的帮助性。
Llama-3.1-Nemotron-70B-Instruct是NVIDIA定制的大型语言模型,专注于提升大型语言模型(LLM)生成回答的帮助性。该模型在多个自动对齐基准测试中表现优异,例如Arena Hard、AlpacaEval 2 LC和GPT-4-Turbo MT-Bench。它通过使用RLHF(特别是REINFORCE算法)、Llama-3.1-Nemotron-70B-Reward和HelpSteer2-Preference提示在Llama-3.1-70B-Instruct模型上进行训练。此模型不仅展示了NVIDIA在提升通用领域指令遵循帮助性方面的技术,还提供了与HuggingFace Transformers代码库兼容的模型转换格式,并可通过NVIDIA的build平台进行免费托管推理。
终端中的个人AI助手,具备本地工具。
gptme是一个运行在终端的个人AI助手,它装备了本地工具,可以编写代码、使用终端、浏览网页、视觉识别等。它是一个不受软件、互联网访问、超时或隐私问题限制的ChatGPT“代码解释器”的本地替代方案。
为LLM聊天机器人提供强大灵活的长期记忆系统。
MemoryScope是一个为大型语言模型(LLM)聊天机器人提供长期记忆能力的框架。它通过记忆数据库和工作库,使得聊天机器人能够存储和检索记忆片段,从而实现个性化的用户交互体验。该产品通过记忆检索和记忆整合等操作,使得机器人能够理解并记住用户的习惯和偏好,为用户提供更加个性化和连贯的对话体验。MemoryScope支持多种模型API,包括openai和dashscope,并且可以与现有的代理框架如AutoGen和AgentScope结合使用,提供了丰富的定制化和扩展性。
通过GPT等大型语言模型与你的文档对话
IncarnaMind是一个开源项目,旨在通过大型语言模型(LLMs)如GPT、Claude和本地开源LLMs,实现与个人文档(PDF、TXT)的交互对话。该项目利用滑动窗口分块机制和集成检索器,提高查询效率,增强LLMs的准确性。它支持多文档对话问答,突破了单文档限制,并兼容多种文件格式和LLM模型。
构建大型语言模型支持的多智能体应用。
AgentScope是一个创新的多智能体平台,旨在赋能开发者使用大规模模型构建多智能体应用。它具有易于使用、高鲁棒性和基于Actor的分布式特性,支持自定义容错控制和重试机制,以增强应用稳定性。
文本生成领域的先进模型
H2O Danube3 是由 h2oai 公司开发的一系列文本生成模型,这些模型专注于提供高质量的文本生成服务,广泛应用于聊天机器人、内容创作等领域。它们具备强大的语言理解和生成能力,能够根据给定的上下文生成连贯、准确的文本。
低代码工具,快速构建和协调多智能体团队
Tribe AI是一个低代码工具,它利用langgraph框架,让用户能够轻松自定义和协调智能体团队。通过将复杂任务分配给擅长不同领域的智能体,每个智能体可以专注于其最擅长的工作,从而更快更好地解决问题。
大型语言模型,高效文本生成。
InternLM2.5-7B-Chat GGUF是一个大型语言模型,专为文本生成而设计。它基于开源框架llama.cpp,支持多种硬件平台的本地和云推理。该模型具有7.74亿参数,采用先进的架构设计,能够提供高质量的文本生成服务。
知识编辑基准测试,用于评估大型语言模型的知识编辑方法。
KnowEdit是一个专注于大型语言模型(LLMs)的知识编辑基准测试。它提供了一个综合的评估框架,用于测试和比较不同的知识编辑方法在修改特定领域内LLMs行为时的有效性,同时保持跨各种输入的整体性能。KnowEdit基准测试包括六个不同的数据集,涵盖了事实操作、情感修改和幻觉生成等多种编辑类型。该基准测试旨在帮助研究者和开发者更好地理解和改进知识编辑技术,推动LLMs的持续发展和应用。
Prompto是一个开源的网络应用程序,旨在使与LLM的交互简单高效。
Prompto是一个开源的网页应用程序,旨在使与大型语言模型(LLMs)的交互简单高效。它可以轻松切换不同的LLMs,通过调整温度设置来调整LLM的创造力和风险水平,提供聊天机器人界面和笔记本界面,可以创建常用提示的模板,并且在浏览器中运行,确保流畅响应的体验。所有设置和聊天记录仅存储在浏览器的本地存储中,保护用户隐私。
简化 LLM 提示管理和促进团队协作
Langtail 是一个旨在简化大型语言模型(LLM)提示管理的平台。通过Langtail,您可以增强团队协作、提高效率,并更深入地了解您的AI工作原理。尝试Langtail,以更具协作和洞察力的方式构建LLM应用。
【精选推荐】ChatGPT侧边栏(国内免费使用)
【精选推荐】ChatGPT侧边栏是一款基于OpenAI公司ChatGPT3.5模型开发的聊天机器人,具有丰富的问题模版,方便快捷,提问精准,注册即可免费体验。
构建为您工作的AI团队
使用BrainSoup,您可以创建自定义AI代理来处理任务并通过自然语言自动化流程。提高AI的能力与您的数据,同时保持最佳的隐私和安全性。BrainSoup支持多个大型语言模型和语义核心技术,使AI代理更加强大和个性化。
基于TensorRT框架的大规模语言模型推理加速库
SwiftInfer是一个基于Nvidia TensorRT框架的大规模语言模型(LLM)推理加速库,通过GPU加速,极大提升LLM在生产环境中的推理性能。该项目针对流式语言模型提出的Attention Sink机制进行了实现,支持无限长度的文本生成。代码简洁,运行方便,支持主流的大规模语言模型。
基于ChatGPT的虚拟AI伴侣聊天应用,实现个性化互动和深入对话
Open Love是一个非凡的AI聊天伴侣应用,通过先进的AI聊天、互动聊天机器人和个性化AI角色,为您提供真正人性化的对话体验。Open Love拥有多样性的角色扮演、互动聊天、可自定义操作和智能回复等功能,就像一个集AI女友、聊天机器人和虚拟伴侣于一体的存在,将为您的生活添加无限乐趣。
统一的语言模型评估框架
PromptBench是一个基于Pytorch的Python包,用于评估大型语言模型(LLM)。它为研究人员提供了用户友好的API,以便对LLM进行评估。主要功能包括:快速模型性能评估、提示工程、对抗提示评估以及动态评估等。优势是使用简单,可以快速上手评估已有数据集和模型,也可以轻松定制自己的数据集和模型。定位为LLM评估的统一开源库。
开源聊天机器人,性能接近 ChatGPT
Vicuna 是一个开源聊天机器人,通过在用户共享的对话中对 LLaMA 进行微调训练。初步评估使用 GPT-4 作为评判者表明,Vicuna-13B 在超过 90%的情况下达到了 OpenAI ChatGPT 和 Google Bard 的 90%* 质量,并在超过 90%* 的情况下胜过 LLaMA 和 Stanford Alpaca 等其他模型。Vicuna-13B 的训练成本约为 300 美元。代码和模型权重以及在线演示均可供非商业使用。
开源聊天机器人框架,支持快速部署私有ChatGPT应用
LobeChat是一个开源的可扩展高性能聊天机器人框架,支持一键免费部署私有ChatGPT/LLM网络应用。具有自定义模型、多语言支持、Plugins系统、知识抽取等功能,可以帮助用户快速构建私有、安全可控的AI助理和知识管理工具。
LLM驱动的主代理框架
Agent M是一个强大的大型语言模型或ChatGPT驱动的主代理开发框架,可让您创建多个基于LLM的代理。Agent Mbetween多个执行各种任务的代理之间进行编排,例如基于自然语言的API调用,连接到您的数据并帮助自动化复杂的对话。
查看2023年ChatGPT聊天记录报告
ChatGPT Wrapped 2023是一个非官方的网站,可以上传ChatGPT的聊天记录,生成一份数据驱动的聊天报告。报告内容包括聊天次数、阅读时间、最常用提示词等。功能简单,免费使用,无需注册。
自定义 ChatGPT 和 AI 代理,一键生成包含表格的应用
AITable 是一个强大的工具,可以通过类似电子表格的界面构建自定义的 ChatGPT 和 AI 代理。它能够将表格数据转化为问答形式,训练成聊天机器人,并支持嵌入到网站、应用中使用。AITable 还提供了 API 接口,可以用于构建第三方聊天机器人应用。
公司内部ChatGPT,提高工作效率
mersei是一款公司内部ChatGPT产品,可以帮助提高工作效率。它可以根据公司的知识库构建自己的聊天机器人,并将其嵌入到网站或内部工具中。同时,您还可以与同事或员工共享这些聊天机器人。mersei利用人工智能和LLMs将您的数据源转化为有见地的答案,让您随时随地获取信息。它还可以与Confluence、Google Docs、Slack、Notion等工具进行无缝集成,为您的工作流程带来革命性的改变。mersei的定价分为基础版、增长版和企业版,用户可以根据自己的需求选择合适的版本。
【精选推荐】ChatGPT免费版 GPT-4(国内直连),是一款基于的OpenAI公司ChatGPT3.5模型及4.0模型开发的聊天机器人,具有丰富的问题模版,方便快捷,提问精准
ChatGPT免费版 GPT-4(国内直连)是一款基于OpenAI公司ChatGPT3.5模型及4.0模型开发的聊天机器人。它具有丰富的问题模版,方便快捷,提问精准。用户无需一次性大额购买,注册即可免费试用30天,可根据个人需求购买日卡、周卡、月卡。
© 2024 AIbase 备案号:闽ICP备08105208号-14